CN115761273A

CN115761273A - 视觉常识推理方法和装置、存储介质及电子设备

Info

Publication number: CN115761273A
Application number: CN202310032508.9A
Authority: CN
Inventors: 李晓川; 李仁刚; 郭振华; 赵雅倩; 范宝余
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-03-07
Anticipated expiration: 2043-01-10
Also published as: WO2024148869A1; CN115761273B

Abstract

本申请实施例提供了一种视觉常识推理方法和装置、存储介质及电子设备，涉及计算机领域，其中，该方法包括：获取目标图像的图像检测特征、目标问句的问句文本特征、第一候选答案的第一答案文本特征；将图像检测特征、问句文本特征和第一答案文本特征输入到N层抗噪注意力模块，得到目标图像的图像注意力特征、目标问句的文本修复筛选特征、第一候选答案的答案文本空间特征；将问句文本特征和文本修复筛选特征进行叠加，得到目标问句的文本降噪特征；根据图像注意力特征、文本降噪特征以及答案文本空间特征，确定目标推理结果。

Description

视觉常识推理方法和装置、存储介质及电子设备

技术领域

本申请实施例涉及计算机领域，具体而言，涉及一种视觉常识推理方法和装置、存储介质及电子设备。

背景技术

视觉常识推理（Visual Commonsense Reasoning，VCR）是根据指定输入图像，在4个备选项中选择最可能成为输入问句答案的选项；并在额外4个选项中选择支撑正确答案的证据。作为一项结合了视觉和文本的多模态任务，VCR的推理属性符合多模态人工智能领域的发展趋势，VCR通过综合考虑图像和文本中的要素，分析图像中人类的情绪或行为意图，对促进人工智能人机交互、机器人等领域的发展具有积极意义。

现有技术中，在视觉常识推理中，往往要求输入的问句文本中出现的信息与图像内容匹配，由于用户在输入问句的时候不可避免地会出现口误、比喻、或者主观性词语等等与客观性偏差的情况，这些现象会导致文本中存在噪声词语，在这样的情况下，可能会导致问句文本与图像无法严格匹配，进而导致VCR模型的性能大幅度减少，导致VCR的推理结果的准确率较低。

针对相关技术中，在输入的问句文本存在噪声词语的情况下，推理结果的准确性较低的技术问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视觉常识推理方法和装置、存储介质及电子设备，以至少解决相关技术中在输入的问句文本存在噪声词语的情况下，推理结果的准确性较低的问题。

根据本申请的一个实施例，提供了一种视觉常识推理方法，包括：获取目标图像的图像检测特征、目标问句的问句文本特征、第一候选答案的第一答案文本特征；将所述图像检测特征、所述问句文本特征和所述第一答案文本特征输入到N层抗噪注意力模块，得到所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，其中，N等于1或N为大于或等于2的正整数，所述文本修复筛选特征用于表征所述目标问句中与所述第一候选答案不相关的噪声词语；将所述问句文本特征和所述文本修复筛选特征进行叠加，得到所述目标问句的文本降噪特征；根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，其中，所述目标推理结果用于表示所述第一候选答案是否是所述目标问句的答案。

在一个示范性实施例中，所述将所述图像检测特征、所述问句文本特征和所述第一答案文本特征输入到N层抗噪注意力模块，得到所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，包括：通过所述N层抗噪注意力模块中的第i层抗噪注意力模块执行以下步骤，其中，i为大于或等于1、且小于或等于N的正整数，当i等于1时，输入所述第i层抗噪注意力模块的图像注意力特征为所述图像检测特征，输入所述第i层抗噪注意力模块的文本修复筛选特征为所述问句文本特征，输入所述第i层抗噪注意力模块的答案文本空间特征为所述第一答案文本特征，当i大于1、且小于或等于N时，输入所述第i层抗噪注意力模块的图像注意力特征、文本修复筛选特征和答案文本空间特征分别为第i-1层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征；将输入所述第i层抗噪注意力模块的图像注意力特征输入到第i层的第一自注意力编码模块，得到第i层的图像编码特征；将输入所述第i层抗噪注意力模块的文本修复筛选特征输入到第i层的第二自注意力编码模块，得到第i层的问句编码特征；将输入所述第i层抗噪注意力模块的答案文本空间特征输入到第i层的第三自注意力编码模块，得到第i层的答案编码特征；根据所述第i层的图像编码特征、所述第i层的问句编码特征、所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征；其中，当i等于N时，所述目标图像的图像注意力特征是所述第i层抗噪注意力模块输出的图像注意力特征，所述目标问句的文本修复筛选特征是所述第i层抗噪注意力模块输出的文本修复筛选特征，所述第一候选答案的答案文本空间特征是所述第i层抗噪注意力模块输出的答案文本空间特征。

在一个示范性实施例中，所述根据所述第i层的图像编码特征、所述第i层的问句编码特征、所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征，包括：将所述第i层的图像编码特征和所述第i层的问句编码特征输入第i层的第一跨注意力编码模块，得到第i层的第一跨注意力特征，其中，所述第i层的第一跨注意力编码模块用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一跨注意力特征；将所述第i层的问句编码特征和所述第i层的图像编码特征输入第i层的第二跨注意力编码模块，得到第i层的第二跨注意力特征，其中，所述第i层的第二跨注意力编码模块用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二跨注意力特征；将所述第i层的第一跨注意力特征和所述第i层的第二跨注意力特征进行拼接，得到第i层的目标拼接特征；将所述第i层的目标拼接特征和所述第i层的答案编码特征输入第i层的第三跨注意力编码模块，得到第i层的第三跨注意力特征，其中，所述第i层的第三跨注意力编码模块用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三跨注意力特征；根据所述第i层的第三跨注意力特征和所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征，并将所述第i层的答案编码特征确定为所述第i层抗噪注意力模块输出的答案文本空间特征。

在一个示范性实施例中，所述将所述第i层的图像编码特征和所述第i层的问句编码特征输入第i层的第一跨注意力编码模块，得到第i层的第一跨注意力特征，包括：将所述第i层的图像编码特征和所述第i层的问句编码特征输入到所述第i层的第一跨注意力编码模块中的第一跨注意力单元，得到第i层的第一候选跨注意力特征，其中，所述第一跨注意力单元用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一候选跨注意力特征；将所述第i层的第一候选跨注意力特征输入所述第i层的第一跨注意力编码模块中的第一随机擦除单元，得到第i层的第一擦除注意力特征，其中，所述第一随机擦除单元用于对所述第i层的第一候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第一擦除注意力特征；将所述第i层的第一擦除注意力特征输入所述第i层的第一跨注意力编码模块中的第一归一化单元，得到所述第i层的第一归一化特征，其中，所述第一归一化单元用于对所述第i层的第一擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第一归一化特征；将所述第i层的图像编码特征和所述第i层的第一归一化特征进行叠加，得到所述第i层的第一跨注意力特征。

在一个示范性实施例中，所述将所述第i层的图像编码特征和所述第i层的问句编码特征输入到所述第i层的第一跨注意力编码模块中的第一跨注意力单元，得到第i层的第一候选跨注意力特征，包括：通过以下公式确定所述第i层的第一候选跨注意力特征：

其中，

表示所述第i层的第一候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的问句编码特征对应的权重值。

在一个示范性实施例中，所述将所述第i层的问句编码特征和所述第i层的图像编码特征输入第i层的第二跨注意力编码模块，得到第i层的第二跨注意力特征，包括：将所述第i层的问句编码特征和所述第i层的图像编码特征输入到所述第i层的第二跨注意力编码模块中的第二跨注意力单元，得到第i层的第二候选跨注意力特征，其中，所述第二跨注意力单元用于根据所述第i层的问句编码特征和所述第i层的图像编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二候选跨注意力特征；将所述第i层的第二候选跨注意力特征输入所述第i层的第二跨注意力编码模块中的第二随机擦除单元，得到第i层的第二擦除注意力特征，其中，所述第二随机擦除单元用于对所述第i层的第二候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第二擦除注意力特征；将所述第i层的第二擦除注意力特征输入所述第i层的第二跨注意力编码模块中的第二归一化单元，得到所述第i层的第二归一化特征，其中，所述第二归一化单元用于对所述第i层的第二擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第二归一化特征；将所述第i层的问句编码特征和所述第i层的第二归一化特征进行叠加，得到所述第i层的第二跨注意力特征。

在一个示范性实施例中，所述将所述第i层的问句编码特征和所述第i层的图像编码特征输入到所述第i层的第二跨注意力编码模块中的第二跨注意力单元，得到第i层的第二候选跨注意力特征，包括：通过以下公式确定所述第i层的第二候选跨注意力特征：

其中，

表示所述第i层的第二候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的图像编码特征对应的权重值。

在一个示范性实施例中，所述将所述第i层的目标拼接特征和所述第i层的答案编码特征输入第i层的第三跨注意力编码模块，得到第i层的第三跨注意力特征，包括：将所述第i层的目标拼接特征和所述第i层的答案编码特征输入到所述第i层的第三跨注意力编码模块中的第三跨注意力单元，得到第i层的第三候选跨注意力特征，其中，所述第三跨注意力单元用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三候选跨注意力特征；将所述第i层的第三候选跨注意力特征输入所述第i层的第三跨注意力编码模块中的第三随机擦除单元，得到第i层的第三擦除注意力特征，其中，所述第三随机擦除单元用于对所述第i层的第三候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第三擦除注意力特征；将所述第i层的第三擦除注意力特征输入所述第i层的第三跨注意力编码模块中的第三归一化单元，得到所述第i层的第三归一化特征，其中，所述第三归一化单元用于对所述第i层的第三擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第三归一化特征；将所述第i层的目标拼接特征和所述第i层的第三归一化特征进行叠加，得到所述第i层的第三跨注意力特征。

在一个示范性实施例中，所述将所述第i层的目标拼接特征和所述第i层的答案编码特征输入到所述第i层的第三跨注意力编码模块中的第三跨注意力单元，得到第i层的第三候选跨注意力特征，包括：通过以下公式确定所述第i层的第三候选跨注意力特征：

其中，

表示所述第i层的第三候选跨注意力特征，

表示所述第i层的目标拼接特征，

表示所述第i层的答案编码特征，

表示预先确定的转移矩阵，

表示所述第i层的目标拼接特征对应的权重值。

在一个示范性实施例中，所述根据所述第i层的第三跨注意力特征和所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征，包括：将所述第i层的第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征；根据所述第i层的文本修复特征和所述第i层的答案编码特征，确定所述第i层的文本修复特征对应的权重值；根据所述第i层的文本修复特征对应的权重值与所述第i层的文本修复特征，确定所述第i层抗噪注意力模块输出的文本修复筛选特征。

在一个示范性实施例中，所述将所述第i层的第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征，包括：按照所述第i层的第一跨注意力特征和所述第i层的第二跨注意力特征之间的特征数量的第一比值，将所述第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征，其中，所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征之间的特征数量的第二比值等于所述第一比值。

在一个示范性实施例中，所述根据所述第i层的文本修复特征和所述第i层的答案编码特征，确定所述第i层的文本修复特征对应的权重值，包括：在所述第i层的文本修复特征包括维度为M×K的特征、所述第i层的答案编码特征包括维度为H×K的特征的情况下，分别确定所述维度为M×K的特征中的各个维度为1×K的特征与所述维度为H×K的特征中的各个维度为1×K的特征之间的相似度，得到维度为M×H的相似度，其中，M、H、K均为大于或等于2的正整数；根据维度为M×H的相似度，确定与维度为M×K的特征对应的维度为M×1的权重值，其中，所述第i层的文本修复特征对应的权重值包括所述维度为M×1的权重值。

在一个示范性实施例中，所述根据维度为M×H的相似度，确定与维度为M×K的特征对应的维度为M×1的权重值，包括：在维度为M×H的相似度中的各个维度为1×H的相似度中选择取值最大的相似度，得到维度为M×1的相似度；在所述M×1的相似度中查找取值大于或等于预设阈值的相似度；在所述M×1的相似度中查找到取值大于或等于预设阈值的相似度的情况下，将查找到的取值大于或等于所述预设阈值的相似度设置为0，得到所述维度为M×1的权重值，或，将查找到的取值大于或等于预设阈值的相似度中的各个相似度的取值设置为所述各个相似度的取值与1之间的差值，得到所述维度为M×1的权重值。

在一个示范性实施例中，所述根据所述第i层的文本修复特征对应的权重值与所述第i层的文本修复特征，确定所述第i层抗噪注意力模块输出的文本修复筛选特征，包括：在所述第i层的文本修复特征包括维度为M×K的特征、所述第i层的文本修复特征对应的权重值包括维度为M×1的权重值的情况下，将所述维度为M×1的权重值与所述维度为M×K的特征对应相乘，得到维度为M×K的加权特征，其中，所述第i层抗噪注意力模块输出的文本修复筛选特征包括所述维度为M×K的加权特征。

在一个示范性实施例中，所述将输入所述第i层抗噪注意力模块的图像注意力特征输入到第i层的第一自注意力编码模块，得到第i层的图像编码特征，包括：将输入所述第i层抗噪注意力模块的图像注意力特征输入到所述第i层的第一自注意力编码模块中的第一自注意力单元，得到第i层的第一候选自注意力特征，其中，所述第一自注意力单元用于根据输入所述第i层抗噪注意力模块的图像注意力特征，确定输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值，并根据所述输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值以及输入所述第i层抗噪注意力模块的图像注意力特征，确定所述第i层的第一候选自注意力特征；将所述第i层的第一候选自注意力特征输入所述第i层的第一自注意力编码模块中的第四随机擦除单元，得到第i层的第四擦除注意力特征，其中，所述第四随机擦除单元用于对所述第i层的第一候选自注意力特征中的部分特征值进行置0，得到所述第i层的第四擦除注意力特征；将所述第i层的第四擦除注意力特征输入所述第i层的第一自注意力编码模块中的第四归一化单元，得到所述第i层的第四归一化特征，其中，所述第四归一化单元用于对所述第i层的第四擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第四归一化特征；将所述输入所述第i层抗噪注意力模块的图像注意力特征和所述第i层的第四归一化特征进行叠加，得到第i层的图像编码特征。

在一个示范性实施例中，所述将输入所述第i层抗噪注意力模块的图像注意力特征输入到所述第i层的第一自注意力编码模块中的第一自注意力单元，得到第i层的第一候选自注意力特征，包括：通过以下公式确定所述第i层的第一候选自注意力特征：

其中，

表示所述第i层的第一候选自注意力特征，

表示所述输入所述第i层抗噪注意力模块的图像注意力特征，

、

、

表示预先确定的转移矩阵，

表示所述输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值。

在一个示范性实施例中，所述根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，包括：根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定第一推理概率，其中，所述第一推理概率用于表示所述第一候选答案是所述目标问句的答案的概率；根据所述第一推理概率，在候选答案集合中确定所述第一候选答案是否是满足第一预设条件的候选答案，其中，所述第一预设条件是指所述第一推理概率是所述候选答案集合中的各个候选答案对应的推理概率中最大的概率，所述各个候选答案对应的推理概率用于表示所述各个候选答案是所述目标问句的答案的概率；在所述第一候选答案是满足所述第一预设条件的候选答案的情况下，将所述目标推理结果确定为用于表示所述第一候选答案是所述目标问句的答案。

在一个示范性实施例中，所述方法还包括：在所述目标推理结果表示所述第一候选答案是所述目标问句的答案的情况下，获取第一候选解释文本的第一解释文本特征；根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定目标证据结果，其中，所述目标证据结果用于表示所述第一候选解释文本是否为所述第一候选答案是所述目标问句的答案的解释文本。

在一个示范性实施例中，所述根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定目标证据结果，包括：根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定第一证据概率，其中，所述第一证据概率用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；根据所述第一证据概率，在候选解释文本集合中确定所述第一候选解释文本是否是满足第二预设条件的候选解释文本，其中，所述第二预设条件是指所述第一证据概率是所述候选解释文本集合中的各个候选解释文本对应的证据概率中最大的概率，所述各个候选解释文本对应的证据概率用于表示所述各个候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；在所述第一候选解释文本是满足所述第二预设条件的候选解释文本的情况下，将所述目标证据结果确定为用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本。

根据本申请的另一个实施例，提供了一种视觉常识推理装置，包括：第一获取模块，用于获取目标图像的图像检测特征、目标问句的问句文本特征、第一候选答案的第一答案文本特征；N层抗噪注意力模块，用于根据所述图像检测特征、所述问句文本特征和所述第一答案文本特征，确定所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，其中，N等于1或N为大于或等于2的正整数，所述文本修复筛选特征用于表征所述目标问句中与所述第一候选答案不相关的噪声词语；叠加模块，用于将所述问句文本特征和所述文本修复筛选特征进行叠加，得到所述目标问句的文本降噪特征；推理模块，用于根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，其中，所述目标推理结果用于表示所述第一候选答案是否是所述目标问句的答案。

根据本申请的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项视觉常识推理方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项视觉常识推理方法实施例中的步骤。

通过本申请，由于通过多层抗噪注意力模块对输入的问句文本中与答案文本不相关的噪声词语进行了筛选，并根据筛选后的噪声词语对上述问句文本进行了降噪，提升了问句文本和答案文本之间的相关性。因此，可以解决在输入的问句文本存在噪声词语的情况下，推理结果的准确性较低的问题，达到在输入的问句文本存在噪声词语的情况下，提升推理结果的准确性的效果。

附图说明

图1是本申请实施例的一种视觉常识推理方法的移动终端的硬件结构框图；

图2是根据本申请实施例的一种视觉常识推理方法的示意图一；

图3（a）是根据本申请实施例的一种视觉常识推理方法的答案预测示意图一；

图3（b）是根据本申请实施例的一种视觉常识推理方法的解释预测示意图一；

图4是根据本申请实施例的一种的图像和问句不匹配的示意图；

图5（a）是根据本申请实施例的一种视觉常识推理方法的答案预测示意图二；

图5（b）是根据本申请实施例的一种视觉常识推理方法的解释预测示意图二；

图6是根据本申请实施例的视觉常识推理方法的流程图；

图7是根据本申请实施例的一种视觉常识推理方法的示意图二；

图8是根据本申请实施例的一种N层抗噪注意力模块的示意图；

图9是根据本申请实施例的一种确定文本修复筛选特征的示意图一；

图10是根据本申请实施例的一种确定第一跨注意力特征的示意图；

图11是根据本申请实施例的一种确定第二跨注意力特征的示意图；

图12是根据本申请实施例的一种确定第三跨注意力特征的示意图；

图13是根据本申请实施例的一种确定文本修复筛选特征的示意图二；

图14是根据本申请实施例的一种确定文本修复筛选特征的示意图三；

图15是根据本申请实施例的一种获取图像编码特征的示意图；

图16是根据本申请实施例的一种视觉常识推理方法的示意图三；

图17是根据本申请实施例的一种词频约束的示意图；

图18是根据本申请实施例的视觉常识推理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请的实施例。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种视觉常识推理方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的视觉常识推理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

VCR任务作为多模态研究的任务，通常涉及文本、语言、图像、视频等多种模态输入，训练计算机学习对人类行为理解的能力。也就是说，通过观察视觉图像，回答问题中涉及到的人物的行为目的或潜在意图，并给出所选择的答案是正确答案的依据。当前，VCR任务这个过程简化成了选择题的模式，AI模型需要计算图文信息和不同选项卡之间的耦合关系，推理出相关性最强的选项。图2是根据本申请实施例的一种视觉常识推理的示意图一，如图2所示，输入为图像A（图像A中可以但不限于包括人物1，人物2，人物3和人物4），以及一个有关人类意图的问句（可以但不限于为why is[person4] is pointing at [person 1]（为什么人物4指着人物1）。），可以但不限于从a1）He is telling [person3] that[person1] ordered the pancakes（他告诉[人物3][人物1]点了煎饼）；b1）He just tolda joke（他在开玩笑）；c1）He is feeling accusatory towards[person1]（他在指责[人物1]）；d1）He is giving [person1] directions（他正在给[人物1]指方向）中选择一个（可以但不限于选择a1））作为上述问句的答案，并从a2) [person1] has the pancakes infront of him（[人物1]面前有煎饼）； b2) [person4]is taking everyone's order andasked for clarification（[person4]正在确认每个人的点单）； c2)[person3] islooking at the pancakes both she and [person2] are smiling slightly（[person3]正在看着煎饼，她和[person2]都微微一笑）；d2) [person3] is delivering food to thetable, and she might not know whose order is whose（[person3]正在把食物送到餐桌上，她可能不知道谁的订单是谁的订单）中选择一个作为选择该答案的证据（可以但不限于选择a2）。

可以但不限于以基于transformer结构的VCR任务为例，对本申请实施例中的视觉常识推理方法的应用场景进行解释说明。图3（a）是根据本申请实施例的一种视觉常识推理方法的答案预测示意图一，如图3（a）所示，VCR任务包含两个子任务：一阶段的答案预测和二阶段的解释预测。一阶段的答案预测，如图3（a）所示，首先，对输入的图像和若干条文本（包括问句文本和候选答案文本）进行编码：可以但不限于将图像输入卷积神经网络进行编码，得到图像检测特征；可以但不限于将输入问句、候选答案语句以及候选解释语句输入文本编码器，结合词频词典，进行文本特征提取，分别得到问句文本特征和答案文本特征（即上述的第一答案文本特征）。然后通过第一推理模块对图像检测特征、问句文本特征和答案文本特征进行融合，得到综合特征1，再将综合特征1输入特征编码，得到编码特征1，再通过打分器对答案正确的概率进行打分，最后输出在一阶段选择的答案是正确答案的概率（即上述的第一推理概率）。

二阶段的解释预测，图3（b）是根据本申请实施例的一种视觉常识推理方法的解释预测示意图一，如图3（b）所示，首先，对输入的图像和若干条文本（包括问句文本和在一阶段选择的答案文本以及候选解释文本）进行编码：可以但不限于将图像输入卷积神经网络进行编码，得到图像检测特征；可以但不限于将问句文本和在一阶段选择的答案文本以及候选解释文本输入文本编码器，结合词频词典，进行文本特征提取，分别得到问答文本特征和解释文本特征（即上述的第一解释文本特征）。再将在二阶段的图像检测特征和问答文本特征以及解释文本特征输入第二推理模块，推理模块对图像检测特征、问句文本特征和答案文本特征进行融合，得到综合特征2，再将综合特征2输入特征编码，得到编码特征2，再通过打分器对证据正确的概率进行打分，最后输出在二阶段选择的证据是在一阶段选择的答案的正确解释的概率（即上述的第一证据概率）。

但是，这类模型所能解决的VCR任务存在一个假定前提：文本中出现的信息需与图像内容匹配，比如：图2中的问句中的“pointing”是一定出现在图像A的内容中的。但在真实的场景下，用户在输入问句的时候不可避免的会出现口误、比喻、或主观性等等现象，这些现象会导致文本中带有噪声词语，进而导致问句文本无法与图匹配。图4是根据本申请实施例的一种的图像和问句不匹配的示意图，如图4所示，输入为图像B、问句文本（“Why thelaughing person who is standing up holding a controller（为什么站着笑的人拿着控制器）。”）、答案文本（[a1]He is playing a video game（他在玩电子游戏）；[b1]He isusing it to hit a machine（他正在用它来撞击机器）；[c1] The man is happy（因为他很开心）；[d1] The man is teaching math to the others（这个人正在教别人数学））；以及解释文本（[a] He is having fun now（他现在玩得很开心）；[b] The others arelooking straightly front（其他人直视前方）；[c] It is a heavy machine controller（它是一个重型机器控制器）；[d] It looks like a game controller（它看起来像一个游戏控制器））。但用户输入的问句文本包含主观性错误，用户默认在玩游戏的人会高兴，因此加入了“laughing”（即噪声词语），导致了问句文本和图像的失配。虽然这种带有“噪声”的样本更能描述真实世界中可能会发生的场景，但AI模型在计算图文信息和不同选项卡之间的耦合关系的时候，推理出的结果会受到这些噪声词语的影响，进而降低所选择答案和解释的准确性。

而通过本申请实施例中的视觉常识推理方法，可以对输入的存在的噪声词语的问句文本进行降噪处理。图5（a）是根据本申请实施例的一种视觉常识推理方法的答案预测示意图二，如图5（a）所示，增加了N层图文依赖的抗噪注意力模块（即上述的N层抗噪注意力模块），对输入的问句文本中存在的噪声词语进行修复。

在一阶段的答案预测的过程中，结合图4、图5（a）所示，对输入的图像B和若干条文本（包括问句文本（“Why the laughing person who is standing up holding acontroller（为什么站着笑的人拿着控制器）。”）和候选答案文本（He is playing a videogame（他在玩电子游戏）进行编码：可以但不限于将图像输入卷积神经网络进行编码，得到图像检测特征；可以但不限于将输入问句、候选答案语句以及候选解释语句输入文本编码器，结合词频词典，进行文本特征提取，分别得到问句文本特征和答案文本特征（即上述的第一答案文本特征）。然后将问句文本特征输入N层图文依赖的抗噪注意力模块，得到N层图文依赖的抗噪注意力模块输出的文本修复向量（即上述的文本修复筛选特征）和图像注意力特征，将问句文本特征和文本修复向量相加，得到文本降噪特征。然后通过第一推理模块对图像注意力特征、文本降噪特征和答案文本特征进行融合，得到综合特征1，再将综合特征1输入特征编码，得到编码特征1，再通过打分器对答案正确的概率进行打分，最后输出在一阶段选择的答案是正确答案的概率（即上述的第一推理概率）。

图5（b）是根据本申请实施例的一种视觉常识推理方法的解释预测示意图二；如图5（b）所示，二阶段的解释预测可以但不限于将图像输入卷积神经网络进行编码，得到图像检测特征；可以但不限于将答案语句以及候选解释语句输入文本编码器，结合词频词典，进行文本特征提取，分别得到答案文本特征以及解释文本特征。将图像检测特征、文本降噪特征、答案文本特征以及解释文本特征输入第二推理模块，推理模块对图像检测特征、文本降噪特征、答案文本特征以及解释文本特征进行融合，得到综合特征2，再将综合特征2输入特征编码，得到编码特征2，再通过打分器对证据正确的概率进行打分，最后输出在二阶段选择的证据是在一阶段选择的答案的正确解释的概率（即上述的第一证据概率）。

通过本申请实施例中的N层抗噪注意力模块，在特征侧面上修复了输入的问句文本中的与现实不匹配的信息，即减少了“laughing”在特征编码的过程中会造成对整个特征空间的干扰，避免了出现“答非所问”的情形，提升了VCR模型的推理结果的准确性。

在本实施例中提供了一种运行于上述移动终端的视觉常识推理方法，图6是根据本申请实施例的视觉常识推理方法的流程图，如图6所示，该流程包括如下步骤：

步骤S602，获取目标图像的图像检测特征、目标问句的问句文本特征、第一候选答案的第一答案文本特征；

步骤S604，将所述图像检测特征、所述问句文本特征和所述第一答案文本特征输入到N层抗噪注意力模块，得到所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，其中，N等于1或N为大于或等于2的正整数，所述文本修复筛选特征用于表征所述目标问句中与所述第一候选答案不相关的噪声词语；

步骤S606，将所述问句文本特征和所述文本修复筛选特征进行叠加，得到所述目标问句的文本降噪特征；

步骤S608，根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，其中，所述目标推理结果用于表示所述第一候选答案是否是所述目标问句的答案。

可选的，在本实施例中，通过修复目标问句中与候选答案不相关的噪声词语，对目标问句进行了降噪，提升了目标问句中与候选答案之间的相关性。图7是根据本申请实施例的一种视觉常识推理方法的示意图二，如图7所示，将获取到的图像检测特征、问句文本特征和第一答案文本特征输入到N层抗噪注意力模块202中，得到N层抗噪注意力模块202输出的图像注意力特征、文本修复筛选特征和答案文本空间特征，可以但不限于将问句文本特征和文本修复筛选特征进行叠加，得到文本降噪特征；可以但不限于将图像注意力特征、文本降噪特征以及答案文本空间特征输入推理模块210，得到目标推理结果。

通过上述步骤，通过本申请，由于通过多层抗噪注意力模块对输入的问句文本中与答案文本不相关的噪声词语进行了筛选，并根据筛选后的噪声词语对上述问句文本进行了降噪，提升了问句文本和答案文本之间的相关性。因此，可以解决在输入的问句文本存在噪声词语的情况下，推理结果的准确性较低的问题，达到在输入的问句文本存在噪声词语的情况下，提升推理结果的准确性的效果。

其中，上述步骤的执行主体可以为终端等，但不限于此。

步骤S602和步骤S604的执行顺序是可以互换的，即可以先执行步骤S604，然后再执行S602。

在上述步骤S602提供的技术方案中，视觉常识推理的输入往往是多模态的，可以但不限于包括文本（比如：目标问句和第一候选答案等等）、语言、图像（比如：目标图像等等）和视频等等。

可选的，在本实施例中，目标问句可以但不限于是对输入的目标图像中包括的内容进行进行提问，第一候选答案可以但不限于为目标问句的正确答案或者错误答案。

在上述步骤S604提供的技术方案中，目标问句中可能存在与候选答案不相关的噪声词语（比如：字、词语或者句子等等），通过N层抗噪注意力模块输出的文本修复筛选特征，一方面，可以提升目标问句和第一候选答案之间的相关性，另一方面，可以减少在进行确定推理结果的时候对上述噪声词语的注意力，进而减少了上述噪声词语对推理结果的影响，提升了推理结果的准确性。

可选的，在本实施例中，可以但不限于以N=3为例，对本申请实施例中的N层抗噪注意力模块的输入和输出进行解释说明，可以但不限于适用于本申请实施例。图8是根据本申请实施例的一种N层抗噪注意力模块的示意图，如图8所示，N层抗噪注意力模块包括第1层抗噪注意力模块204、第2层抗噪注意力模块206和第3层抗噪注意力模块208。第1层抗噪注意力模块204中有第一自注意力编码模块204-1、第二自注意力编码模块204-2、第三自注意力编码模块204-3以及处理模块212。第2层抗噪注意力模块206中有第一自注意力编码模块206-1、第二自注意力编码模块206-2、第三自注意力编码模块206-3以及处理模块214。第3层抗噪注意力模块208中有第一自注意力编码模块208-1、第二自注意力编码模块208-2、第三自注意力编码模块208-3以及处理模块216。

可以但不限于将图像检测特征输入第1层抗噪注意力模块204的第一自注意力编码模块204-1，得到第1层的图像编码特征，将问句文本特征输入第二自注意力编码模块204-2，得到第1层的问句编码特征，将第一答案文本特征输入第三自注意力编码模块204-3，得到第1层的答案编码特征。可以但不限于将第1层的图像编码特征、问句编码特征和答案编码特征输入处理模块212，得到第1层抗噪注意力模块204输出的图像注意力特征、文本修复筛选特征和答案文本空间特征。

可以但不限于第1层抗噪注意力模块204输出的图像注意力特征、文本修复筛选特征和答案文本空间特征分别输入第2层抗噪注意力模块206中的第一自注意力编码模块206-1、第二自注意力编码模块206-2、第三自注意力编码模块206-3，分别得到第2层的图像编码特征、问句编码特征和答案编码特征。可以但不限于将第2层的图像编码特征、问句编码特征和答案编码特征输入处理模块214，得到第2层抗噪注意力模块206输出的图像注意力特征、文本修复筛选特征和答案文本空间特征。

可以但不限于将第2层抗噪注意力模块206输出的图像注意力特征、文本修复筛选特征和答案文本空间特征分别输入第3层抗噪注意力模块208中的第一自注意力编码模块208-1、第二自注意力编码模块208-2、第三自注意力编码模块208-3，分别得到第3层的图像编码特征、问句编码特征和答案编码特征。可以但不限于将第3层的图像编码特征、问句编码特征和答案编码特征输入处理模块216，得到第3层抗噪注意力模块208输出的图像注意力特征、文本修复筛选特征和答案文本空间特征。

在一个示范性实施例中，可以但不限于通过以下方式确定所述第i层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征：将所述第i层的图像编码特征和所述第i层的问句编码特征输入第i层的第一跨注意力编码模块，得到第i层的第一跨注意力特征，其中，所述第i层的第一跨注意力编码模块用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一跨注意力特征；将所述第i层的问句编码特征和所述第i层的图像编码特征输入第i层的第二跨注意力编码模块，得到第i层的第二跨注意力特征，其中，所述第i层的第二跨注意力编码模块用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二跨注意力特征；将所述第i层的第一跨注意力特征和所述第i层的第二跨注意力特征进行拼接，得到第i层的目标拼接特征；将所述第i层的目标拼接特征和所述第i层的答案编码特征输入第i层的第三跨注意力编码模块，得到第i层的第三跨注意力特征，其中，所述第i层的第三跨注意力编码模块用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三跨注意力特征；根据所述第i层的第三跨注意力特征和所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征，并将所述第i层的答案编码特征确定为所述第i层抗噪注意力模块输出的答案文本空间特征。

可选的，在本实施例中，可以但不限于以第1层抗噪注意力模块204为例，对本申请实施例中的确定第i层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征的过程进行解释说明，可以但不限于适用于本申请实施例。图9是根据本申请实施例的一种确定文本修复筛选特征的示意图一，如图9所示，第1层抗噪注意力模块204中有第一自注意力编码模块204-1、第二自注意力编码模块204-2、第三自注意力编码模块204-3以及处理模块212，处理模块212包括第一跨注意力编码模块204-4、第二跨注意力编码模块204-5和第三跨注意力编码模块204-6。

可以但不限于将图像检测特征输入第1层抗噪注意力模块204的第一自注意力编码模块204-1，得到第1层的图像编码特征，将问句文本特征输入第二自注意力编码模块204-2，得到第1层的问句编码特征，将第一答案文本特征输入第三自注意力编码模块204-3，得到第1层的答案编码特征。

可以但不限于将第1层的图像编码特征和第1层的问句编码特征输入第1层的第一跨注意力编码模块204-4，得到第1层的第一跨注意力特征。将第1层的问句编码特征和第1层的图像编码特征输入第1层的第二跨注意力编码模块204-5，得到第1层的第二跨注意力特征。将第1层的第一跨注意力特征和第1层的第二跨注意力特征进行拼接，得到第1层的目标拼接特征；将第1层的目标拼接特征和第1层的答案编码特征输入第1层的第三跨注意力编码模块，得到第1层的第三跨注意力特征。

可以但不限于根据第1层的第三跨注意力特征和第1层的答案编码特征，确定第1层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征，并将第1层的答案编码特征确定为第1层抗噪注意力模块输出的答案文本空间特征。

在一个示范性实施例中，可以但不限于通过以下方式得到第i层的第一跨注意力特征：将所述第i层的图像编码特征和所述第i层的问句编码特征输入到所述第i层的第一跨注意力编码模块中的第一跨注意力单元，得到第i层的第一候选跨注意力特征，其中，所述第一跨注意力单元用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一候选跨注意力特征；将所述第i层的第一候选跨注意力特征输入所述第i层的第一跨注意力编码模块中的第一随机擦除单元，得到第i层的第一擦除注意力特征，其中，所述第一随机擦除单元用于对所述第i层的第一候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第一擦除注意力特征；将所述第i层的第一擦除注意力特征输入所述第i层的第一跨注意力编码模块中的第一归一化单元，得到所述第i层的第一归一化特征，其中，所述第一归一化单元用于对所述第i层的第一擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第一归一化特征；将所述第i层的图像编码特征和所述第i层的第一归一化特征进行叠加，得到所述第i层的第一跨注意力特征。

可选的，在本实施例中，可以但不限于以第1层抗噪注意力模块204中的第一跨注意力编码模块204-4为例，对本申请实施例中的得到第i层的第一跨注意力特征的过程进行解释说明，可以但不限于适用于本申请实施例。图10是根据本申请实施例的一种确定第一跨注意力特征的示意图，如图10所示，第1层抗噪注意力模块204中的第一跨注意力编码模块204-4包括第一跨注意力单元204-4-1、第一随机擦除单元204-4-2和第一归一化单元204-4-3。

可以但不限于将第1层的图像编码特征和第1层的问句编码特征输入到第1层的第一跨注意力编码模块204-4中的第一跨注意力单元204-4-1，得到第1层的第一候选跨注意力特征。将第1层的第一候选跨注意力特征输入第1层的第一跨注意力编码模块204-4中的第一随机擦除单元204-4-2，得到第i层的第一擦除注意力特征。将第1层的第一擦除注意力特征输入第1层的第一跨注意力编码模块204-4中的第一归一化单元204-4-3，得到第1层的第一归一化特征。可以但不限于将第1层的图像编码特征和第1层的第一归一化特征进行叠加，得到第1层的第一跨注意力特征。

在一个示范性实施例中，可以但不限于通过以下公式确定所述第i层的第一候选跨注意力特征：

其中，

表示所述第i层的第一候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的问句编码特征对应的权重值。

在一个示范性实施例中，可以但不限于通过以下方式得到第i层的第二跨注意力特征：将所述第i层的问句编码特征和所述第i层的图像编码特征输入到所述第i层的第二跨注意力编码模块中的第二跨注意力单元，得到第i层的第二候选跨注意力特征，其中，所述第二跨注意力单元用于根据所述第i层的问句编码特征和所述第i层的图像编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二候选跨注意力特征；将所述第i层的第二候选跨注意力特征输入所述第i层的第二跨注意力编码模块中的第二随机擦除单元，得到第i层的第二擦除注意力特征，其中，所述第二随机擦除单元用于对所述第i层的第二候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第二擦除注意力特征；将所述第i层的第二擦除注意力特征输入所述第i层的第二跨注意力编码模块中的第二归一化单元，得到所述第i层的第二归一化特征，其中，所述第二归一化单元用于对所述第i层的第二擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第二归一化特征；将所述第i层的问句编码特征和所述第i层的第二归一化特征进行叠加，得到所述第i层的第二跨注意力特征。

可选的，在本实施例中，可以但不限于以第1层抗噪注意力模块204中的第一跨注意力编码模块204-5为例，对本申请实施例中的得到第i层的第二跨注意力特征的过程进行解释说明，可以但不限于适用于本申请实施例。图11是根据本申请实施例的一种确定第二跨注意力特征的示意图，如图11所示，第1层抗噪注意力模块204中的第二跨注意力编码模块204-5包括第二跨注意力单元204-5-1、第一随机擦除单元204-5-2和第一归一化单元204-5-3。

将第1层的问句编码特征和第1层的图像编码特征输入到第1层的第二跨注意力编码模块204-5中的第二跨注意力单元204-5-1，得到第1层的第二候选跨注意力特征。将第1层的第二候选跨注意力特征输入第1层的第二跨注意力编码模块204-5中的第二随机擦除单元204-5-2，得到第1层的第二擦除注意力特征。将第1层的第二擦除注意力特征输入第1层的第二跨注意力编码模块204-5中的第二归一化单元204-5-3，得到第1层的第二归一化特征。将第1层的问句编码特征和第1层的第二归一化特征进行叠加，得到第1层的第二跨注意力特征。

在一个示范性实施例中，可以但不限于通过以下公式确定所述第i层的第二候选跨注意力特征：

其中，

表示所述第i层的第二候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的图像编码特征对应的权重值。

在一个示范性实施例中，可以但不限于通过以下方式得到第i层的第三跨注意力特征：将所述第i层的目标拼接特征和所述第i层的答案编码特征输入到所述第i层的第三跨注意力编码模块中的第三跨注意力单元，得到第i层的第三候选跨注意力特征，其中，所述第三跨注意力单元用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三候选跨注意力特征；将所述第i层的第三候选跨注意力特征输入所述第i层的第三跨注意力编码模块中的第三随机擦除单元，得到第i层的第三擦除注意力特征，其中，所述第三随机擦除单元用于对所述第i层的第三候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第三擦除注意力特征；将所述第i层的第三擦除注意力特征输入所述第i层的第三跨注意力编码模块中的第三归一化单元，得到所述第i层的第三归一化特征，其中，所述第三归一化单元用于对所述第i层的第三擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第三归一化特征；将所述第i层的目标拼接特征和所述第i层的第三归一化特征进行叠加，得到所述第i层的第三跨注意力特征。

可选的，在本实施例中，可以但不限于以第1层抗噪注意力模块204中的第三跨注意力编码模块204-6为例，对本申请实施例中的得到第i层的第三跨注意力特征的过程进行解释说明，可以但不限于适用于本申请实施例。图12是根据本申请实施例的一种确定第三跨注意力特征的示意图，如图12所示，第1层抗噪注意力模块204中的第三跨注意力编码模块204-6包括第三跨注意力单元204-6-1、第三随机擦除单元204-6-2和第三归一化单元204-6-3。

将第1层的目标拼接特征和第1层的答案编码特征输入到第1层的第三跨注意力编码模块204-6中的第三跨注意力单元204-6-1，得到第1层的第三候选跨注意力特征。将第1层的第三候选跨注意力特征输入第1层的第三跨注意力编码模块204-6中的第三随机擦除单元204-6-2，得到第1层的第三擦除注意力特征。将第1层的第三擦除注意力特征输入第1层的第三跨注意力编码模块中的第三归一化单元204-6-3，得到第1层的第三归一化特征。将第1层的目标拼接特征和第1层的第三归一化特征进行叠加，得到第1层的第三跨注意力特征。

在一个示范性实施例中，可以但不限于通过以下公式确定所述第i层的第三候选跨注意力特征：

其中，

表示所述第i层的第三候选跨注意力特征，

表示所述第i层的目标拼接特征，

表示所述第i层的答案编码特征，

表示预先确定的转移矩阵，

表示所述第i层的目标拼接特征对应的权重值。

在一个示范性实施例中，可以但不限于通过以下方式确定第i层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征：将所述第i层的第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征；根据所述第i层的文本修复特征和所述第i层的答案编码特征，确定所述第i层的文本修复特征对应的权重值；根据所述第i层的文本修复特征对应的权重值与所述第i层的文本修复特征，确定所述第i层抗噪注意力模块输出的文本修复筛选特征。

可选的，在本实施例中，可以但不限于以中第1层抗噪注意力模块204输出的第三跨注意力特征为例，对本申请实施例中的确定第i层抗噪注意力模块输出的文本修复筛选特征的过程进行解释说明，可以但不限于适用于本申请实施例。图13是根据本申请实施例的一种确定文本修复筛选特征的示意图二，如图13所示，将第1层抗噪注意力模块204输出的第三跨注意力特征拆分为第1层抗噪注意力模块204输出的图像注意力特征和第1层的文本修复特征，然后根据第1层的文本修复特征和第1层的答案编码特征，确定第1层的文本修复特征对应的权重值。根据第1层的文本修复特征对应的权重值与第1层的文本修复特征，确定第1层抗噪注意力模块204输出的文本修复筛选特征。

在一个示范性实施例中，可以但不限于通过以下方式将所述第i层的第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征：按照所述第i层的第一跨注意力特征和所述第i层的第二跨注意力特征之间的特征数量的第一比值，将所述第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征，其中，所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征之间的特征数量的第二比值等于所述第一比值。

可选的，在本实施例中，可以但不限于按照第i层抗噪注意力模块输出的第一跨注意力特征和第i层的第二跨注意力特征之间的特征数量的第一比值，将第三跨注意力特征拆分成第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征。

在一个示范性实施例中，可以但不限于通过以下方式确定第i层的文本修复特征对应的权重值：在所述第i层的文本修复特征包括维度为M×K的特征、所述第i层的答案编码特征包括维度为H×K的特征的情况下，分别确定所述维度为M×K的特征中的各个维度为1×K的特征与所述维度为H×K的特征中的各个维度为1×K的特征之间的相似度，得到维度为M×H的相似度，其中，M、H、K均为大于或等于2的正整数；根据维度为M×H的相似度，确定与维度为M×K的特征对应的维度为M×1的权重值，其中，所述第i层的文本修复特征对应的权重值包括所述维度为M×1的权重值。

可选的，在本实施例中，特征所包括的维度可以但不限于为特征数量×每一个特征所对应的特征向量。比如：图像注意力特征的维度为：20×768，则一共有20个像素点代表图片，图片上的每一个像素点可以通过768个向量来表示。又比如：答案编码特征的维度为80×768，则一共有20个词代表答案，每一个词可以通过768个向量来表示。

可选的，在本实施例中，可以但不限于通过以下公式计算第i层的文本修复特征和答案编码特征之间的相似度：

其中，

表示第i层的文本修复特征和答案编码特征之间的相似度，

和

分别表示第i层的文本修复特征与答案编码特征；

表示余弦相似度的计算公式。

在一个示范性实施例中，可以但不限于通过以下方式确定与维度为M×K的特征对应的维度为M×1的权重值：在维度为M×H的相似度中的各个维度为1×H的相似度中选择取值最大的相似度，得到维度为M×1的相似度；在所述M×1的相似度中查找取值大于或等于预设阈值的相似度；在所述M×1的相似度中查找到取值大于或等于预设阈值的相似度的情况下，将查找到的取值大于或等于所述预设阈值的相似度设置为0，得到所述维度为M×1的权重值，或，将查找到的取值大于或等于预设阈值的相似度中的各个相似度的取值设置为所述各个相似度的取值与1之间的差值，得到所述维度为M×1的权重值。

可选的，在本实施例中，可以但不限于将相似度中相似度高于预设阈值的擦除为0向量，得到权重值；或者将

的差值作为权重值。

在一个示范性实施例中，可以但不限于通过以下方式确定第i层抗噪注意力模块输出的文本修复筛选特征：在所述第i层的文本修复特征包括维度为M×K的特征、所述第i层的文本修复特征对应的权重值包括维度为M×1的权重值的情况下，将所述维度为M×1的权重值与所述维度为M×K的特征对应相乘，得到维度为M×K的加权特征，其中，所述第i层抗噪注意力模块输出的文本修复筛选特征包括所述维度为M×K的加权特征。

可选的，在本实施例中，可以但不限于以中第1层抗噪注意力模块204输出的第三跨注意力特征，对本申请实施例中的确定第i层抗噪注意力模块输出的文本修复筛选特征的过程进行解释说明，可以但不限于适用于本申请实施例。图14是根据本申请实施例的一种确定文本修复筛选特征的示意图三，如图14所示，将第1层抗噪注意力模块204输出的第三跨注意力特征（维度：N × K）拆分为第1层抗噪注意力模块204输出的图像注意力特征（维度：L × K）和第1层的文本修复特征（维度：M × K），需要说明的是L+M=N。然后根据第1层的文本修复特征（维度：M × K）和第1层的答案编码特征（维度：H × K），分别确定维度为M×K的文本修复特征中的各个维度为1×K的特征与维度为H×K的答案编码特征中的各个维度为1×K的特征之间的相似度，得到维度为M×H的相似度；确定与维度为M×K的特征对应的维度为M×1的权重值。

将第1层的文本修复特征（维度：M × K）对应的权重值（维度：M×1）与第1层的文本修复特征（维度：M × K）对应相乘，得到维度为M×K的加权特征，第1层抗噪注意力模块204输出的文本修复筛选特征（维度：M × K）包括维度为M×K的加权特征。

在一个示范性实施例中，可以但不限于通过以下方式得到第i层的图像编码特征：将输入所述第i层抗噪注意力模块的图像注意力特征输入到所述第i层的第一自注意力编码模块中的第一自注意力单元，得到第i层的第一候选自注意力特征，其中，所述第一自注意力单元用于根据输入所述第i层抗噪注意力模块的图像注意力特征，确定输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值，并根据所述输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值以及输入所述第i层抗噪注意力模块的图像注意力特征，确定所述第i层的第一候选自注意力特征；将所述第i层的第一候选自注意力特征输入所述第i层的第一自注意力编码模块中的第四随机擦除单元，得到第i层的第四擦除注意力特征，其中，所述第四随机擦除单元用于对所述第i层的第一候选自注意力特征中的部分特征值进行置0，得到所述第i层的第四擦除注意力特征；将所述第i层的第四擦除注意力特征输入所述第i层的第一自注意力编码模块中的第四归一化单元，得到所述第i层的第四归一化特征，其中，所述第四归一化单元用于对所述第i层的第四擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第四归一化特征；将所述输入所述第i层抗噪注意力模块的图像注意力特征和所述第i层的第四归一化特征进行叠加，得到第i层的图像编码特征。

可选的，在本实施例中，可以但不限于以第1层抗噪注意力模块204中的第一自注意力编码模块204-1为例，对本申请实施例中的得到第i层的图像编码特征的过程进行解释说明，可以但不限于适用于本申请实施例。图15是根据本申请实施例的一种获取图像编码特征的示意图，如图15所示，第一自注意力编码模块204-1包括第一自注意力单元204-1-1、第四随机擦除单元204-1-2和第四归一化单元204-1-3。

可以但不限于将输入第1层抗噪注意力模块204的图像注意力特征（即图像检测特征）输入到第1层的第一自注意力编码模块204-1中的第一自注意力单元204-1-1，得到第1层的第一候选自注意力特征。将第1层的第一候选自注意力特征输入第1层的第一自注意力编码模块204-1中的第四随机擦除单元204-1-2，得到第i层的第四擦除注意力特征。将第1层的第四擦除注意力特征输入第1层的第一自注意力编码模块204-1中的第四归一化单元204-1-3，得到第1层的第四归一化特征。将输入第1层抗噪注意力模块204的图像注意力特征和第1层的第四归一化特征进行叠加，得到第1层的图像编码特征。

可选的，在本实施例中，可以但不限于通过以下方式得到第i层的问句编码特征：将输入所述第i层抗噪注意力模块的文本修复筛选特征输入到所述第i层的第二自注意力编码模块中的第二自注意力单元，得到第i层的第二候选自注意力特征，其中，所述第二自注意力单元用于根据输入所述第i层抗噪注意力模块的文本修复筛选特征，确定输入所述第i层抗噪注意力模块的文本修复筛选特征对应的权重值，并根据所述输入所述第i层抗噪注意力模块的文本修复筛选特征对应的权重值以及输入所述第i层抗噪注意力模块的文本修复筛选特征，确定所述第i层的第二候选自注意力特征；将所述第i层的第二候选自注意力特征输入所述第i层的第二自注意力编码模块中的第五随机擦除单元，得到第i层的第五擦除注意力特征，其中，所述第五随机擦除单元用于对所述第i层的第二候选自注意力特征中的部分特征值进行置0，得到所述第i层的第五擦除注意力特征；将所述第i层的第五擦除注意力特征输入所述第i层的第二自注意力编码模块中的第五归一化单元，得到所述第i层的第五归一化特征，其中，所述第五归一化单元用于对所述第i层的第五擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第五归一化特征；将所述输入所述第i层抗噪注意力模块的文本修复筛选特征和所述第i层的第五归一化特征进行叠加，得到第i层的问句编码特征。

可选的，在本实施例中，可以但不限于通过以下方式得到第i层的答案编码特征：将输入所述第i层抗噪注意力模块的答案文本空间特征输入到所述第i层的第三自注意力编码模块中的第三自注意力单元，得到第i层的第三候选自注意力特征，其中，所述第三自注意力单元用于根据输入所述第i层抗噪注意力模块的答案文本空间特征，确定输入所述第i层抗噪注意力模块的答案文本空间特征对应的权重值，并根据所述输入所述第i层抗噪注意力模块的答案文本空间特征对应的权重值以及输入所述第i层抗噪注意力模块的答案文本空间特征，确定所述第i层的第三候选自注意力特征；将所述第i层的第三候选自注意力特征输入所述第i层的第三自注意力编码模块中的第六随机擦除单元，得到第i层的第六擦除注意力特征，其中，所述第六随机擦除单元用于对所述第i层的第三候选自注意力特征中的部分特征值进行置0，得到所述第i层的第六擦除注意力特征；将所述第i层的第六擦除注意力特征输入所述第i层的第三自注意力编码模块中的第六归一化单元，得到所述第i层的第六归一化特征，其中，所述第六归一化单元用于对所述第i层的第六擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第六归一化特征；将所述输入所述第i层抗噪注意力模块的答案文本空间特征和所述第i层的第六归一化特征进行叠加，得到第i层的答案编码特征。

在一个示范性实施例中，可以但不限于通过以下公式确定所述第i层的第一候选自注意力特征：

其中，

表示所述第i层的第一候选自注意力特征，

表示所述输入所述第i层抗噪注意力模块的图像注意力特征，

、

、

表示预先确定的转移矩阵，

在上述步骤S608提供的技术方案中，将问句文本特征和N层抗噪注意力模块输出的文本修复筛选特征进行叠加，可以在问句文本中标记出噪声词语，实现了对问句文本中存在的与候选答案不相关的噪声词语进行降噪，大大提升了问句文本与答案文本之间的相关性。

在上述步骤S610提供的技术方案中，通过N层抗噪注意力模块对问句文本中存在的与答案文本不相关的噪声词语进行修复。在根据图像注意力特征、文本降噪特征和答案文本空间特征，确定推理结果的时候，可以大大减少对噪声词语的关注，进而提升了推理结果的准确性。

在一个示范性实施例中，可以但不限于通过以下方式确定目标推理结果：根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定第一推理概率，其中，所述第一推理概率用于表示所述第一候选答案是所述目标问句的答案的概率；根据所述第一推理概率，在候选答案集合中确定所述第一候选答案是否是满足第一预设条件的候选答案，其中，所述第一预设条件是指所述第一推理概率是所述候选答案集合中的各个候选答案对应的推理概率中最大的概率，所述各个候选答案对应的推理概率用于表示所述各个候选答案是所述目标问句的答案的概率；在所述第一候选答案是满足所述第一预设条件的候选答案的情况下，将所述目标推理结果确定为用于表示所述第一候选答案是所述目标问句的答案。

可选的，在本实施例中，在第一候选答案不是满足第一预设条件的候选答案的情况下，将目标推理结果确定为用于表示第一候选答案不是目标问句的答案。

在一个示范性实施例中，可以但不限于通过以下方式确定目标证据结果：在所述目标推理结果表示所述第一候选答案是所述目标问句的答案的情况下，获取第一候选解释文本的第一解释文本特征；根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定目标证据结果，其中，所述目标证据结果用于表示所述第一候选解释文本是否为所述第一候选答案是所述目标问句的答案的解释文本。

可选的，在本实施例中，第一候选解释文本可能是第一候选答案是目标问句的答案的解释文本，也可能不是第一候选答案是目标问句的答案的解释文本。通过在可以但不限于在第一候选答案是目标问句的答案的情况下，确定第一候选解释文本是否为第一候选答案是目标问句的答案的解释文本的方式，提升了推理结果的可解释性和可理解性。

在一个示范性实施例中，可以但不限于通过以下方式确定目标证据结果：根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定第一证据概率，其中，所述第一证据概率用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；根据所述第一证据概率，在候选解释文本集合中确定所述第一候选解释文本是否是满足第二预设条件的候选解释文本，其中，所述第二预设条件是指所述第一证据概率是所述候选解释文本集合中的各个候选解释文本对应的证据概率中最大的概率，所述各个候选解释文本对应的证据概率用于表示所述各个候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；在所述第一候选解释文本是满足所述第二预设条件的候选解释文本的情况下，将所述目标证据结果确定为用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本。

可选的，在本实施例中，在第一候选解释文本不是满足第二预设条件的候选解释文本的情况下，将目标证据结果确定为用于表示第一候选解释文本不是第一候选答案是目标问句的答案的解释文本。

为了更好的理解上述视觉常识推理方法的流程，下面再结合可选的实施例对本申请实施例中的视觉常识推理方法的过程进行解释说明，可以但不限于适用于本申请实施例。

图16是根据本申请实施例的一种视觉常识推理方法的示意图三，如图16所示，对于第i层抗噪注意力模块，首先对图像特征（即上述的图像注意力特征）、问句编码特征（即上述的文本修复筛选特征）和答案文本空间特征进行自注意力编码。可以但不限于通过第i层抗噪注意力模块中的自注意力编码模块中包括的自注意力单元、随机擦除单元、归一化单元和特征相加单元实现上述特征的自注意力编码的过程。

详细来说，可以但不限于将图像特征、问句编码特征和答案文本空间特征输入对应的自注意力编码模块（即分别为上述的第一自注意力编码模块、第二自注意力编码模块和第三自注意力编码模块）中的自注意力单元（即分别为上述的第一自注意力单元、第二自注意力单元和第三自注意力单元）、随机擦除单元（即分别为上述的第四随机擦除单元、第五随机擦除单元和第六随机擦除单元）、归一化单元（即分别为上述的第四归一化单元、第五归一化单元和第六归一化单元）和特征相加单元，分别得到图像编码带匹配特征（即上述的图像编码特征）

、带噪问句编码特征（即上述的问句编码特征）

以及答案空间特征

（即上述的答案编码特征

）。

然后分别对图像编码带匹配特征（即上述的图像编码特征）

、带噪问句编码特征（即上述的问句编码特征）

进行跨注意力编码，图像编码带匹配特征

和带噪问句编码特征

所对应的跨注意力编码模块中均包括一个跨注意力单元、一个随机擦除单元、一个归一化单元、一个特征相加单元。

可以但不限于将图像编码带匹配特征

和带噪问句编码特征

输入图像编码带匹配特征

所对应的跨注意力编码模块（即上述的第一跨注意力编码模块）中的跨注意力单元（即上述的第一跨注意力单元）、随机擦除单元（即上述的第一随机擦除单元）、归一化单元（即上述的第一归一化单元）中，并将归一化单元的输出结果（即上述的第一归一化特征）叠加图像编码带匹配特征

，得到第一跨注意力特征。

可以但不限于将图像编码带匹配特征

和带噪问句编码特征

输入图像编码带匹配特征

所对应的跨注意力编码模块（即上述的第二跨注意力编码模块）中的跨注意力单元（即上述的第二跨注意力单元）、随机擦除单元（即上述的第二随机擦除单元）、归一化单元（即上述的第二归一化单元）中，并将归一化单元输出的结果（即上述的第二归一化特征）叠加图像编码带匹配特征

，得到第二跨注意力特征。输出的两个向量（即上述的第一跨注意力特征和第二跨注意力特征）分别代表图像热向量和问句热向量，分别表示特征中所有内容与另一个模态信息的匹配程度。

然后将第一跨注意力特征和第二跨注意力特征进行拼接合并，得到一个综合特征

（即上述的目标拼接特征），并与答案空间特征

进行跨注意力计算。可以但不限于将综合特征

和答案空间特征

输入第三跨注意力编码模块中的跨注意力单元（即上述的第三跨注意力单元）、随机擦除单元（即上述的第三随机擦除单元）、归一化单元（即上述的第三归一化单元）中，并将归一化单元输出的结果（即上述的第三归一化特征）叠加综合特征

，得到第三跨注意力特征。

然后可以但不限于将第三跨注意力特征拆分为第i层抗噪注意力模块的图像注意力特征和文本修复向量（即上述的文本修复特征），然后结合词频约束矩阵和输入答案空间特征，确定文本修复筛选向量（即上述的文本修复筛选特征）。并将输入答案空间特征作为第i层抗噪注意力模块输出的答案空间特征（即上述的答案文本空间特征）。

然后，对于文本修复向量进行筛选操作，图17是根据本申请实施例的一种词频约束的示意图，如图17所示，首先计算文本修复向量和答案空间特征的余弦相似度，然后求其在答案空间维度的最大值，得到文本余弦相似度，该向量表示每个问句文本特征与答案空间的最大相似度。然后将该相似度加载到文本修复向量中。可以但不限于将相似度高于阈值（即上述的预设阈值）的擦除为0向量，得到文本修复特征对应的权重值，或者将文本修复向量与1与计算出来的相似度的差值相乘。可以获得文本修复筛选向量（即上述的文本修复筛选特征），得到文本修复特征对应的权重值。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例所述的方法。

在本实施例中还提供了一种视觉常识推理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图18是根据本申请实施例的视觉常识推理装置的结构框图，如图18所示，该视觉常识推理装置包括：

第一获取模块1802，用于获取目标图像的图像检测特征、目标问句的问句文本特征、第一候选答案的第一答案文本特征；

N层抗噪注意力模块1804，用于根据所述图像检测特征、所述问句文本特征和所述第一答案文本特征，确定所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，其中，N等于1或N为大于或等于2的正整数，所述文本修复筛选特征用于表征所述目标问句中与所述第一候选答案不相关的噪声词语；

叠加模块1806，用于将所述问句文本特征和所述文本修复筛选特征进行叠加，得到所述目标问句的文本降噪特征；

推理模块1808，用于根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，其中，所述目标推理结果用于表示所述第一候选答案是否是所述目标问句的答案。

通过上述装置，由于通过多层抗噪注意力模块对输入的问句文本中与答案文本不相关的噪声词语进行了筛选，并根据筛选后的噪声词语对上述问句文本进行了降噪，提升了问句文本和答案文本之间的相关性。因此，可以解决在输入的问句文本存在噪声词语的情况下，推理结果的准确性较低的问题，达到在输入的问句文本存在噪声词语的情况下，提升推理结果的准确性的效果。

在一个示范性实施例中，所述N层抗噪注意力模块中的第i层抗噪注意力模块，包括：

第i层的第一自注意力编码模块，用于根据输入所述第i层抗噪注意力模块的图像注意力特征，确定第i层的图像编码特征；

第i层的第二自注意力编码模块，用于根据输入所述第i层抗噪注意力模块的文本修复筛选特征输入到，得到第i层的问句编码特征；将输入所述第i层抗噪注意力模块的答案文本空间特征输入到第i层的第三自注意力编码模块，得到第i层的答案编码特征；

第i层的抗噪注意力模块，用于根据所述第i层的图像编码特征、所述第i层的问句编码特征、所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征；

其中，当i等于N时，所述目标图像的图像注意力特征是所述第i层抗噪注意力模块输出的图像注意力特征，所述目标问句的文本修复筛选特征是所述第i层抗噪注意力模块输出的文本修复筛选特征，所述第一候选答案的答案文本空间特征是所述第i层抗噪注意力模块输出的答案文本空间特征；

其中，i为大于或等于1、且小于或等于N的正整数，当i等于1时，输入所述第i层抗噪注意力模块的图像注意力特征为所述图像检测特征，输入所述第i层抗噪注意力模块的文本修复筛选特征为所述问句文本特征，输入所述第i层抗噪注意力模块的答案文本空间特征为所述第一答案文本特征，当i大于1、且小于或等于N时，输入所述第i层抗噪注意力模块的图像注意力特征、文本修复筛选特征和答案文本空间特征分别为第i-1层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征。

在一个示范性实施例中，所述第i层抗噪注意力模块，包括：

第i层的第一跨注意力编码模块，用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一跨注意力特征；

第i层的第二跨注意力编码模块，用于根据所述第i层的问句编码特征和所述第i层的图像编码特征，确定第i层的第二跨注意力特征，其中，所述第i层的第二跨注意力编码模块用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二跨注意力特征；

第i层的拼接模块，用于将所述第i层的第一跨注意力特征和所述第i层的第二跨注意力特征进行拼接，得到第i层的目标拼接特征；

第i层的第三跨注意力编码模块，用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定第i层的第三跨注意力特征，其中，所述第i层的第三跨注意力编码模块用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三跨注意力特征；

第i层的确定模块，用于根据所述第i层的第三跨注意力特征和所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征，并将所述第i层的答案编码特征确定为所述第i层抗噪注意力模块输出的答案文本空间特征。

在一个示范性实施例中，所述第i层的第一跨注意力编码模块，包括：

第一跨注意力单元，用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定第i层的第一候选跨注意力特征，其中，所述第一跨注意力单元用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一候选跨注意力特征；

第一随机擦除单元，用于根据所述第i层的第一候选跨注意力特征，确定第i层的第一擦除注意力特征，其中，所述第一随机擦除单元用于对所述第i层的第一候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第一擦除注意力特征；

第一归一化单元，用于根据所述第i层的第一擦除注意力特征，确定所述第i层的第一归一化特征，其中，所述第一归一化单元用于对所述第i层的第一擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第一归一化特征；

第一叠加单元，用于将所述第i层的图像编码特征和所述第i层的第一归一化特征进行叠加，得到所述第i层的第一跨注意力特征。

在一个示范性实施例中，所述第一跨注意力单元，用于：

通过以下公式确定所述第i层的第一候选跨注意力特征：

其中，

表示所述第i层的第一候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的问句编码特征对应的权重值。

在一个示范性实施例中，所述第i层的第二跨注意力编码模块，包括：

第二跨注意力单元，用于根据所述第i层的问句编码特征和所述第i层的图像编码特征，确定第i层的第二候选跨注意力特征，其中，所述第二跨注意力单元用于根据所述第i层的问句编码特征和所述第i层的图像编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二候选跨注意力特征；

第二随机擦除单元，用于根据所述第i层的第二候选跨注意力特征，确定第i层的第二擦除注意力特征，其中，所述第二随机擦除单元用于对所述第i层的第二候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第二擦除注意力特征；

第二归一化单元，用于根据所述第i层的第二擦除注意力特征，确定所述第i层的第二归一化特征，其中，所述第二归一化单元用于对所述第i层的第二擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第二归一化特征；

第二叠加单元，用于将所述第i层的问句编码特征和所述第i层的第二归一化特征进行叠加，得到所述第i层的第二跨注意力特征。

在一个示范性实施例中，所述第二跨注意力单元，用于：

通过以下公式确定所述第i层的第二候选跨注意力特征：

其中，

表示所述第i层的第二候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的图像编码特征对应的权重值。

在一个示范性实施例中，所述第i层的第三跨注意力编码模块，包括：

第三跨注意力单元，用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定第i层的第三候选跨注意力特征，其中，所述第三跨注意力单元用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三候选跨注意力特征；

第三随机擦除单元，用于根据所述第i层的第三候选跨注意力特征，确定第i层的第三擦除注意力特征，其中，所述第三随机擦除单元用于对所述第i层的第三候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第三擦除注意力特征；

第三归一化单元，用于根据所述第i层的第三擦除注意力特征，确定所述第i层的第三归一化特征，其中，所述第三归一化单元用于对所述第i层的第三擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第三归一化特征；

第三叠加单元，用于将所述第i层的目标拼接特征和所述第i层的第三归一化特征进行叠加，得到所述第i层的第三跨注意力特征。

在一个示范性实施例中，所述第三跨注意力单元，用于：

通过以下公式确定所述第i层的第三候选跨注意力特征：

其中，

表示所述第i层的第三候选跨注意力特征，

表示所述第i层的目标拼接特征，

表示所述第i层的答案编码特征，

表示预先确定的转移矩阵，

表示所述第i层的目标拼接特征对应的权重值。

在一个示范性实施例中，所述第i层的确定模块，包括：

拆分单元，用于将所述第i层的第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征；

第一确定单元，用于根据所述第i层的文本修复特征和所述第i层的答案编码特征，确定所述第i层的文本修复特征对应的权重值；

第二确定单元，用于根据所述第i层的文本修复特征对应的权重值与所述第i层的文本修复特征，确定所述第i层抗噪注意力模块输出的文本修复筛选特征。

在一个示范性实施例中，所述拆分单元，用于：

按照所述第i层的第一跨注意力特征和所述第i层的第二跨注意力特征之间的特征数量的第一比值，将所述第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征，其中，所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征之间的特征数量的第二比值等于所述第一比值。

在一个示范性实施例中，所述第一确定单元，包括：

第一确定子单元，用于在所述第i层的文本修复特征包括维度为M×K的特征、所述第i层的答案编码特征包括维度为H×K的特征的情况下，分别确定所述维度为M×K的特征中的各个维度为1×K的特征与所述维度为H×K的特征中的各个维度为1×K的特征之间的相似度，得到维度为M×H的相似度，其中，M、H、K均为大于或等于2的正整数；

第二确定子单元，用于根据维度为M×H的相似度，确定与维度为M×K的特征对应的维度为M×1的权重值，其中，所述第i层的文本修复特征对应的权重值包括所述维度为M×1的权重值。

在一个示范性实施例中，所述第一确定子单元，用于：

在维度为M×H的相似度中的各个维度为1×H的相似度中选择取值最大的相似度，得到维度为M×1的相似度；

在所述M×1的相似度中查找取值大于或等于预设阈值的相似度；

在所述M×1的相似度中查找到取值大于或等于预设阈值的相似度的情况下，将查找到的取值大于或等于所述预设阈值的相似度设置为0，得到所述维度为M×1的权重值，或，将查找到的取值大于或等于预设阈值的相似度中的各个相似度的取值设置为所述各个相似度的取值与1之间的差值，得到所述维度为M×1的权重值。

在一个示范性实施例中，所述第二确定单元，用于：

在所述第i层的文本修复特征包括维度为M×K的特征、所述第i层的文本修复特征对应的权重值包括维度为M×1的权重值的情况下，将所述维度为M×1的权重值与所述维度为M×K的特征对应相乘，得到维度为M×K的加权特征，其中，所述第i层抗噪注意力模块输出的文本修复筛选特征包括所述维度为M×K的加权特征。

在一个示范性实施例中，所述第i层的第一自注意力编码模块，包括：

第一自注意力单元，用于根据输入所述第i层抗噪注意力模块的图像注意力特征，确定第i层的第一候选自注意力特征，其中，所述第一自注意力单元用于根据输入所述第i层抗噪注意力模块的图像注意力特征，确定输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值，并根据所述输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值以及输入所述第i层抗噪注意力模块的图像注意力特征，确定所述第i层的第一候选自注意力特征；

第四随机擦除单元，用于根据所述第i层的第一候选自注意力特征，确定第i层的第四擦除注意力特征，其中，所述第四随机擦除单元用于对所述第i层的第一候选自注意力特征中的部分特征值进行置0，得到所述第i层的第四擦除注意力特征；

第四归一化单元，用于根据所述第i层的第四擦除注意力特征，确定所述第i层的第四归一化特征，其中，所述第四归一化单元用于对所述第i层的第四擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第四归一化特征；

第四叠加单元，用于将所述输入所述第i层抗噪注意力模块的图像注意力特征和所述第i层的第四归一化特征进行叠加，得到第i层的图像编码特征。

在一个示范性实施例中，所述第i层的第一自注意力编码模块中的第一自注意力单元，得到第i层的第一候选自注意力特征，用于：

通过以下公式确定所述第i层的第一候选自注意力特征：

其中，

表示所述第i层的第一候选自注意力特征，

表示所述输入所述第i层抗噪注意力模块的图像注意力特征，

、

、

表示预先确定的转移矩阵，

在一个示范性实施例中，所述推理模块，包括：

第三确定单元，用于根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定第一推理概率，其中，所述第一推理概率用于表示所述第一候选答案是所述目标问句的答案的概率；

第四确定单元，用于根据所述第一推理概率，在候选答案集合中确定所述第一候选答案是否是满足第一预设条件的候选答案，其中，所述第一预设条件是指所述第一推理概率是所述候选答案集合中的各个候选答案对应的推理概率中最大的概率，所述各个候选答案对应的推理概率用于表示所述各个候选答案是所述目标问句的答案的概率；

第五确定单元，用于在所述第一候选答案是满足所述第一预设条件的候选答案的情况下，将所述目标推理结果确定为用于表示所述第一候选答案是所述目标问句的答案。

在一个示范性实施例中，所述装置还包括：

第二获取模块，用于在所述目标推理结果表示所述第一候选答案是所述目标问句的答案的情况下，获取第一候选解释文本的第一解释文本特征；

确定模块，用于根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定目标证据结果，其中，所述目标证据结果用于表示所述第一候选解释文本是否为所述第一候选答案是所述目标问句的答案的解释文本。

在一个示范性实施例中，所述确定模块，包括：

第六确定单元，用于根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定第一证据概率，其中，所述第一证据概率用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；

第七确定单元，用于根据所述第一证据概率，在候选解释文本集合中确定所述第一候选解释文本是否是满足第二预设条件的候选解释文本，其中，所述第二预设条件是指所述第一证据概率是所述候选解释文本集合中的各个候选解释文本对应的证据概率中最大的概率，所述各个候选解释文本对应的证据概率用于表示所述各个候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；

第八确定单元，用于在所述第一候选解释文本是满足所述第二预设条件的候选解释文本的情况下，将所述目标证据结果确定为用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视觉常识推理方法，其特征在于，包括：

获取目标图像的图像检测特征、目标问句的问句文本特征、第一候选答案的第一答案文本特征；

将所述图像检测特征、所述问句文本特征和所述第一答案文本特征输入到N层抗噪注意力模块，得到所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，其中，N等于1或N为大于或等于2的正整数，所述文本修复筛选特征用于表征所述目标问句中与所述第一候选答案不相关的噪声词语；

将所述问句文本特征和所述文本修复筛选特征进行叠加，得到所述目标问句的文本降噪特征；

根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，其中，所述目标推理结果用于表示所述第一候选答案是否是所述目标问句的答案。

2.根据权利要求1所述的方法，其特征在于，所述将所述图像检测特征、所述问句文本特征和所述第一答案文本特征输入到N层抗噪注意力模块，得到所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，包括：

通过所述N层抗噪注意力模块中的第i层抗噪注意力模块执行以下步骤，其中，i为大于或等于1、且小于或等于N的正整数，当i等于1时，输入所述第i层抗噪注意力模块的图像注意力特征为所述图像检测特征，输入所述第i层抗噪注意力模块的文本修复筛选特征为所述问句文本特征，输入所述第i层抗噪注意力模块的答案文本空间特征为所述第一答案文本特征，当i大于1、且小于或等于N时，输入所述第i层抗噪注意力模块的图像注意力特征、文本修复筛选特征和答案文本空间特征分别为第i-1层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征；

将输入所述第i层抗噪注意力模块的图像注意力特征输入到第i层的第一自注意力编码模块，得到第i层的图像编码特征；将输入所述第i层抗噪注意力模块的文本修复筛选特征输入到第i层的第二自注意力编码模块，得到第i层的问句编码特征；将输入所述第i层抗噪注意力模块的答案文本空间特征输入到第i层的第三自注意力编码模块，得到第i层的答案编码特征；

根据所述第i层的图像编码特征、所述第i层的问句编码特征、所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征；

其中，当i等于N时，所述目标图像的图像注意力特征是所述第i层抗噪注意力模块输出的图像注意力特征，所述目标问句的文本修复筛选特征是所述第i层抗噪注意力模块输出的文本修复筛选特征，所述第一候选答案的答案文本空间特征是所述第i层抗噪注意力模块输出的答案文本空间特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第i层的图像编码特征、所述第i层的问句编码特征、所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征、文本修复筛选特征和答案文本空间特征，包括：

将所述第i层的图像编码特征和所述第i层的问句编码特征输入第i层的第一跨注意力编码模块，得到第i层的第一跨注意力特征，其中，所述第i层的第一跨注意力编码模块用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一跨注意力特征；

将所述第i层的问句编码特征和所述第i层的图像编码特征输入第i层的第二跨注意力编码模块，得到第i层的第二跨注意力特征，其中，所述第i层的第二跨注意力编码模块用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二跨注意力特征；

将所述第i层的第一跨注意力特征和所述第i层的第二跨注意力特征进行拼接，得到第i层的目标拼接特征；

将所述第i层的目标拼接特征和所述第i层的答案编码特征输入第i层的第三跨注意力编码模块，得到第i层的第三跨注意力特征，其中，所述第i层的第三跨注意力编码模块用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三跨注意力特征；

根据所述第i层的第三跨注意力特征和所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征，并将所述第i层的答案编码特征确定为所述第i层抗噪注意力模块输出的答案文本空间特征。

4.根据权利要求3所述的方法，其特征在于，所述将所述第i层的图像编码特征和所述第i层的问句编码特征输入第i层的第一跨注意力编码模块，得到第i层的第一跨注意力特征，包括：

将所述第i层的图像编码特征和所述第i层的问句编码特征输入到所述第i层的第一跨注意力编码模块中的第一跨注意力单元，得到第i层的第一候选跨注意力特征，其中，所述第一跨注意力单元用于根据所述第i层的图像编码特征和所述第i层的问句编码特征，确定所述第i层的问句编码特征对应的权重值，并根据所述第i层的问句编码特征对应的权重值以及所述第i层的问句编码特征，确定所述第i层的第一候选跨注意力特征；

将所述第i层的第一候选跨注意力特征输入所述第i层的第一跨注意力编码模块中的第一随机擦除单元，得到第i层的第一擦除注意力特征，其中，所述第一随机擦除单元用于对所述第i层的第一候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第一擦除注意力特征；

将所述第i层的第一擦除注意力特征输入所述第i层的第一跨注意力编码模块中的第一归一化单元，得到所述第i层的第一归一化特征，其中，所述第一归一化单元用于对所述第i层的第一擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第一归一化特征；

将所述第i层的图像编码特征和所述第i层的第一归一化特征进行叠加，得到所述第i层的第一跨注意力特征。

5.根据权利要求4所述的方法，其特征在于，所述将所述第i层的图像编码特征和所述第i层的问句编码特征输入到所述第i层的第一跨注意力编码模块中的第一跨注意力单元，得到第i层的第一候选跨注意力特征，包括：

通过以下公式确定所述第i层的第一候选跨注意力特征：

其中，

表示所述第i层的第一候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的问句编码特征对应的权重值。

6.根据权利要求3所述的方法，其特征在于，所述将所述第i层的问句编码特征和所述第i层的图像编码特征输入第i层的第二跨注意力编码模块，得到第i层的第二跨注意力特征，包括：

将所述第i层的问句编码特征和所述第i层的图像编码特征输入到所述第i层的第二跨注意力编码模块中的第二跨注意力单元，得到第i层的第二候选跨注意力特征，其中，所述第二跨注意力单元用于根据所述第i层的问句编码特征和所述第i层的图像编码特征，确定所述第i层的图像编码特征对应的权重值，并根据所述第i层的图像编码特征对应的权重值以及所述第i层的图像编码特征，确定所述第i层的第二候选跨注意力特征；

将所述第i层的第二候选跨注意力特征输入所述第i层的第二跨注意力编码模块中的第二随机擦除单元，得到第i层的第二擦除注意力特征，其中，所述第二随机擦除单元用于对所述第i层的第二候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第二擦除注意力特征；

将所述第i层的第二擦除注意力特征输入所述第i层的第二跨注意力编码模块中的第二归一化单元，得到所述第i层的第二归一化特征，其中，所述第二归一化单元用于对所述第i层的第二擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第二归一化特征；

将所述第i层的问句编码特征和所述第i层的第二归一化特征进行叠加，得到所述第i层的第二跨注意力特征。

7.根据权利要求6所述的方法，其特征在于，所述将所述第i层的问句编码特征和所述第i层的图像编码特征输入到所述第i层的第二跨注意力编码模块中的第二跨注意力单元，得到第i层的第二候选跨注意力特征，包括：

通过以下公式确定所述第i层的第二候选跨注意力特征：

其中，

表示所述第i层的第二候选跨注意力特征，

表示所述第i层的图像编码特征，

表示所述第i层的问句编码特征，

表示预先确定的转移矩阵，

表示所述第i层的图像编码特征对应的权重值。

8.根据权利要求3所述的方法，其特征在于，所述将所述第i层的目标拼接特征和所述第i层的答案编码特征输入第i层的第三跨注意力编码模块，得到第i层的第三跨注意力特征，包括：

将所述第i层的目标拼接特征和所述第i层的答案编码特征输入到所述第i层的第三跨注意力编码模块中的第三跨注意力单元，得到第i层的第三候选跨注意力特征，其中，所述第三跨注意力单元用于根据所述第i层的目标拼接特征和所述第i层的答案编码特征，确定所述第i层的目标拼接特征对应的权重值，并根据所述第i层的目标拼接特征对应的权重值以及所述第i层的目标拼接特征，确定所述第i层的第三候选跨注意力特征；

将所述第i层的第三候选跨注意力特征输入所述第i层的第三跨注意力编码模块中的第三随机擦除单元，得到第i层的第三擦除注意力特征，其中，所述第三随机擦除单元用于对所述第i层的第三候选跨注意力特征中的部分特征值进行置0，得到所述第i层的第三擦除注意力特征；

将所述第i层的第三擦除注意力特征输入所述第i层的第三跨注意力编码模块中的第三归一化单元，得到所述第i层的第三归一化特征，其中，所述第三归一化单元用于对所述第i层的第三擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第三归一化特征；

将所述第i层的目标拼接特征和所述第i层的第三归一化特征进行叠加，得到所述第i层的第三跨注意力特征。

9.根据权利要求8所述的方法，其特征在于，所述将所述第i层的目标拼接特征和所述第i层的答案编码特征输入到所述第i层的第三跨注意力编码模块中的第三跨注意力单元，得到第i层的第三候选跨注意力特征，包括：

通过以下公式确定所述第i层的第三候选跨注意力特征：

其中，

表示所述第i层的第三候选跨注意力特征，

表示所述第i层的目标拼接特征，

表示所述第i层的答案编码特征，

表示预先确定的转移矩阵，

表示所述第i层的目标拼接特征对应的权重值。

10.根据权利要求3所述的方法，其特征在于，所述根据所述第i层的第三跨注意力特征和所述第i层的答案编码特征，确定所述第i层抗噪注意力模块输出的图像注意力特征和文本修复筛选特征，包括：

将所述第i层的第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征；

根据所述第i层的文本修复特征和所述第i层的答案编码特征，确定所述第i层的文本修复特征对应的权重值；

根据所述第i层的文本修复特征对应的权重值与所述第i层的文本修复特征，确定所述第i层抗噪注意力模块输出的文本修复筛选特征。

11.根据权利要求10所述的方法，其特征在于，所述将所述第i层的第三跨注意力特征拆分成所述第i层抗噪注意力模块输出的图像注意力特征和第i层的文本修复特征，包括：

12.根据权利要求10所述的方法，其特征在于，所述根据所述第i层的文本修复特征和所述第i层的答案编码特征，确定所述第i层的文本修复特征对应的权重值，包括：

在所述第i层的文本修复特征包括维度为M×K的特征、所述第i层的答案编码特征包括维度为H×K的特征的情况下，分别确定所述维度为M×K的特征中的各个维度为1×K的特征与所述维度为H×K的特征中的各个维度为1×K的特征之间的相似度，得到维度为M×H的相似度，其中，M、H、K均为大于或等于2的正整数；

根据维度为M×H的相似度，确定与维度为M×K的特征对应的维度为M×1的权重值，其中，所述第i层的文本修复特征对应的权重值包括所述维度为M×1的权重值。

13.根据权利要求12所述的方法，其特征在于，所述根据维度为M×H的相似度，确定与维度为M×K的特征对应的维度为M×1的权重值，包括：

14.根据权利要求10所述的方法，其特征在于，所述根据所述第i层的文本修复特征对应的权重值与所述第i层的文本修复特征，确定所述第i层抗噪注意力模块输出的文本修复筛选特征，包括：

15.根据权利要求2所述的方法，其特征在于，所述将输入所述第i层抗噪注意力模块的图像注意力特征输入到第i层的第一自注意力编码模块，得到第i层的图像编码特征，包括：

将输入所述第i层抗噪注意力模块的图像注意力特征输入到所述第i层的第一自注意力编码模块中的第一自注意力单元，得到第i层的第一候选自注意力特征，其中，所述第一自注意力单元用于根据输入所述第i层抗噪注意力模块的图像注意力特征，确定输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值，并根据所述输入所述第i层抗噪注意力模块的图像注意力特征对应的权重值以及输入所述第i层抗噪注意力模块的图像注意力特征，确定所述第i层的第一候选自注意力特征；

将所述第i层的第一候选自注意力特征输入所述第i层的第一自注意力编码模块中的第四随机擦除单元，得到第i层的第四擦除注意力特征，其中，所述第四随机擦除单元用于对所述第i层的第一候选自注意力特征中的部分特征值进行置0，得到所述第i层的第四擦除注意力特征；

将所述第i层的第四擦除注意力特征输入所述第i层的第一自注意力编码模块中的第四归一化单元，得到所述第i层的第四归一化特征，其中，所述第四归一化单元用于对所述第i层的第四擦除注意力特征中的特征值进行归一化处理，得到所述第i层的第四归一化特征；

将所述输入所述第i层抗噪注意力模块的图像注意力特征和所述第i层的第四归一化特征进行叠加，得到第i层的图像编码特征。

16.根据权利要求15所述的方法，其特征在于，所述将输入所述第i层抗噪注意力模块的图像注意力特征输入到所述第i层的第一自注意力编码模块中的第一自注意力单元，得到第i层的第一候选自注意力特征，包括：

通过以下公式确定所述第i层的第一候选自注意力特征：

其中，

表示所述第i层的第一候选自注意力特征，

表示所述输入所述第i层抗噪注意力模块的图像注意力特征，

、

、

表示预先确定的转移矩阵，

17.根据权利要求1至16中任一项所述的方法，其特征在于，所述根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，包括：

根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定第一推理概率，其中，所述第一推理概率用于表示所述第一候选答案是所述目标问句的答案的概率；

根据所述第一推理概率，在候选答案集合中确定所述第一候选答案是否是满足第一预设条件的候选答案，其中，所述第一预设条件是指所述第一推理概率是所述候选答案集合中的各个候选答案对应的推理概率中最大的概率，所述各个候选答案对应的推理概率用于表示所述各个候选答案是所述目标问句的答案的概率；

在所述第一候选答案是满足所述第一预设条件的候选答案的情况下，将所述目标推理结果确定为用于表示所述第一候选答案是所述目标问句的答案。

18.根据权利要求1至16中任一项所述的方法，其特征在于，所述方法还包括：

在所述目标推理结果表示所述第一候选答案是所述目标问句的答案的情况下，获取第一候选解释文本的第一解释文本特征；

根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定目标证据结果，其中，所述目标证据结果用于表示所述第一候选解释文本是否为所述第一候选答案是所述目标问句的答案的解释文本。

19.根据权利要求18所述的方法，其特征在于，所述根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定目标证据结果，包括：

根据所述图像检测特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解释文本特征，确定第一证据概率，其中，所述第一证据概率用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；

根据所述第一证据概率，在候选解释文本集合中确定所述第一候选解释文本是否是满足第二预设条件的候选解释文本，其中，所述第二预设条件是指所述第一证据概率是所述候选解释文本集合中的各个候选解释文本对应的证据概率中最大的概率，所述各个候选解释文本对应的证据概率用于表示所述各个候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本的概率；

在所述第一候选解释文本是满足所述第二预设条件的候选解释文本的情况下，将所述目标证据结果确定为用于表示所述第一候选解释文本为所述第一候选答案是所述目标问句的答案的解释文本。

20.一种视觉常识推理装置，其特征在于，包括：

第一获取模块，用于获取目标图像的图像检测特征、目标问句的问句文本特征、第一候选答案的第一答案文本特征；

N层抗噪注意力模块，用于根据所述图像检测特征、所述问句文本特征和所述第一答案文本特征，确定所述目标图像的图像注意力特征、所述目标问句的文本修复筛选特征、所述第一候选答案的答案文本空间特征，其中，N等于1或N为大于或等于2的正整数，所述文本修复筛选特征用于表征所述目标问句中与所述第一候选答案不相关的噪声词语；

叠加模块，用于将所述问句文本特征和所述文本修复筛选特征进行叠加，得到所述目标问句的文本降噪特征；

推理模块，用于根据所述图像注意力特征、所述文本降噪特征以及答案文本空间特征，确定目标推理结果，其中，所述目标推理结果用于表示所述第一候选答案是否是所述目标问句的答案。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至19任一项中所述的方法的步骤。

22.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至19任一项中所述的方法的步骤。