CN112100358A

CN112100358A - 一种基于匹配算法的视觉问答方法及系统

Info

Publication number: CN112100358A
Application number: CN202011032304.8A
Authority: CN
Inventors: 汪欣; 展华益; 王欣; 孙锐
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-12-18

Abstract

本发明公开了一种基于匹配算法的视觉问答方法，包括：通过图像检测和识别的方法获得图像信息；根据所述图像信息生成结构化的场景图；通过自然语言处理的方法获得问句信息；利用所述问句信息生成结构化的文本图；将所述场景图和文本图利用匹配算法进行匹配得到问句的答案。本发明的视觉问答方法可以为多模态信息交互和视觉问答领域提供一种基于结构化数据匹配的技术补充，从而使视觉问答技术具有更广泛的应用范围和更良好的性能。

Description

一种基于匹配算法的视觉问答方法及系统

技术领域

本发明涉及图像信号处理、自然语言处理结合的多模态信息交互技术领域，特别涉及一种基于匹配算法的视觉问答方法及系统。

背景技术

多模态信息交互技术和视觉问答技术目前处于发展阶段，但应用前景广泛。现有的视觉问答方法，通常采用一个深度神经网络，将图像特征和问句特征融合成特征向量，再经由神经网络进行学习和拟合，然后输出答案。

但是，基于端到端神经网络的视觉问答需要大量视觉问答数据训练模型，灵活度低且可能存在学习偏置，对于训练数据中出现频次较低的答案相对不容易学习到，也不具备良好的推理能力，对于结构复杂的问题难以解析。

此外，基于图结构的方法，通常将问句信息编码，来引导图像信息生成图结构，并利用图神经网络的方法在该图上计算答案。这样的方法通常需要将文本信息和图像信息用嵌入向量的形式抽象表示，对于系统回答错误的情况难以回溯分析，因此难以有针对性地优化系统性能。另外，由文本信息和视觉信息两个不同模态的信息耦合生成的图，可能会不利于信息表达，从而影响系统性能。

现有的采用图匹配的视觉问答方法只适用自然语言的精确匹配方式，且需要固定的模板来将视觉信息和问句信息分别转化成图结构，只能处理预先设计好的问题类型，系统的扩展性十分有限。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种基于匹配算法的视觉问答方法及系统，区别于端到端神经网络的方法，具有合理利用结构化数据表示的优势，可实现对图像信息和文本信息的提炼和分析，并分别表示成场景图和文本图的形式，再利用匹配算法计算出答案，提升问答的正确率，具备更优的推理能力和灵活性。

为了达到上述的技术效果，本发明采取以下技术方案：

一种基于匹配算法的视觉问答方法，包括：

通过图像检测和识别的方法获得图像信息；

根据所述图像信息生成结构化的场景图；

通过自然语言处理的方法获得问句信息；

利用所述问句信息生成结构化的文本图；

将所述场景图和文本图利用匹配算法进行匹配得到问句的答案。

进一步地，所述图像检测和识别的方法包括：物体检测、关系检测、属性检测、场景检测；所述自然语言处理的方法包括：实体抽取、关系抽取、依存关系解析，以得到问句中的实体、关系、语法结构，以及问句的查询焦点。

进一步地，生成结构化的场景图后还包括引入外部知识优化场景图，包括信息添加、删减或修改及利用匹配算法进行答案推断。

进一步地，所述根据所述图像信息生成结构化的场景图时包括采用显式的自然语言表示来构成场景图，或采用隐式的编码向量来构成场景图；

生成结构化的文本图时包括：将获得的信息采用显式的自然语言表示来构成文本图，或采用隐式的编码向量来构成文本图。

进一步地，所述匹配算法包括但不限于精确匹配算法和模糊匹配算法。

进一步地，所述通过图像检测和识别的方法获得图像信息具体包括：

S1.对图像进行检测，得到场景中各目标类别及其在图像中的边界坐标的信息；

S2.利用所述目标类别和边界坐标进行属性和关系识别，得到各目标的属性信息，以及各目标之间的相互关系的信息。

进一步地，所述根据所述图像信息生成结构化的场景图具体包括：

S1.在场景图中，以节点代表某一物体或某一具体属性值，将节点和节点之间用有向边连接，每条边代表该边对应的起点节点与终点节点之间的关系，或起点节点对应的某种属性类别；

S2.根据图像信息，采用显式的自然语言表示或隐式的编码向量来构成场景图。

进一步地，所述利用所述问句信息生成结构化的文本图具体包括：

S1.在文本图中，以节点代表某一物体或某一具体属性值，并且用有向边连接节点和节点，每条边代表该边对应的起点节点与终点节点之间的关系，或者起点节点的某种属性类别，其中，文本图中的查询焦点可以对应文本图中的节点或者边；

S2.利用问句信息生成结构化的文本图时，将获得的信息采用显式的自然语言表示或隐式的编码向量来构成文本图。

进一步地，所述将所述场景图和文本图利用匹配算法进行匹配得到问句的答案具体包括：

S1.通过上述步骤得到场景图和文本图后，基于二者节点和有向边的匹配，得到文本图中查询焦点所在的节点相对应的场景图中的节点位置，或者文本图中查询焦点所在的有向边相对应的场景图中的有向边位置；

S2.输出场景图中该节点或该有向边的值，作为视觉问答的答案。

同时，本发明还公开了一种基于匹配算法的视觉问答系统，包括：

图像检测和识别模块，用于对输入图像进行目标检测和识别，通过图像检测和识别的方法获得图像信息；

场景图生成模块，用于将图像检测和识别模块得到的图像信息表示为结构化的数据，得到场景图；

自然语言处理模块，用于对输入问句进行分析和信息抽取，通过自然语言处理的方法获得问句信息；

文本图生成模块，用于将自然语言处理模块分析得到的问句信息表示为结构化的数据，得到文本图；

匹配模块，用于将所述场景图和文本图利用匹配算法进行匹配，得到视觉问答的答案；

其中，所述场景图生成模块分别与图像检测和识别模块和匹配模块连接，所述文本图生成模块分别与自然语言处理模块和匹配模块连接。

本发明与现有技术相比，具有以下的有益效果：

本发明的基于匹配算法的视觉问答方法及系统可以为多模态信息交互和视觉问答领域提供一种基于结构化数据匹配的技术补充，从而使视觉问答技术具有更广泛的应用范围和更良好的性能，本方案区别于现有的端到端神经网络的方法，通过合理利用结构化数据表示的优势，实现对图像信息和文本信息的提炼和分析，并分别表示成场景图和文本图的形式，再利用匹配算法计算出答案，提升问答的正确率，具备更优的推理能力和灵活性。

附图说明

图1是本发明的基于匹配算法的视觉问答方法的流程示意图。

图2是本发明的基于匹配算法的视觉问答系统的示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例：

实施例一：

一种基于匹配算法的视觉问答方法，如图1所示，具体包括以下步骤：

步骤一：通过图像检测和识别的方法，获得图像信息。

具体的，本实施例中，图像检测和识别的方法包括：物体检测、关系检测、属性检测、场景检测。

如具体以一个生活场景图片为例，本步骤中，需要先通过图像检测模型对图像进行检测，得到场景中人物、动物、物品等目标及其在图像中的边界坐标等信息。具体的，再通过识别模型利用上述目标类别和边界坐标进行更细致的属性和关系识别，得到目标的颜色、材料、形状等属性，以及各目标之间的相互关系等信息。

如本实施例中具体是在某一室内场景的图像中，检测得到一个类别为狗的动物目标及其对应的边界信息。同时，还检测到了场景内存在餐桌、椅子、食物等物体目标及其边界信息。利用检测模型所得到的边界信息，关系识别模型可以识别到类别为狗的目标与类别为椅子的目标二者之间的关系，属性识别模型可以识别到椅子颜色属性，材料属性等信息，具体的，本实施例中类别为狗的目标与类别为椅子的目标二者之间的关系为狗在椅子上面，椅子颜色属性为黄色，椅子的材料属性为木质，狗的颜色属性为棕色。

步骤二：利用检测和识别到的图像信息生成结构化的场景图。

通过步骤一可以得到场景中的物体、属性和关系信息，但非结构化的表示难以表达该图像的整体信息。因此，本步骤中需要将上述场景中检测和识别得到的信息组合起来，构建成场景图。本实施例中以有向的场景图为例，场景图中的节点代表某一物体或某一具体属性值，并且节点和节点之间由有向边连接，每条边代表该边对应的起点节点与终点节点之间的关系，或起点节点对应的某种属性类别。其中，物体和物体之间的关系是有向的，物体和其属性值是从物体指向其属性值的。根据图像信息，可采用显式的自然语言表示来构成场景图，也可以采用隐式的编码向量来构成场景图。此外，可引入额外知识优化场景图，如包括信息添加、删减或修改，再利用匹配算法进行答案推断。

在本实施例中，仍以上述场景进行解释说明进一步的构建场景图工作，则上述检测识别模型得到的图像场景中存在类别为狗的目标和类别为椅子的目标，并且识别到狗的颜色属性值为棕色，椅子的颜色属性值为黄色，狗和椅子的关系为狗坐在椅子上。通过节点和有向边，可以将图像中所有检测到的信息组合在一起，生成该图像对应的场景图。场景图中狗的标注可以采用自然语言的词或词组作为表示方式，也可以用编码的形式来表示，例如利用GloVe将词映射为一个向量。同时，引入额外知识后，可标注狗的上位词为动物，椅子的上位词为家具。

步骤三：通过自然语言处理的方法获得问句信息。

具体包括实体抽取、关系抽取、依存关系解析，从而得到问句中的实体、关系、语法结构，以及问句的查询焦点。

在本实施例中，我们以上述室内场景图片对应的一个相关问句为例，进行说明。自然语言处理模型对问句进行分析，得到问句中包含动物和家具等实体，动物的颜色是棕色、动物和家具的关系是动物坐在家具上。并且，确定查询焦点为家具指代的具体实体。

步骤四：利用问句信息生成结构化的文本图。

通过步骤三得到问句中的实体和关系等信息，将上述信息组合起来，即可构建成文本图。此处以有向的文本图为例，文本图中的节点代表某一物体或某一具体属性值，并且节点和节点之间由有向边连接，每条边代表该边对应的起点节点与终点节点之间的关系，或者起点节点的某种属性类别。其中，物体和物体之间的关系是有向的，物体和其属性值是从物体指向其属性值的。并且，文本图中的查询焦点可以对应文本图中的节点或者边。利用问句信息生成结构化的文本图时，可将获得的信息采用显式的自然语言表示来构成文本图，或采用隐式的编码向量来构成文本图。

在本实施例中，仍以上述问句阐述进一步的构建文本图的具体步骤。具体地，上述自然语言处理模型得到的问句中存在动物和家具，动物的颜色属性值为棕色，动物和家具的关系是动物坐在家具上。通过节点和有向边，将问句中所有的信息组合在一起，构成文本图，并且标记查询焦点对应于家具所在的节点。文本图中动物的标注可以采用自然语言的词或词组作为表示方式，也可以用编码的形式来表示，例如同上述场景图一致，利用GloVe将词映射为一个向量。

步骤五：将场景图和文本图利用匹配算法进行匹配，并得到问句的答案。

通过上述步骤得到场景图和文本图后，基于二者节点和有向边的匹配，得到文本图中查询焦点所在的节点相对应的场景图中的节点位置，或者文本图中查询焦点所在的有向边相对应的场景图中的有向边位置。然后，输出场景图中该节点或该有向边的值，作为问句的答案。其中，匹配算法包括但不限于精确匹配算法和模糊匹配算法。

在本实施例中，仍以上述生成的场景图和文本图进行解释说明进一步的匹配步骤：例如上述文本图中的查询焦点对应节点为家具，并且与一个类别为动物的节点存在的关系为动物坐在家具上，同时动物满足的限定为动物颜色为棕色；场景图中，能与动物匹配的节点是类别为狗的节点，该节点连接了一个属性为颜色的有向边，指向的属性值为棕色；并且，该节点与类别为椅子的节点存在关系狗坐在椅子上。因此，文本图中的节点和有向边可以全部匹配到场景图中，且查询焦点所在的位置对应场景图中类别为椅子的节点，输出椅子作为预测答案。

至此即完成了一次视觉问答工作。

综上可知，本发明的视觉问答的方法通过将图像信息转化为场景图，将问句信息转化为文本图的方法，将图像和文本两种不同模态的表示形态，均转化为图结构这样一种表示形态，实现了跨模态信息的交流和融合，可以为后续的交互或应用系统提供不同模态的数据信息。同时，图像信息提取和问句处理可以灵活使用各种现有检测和识别技术，不需要针对视觉问答任务重新训练模型，可使产品更具备灵活性，提升竞争力，且可以随着检测和识别技术的提升快速迭代优化。此外，图结构的表达具备更优的可解释性，可以在回答复杂问题时表现出更强的推理能力。

需要特别说明的是，在本发明的方法中，通过图像检测和识别的方法获得图像信息，再根据所述图像信息生成结构化的场景图的步骤与通过自然语言处理的方法获得问句信息，再利用所述问句信息生成结构化的文本图的步骤不分先后实现，具体可根据实际情况设定，如也可以先生成文本图，再生成场景图，或同时进行文本图与场景图的生成。

实施例二

一种基于匹配算法的视觉问答系统，如图2所示，包括：图像检测和识别模块、场景图生成模块、自然语言处理模块、文本图生成模块、匹配模块，其中，所述场景图生成模块分别与图像检测和识别模块和匹配模块连接，所述文本图生成模块分别与自然语言处理模块和匹配模块连接。

具体的，图像检测和识别模块用于对输入图像进行目标检测和识别，通过图像检测和识别的方法获得图像信息；场景图生成模块用于将图像检测和识别模块得到的图像信息表示为结构化的数据，得到场景图；自然语言处理模块用于对输入问句进行分析和信息抽取，通过自然语言处理的方法获得问句信息；文本图生成模块用于将自然语言处理模块分析得到的问句信息表示为结构化的数据，得到文本图；匹配模块用于将所述场景图和文本图利用匹配算法进行匹配，得到视觉问答的答案。

具体工作时是由图像检测和识别模块完成对图像信息的提取工作，场景图生成模块将图像信息组合成结构化的场景图，自然语言处理模块完成对问句信息的抽取工作，文本图生成模块将问句信息组合成结构化的文本图，匹配模块通过匹配文本图与场景图，从场景图中获得问句的答案，完成视觉问答任务。其具体工作原理如实施例一中的方法所述。

具体的，本实施例的基于匹配算法的视觉问答系统在实际使用中是作为应用程序或后台服务程序运行在客户机上，上述程序可以安装在智能移动终端和服务器中，上述智能终端可以为个人计算机、智能手机或平板电脑等，上述服务器可以为任意平台下的高性能计算机，本实施例对智能终端和服务器的形态不做限定。同时，本实施例中的各模块(或单元)是逻辑意义上的，具体实现时，多个模块(或单元)可以合并成一个模块(或单元)，一个模块(或单元)也可以拆分成多个模块(或单元)。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于匹配算法的视觉问答方法，其特征在于，包括：

通过图像检测和识别的方法获得图像信息；

根据所述图像信息生成结构化的场景图；

通过自然语言处理的方法获得问句信息；

利用所述问句信息生成结构化的文本图；

2.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，所述图像检测和识别的方法包括：物体检测、关系检测、属性检测、场景检测；

所述自然语言处理的方法包括：实体抽取、关系抽取、依存关系解析，以得到问句中的实体、关系、语法结构，以及问句的查询焦点。

3.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，生成结构化的场景图后还包括引入外部知识优化场景图，包括信息添加、删减或修改。

4.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，所述根据所述图像信息生成结构化的场景图时包括采用显式的自然语言表示来构成场景图，或采用隐式的编码向量来构成场景图；

5.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，所述匹配算法包括但不限于精确匹配算法和模糊匹配算法。

6.根据权利要求1至5中任一所述的一种基于匹配算法的视觉问答方法，其特征在于，所述通过图像检测和识别的方法获得图像信息具体包括：

7.根据权利要求6所述的一种基于匹配算法的视觉问答方法，其特征在于，所述根据所述图像信息生成结构化的场景图具体包括：

8.根据权利要求7所述的一种基于匹配算法的视觉问答方法，其特征在于，所述利用所述问句信息生成结构化的文本图具体包括：

9.根据权利要求8所述的一种基于匹配算法的视觉问答方法，其特征在于，所述将所述场景图和文本图利用匹配算法进行匹配得到问句的答案具体包括：

10.一种基于匹配算法的视觉问答系统，其特征在于，包括：