CN113420783B

CN113420783B - 一种基于图文匹配的智能人机交互方法及装置

Info

Publication number: CN113420783B
Application number: CN202110587993.7A
Authority: CN
Inventors: 印二威; 谢良; 张珺倩; 张敬; 闫慧炯; 罗治国; 张亚坤; 艾勇保; 闫野
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-04-08
Anticipated expiration: 2041-05-27
Also published as: CN113420783A

Abstract

本发明公开了一种基于图文匹配的智能人机交互方法及装置，属于计算机视觉领域。所述方法包括：收集用户的语音信息转为文字序列，使用自然语言处理技术提取文字序列中的目标特征；采集真实环境图像，并采用深度卷积神经网络对所述原始图像数据提取自然图像特征；对原始图像中的各个目标与文字序列中的目标分别进行匹配度计算，取匹配度最大的图像中目标为匹配结果，并转化为机器指令。该发明结合计算机视觉技术与自然语言处理技术实现复杂命令与真实图像的匹配，能够根据一条自然语言表达指令，自动定位图像中的相关实体目标，使得交互过程更加自然，能够应用于助残机器人、救援机器人、特种机器人等广泛场景。

Description

一种基于图文匹配的智能人机交互方法及装置

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于图文匹配的智能人机交互方法及装置。

背景技术

随着计算机与机器人的智能化程度越来越高，机器已经能够辅助人类完成涉及医疗、工业生产、娱乐休闲、家庭服务、特种服务等各个领域下的复杂任务。广泛的应用场景对传统的人机交互系统提出了更高的要求，尤其是智能机器如何与人更好地进行交互和协同。人机交互的目的是，结合人类和机器各自的优势从而更好地完成复杂的人机协同任务，其最终目标是实现人类和机器在应用场景中的自然互融。然而，目前人机交互局限于单一模态的命令交互或者直接接触式的交互方式，交互效率低，大大影响其系统性能和用户体验。

语言和视觉信息在人类交流中有着密切的联系，在我们的社交和专业交流中经常进行文本指代与图像目标的匹配任务。而人机交流中同样需要类似的跨模态匹配方法。具体来说，一幅场景图像通常包含多个目标实体，为了匹配文本指令中所指的目标实体在图像中的具体位置，需要一种自然语言与图像的匹配方法，连接视觉与文本信息。

发明内容

有鉴于此，本发明提供的一种基于图文匹配的智能人机交互方法及装置，该方法结合计算机视觉技术与自然语言处理技术进行跨模态图文匹配，能够根据一条自然语言表达指令，自动定位图像中的相关实体目标。主要目的在于解决现有技术中人机交互局限于单一模态的命令交互或者直接接触式的交互方式，交互效率低的问题。

根据本发明一个方面，提供了一种基于图文匹配的智能人机交互方法，该方法包括步骤：S1语音识别：收集用户的语音信息，采用模板匹配语音识别算法将所述语音信息转为文字序列；其中所述模板匹配采用动态时间规整技术进行特征训练和识别，采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型，采用矢量量化技术进行信号压缩；S2图像识别：获取真实环境中的大量初始图像，记为初始图像组；对所述初始图像组数据进行裁剪和归一化预处理，去除重影、模糊等质量较差的图像，选取质量合格的图像作为合格原始图像；所述合格原始图像中包含多个实体目标；S3提取图文特征：采用深度卷积神经网络对所述合格原始图像数据提取自然图像特征，所述自然图像特征包括但不限于目标特征、多目标定位、全局特征，分别对应于所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征；对所述文字序列提取第一目标特征，所述第一目标特征包括但不限于主体特征、关系特征、全局位置特征；S4图文匹配：将所述自然图像特征与所述第一目标特征进行匹配计算，其中分别对所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征，与所述第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；所述匹配度计算得到的匹配结果为所述第一目标特征对所述合格原始图像中各实体目标的匹配程度，获取匹配度最大的所述实体目标在所述合格原始图像中的位置为所述图文匹配结果。

作为本发明的进一步改进，所述深度卷积神经网络由输入层、卷积层、激活函数、池化层、全连接层和输出层组成；所述卷积层采用二维卷积核在特征图中进行滑动卷积操作，用于深度特征提取；所述激活函数用于引入非线性因素，在训练过程中避免梯度消失；所述池化层于压缩数据和参数的数量，保留主要的特征同时减少参数和计算量；所述全连接层对特征进行降维，用于将分布式特征表示映射到样本标记空间。

作为本发明的进一步改进，对所述文字序列提取所述第一目标特征包括步骤：语言模型：使用基于预测的方法，将所述文字序列用向量的形式表示，生成嵌入式表达信息；语义提取：采用双向长短期记忆人工神经网络对所述嵌入式表达信息进行特征表达，形成特征表达信息；特征提取：采用自注意力机制结合可训练的权重参数，基于所述特征表达信息，提取所述语音信息所指向目标的主体特征、关系特征、全局位置特征为所述第一目标特征。

作为本发明的进一步改进，所述匹配计算由多层感知计算、归一化计算、相关性计算构成；其中：多层感知计算是全连接的人工神经网络，能够进行参数学习与特征提取，用于进一步提取所述各实体目标特征及所述第一目标特征并将各图文特征统一至同一维度空间；归一化计算将所述图文特征分别作归一化计算；相关性计算将所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征分别与所述第一目标特征进行内积计算，获取相关性得分，根据所述相关性得分计算所述多个实体目标中每一个实体目标分别与所述第一目标特征的所述匹配结果。

作为本发明的进一步改进，所述匹配度最大的所述实体目标在所述合格原始图像中的位置包括坐标参数及包围框参数，所述坐标位于包围框内部。

作为本发明的进一步改进，将所述图文匹配结果还原至所述合格原始图像中，并转换为结构化指令信号给机器，所述结构化指令信号用于使所述机器执行所述语音指令。

根据本发明另一个方面，提供了一种基于图文匹配的智能人机交互装置，该装置包括：语音输入模块：用于收集用户的语音信息；语音识别模块：采用模板匹配语音识别算法将所述语音信息转为文字序列；其中所述模板匹配采用动态时间规整技术进行特征训练和识别，采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型，采用矢量量化技术进行信号压缩；图像获取模块：获取真实环境中的大量初始图像，记为初始图像组；对所述初始图像组数据进行裁剪和归一化预处理，去除重影、模糊等质量较差的图像，选取质量合格的图像作为合格原始图像；所述合格原始图像中包含多个实体目标；跨模态图-文匹配模块：包括图像处理单元：采用深度卷积神经网络对所述合格原始图像数据提取自然图像特征，所述自然图像特征包括但不限于目标特征、多目标定位、全局特征，分别对应于所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征；文字解析单元：对所述文字序列提取第一目标特征，所述第一目标特征包括但不限于主体特征、关系特征、全局位置特征；相关性计算单元：将所述自然图像特征与所述第一目标特征进行匹配计算，其中分别对所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征，与所述第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；所述匹配度计算得到的匹配结果为所述第一目标特征对所述合格原始图像中各实体目标的匹配程度，获取匹配度最大的所述实体目标在所述合格原始图像中的位置为所述跨模态图文匹配结果。

作为本发明的进一步改进，还包括图像显示模块，用于将所述合格原始图像、所述跨模态图文匹配结果实时可视化展示给用户。

作为本发明的进一步改进，还包括结构化指令模块，将所述图文匹配结果还原至所述合格原始图像中，并转换为结构化指令信号给机器，所述结构化指令信号用于使所述机器执行所述语音指令。

作为本发明的进一步改进，所述相关性计算单元由多层感知子单元、归一化子单元、相关性子单元构成；其中：多层感知子单元是全连接的人工神经网络，能够进行参数学习与特征提取，用于进一步提取所述各实体目标特征及所述第一目标特征并将各图文特征统一至同一维度空间；归一化子单元将所述图文特征分别作归一化计算；相关性计算子单元将所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征分别与所述第一目标特征进行内积计算，获取相关性得分，根据所述相关性得分计算所述多个实体目标中每一个实体目标分别与所述第一目标特征的所述匹配结果。

籍由上述技术方案，本发明提供的有益效果如下：

(1)实现语音到图像的跨模态匹配，相比于直接接触式的人机交互系统，由于使用者可进行语音控制，使人机交互系统操作高效简便，用户体验更好。

(2)目前非接触式人机交互局限于单一模态的命令交互，包括打开、关闭、设置等，本发明通过跨模态图-文匹配，实现复杂命令与真实图像的匹配，使得交互过程更加自然，能够应用于助残机器人、救援机器人、特种机器人等广泛场景。

(3)采用自然语言处理算法能够对用户语音从多个角度，对单个词语、句子序列等做语义理解与分析；采用深度卷积神经网络在大量的图像数据中进行特征学习和训练后，对高维度的图像做特征提取，使得图像处理快速高效；通过对语音和图像特征的高效提取，使得相关性匹配算法更为精确可靠，匹配性能更加稳定。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于图文匹配的智能人机交互方法的应用流程图；

图2示出了本发明实施例提供的一种基于图文匹配的智能人机交互装置中图文匹配模块的运行流程图；

图3示出了本发明实施例提供的一种基于图文匹配的智能人机交互装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

可以理解的是，本发明的说明书和权利要求书及附图中的方法与装置中的相关特征可以相互参考。另外，本发明的说明书和权利要求书及附图中的“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

自然语言处理：自然语言处理(NLP)是人工智能和语言学的一部分，它致力于使用计算机理解人类语言中的句子或词语。NLP以降低用户工作量并满足使用自然语言进行人机交互的愿望为目的。因为用户可能不熟悉机器语言，所以NLP就能帮助这样的用户使用自然语言和机器交流。

CNN：卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。包括卷积、池化和全连接。卷积降低了网络模型的复杂度(对于很难学习的深层结构来说，这是非常重要的)，减少了权值的数量；池化层主要的作用是下采样，通过去掉不重要的样本，进一步减少参数数量；全连接是特征提取到分类的桥梁。

深度卷积神经网络：深度卷积神经网络(CNN)是一种特殊类型的神经网络，深度CNN的超强学习能力主要是通过使用多个非线性特征提取阶段实现的，这些阶段能够从数据中自动学习分层表征。

双向长短期记忆人工神经网络：是一种特殊结构的递归神经网络，能够学习文字序列中的长期依赖，考虑上下文信息，对每一个词语以及整个句子序列进行特征表达。

当前人工智能技术迅猛发展，特别是自然语言处理与计算机视觉领域。从词向量技术能够表征每个单词的含义，到循环神经网络处理整个句子的信息，长短期记忆人工神经网络结合句子的上下文特征提取语义。自然语言处理算法能够从多个角度，对单个词语、句子序列以至于整篇文章做语义理解与分析。计算机视觉技术则是对高维度的图像做特征提取，从而完成图像分类、分割和目标定位等任务。随着深度学习技术的发展与图形处理器硬件的水平的提高，深度卷积神经网络逐渐取代传统图像处理方法，模型在大量的图像数据中进行特征学习和训练，能够快速而高效地完成计算机视觉任务。

本发明要解决的核心技术问题为，现有技术中人机交互局限于单一模态的命令交互或者直接接触式的交互方式，交互效率低的问题。

针对上述技术问题，本发明提出一种基于图文匹配的智能人机交互方法与装置，该方法结合计算机视觉技术与自然语言处理技术进行跨模态图文匹配，能够根据一条自然语言表达指令，自动定位图像中的相关实体目标，实现跨模态的人机交互功能。相比于单模态系统匹配精度更加准确，相比于直接接触式的人机交互系统，由于使用者可进行语音控制，用户体验更好。

实施例1

请参考图1，其示出了本发明实施例提供的一种基于图文匹配的智能人机交互方法的组成框图。

如图1所示，本发明实施例方法主要包括以下步骤：

S1语音识别：收集用户的语音信息，采用模板匹配语音识别算法将所述语音信息转为文字序列；其中模板匹配采用动态时间规整技术进行特征训练和识别，采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型，采用矢量量化技术进行信号压缩；

使用麦克风采集声音信号后，将声音信号转换为数字信号。对信号进行去噪的预处理操作，然后使用滤波器去除工频噪声以及其他冗余噪声。

利用语音识别算法将音频信息转为文字序列。算法具体为模板匹配的方法，经过特征提取、模板训练、模板分类、判决过程。采用动态时间规整技术进行特征训练和识别、隐马尔可夫理论对语音信号的时间序列结构建立统计模型、矢量量化技术进行信号压缩。

S2图像识别：获取真实环境中的大量初始图像，记为初始图像组；对初始图像组数据进行裁剪和归一化预处理，去除重影、模糊等质量较差的图像，选取质量合格的图像作为合格原始图像；合格原始图像中包含多个实体目标。

摄像头实时采集真实环境的图像信息，由图像算法单元根据要求对获取的图像进行裁剪、归一化的预处理操作，并辨别重影、模糊等质量较差的图像，选取质量合格的图像进行图像显示与下一步的跨模态图文匹配。下一步跨模态图文匹配的结果输出形成可视化的包围框，与原显示图像进行合成后展示。

S3提取图文特征：采用深度卷积神经网络对合格原始图像数据提取自然图像特征，自然图像特征包括但不限于目标特征、多目标定位、全局特征，分别对应于多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征；对文字序列提取第一目标特征，第一目标特征包括但不限于主体特征、关系特征、全局位置特征；

图像处理算法采用深度卷积神经网络进行自然图像的特征提取，同时提取目标特征、多目标定位、全局特征。分别对应于每个实体目标的主体特征、关系特征、全局位置特征。文字解析算法包括语言模型、语义提取算法、特征提取算法，对识别为文字的语音指令中的主体特征、关系特征、全局位置特征进行提取，提取结果即为第一目标特征。

其中，图像处理算法采用深度卷积神经网络，主要由输入层、卷积层、激活函数、池化层、全连接层和输出层组成。卷积层采用二维卷积核在特征图中进行滑动卷积操作，用于深度特征提取。激活函数用于引入非线性因素，在训练过程中避免梯度消失。池化层于压缩数据和参数的数量，保留主要的特征同时减少参数和计算量，防止过拟合，提高模型泛化能力。全连接层对特征进行降维，在训练中用于将分布式特征表示映射到样本标记空间，便于损失函数的计算。本实施例采用端到端的深度卷积神经网络，网络模型参数进行随机初始化后，通过训练数据迭代调整网络权重，在现有的自然图像数据集中进行训练。随后利用训练好的深度卷积网络对自然图像进行实体目标定位，并且在定位结果中提取目标特征、多目标定位，以及在全连接层之前提取全局特征。

文字解析算法包括语言模型、语义提取算法、特征提取算法。语言模型使用基于预测的方法，将自然语言用向量的形式表示，生成嵌入式表达。语义提取算法采用双向长短期记忆人工神经网络，是一种特殊结构的递归神经网络，能够学习文字序列中的长期依赖，考虑上下文信息，对每一个词语以及整个句子序列进行特征表达。特征提取算法采用自注意力机制结合可训练的权重参数，基于词语特征以及全文上下文特征，对目标的主体特征、关系特征、全局位置特征分别进行提取。

S4图文匹配：将自然图像特征与第一目标特征进行匹配计算，其中分别对多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征，与第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；匹配度计算得到的匹配结果为第一目标特征对合格原始图像中各实体目标的匹配程度，获取匹配度最大的实体目标在合格原始图像中的位置为图文匹配结果。

图2示出了本发明实施例提供的一种基于图文匹配的智能人机交互方法中相关性计算流程图。

如图2所示，自然图像特征与文字序列中提取的第一目标特征进行相关性计算匹配，由多层感知器、归一化算法、相关性计算构成，分别对图像的目标特征、多目标定位、全局特征进行提取，对应于每个实体目标的主体特征、关系特征、全局位置特征，与文字序列中提取的第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；多层感知器是全连接的人工神经网络，能够进行参数学习与特征提取，用于进一步提取图、文特征，将两者统一至同一维度空间。归一化算法将图、文特征分别作归一化计算，得到n组图像的主体特征、关系特征、全局位置特征，其中第i个实体目标的特征分别表示为

以及文字序列第一目标的主体特征、关系特征、全局位置特征，分别表示为L^s、L^r、L¹。相关性计算将两者的特征分别进行内积计算，

最终得到相关性得分

匹配结果为文字序列对图像中各个实体目标的匹配程度，取匹配度最大的图像目标的坐标以及包围框大小为输出结果。将跨模态图-文匹配结果坐标与包围框大小还原至原图像坐标中，并根据机器输入要求转换为结构化指令信号。

实施例2

进一步的，作为对上述实施例所示方法的实现，本发明另一实施例还提供了一种基于图文匹配的智能人机交互装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。图3示出了本发明实施例提供的一种基于图文匹配的智能人机交互装置的组成框图。如图3所示，在该实施例的装置中，具有以下模块：

1、语音输入模块：用于收集用户的语音信息；

包括声音采集单元、信号去噪单元；声音采集单元使用麦克风将声音信号转换为数字信号；信号去噪单元将语音信息进行去噪的预处理操作，使用滤波器去除工频噪声以及其他冗余噪声。

2、语音识别模块：采用模板匹配语音识别算法将语音信息转为文字序列；其中模板匹配采用动态时间规整技术进行特征训练和识别，采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型，采用矢量量化技术进行信号压缩；

语音识别模块利用语音识别算法将语音信息转为文字序列。其中模板匹配的方法发展比较成熟。采用动态时间规整技术进行特征训练和识别、隐马尔可夫理论对语音信号的时间序列结构建立统计模型、矢量量化技术进行信号压缩。

3、图像获取模块：获取真实环境中的大量初始图像，记为初始图像组；对初始图像组数据进行裁剪和归一化预处理，去除重影、模糊等质量较差的图像，选取质量合格的图像作为合格原始图像；合格原始图像中包含多个实体目标；

图像获取模块包括摄像头、图像算法单元，其中摄像头实时采集真实环境的图像信息，采集的大量初始图像记为初始图像组。图像算法单元对获取的图像进行预处理操作，并选取质量合格的图像输入图像显示模块与跨模态图-文匹配模块。

4、跨模态图-文匹配模块：包括

图像处理单元：采用深度卷积神经网络对合格原始图像数据提取自然图像特征，自然图像特征包括但不限于目标特征、多目标定位、全局特征，分别对应于多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征；

文字解析单元：对文字序列提取第一目标特征，第一目标特征包括但不限于主体特征、关系特征、全局位置特征；

相关性计算单元：将自然图像特征与第一目标特征进行匹配计算，其中分别对多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征，与第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；匹配度计算得到的匹配结果为第一目标特征对合格原始图像中各实体目标的匹配程度，获取匹配度最大的实体目标在合格原始图像中的位置为跨模态图文匹配结果。

5、图像显示模块：用于将合格原始图像、跨模态图文匹配结果实时可视化展示给用户。

6、结构化指令模块：将图文匹配结果还原至合格原始图像中，并转换为结构化指令信号给机器，结构化指令信号用于使机器执行所述语音指令。

下面举出本发明实施例2的一个具体的应用场景。

请参考图1，其示出了本发明实施例提供的一种基于图文匹配的智能人机交互方法的应用流程图。

如图1所示：

1、系统开始运行后，进行参数配置与载入，由图像获取模块获取真实环境的实时图像，并输入图像显示模块进行图像的显示。此时进入判断使用者是否给出指令。

2、如果没有得到语音指令，则返回重新获取环境图像。

3、如果系统得到语音指令，则由语音输入模块获取语音信息，语音识别模块将语音信息转换为文字序列，输入跨模态图-文匹配模块进行图像信息和文字序列的匹配，并将匹配结果显示至图像显示模块；判断匹配结果是否正确。

4、如果没有得到匹配正确的语音指令，则返回重新获取语音信息。

5、如果得到匹配正确的语音指令，则将匹配结果生成结构化指令并发送至所控制的机器。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

Claims

1.一种基于图文匹配的智能人机交互方法，其特征在于，包括：

S1语音识别：收集用户的语音信息，采用模板匹配语音识别算法将所述语音信息转为文字序列；其中所述模板匹配采用动态时间规整技术进行特征训练和识别，采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型，采用矢量量化技术进行信号压缩；

S2图像识别：获取真实环境中的大量初始图像，记为初始图像组；对所述初始图像组数据进行裁剪和归一化预处理，选取质量合格的图像作为合格原始图像；所述合格原始图像中包含多个实体目标；

S3提取图文特征：采用深度卷积神经网络对所述合格原始图像数据提取自然图像特征，所述自然图像特征包括但不限于目标特征、多目标定位、全局特征，分别对应于所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征；对所述文字序列提取第一目标特征，所述第一目标特征包括但不限于主体特征、关系特征、全局位置特征；

S4图文匹配：将所述自然图像特征与所述第一目标特征进行匹配计算，其中分别对所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征，与所述第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；所述匹配度计算得到的匹配结果为所述第一目标特征对所述合格原始图像中各实体目标的匹配程度，获取匹配度最大的所述实体目标在所述合格原始图像中的位置为所述图文匹配结果。

2.根据权利要求1所述的基于图文匹配的智能人机交互方法，其特征在于，所述深度卷积神经网络由输入层、卷积层、激活函数、池化层、全连接层和输出层组成；所述卷积层采用二维卷积核在特征图中进行滑动卷积操作，用于深度特征提取；所述激活函数用于引入非线性因素，在训练过程中避免梯度消失；所述池化层于压缩数据和参数的数量，保留主要的特征同时减少参数和计算量；所述全连接层对特征进行降维，用于将分布式特征表示映射到样本标记空间。

3.根据权利要求1所述的基于图文匹配的智能人机交互方法，其特征在于，对所述文字序列提取所述第一目标特征包括步骤：

语言模型：使用基于预测的方法，将所述文字序列用向量的形式表示，生成嵌入式表达信息；

语义提取：采用双向长短期记忆人工神经网络对所述嵌入式表达信息进行特征表达，形成特征表达信息；

特征提取：采用自注意力机制结合可训练的权重参数，基于所述特征表达信息，提取所述语音信息所指向目标的主体特征、关系特征、全局位置特征为所述第一目标特征。

4.根据权利要求1所述的基于图文匹配的智能人机交互方法，其特征在于，所述匹配计算由多层感知计算、归一化计算、相关性计算构成；其中：多层感知计算是全连接的人工神经网络，能够进行参数学习与特征提取，用于进一步提取所述各实体目标特征及所述第一目标特征并将各图文特征统一至同一维度空间；归一化计算将所述图文特征分别作归一化计算；相关性计算将所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征分别与所述第一目标特征进行内积计算，获取相关性得分，根据所述相关性得分计算所述多个实体目标中每一个实体目标分别与所述第一目标特征的所述匹配结果。

5.根据权利要求1所述的基于图文匹配的智能人机交互方法，其特征在于，所述匹配度最大的所述实体目标在所述合格原始图像中的位置包括坐标参数及包围框参数，所述坐标位于包围框内部。

6.根据权利要求5所述的基于图文匹配的智能人机交互方法，其特征在于，将所述图文匹配结果还原至所述合格原始图像中，并转换为结构化指令信号给机器，所述结构化指令信号用于使所述机器执行所述语音指令。

7.一种基于图文匹配的智能人机交互装置，其特征在于，包括：

语音输入模块：用于收集用户的语音信息；

语音识别模块：采用模板匹配语音识别算法将所述语音信息转为文字序列；其中所述模板匹配采用动态时间规整技术进行特征训练和识别，采用隐马尔可夫模型对语音信号的时间序列结构建立统计模型，采用矢量量化技术进行信号压缩；

图像获取模块：获取真实环境中的大量初始图像，记为初始图像组；对所述初始图像组数据进行裁剪和归一化预处理，选取质量合格的图像作为合格原始图像；所述合格原始图像中包含多个实体目标；

跨模态图-文匹配模块：包括

图像处理单元：采用深度卷积神经网络对所述合格原始图像数据提取自然图像特征，所述自然图像特征包括但不限于目标特征、多目标定位、全局特征，所述目标特征包括但不限于所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征；

文字解析单元：对所述文字序列提取第一目标特征，所述第一目标特征包括但不限于主体特征、关系特征、全局位置特征；

相关性计算单元：将所述自然图像特征与所述第一目标特征进行匹配计算，其中分别对所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征，与所述第一目标特征的主体特征、关系特征、全局位置特征分别进行匹配度计算；所述匹配度计算得到的匹配结果为所述第一目标特征对所述合格原始图像中各实体目标的匹配程度，获取匹配度最大的所述实体目标在所述合格原始图像中的位置为所述跨模态图文匹配结果。

8.根据权利要求7所述的基于图文匹配的智能人机交互装置，其特征在于，还包括图像显示模块，用于将所述合格原始图像、所述跨模态图文匹配结果实时可视化展示给用户。

9.根据权利要求7所述的基于图文匹配的智能人机交互装置，其特征在于，还包括结构化指令模块，将所述图文匹配结果还原至所述合格原始图像中，并转换为结构化指令信号给机器，所述结构化指令信号用于使所述机器执行所述语音指令。

10.根据权利要求7所述的基于图文匹配的智能人机交互装置，其特征在于，所述相关性计算单元由多层感知子单元、归一化子单元、相关性子单元构成；其中：多层感知子单元是全连接的人工神经网络，能够进行参数学习与特征提取，用于进一步提取所述各实体目标特征及所述第一目标特征并将各图文特征统一至同一维度空间；归一化子单元将所述图文特征分别作归一化计算；相关性子单元将所述多个实体目标中每一个实体目标的主体特征、关系特征、全局位置特征分别与所述第一目标特征进行内积计算，获取相关性得分，根据所述相关性得分计算所述多个实体目标中每一个实体目标分别与所述第一目标特征的所述匹配结果。