CN112906425A

CN112906425A - 图像处理方法、控制方法、识别方法、装置和存储介质

Info

Publication number: CN112906425A
Application number: CN201911133424.4A
Authority: CN
Inventors: 陈必东
Original assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Current assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2021-06-04
Anticipated expiration: 2039-11-19
Also published as: CN112906425B

Abstract

本发明公开了一种图像处理方法，包括：获取第一图像，确定所述第一图像包括的第一目标图像和第二目标图像；分别识别所述第一目标图像和所述第二目标图像，获得第一识别结果和第二识别结果；根据所述第一识别结果和所述第二识别结果，确定目标识别结果。本发明还公开了一种控制方法、识别方法、装置和存储介质。本发明提供了语音和图像融合的图像处理方法，实现对错误或偏差的调整，提高识别的准确率。

Description

图像处理方法、控制方法、识别方法、装置和存储介质

技术领域

本发明涉及图像识别技术，特别涉及一种图像处理方法、控制方法、识别方法、装置和存储介质。

背景技术

人工智能是一种综合性交叉的学科领域，它由不同领域组成，如机器学习、计算机视觉、生物科学、神经网络科学、能源技术、基因工程、大数据等，人工智能研究的主要目的是让机器执行需要人类智能才能完成的复杂工作，最终服务于人。

图像能够给人传递一种很直观的视觉信息，也可用于传递加密信息，目前对图像的识别主要是运用人工智能技术进行图像识别，获得识别结果，这样的处理方法会因为图像中的干扰导致识别错误，识别准确率低。

发明内容

为解决上述技术问题，本发明实施例提供了一种图像处理方法、控制方法、识别方法、装置和存储介质。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种图像处理方法，应用于解密端，所述方法包括：

获取第一图像，确定所述第一图像包括的第一目标图像和第二目标图像；

分别识别所述第一目标图像和所述第二目标图像，获得第一识别结果和第二识别结果；根据所述第一识别结果和所述第二识别结果，确定目标识别结果。

上述方案中，所述第一目标图像为实物图，所述第二目标图像为声谱图时，所述分别识别所述第一目标图像和所述第二目标图像，包括：

对所述第一目标图像进行图像识别，获得第一识别结果，及，根据所述第二目标图像进行语音识别，获得第二识别结果。

上述方案中，所述第一识别结果，包括：至少一个第一内容；所述第二识别结果，包括：至少一个第二内容；

所述根据所述第一识别结果和所述第二识别结果，确定目标识别结果，包括：

确定所述第一识别结果对应的第一权重值，确定所述第二识别结果对应的第二权重值；

根据所述第一识别结果和所述第二识别结果确定至少一组内容对；所述内容对包括：相同的第一内容和第二内容；

根据所述第一权重值、第二权重值、第一内容和第二内容进行加权处理，获得加权处理结果；

根据所述至少一组内容对的加权处理结果，确定目标识别结果。

本发明实施例还提供了一种图像处理方法，应用于加密端，所述方法包括：

获取第一图像数据和第一语音数据；

确定所述第一语音数据的声谱图；根据所述第一图像数据和所述声谱图，生成第一图像。

上述方案中，所述根据所述第一图像数据和所述声谱图，生成第一图像，包括：

根据所述声谱图建立对应的声纹模型，从所述声纹模型中提取语音频谱参数；

将所述语音频谱参数转化为比特数据，将所述比特数据叠加到第一图像数据，叠加比特数据后的第一图像数据，作为所述第一图像；其中，所述比特数据显示为水印。

本发明实施例又提供了一种控制方法，所述方法包括：

获取第一待处理图像，确定所述第一待处理图像包括的第一待处理目标图像和第二待处理目标图像；所述第一待处理目标图像为实物图，所述第二待处理目标图像为声谱图；

根据所述第二待处理目标图像，获得第二待处理语音数据；将所述第一待处理目标图像和预设图像数据进行匹配，获得第一匹配结果；将所述第二待处理语音数据和预设声音数据进行匹配，获得第二匹配结果；所述预设图像数据和所述预设声音数据针对同一目标体；

根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果。

上述方案中，所述根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果，包括：

确定所述第一匹配结果超过预设第一阈值、所述第二匹配结果超过预设第二阈值，确定相应操作，作为所述目标处理结果。

本发明实施例还提供了一种识别方法，所述方法包括：

获取第三待处理图像，确定所述第三待处理图像包括的第三待处理目标图像和第四待处理目标图像；所述第三待处理目标图像为实物图，所述第四待处理目标图像为声谱图；

识别所述第三待处理目标图像中的物体，确定第三识别结果；根据所述第四待处理目标图像，获得第四待处理语音数据，识别所述第四待处理语音数据，确定第四识别结果；

根据所述第三识别结果和所述第四识别结果，确定目标物体。

本发明实施例还提供了一种图像处理装置，所述装置包括：第一处理模块和第二处理模块；其中，

所述第一处理模块，用于获取第一图像，确定所述第一图像包括的第一目标图像和第二目标图像；

所述第二处理模块，用于分别识别所述第一目标图像和所述第二目标图像，获得第一识别结果和第二识别结果；根据所述第一识别结果和所述第二识别结果，确定目标识别结果。

本发明实施例还提供了一种图像处理装置，所述装置包括：第三处理模块和第四处理模块；其中，

所述第三处理模块，用于获取第一图像数据和第一语音数据；

所述第四处理模块，用于确定所述第一语音数据的声谱图；根据所述第一图像数据和所述声谱图，生成第一图像。

本发明实施例还提供了一种控制装置，所述装置包括：第五处理模块、第六处理模块和第七处理模块；其中，

所述第五处理模块，用于获取第一待处理图像，确定所述第一待处理图像包括的第一待处理目标图像和第二待处理目标图像；所述第一待处理目标图像为实物图，所述第二待处理目标图像为声谱图；

所述第六处理模块，用于根据所述第二待处理目标图像，获得第二待处理语音数据；将所述第一待处理目标图像和预设图像数据进行匹配，获得第一匹配结果；将所述第二待处理语音数据和预设声音数据进行匹配，获得第二匹配结果；所述预设图像数据和所述预设声音数据针对同一目标体；

所述第七处理模块，用于根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果。

本发明实施例还提供了一种识别装置，所述装置包括：第八处理模块、第九处理模块和第十处理模块；其中，

所述第八处理模块，用于获取第三待处理图像，确定所述第三待处理图像包括的第三待处理目标图像和第四待处理目标图像；所述第三待处理目标图像为实物图，所述第四待处理目标图像为声谱图；

所述第九处理模块，用于识别所述第三待处理目标图像中的物体，确定第三识别结果；根据所述第四待处理目标图像，获得第四待处理语音数据，识别所述第四待处理语音数据，确定第四识别结果；

所述第十处理模块，用于根据所述第三识别结果和所述第四识别结果，确定目标物体。

本发明实施例还提供了一种图像处理装置，所述装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行解密端侧任一项所述方法的步骤，或者，执行加密端侧任一项所述方法的步骤，或者，执行任一项所述控制方法的步骤，或者，所述识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现解密端侧任一项所述方法的步骤，或者，执行加密端侧任一项所述方法的步骤，或者，执行任一项所述控制方法的步骤，或者，所述识别方法的步骤。

本发明实施例所提供的图像处理方法、装置和存储介质，获取第一图像，确定所述第一图像包括的第一目标图像和第二目标图像；分别识别所述第一目标图像和所述第二目标图像，获得第一识别结果和第二识别结果；根据所述第一识别结果和所述第二识别结果，确定目标识别结果。由此，本发明实施例的方案，通过获得第一目标图像和第二目标图像，并对第一目标图像和第二目标图像分别进行识别，根据识别结果确定最终的目标识别结果，实现对错误或偏差的调整，提高识别的准确率。

本发明实施例所提供的图像处理方法、装置和存储介质，获取第一图像数据和第一语音数据；确定所述第一语音数据的声谱图；根据所述第一图像数据和所述声谱图，生成第一图像。由此，本发明实施例的方案，将语音(即第一语音数据)与图像(即第一图像数据)融合在一起，不仅能够加密一些重要的语音数据，还能够提高图像识别率；另外，将语音数据转换为声谱图，还可以实现超大文件的加密处理快速传输，解决因为网络带宽或者网络传输速度的影响。

本发明实施例所提供的控制方法、装置和存储介质，获取第一待处理图像，确定所述第一待处理图像包括的第一待处理目标图像和第二待处理目标图像；所述第一待处理目标图像为实物图，所述第二待处理目标图像为声谱图；根据所述第二待处理目标图像，获得第二待处理语音数据；将所述第一待处理目标图像和预设图像数据进行匹配，获得第一匹配结果；将所述第二待处理语音数据和预设声音数据进行匹配，获得第二匹配结果；所述预设图像数据和所述预设声音数据针对同一目标体；根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果。由此，本发明实施例的方案，通过将针对图像的第一匹配结果和针对语音的第二匹配结果结合，得到最终的目标处理结果，可以避免在人多嘈杂的环境，仅根据图像识别(如人脸识别)所导致的差错，将声音识别和图像识别结合在一起，提高控制的准确度。

本发明实施例所提供的识别方法、装置和存储介质，获取第三待处理图像，确定所述第三待处理图像包括的第三待处理目标图像和第四待处理目标图像；所述第三待处理目标图像为实物图，所述第四待处理目标图像为声谱图；识别所述第三待处理目标图像中的物体，确定第三识别结果；根据所述第四待处理目标图像，获得第四待处理语音数据，识别所述第四待处理语音数据，确定第四识别结果；根据所述第三识别结果和所述第四识别结果，确定目标物体。由此，本发明实施例的方案，将图像识别和声音识别结合，可以避免仅根据图像识别所导致的差错，将声音识别和图像识别结合在一起，提高识别的准确度。

附图说明

图1为本发明实施例提供的一种图像处理方法的流程示意图；

图2为本发明实施例提供的另一种图像处理方法的流程示意图；

图3为本发明实施例提供的一种图像处理系统的结构示意图；

图4为本发明实施例提供的再一种图像处理方法的流程示意图；

图5为本发明实施例提供的一种控制方法的流程示意图；

图6为本发明实施例提供的一种识别方法的流程示意图；

图7为本发明实施例提供的一种图像处理装置的结构示意图；

图8为本发明实施例提供的另一种图像处理装置的结构示意图；

图9为本发明实施例提供的一种控制装置的结构示意图；

图10为本发明实施例提供的一种识别装置的结构示意图；

图11为本发明实施例提供的再一种图像处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于所描述的本发明的实施例，本领域技术人员所获得的所有其他实施例，都属于本发明保护范围。

图1为本发明实施例提供的一种图像识别方法的流程示意图；如图1所示，所述方法可以应用于第一终端，所述第一终端可以包括：智能手机、平板电脑、电脑等设备，还可以包括：电饭煲、电压力锅、自动炒菜机、冰箱、洗衣机、热水器等智能家电；所述方法包括：

步骤101、获取第一图像，确定所述第一图像包括的第一目标图像和第二目标图像。

具体地，所述第一目标图像或所述第二目标图像为声谱图；即所述第一目标图像为实物图时，所述第二目标图像为声谱图；或者，所述第二目标图像为实物图时，所述第一目标图像为声谱图。

所述确定所述第一图像包括的第一目标图像和第二目标图像，包括：

从所述第一图像中提取第一图像数据，作为第一目标图像或第二目标图像；

从所述第一图像中提取叠加到所述第一图像数据上的声谱图，作为所述第二目标图像或第一目标图像。

这里，所述从第一图像中提取叠加到所述第一图像数据上的声谱图，包括：

从第一图像中盲提取叠加到所述第一图像数据上的水印，即比特数据；根据所述比特数据确定所述声谱图。

这里，可以采用任意一种盲提取方法以实现提取所述水印，这里不做限定；例如所述盲提取可以采用扩频水印的盲提取方法、离散小波变换和离散余弦变换域的扩频水印盲提取方法等。

具体来说，所述第一图像数据上可以叠加不可见水印，所述不可见水印实际可以是比特数据，所述第一终端确定所述第一图像数据上的比特数据，运用量化索引调制(QIM，Quantization Index Modulation)算法，根据所述比特数据确定对应的语音频谱参数；再运用高斯混合模型，根据所述语音频谱参数确定对应的声纹模型，基于所述声纹模型确定所述第一语音数据对应的声谱图；根据所述声谱图即可确定第一语音数据。即这里可以采用基于高斯混合模型的声纹识别方法。

步骤102、分别识别所述第一目标图像和所述第二目标图像，获得第一识别结果和第二识别结果。

具体地，以下以所述第一目标图像为实物图、所述第二目标图像为声谱图为例，对所述分别识别所述第一目标图像和所述第二目标图像进行说明。

所述分别识别所述第一目标图像和所述第二目标图像，包括：

具体来说，所述第一图像，可以包括以下至少一个信息：第一图像数据和第一语音数据。所述确定所述第一图像包括的第一目标图像和第二目标图像，并识别获得的所述第一目标图像和所述第二目标图像，实际是为了从所述第一图像中提取第一图像数据以及叠加到所述第一图像数据上的声谱图，根据所述声谱图确定第一语音数据；从而，对第一图像的识别过程，结合了图像识别和语音识别，根据两个识别结果(指图像识别结果和语音识别结果)确定最终的识别结果，可以提高识别的准确率。

步骤103、根据所述第一识别结果和所述第二识别结果，确定目标识别结果。

具体地，所述第一识别结果，包括：至少一个第一内容；所述第二识别结果，包括：至少一个第二内容；

所述根据所述第一权重值、第二权重值、第一内容和第二内容进行加权处理，获得加权处理结果，包括：

将第一权重值乘以第一内容，第二权重值乘以第二内容，分别获得处理结果；

将针对相同内容(即相同的第一内容和第二内容)的处理结果相加，获得最终的加权处理结果。

所述根据所述至少一组内容对的加权处理结果，确定目标识别结果，包括：选择权值最高的内容对中的内容，作为目标识别结果。

在实际应用中，根据所述第一识别结果和所述第二识别结果确定目标识别结果，可以采用一个神经网络。具体来说，可以在进行图像识别的神经网络最后一层全连接层到softma之间乘以一个加权系数矩阵，而加权系数矩阵是通过语音识别和语义理解并结合Attention机制进行自动编码处理，编码处理后的序列再乘以一个加权系数矩阵，得到一个针对图像识别结果的一个对抗纠错的方法(图像识别结果和语音识别结果若为正例则乘以高阈值，负例则乘以低阈值)。通过这种方法能够在一定程度提高开放场景下的图像识别准确性。这里所述的语义理解可以采用自然语言处理(NLP，Natural Language Processing)/自然语言理解(NLU，Natural Language Understanding)。

需要说明的是，所述第一权重值和第二权重值可以由开发人员预先设定并保存。所述第一权重值和第二权重值也可以基于图像识别结果和语音识别结果的语义相似度，确定不同的权重值，不同的语义相似度对应不同的权重值(语音相似度越高，则权重值越高，反之，语音相似度越低，权重值越低)，最后能够推荐出一种可靠的目标识别结果。

具体来说，假设对第一图像数据进行图像识别，获得的结果包括：桌子、大米；桌子的权重大于大米的权重。对第一语音数据的语音识别，获得结果为“今天的五常大米很好吃”，注意力(Attentin)机制关注到了“五常大米”，从而通过Attention对“大米”进行加权处理，加权之后“大米”的权重可以为第一，从而修正并降低了识别错误率。

具体地，所述步骤101之前，所述方法还可以包括：

确定所述第一图像内叠加预设的校验码时，根据预设的校验码处理规则对所述第一图像进行解密，获得解密后的第一图像。

所述预设的校验码处理规则，可以是开发人员预先设定并保存的。所述预设的校验码处理规则与所述预设的校验码对应，所述校验码可以是一种加密密钥，相应的，所述校验码处理规则可以包括一种对应的解密密钥。这里，所述第一图像内叠加校验码，可以起到防篡改功能。

图2为本发明实施例提供的一种图像处理方法的流程示意图；如图2所示，所述方法可以应用于第二终端，所述第二终端可以包括：智能手机、平板电脑、电脑等设备，还可以包括：电饭煲、电压力锅、自动炒菜机、冰箱、洗衣机、热水器等智能家电；所述方法包括：

步骤201、获取第一图像数据和第一语音数据；

这里，所述第一图像数据展示的内容和第一语音数据表现的内容对应；具体来说，第一图像数据展示了物体A，则所述第一语音数据至少用以说明物体A。假设第一图像数据展示了大米，则第一语音数据可以是“今天的五常大米很好吃”，即第一语音数据说明了大米。

步骤202、确定所述第一语音数据的声谱图；根据所述第一图像数据和所述声谱图，生成第一图像。

具体地，所述根据所述第一图像数据和所述声谱图，生成第一图像，包括：

将所述语音频谱参数转化为比特数据，将所述比特数据叠加到第一图像数据，叠加比特数据后的第一图像数据，作为所述第一图像；所述比特数据显示为水印。

具体来说，这里可以运用高斯混合模型，根据所述声谱图建立对应的声纹模型，从所述声纹模型中提取语音频谱参数；

运用量化索引调制(QIM，Quantization Index Modulation)算法，将所述语音频谱参数转化为比特数据，将所述比特数据叠加到第一图像数据，叠加比特数据后的第一图像数据，作为所述第一图像。

具体地，所述将所述比特数据叠加到第一图像数据之前，所述方法还包括：

生成所述第一图像数据的深度图像，对所述深度图像进行高斯滤波处理，获得第一处理结果图像；

对所述第一处理结果图像进行图像边缘提取，获得边缘图像；

对所述边缘图像进行图像形态学操作，获得第二处理结果图像；

根据所述第二处理结果图像，生成包围盒(BoundingBox)；

根据所述BoundingBox生成彩色图像；

运用多层感知机模型识别所述彩色图像中的目标物体；

获得包含所述目标物体的第三处理结果图像。

相应的，所述将所述比特数据叠加到第一图像数据，包括：将所述比特数据叠加到所述第三处理结果图像。

所述方法还可以包括：将预设的校验码叠加所述第一图像数据中的特征部位，从而可以起到防篡改功能。

以上所述的将所述比特数据叠加到第一图像数据，可以采用生物特征信息水印算法实现，即所述比特数据作为所述第一图像数据的水印，从而实现对第一图像数据的加密。

需要说明的是，图1中所述的对所述第一图像进行识别与图2所述的根据所述第一图像数据和所述语音频谱参数生成第一图像，是对应的反向操作过程；第一终端和第二终端可以采用对应的反向操作的方法，分别识别第一图像和生成第一图像。

以下对QIM实现音频信息伪装方法进一步说明；图1中，应用QIM原理，以量化的方式叠加信息(即将比特数据叠加到第一图像数据，实现不可见水印叠加)；图2中，从所述第一图像数据中提取第二图像数据，可以根据量化区间与信息比特的映射关系提取信息，可实现盲提取。

本实施例中，采用QIM针对信息提取的误码，在叠加端(即第二终端)与提取端(第一终端)进行容错处理，保证了隐藏信息的强鲁棒性；隐藏容量大，可达357.6b/s。

结合上述图1和图2所示的方法，基于声谱图与图像数据的融合识别方法，将声谱图加入图像数据中，提高网络传输的安全性，同时基于声谱图和图像两个模态的识别系统，提高识别效率。运用生物特征信息水印算法，将声谱图的语音频谱参数以水印方式叠加到图片，并有效提高远程传输后的图像与声音两种生物特征融合的识别率。利用高斯混合模型建立声纹模型，获得模型参数后，采用自适应QIM算法，将声纹参数转化为比特叠加到图像图片中。同时也可将校验码叠加图像特征部位，起到防篡改功能。

需要说明的是，本发明实施例中涉及到水印的提取和叠加；提取水印、水印叠加除上述方法外，还可以采用任意一种其他算法；例如，可以采用基于小波变换的数字水印叠加和提取算法、基于离散余弦变换(DCT)的水印叠加和提取算法。

具体来说，所述水印叠加可以包括：提取待嵌入生物(即所述比特数据)特征，根据所述待嵌入生物特征生成水印，将所述水印嵌入到相应的图像中。相反的，可以从相应图像中提取水印，对提取的水印进行解码，以得到待嵌入生物特征。

通过上述方案，将语音信息与图像信息融合在一起，不仅能够加密一些重要的语音数据，同时还能够解决因为网络带宽或者网络传输速度的影响，还能够提高图像识别率，从而实现了超大文件的加密处理快速传输的目的。具体来说，将语音数据转换为声谱图，图像的大小远小于语音的大小，从而可以提高传输速率，另外，通过叠加水印的方法将声谱图叠加在其他图像中，可以实现对语音数据的加密处理和快速传输。

图3为本发明实施例提供的一种图像处理系统的流程示意图；如图3所示，所述图像处理系统，包括：第一采集模块、第二采集模块、图形处理模块、识别服务模块、人机交互模块。其中，第一采集模块、第二采集模块、图形处理模块可以与第一终端交互，或者，所述第一终端包括第一采集模块、第二采集模块、图形处理模块。所述识别服务模块、人机交互模块可以与第二终端交互，或者所述第二终端包括：识别服务模块、人机交互模块。

所述第一采集模块，用于获取声音数据，确定声音数据的声谱图；将所述声谱图中提取的语音频谱参数化为一个水印图像(具体可以是一个低分辨率的水印图像)。

所述第二采集模块，用于获取图像数据，即第一图像数据。

所述图形处理模块，用于根据所述水印图像和所述图像数据，生成目标图像。

所述识别服务模块，用于对所述目标图像进行识别，获得识别结果。

所述人机交互模块，用于展示所述识别结果。

具体来说，第一采集模块，用于运用高斯混合模型，根据所述声谱图建立对应的声纹模型，从所述声纹模型中提取语音频谱参数，将语音频谱参数化为一个水印图像。

所述图形处理模块，用于根据所述第一图像数据生成深度图像，对所述深度图像进行高斯滤波处理获得第一处理结果图像；对所述第一处理结果图像进行图像边缘提取，获得边缘图像；对所述边缘图像进行图像形态学操作，获得第二处理结果图像；根据所述第二处理结果图像，生成包围盒(BoundingBox)；根据所述BoundingBox生成彩色图像；运用多层感知机模型识别所述彩色图像中的目标物体；获得包含所述目标物体的第三处理结果图像；

将语音频谱参数转化为比特数据，将所述比特数据叠加到第三处理结果图像，叠加比特数据后的第三处理结果图像，作为所述目标图像。

相应的，所述识别服务模块，用于从所述目标图像提取第三处理结果图像；以及，确定所述目标图像上的比特数据；运用QIM算法根据所述比特数据确定对应的语音频谱参数；再运用高斯混合模型，根据所述语音频谱参数确定对应的声纹模型，基于所述声纹模型确定所述第一语音数据对应的声谱图，根据所述声谱确定第一语音数据；

分别识别所述第一语音数据和第三处理结果图像，获得第一识别结果和第二识别结果，根据所述第一识别结果和所述第二识别结果，确定目标识别结果。

所述人机交互模块，用于识别结果呈现在用户界面(UI)端给用户阅读、以及将识别结果通过功能集成方式使用，如识别结果可以调用AR模型、可以将设备的型号和使用说明书展示给用户。

图4为本发明实施例提供的再一种图像处理方法的流程示意图；如图4所示，所述方法结合了图2所示的方法和图1所示的方法，对图像和音频的融合以及对融合后的图像的识别，进行说明。结合附图4具体来说，所述方法包括：

获取包含食材、人脸的图像，记做第一图像数据。

获取第一语音数据，确定所述第一语音数据的声谱图，根据所述声谱图提取语音特征，根据提取的特征建立对应的声纹模型，从所述声纹模型中提取语音频谱参数。

将所述语音频谱参数叠加到第一图像数据中；具体为将所述语音频谱参数转化为比特数据，将所述比特数据叠加到第一图像数据。

获得含音频信息的图像，记做目标图像。

传输所述目标图像，其他设备获得所述目标图像后对其进行识别；具体来说，从所述目标图像中提取第一图像数据，以及，从所述第一图像中提取叠加到所述第一图像数据上的语音频谱参数，根据语音频谱参数，获得第一语音数据对应的声谱图。

运用NLP/NLU对声谱图进行语音识别，获得语音识别结果。

运用基于卷积神经网络的图像识别系统对第一图像数据进行图像识别，获得图像识别结果。

引入Attention机制，通过语音识别结果和一个加权系数矩阵，针对图像识别结果进行纠错，获得最终的结果，即针对目标图像的至少一个识别结果的概率分布直方图，选择权值最高的识别结果作为所述目标图像的识别结果。

需要说明的是，上述获得目标图像之前，还可以在第一图像数据中叠加加密密钥，即所述校验码，以实现防篡改功能。相应的，所述获得所述目标图像后对其进行识别之前，需根据预设的校验码处理规则对所述目标图像进行解密，获得解密后的目标图像。

以下提供一种具体地实施例，具体为一种运用上述图像处理方法进行控制的方法；如图5所示，所述控制方法包括：

步骤501、获取第一待处理图像，确定所述第一待处理图像包括的第一待处理目标图像和第二待处理目标图像；所述第一待处理目标图像为实物图，所述第二待处理目标图像为声谱图；

步骤502、根据所述第二待处理目标图像，获得第二待处理语音数据；

步骤503、将所述第一待处理目标图像和预设图像数据进行匹配，获得第一匹配结果；将所述第二待处理语音数据和预设声音数据进行匹配，获得第二匹配结果；所述预设图像数据和所述预设声音数据针对同一目标体；

步骤504、根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果。

具体地，所述步骤501-步骤504可以如图1所示应用于解密端；步骤501具体处理过程可以参考图1中的方法，将第一待处理图像相当于图1所示方法的第一图像，第一待处理目标图像相当于第一目标图像，第二待处理目标图像相当于第二目标图像，这里不多赘述。

针对步骤502来说，所述第二待处理目标图像为声谱图，从而根据所述声谱图可以确定对应的语音，即获得所述第二待处理语音数据。

所述步骤503中的预设声音数据和预设图像数据为用户预先设置的声音和图像，所述声音为用户的声音，所述图像为用户的面部图像，且所述预设声音数据和预设图像数据存在对应关系，即针对同一目标体，这里指针对同一人。

通过将所述第一处理结果和预设声音数据进行匹配，获得第一匹配结果，根据第一匹配结果确定第一处理结果中的人脸图像和所述预设图像数据是否为同一人。

相应的，通过将所述获得第二待处理语音数据和预设声音数据进行匹配，获得第二匹配结果，根据所述第二匹配结果可以确定第二处理结果中的人的声音和所述预设声音数据是否为同一人的声音。

步骤504中，根据所述第一匹配结果和所述第二匹配结果，确定图像针对同一人、声音针对同一人，则可以确定目标处理结果，即执行风随人动操作。所述风随人动指目标体跟随目标人物行动，如电风扇跟随目标人物(及上述图像和声音针对的同一人)转动。通过上述方法可以避免在人多嘈杂的环境，仅根据人脸识别所导致的差错。将声音识别和图像识别结合在一起，提高控制的准确度。

具体地，所述根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果，包括：

这里，所述预设第一阈值和所述预设第二阈值由开发人员预先设定并保存。

在一实施例中，所述方法可以应用执行风随人动的电器(即该电器为解密端)，如电风扇，所述电风扇连接有包括声音采集模块和图像采集模块，并发送第一待处理图像的设备。

在另一实施例中，所述方法还可以应用于与所述执行风随人动的电器相连接的设备(即相连的设备为解密端)，如云服务器，所述执行风随人动的电器包括有声音采集模块和图像采集模块，根据采集的声音和图像生成第一待处理图像。此时，所述执行风随人动的电器可以采用如图2所示的方法，生成第一待处理图像，这里不再赘述。生成第一待处理图像后将其发送给云服务器，云服务器执行上述步骤501-504的操作，并将确定的目标处理结果发送给所述执行风随人动的电器，由其根据目标处理结果执行相应的操作。

以下提供一种具体地实施例，具体为一种运用上述图像处理方法进行识别的方法；如图6所示，所述识别方法包括：

步骤601、获取第三待处理图像，确定所述第三待处理图像包括的第三待处理目标图像和第四待处理目标图像；所述第三待处理目标图像为实物图，所述第四待处理目标图像为声谱图；

步骤602、识别所述第三待处理目标图像中的物体，确定第三识别结果；根据所述第四待处理目标图像，获得第四待处理语音数据，识别所述第四待处理语音数据，确定第四识别结果；

步骤603、根据所述第三识别结果和所述第四识别结果，确定目标物体。

具体地，所述步骤601-步骤603可以如图1所示应用于解密端；步骤601具体处理过程可以参考图1中的方法，将第三待处理图像相当于图1所示方法的第一图像，第三待处理目标图像相当于第一目标图像，第四待处理目标图像相当于第二目标图像，这里不多赘述。

针对步骤602来说，所述第四待处理目标图像为声谱图，从而根据所述声谱图可以确定对应的语音，即获得所述第四待处理语音数据。

所述识别所述第三待处理目标图像中的物体，确定第三识别结果，可以采用预设的图像识别模型进行图像识别，以确定物体作为第三识别结果。

所述识别所述第四待处理语音数据，确定第四识别结果，可以采用预设的语音识别模型进行语音识别，以得到第四识别结果。

当所述第四待处理语音数据和所述第三待处理图像对应同一物体时，所述第三识别结果和所述第四识别结果相同；通过将所述第三识别结果和所述第四识别结果进行匹配，确定是否针对同一物体，即获得目标物体。

具体地，所述根据所述第三识别结果和所述第四识别结果，确定目标物体，包括：

确定所述第三识别结果对应的第一权重值，确定所述第四识别结果对应的第二权重值；

根据所述第三识别结果和所述第四识别结果确定至少一组内容对；所述内容对包括：相同的第一内容和第二内容；

根据所述至少一组内容对的加权处理结果，确定目标物体。

所述根据所述至少一组内容对的加权处理结果，确定目标物体，包括：选择权值最高的内容对中的内容，作为目标物体。

在一实施例中，上述识别方法可以具体应用于物体识别，举例来说，对于大米的识别；对第四待处理语音数据的语音识别，获得结果(即第三识别结果)为“今天的五常大米很好吃”，对第三待处理目标图像进行图像识别，得到结果(即第四识别结果)为“大米”，两者结果一致，则确定最终的结果、即目标物体为“大米”。相应的，所述识别方法可以应用于电饭煲、冰箱等家电设备，也可以应用于与所述电饭煲、冰箱等家电设备通信的云服务器端，这里不作限定。

图7为本发明实施例提供的一种图像处理装置的结构示意图；如图7所示，所述装置，包括：第一处理模块、第二处理模块。

具体地，所述第一处理模块，用于从所述第一图像中提取第一图像数据，作为第一目标图像或第二目标图像；

具体地，所述第二处理模块，用于确定所述第一目标图像为实物图、所述第二目标图像为声谱图，对所述第一目标图像进行图像识别，获得第一识别结果，及，根据所述第二目标图像进行语音识别，获得第二识别结果。

所述第二处理模块，用于确定所述第一识别结果对应的第一权重值，确定所述第二识别结果对应的第二权重值；

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像处理装置与图1所示的图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8为本发明实施例提供的一种图像处理装置的结构示意图；如图8所示，所述装置，包括：第三处理模块、第四处理模块。其中，

所述第四处理模块，用于根据所述声谱图建立对应的声纹模型，从所述声纹模型中提取语音频谱参数；

将所述语音频谱参数转化为比特数据，将所述比特数据叠加到第一图像数据，叠加比特数据后的第一图像数据，作为所述第一图像。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像处理装置与图2所示的图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9为本发明实施例提供的一种控制装置的结构示意图；如图9所示，所述装置包括：第五处理模块、第六处理模块和第七处理模块；其中，

具体地，所述第七处理模块，具体用于确定所述第一匹配结果超过预设第一阈值、所述第二匹配结果超过预设第二阈值，确定相应操作，作为所述目标处理结果。

需要说明的是：上述实施例提供的控制装置在进行控制时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的控制装置与图5所示的控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10为本发明实施例提供的一种识别装置的结构示意图；如图10所示，所述装置包括：第八处理模块、第九处理模块和第十处理模块；其中，

需要说明的是：上述实施例提供的识别装置在进行图像识别时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的识别装置与图6所示的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

为实现本发明实施例的方法，本发明实施例提供一种处理装置，如图11所示，该装置110包括：处理器111和用于存储能够在所述处理器上运行的计算机程序的存储器112；所述装置应用于第一终端时，所述处理器111用于运行所述计算机程序时，执行：获取第一图像，确定所述第一图像包括的第一目标图像和第二目标图像；分别识别所述第一目标图像和所述第二目标图像，获得第一识别结果和第二识别结果；根据所述第一识别结果和所述第二识别结果，确定目标识别结果。

在一实施例中，所述处理器111用于运行所述计算机程序时，执行：确定所述第一目标图像为实物图、所述第二目标图像为声谱图，对所述第一目标图像进行图像识别，获得第一识别结果，及，根据所述第二目标图像进行语音识别，获得第二识别结果。

在一实施例中，所述处理器111用于运行所述计算机程序时，执行：确定所述第一识别结果对应的第一权重值，确定所述第二识别结果对应的第二权重值；根据所述第一识别结果和所述第二识别结果确定至少一组内容对；所述内容对包括：相同的第一内容和第二内容；根据所述第一权重值、第二权重值、第一内容和第二内容进行加权处理，获得加权处理结果；根据所述至少一组内容对的加权处理结果，确定目标识别结果。

所述装置应用于第二终端时，所述处理器111用于运行所述计算机程序时，执行：获取第一图像数据和第一语音数据；确定所述第一语音数据的声谱图；根据所述第一图像数据和所述声谱图，生成第一图像。

在一实施例中，所述处理器111用于运行所述计算机程序时，执行：根据所述声谱图建立对应的声纹模型，从所述声纹模型中提取语音频谱参数；将所述语音频谱参数转化为比特数据，将所述比特数据叠加到第一图像数据，叠加比特数据后的第一图像数据，作为所述第一图像。

需要说明的是：上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

所述装置应用于第三终端时，所述处理器111用于运行所述计算机程序时，执行：获取第一待处理图像，确定所述第一待处理图像包括的第一待处理目标图像和第二待处理目标图像；所述第一待处理目标图像为实物图，所述第二待处理目标图像为声谱图；根据所述第二待处理目标图像，获得第二待处理语音数据；将所述第一待处理目标图像和预设图像数据进行匹配，获得第一匹配结果；将所述第二待处理语音数据和预设声音数据进行匹配，获得第二匹配结果；所述预设图像数据和所述预设声音数据针对同一目标体；根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果。

在一实施例中，所述处理器111用于运行所述计算机程序时，执行：确定所述第一匹配结果超过预设第一阈值、所述第二匹配结果超过预设第二阈值，确定相应操作，作为所述目标处理结果。

需要说明的是：上述应用于第三终端的实施例提供的处理装置与控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

所述装置应用于第四终端时，所述处理器111用于运行所述计算机程序时，执行：获取第三待处理图像，确定所述第三待处理图像包括的第三待处理目标图像和第四待处理目标图像；所述第三待处理目标图像为实物图，所述第四待处理目标图像为声谱图；识别所述第三待处理目标图像中的物体，确定第三识别结果；根据所述第四待处理目标图像，获得第四待处理语音数据，识别所述第四待处理语音数据，确定第四识别结果；根据所述第三识别结果和所述第四识别结果，确定目标物体。

需要说明的是：上述应用于第四终端的实施例提供的处理装置与识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

当然，实际应用时，如图11所示，该装置110还可以包括：至少一个网络接口113。图像处理装置110中的各个组件通过总线系统114耦合在一起。可理解，总线系统114用于实现这些组件之间的连接通信。总线系统114除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图11中将各种总线都标为总线系统114。其中，所述处理器111的个数可以为至少一个。网络接口113用于图像处理装置110与其他设备之间有线或无线方式的通信。本发明实施例中的存储器112用于存储各种类型的数据以支持装置110的操作。

上述本发明实施例揭示的方法可以应用于处理器111中，或者由处理器111实现。处理器111可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器111中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器111可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器111可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器112，处理器111读取存储器112中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，所述图像处理装置110可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

具体地，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，例如包括存储计算机程序的存储器112，上述计算机程序可由处理器111执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，应用于解密端，所述方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一目标图像为实物图，所述第二目标图像为声谱图时，所述分别识别所述第一目标图像和所述第二目标图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一识别结果，包括：至少一个第一内容；所述第二识别结果，包括：至少一个第二内容；

4.一种图像处理方法，其特征在于，应用于加密端，所述方法包括：

获取第一图像数据和第一语音数据；

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一图像数据和所述声谱图，生成第一图像，包括：

6.一种控制方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一匹配结果和所述第二匹配结果，确定目标处理结果，包括：

8.一种识别方法，其特征在于，所述方法包括：

9.一种图像处理装置，其特征在于，所述装置包括：第一处理模块和第二处理模块；其中，

10.一种图像处理装置，其特征在于，所述装置包括：第三处理模块和第四处理模块；其中，

11.一种控制装置，其特征在于，所述装置包括：第五处理模块、第六处理模块和第七处理模块；其中，

12.一种识别装置，其特征在于：所述装置包括：第八处理模块、第九处理模块和第十处理模块；其中，

13.一种图像处理装置，其特征在于，所述装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行权利要求1至3任一项所述方法的步骤，或者，执行权利要求4或5所述方法的步骤，或者，执行权利要求6或7所述方法的步骤，或者，权利要求8所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3任一项所述方法的步骤，或者，执行权利要求4或5所述方法的步骤，或者，执行权利要求6或7所述方法的步骤，或者，权利要求8所述方法的步骤。