CN107832339A

CN107832339A - 基于卷积神经网络的声波图像转声音方法

Info

Publication number: CN107832339A
Application number: CN201710947896.8A
Authority: CN
Inventors: 赵胜男; 李生晖
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-03-23

Abstract

本发明公开了基于卷积神经网络的声波图像转声音方法，属于图像处理技术领域，其中该方法包括对待检测图片进行特征提取、相似度计算和查找索引结果，本发明基于卷积神经网络的声波图像转声音方法，实现了对声波图形的特征提取和识别，并输出声波图形相对应的声音信号，同时在相似度计算上通过设定阈值，提高了计算效率，在图片和声音数据库中利用深度学习方式提取图片特征，使得对图像有更精准的描述。

Description

基于卷积神经网络的声波图像转声音方法

技术领域

本发明涉及图像处理技术领域，尤其涉及基于卷积神经网络的声波图像转声音方法。

背景技术

目前任何一段声音可输出为声波图形，但声波图形由于其复杂性不能直接被识别为原来对应的声音；也就是还没有一个完整的系统和技术可以完成声波图形（比如纹身在身上）到声音的转换。

目前信息载体的识别，以识别二维码为主，但二维码在美观性和可设计性方面不足，而声波图形同样可以作为信息载体，通过图形识别输出图形对应的声音等信息，在美观性和可设计性方面有优势。

目前的图像检索系统一般都是使用传统的特征提取技术比如sift，gist等，但是这样的技术存在一定的检索错误率，并且当数据量很大时运算时间很长。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明要解决的技术问题是克服现有的技术缺陷，提供基于卷积神经网络的声波图像转声音方法，可以有效解决背景技术中的问题。

为解决上述技术问题，本发明采用的一个技术方案是；

基于卷积神经网络的声波图像转声音方法，包括以下步骤：

S1 对待检测图片A进行特征提取：对包含声波信息的待检测图片A进行预处理后，通过改进的卷积神经网络对待检测图片A进行特征提取出特征向量A1；

S2 相似度计算：设定阈值，将特征数据库中所有与步骤S1中特征向量A1距离小于所述阈值的特征向量分别与步骤S1中特征向量A1进行对比，选择与步骤S1中特征向量A1距离最近的特征向量B1；

S3 查找索引结果：根据步骤S2 相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。

进一步的，在步骤S1中，所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。

进一步的，在步骤S2和S3中，所述图片和声音数据库中各图片进行预处理后，所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。

进一步的，所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括：图像降噪和/或图像增强。

本发明的有益效果：本发明基于卷积神经网络的声波图像转声音方法，实现了对声波图形的的特征提取和识别，并输出声波图形相对应的声音信号，同时在相似度计算上通过设定阈值，提高了计算效率，在图片和声音数据库中利用深度学习方式提取图片特征，使得对图像有更精准的描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于卷积神经网络的声波图像转声音方法的过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明所述的基于卷积神经网络的声波图像转声音方法，包基于卷积神经网络的声波图像转声音方法，包括以下步骤：

本实施例中，在步骤S1中，所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。

本实施例中，在步骤S2和S3中，所述图片和声音数据库中各图片进行预处理后，所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。

本实施例中，所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括：图像降噪和/或图像增强。

具体实施中，在图片和声音数据库图片进行特征提取过程中，采用深度学习方式相比于传统的图像特征（比如sift,gist等等），对图像的描述更加精准；在步骤S2中设定的阈值为3，通过采用LSH/局部敏感度哈希来完成相似度计算，大大降低了计算量，保证整个相似图片匹配时间在毫秒级；卷积神经网络中添加若干隐含层，使得卷积神经网络输出压缩成为低维度（几百维）且只含有0或者1的特征向量。

综上所述，借助于本发明的上述技术方案，本发明基于卷积神经网络的声波图像转声音方法，实现了对声波图形的的特征提取和识别，并输出声波图形相对应的声音信号，同时在相似度计算上通过设定阈值，提高了计算效率，在图片和声音数据库中利用深度学习方式提取图片特征，使得对图像有更精准的描述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于卷积神经网络的声波图像转声音方法，其特征在于，包括以下步骤：

S3 查找索引结果：根据步骤S2相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。

2.根据权利要求1所述的基于卷积神经网络的声波图像转声音方法，其特征在于，在步骤S1中，所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。

3.根据权利要求2所述的基于卷积神经网络的声波图像转声音方法，其特征在于，在步骤S2和S3中，所述图片和声音数据库中各图片进行预处理后，所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。

4.根据权利要求3所述的基于卷积神经网络的声波图像转声音方法，其特征在于，所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括：图像降噪和/或图像增强。