CN107832339A - 基于卷积神经网络的声波图像转声音方法 - Google Patents
基于卷积神经网络的声波图像转声音方法 Download PDFInfo
- Publication number
- CN107832339A CN107832339A CN201710947896.8A CN201710947896A CN107832339A CN 107832339 A CN107832339 A CN 107832339A CN 201710947896 A CN201710947896 A CN 201710947896A CN 107832339 A CN107832339 A CN 107832339A
- Authority
- CN
- China
- Prior art keywords
- picture
- convolutional neural
- neural networks
- characteristic vector
- audiograph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本发明公开了基于卷积神经网络的声波图像转声音方法,属于图像处理技术领域,其中该方法包括对待检测图片进行特征提取、相似度计算和查找索引结果,本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及基于卷积神经网络的声波图像转声音方法。
背景技术
目前任何一段声音可输出为声波图形,但声波图形由于其复杂性不能直接被识别为原来对应的声音;也就是还没有一个完整的系统和技术可以完成声波图形(比如纹身在身上)到声音的转换。
目前信息载体的识别,以识别二维码为主,但二维码在美观性和可设计性方面不足,而声波图形同样可以作为信息载体,通过图形识别输出图形对应的声音等信息,在美观性和可设计性方面有优势。
目前的图像检索系统一般都是使用传统的特征提取技术比如sift,gist等,但是这样的技术存在一定的检索错误率,并且当数据量很大时运算时间很长。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明要解决的技术问题是克服现有的技术缺陷,提供基于卷积神经网络的声波图像转声音方法,可以有效解决背景技术中的问题。
为解决上述技术问题,本发明采用的一个技术方案是;
基于卷积神经网络的声波图像转声音方法,包括以下步骤:
S1 对待检测图片A进行特征提取:对包含声波信息的待检测图片A进行预处理后,通过改进的卷积神经网络对待检测图片A进行特征提取出特征向量A1;
S2 相似度计算:设定阈值,将特征数据库中所有与步骤S1中特征向量A1距离小于所述阈值的特征向量分别与步骤S1中特征向量A1进行对比,选择与步骤S1中特征向量A1距离最近的特征向量B1;
S3 查找索引结果:根据步骤S2 相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。
进一步的,在步骤S1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。
进一步的,在步骤S2和S3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。
进一步的,所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。
本发明的有益效果:本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于卷积神经网络的声波图像转声音方法的过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明所述的基于卷积神经网络的声波图像转声音方法,包基于卷积神经网络的声波图像转声音方法,包括以下步骤:
S1 对待检测图片A进行特征提取:对包含声波信息的待检测图片A进行预处理后,通过改进的卷积神经网络对待检测图片A进行特征提取出特征向量A1;
S2 相似度计算:设定阈值,将特征数据库中所有与步骤S1中特征向量A1距离小于所述阈值的特征向量分别与步骤S1中特征向量A1进行对比,选择与步骤S1中特征向量A1距离最近的特征向量B1;
S3 查找索引结果:根据步骤S2 相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。
本实施例中,在步骤S1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。
本实施例中,在步骤S2和S3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。
本实施例中,所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。
具体实施中,在图片和声音数据库图片进行特征提取过程中,采用深度学习方式相比于传统的图像特征(比如sift,gist等等),对图像的描述更加精准;在步骤S2中设定的阈值为3,通过采用LSH/局部敏感度哈希来完成相似度计算,大大降低了计算量,保证整个相似图片匹配时间在毫秒级;卷积神经网络中添加若干隐含层,使得卷积神经网络输出压缩成为低维度(几百维)且只含有0或者1的特征向量。
综上所述,借助于本发明的上述技术方案,本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于卷积神经网络的声波图像转声音方法,其特征在于,包括以下步骤:
S1 对待检测图片A进行特征提取:对包含声波信息的待检测图片A进行预处理后,通过改进的卷积神经网络对待检测图片A进行特征提取出特征向量A1;
S2 相似度计算:设定阈值,将特征数据库中所有与步骤S1中特征向量A1距离小于所述阈值的特征向量分别与步骤S1中特征向量A1进行对比,选择与步骤S1中特征向量A1距离最近的特征向量B1;
S3 查找索引结果:根据步骤S2相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。
2.根据权利要求1所述的基于卷积神经网络的声波图像转声音方法,其特征在于,在步骤S1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。
3.根据权利要求2所述的基于卷积神经网络的声波图像转声音方法,其特征在于,在步骤S2和S3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。
4.根据权利要求3所述的基于卷积神经网络的声波图像转声音方法,其特征在于,所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710947896.8A CN107832339A (zh) | 2017-10-12 | 2017-10-12 | 基于卷积神经网络的声波图像转声音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710947896.8A CN107832339A (zh) | 2017-10-12 | 2017-10-12 | 基于卷积神经网络的声波图像转声音方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107832339A true CN107832339A (zh) | 2018-03-23 |
Family
ID=61647886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710947896.8A Pending CN107832339A (zh) | 2017-10-12 | 2017-10-12 | 基于卷积神经网络的声波图像转声音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832339A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408017A (zh) * | 2016-09-13 | 2017-02-15 | 天津大学 | 基于深度学习的超生颈动脉内中膜厚度测量装置和方法 |
CN106979980A (zh) * | 2017-04-28 | 2017-07-25 | 武汉理工大学 | 一种新型多频谱声学相机及识别方法 |
CN107041840A (zh) * | 2017-01-09 | 2017-08-15 | 东南大学 | 基于数据库表方法的超声成像穴位识别仪及其识别方法 |
-
2017
- 2017-10-12 CN CN201710947896.8A patent/CN107832339A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408017A (zh) * | 2016-09-13 | 2017-02-15 | 天津大学 | 基于深度学习的超生颈动脉内中膜厚度测量装置和方法 |
CN107041840A (zh) * | 2017-01-09 | 2017-08-15 | 东南大学 | 基于数据库表方法的超声成像穴位识别仪及其识别方法 |
CN106979980A (zh) * | 2017-04-28 | 2017-07-25 | 武汉理工大学 | 一种新型多频谱声学相机及识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abbas et al. | A comprehensive review of recent advances on deep vision systems | |
CN109800628B (zh) | 一种加强ssd小目标行人检测性能的网络结构及检测方法 | |
CN107220611B (zh) | 一种基于深度神经网络的空时特征提取方法 | |
US11755889B2 (en) | Method, system and apparatus for pattern recognition | |
Chen et al. | Detection evolution with multi-order contextual co-occurrence | |
CN107273502B (zh) | 一种基于空间认知学习的图像地理标注方法 | |
CN110222728B (zh) | 物品鉴别模型的训练方法、系统及物品鉴别方法、设备 | |
Liu et al. | Motion-driven visual tempo learning for video-based action recognition | |
CN111639596B (zh) | 基于注意力机制和残差网络的抗眼镜遮挡人脸识别方法 | |
CN105893941B (zh) | 一种基于区域图像的人脸表情识别方法 | |
CN109255768A (zh) | 图像补全方法、装置、终端及计算机可读存储介质 | |
Jang et al. | Lip reading using committee networks with two different types of concatenated frame images | |
CN110046941A (zh) | 一种人脸识别方法、系统及电子设备和存储介质 | |
Zhang et al. | Retargeting semantically-rich photos | |
CN110084174A (zh) | 一种人脸识别方法、系统及电子设备和存储介质 | |
CN114037833A (zh) | 一种苗族服饰图像语义分割方法 | |
Mushtaq et al. | Image copy move forgery detection: a review | |
CN109031200A (zh) | 一种基于深度学习的声源空间方位检测方法 | |
Song et al. | Depth-aware saliency detection using discriminative saliency fusion | |
CN102013101A (zh) | 一种经过模糊后处理的置换篡改图像盲检测方法 | |
CN117252884B (zh) | 一种基于自注意力机制的茶芽叶目标分割方法 | |
CN109284765A (zh) | 基于负值特征的卷积神经网络的自然图像分类方法 | |
CN108717436A (zh) | 一种基于显著性检测的商品目标快速检索方法 | |
CN107832339A (zh) | 基于卷积神经网络的声波图像转声音方法 | |
CN114387553B (zh) | 一种基于帧结构感知聚合的视频人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180323 |
|
RJ01 | Rejection of invention patent application after publication |