CN107832339A - 基于卷积神经网络的声波图像转声音方法 - Google Patents

基于卷积神经网络的声波图像转声音方法 Download PDF

Info

Publication number
CN107832339A
CN107832339A CN201710947896.8A CN201710947896A CN107832339A CN 107832339 A CN107832339 A CN 107832339A CN 201710947896 A CN201710947896 A CN 201710947896A CN 107832339 A CN107832339 A CN 107832339A
Authority
CN
China
Prior art keywords
picture
convolutional neural
neural networks
characteristic vector
audiograph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710947896.8A
Other languages
English (en)
Inventor
赵胜男
李生晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710947896.8A priority Critical patent/CN107832339A/zh
Publication of CN107832339A publication Critical patent/CN107832339A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明公开了基于卷积神经网络的声波图像转声音方法,属于图像处理技术领域,其中该方法包括对待检测图片进行特征提取、相似度计算和查找索引结果,本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。

Description

基于卷积神经网络的声波图像转声音方法
技术领域
本发明涉及图像处理技术领域,尤其涉及基于卷积神经网络的声波图像转声音方法。
背景技术
目前任何一段声音可输出为声波图形,但声波图形由于其复杂性不能直接被识别为原来对应的声音;也就是还没有一个完整的系统和技术可以完成声波图形(比如纹身在身上)到声音的转换。
目前信息载体的识别,以识别二维码为主,但二维码在美观性和可设计性方面不足,而声波图形同样可以作为信息载体,通过图形识别输出图形对应的声音等信息,在美观性和可设计性方面有优势。
目前的图像检索系统一般都是使用传统的特征提取技术比如sift,gist等,但是这样的技术存在一定的检索错误率,并且当数据量很大时运算时间很长。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明要解决的技术问题是克服现有的技术缺陷,提供基于卷积神经网络的声波图像转声音方法,可以有效解决背景技术中的问题。
为解决上述技术问题,本发明采用的一个技术方案是;
基于卷积神经网络的声波图像转声音方法,包括以下步骤:
S1 对待检测图片A进行特征提取:对包含声波信息的待检测图片A进行预处理后,通过改进的卷积神经网络对待检测图片A进行特征提取出特征向量A1;
S2 相似度计算:设定阈值,将特征数据库中所有与步骤S1中特征向量A1距离小于所述阈值的特征向量分别与步骤S1中特征向量A1进行对比,选择与步骤S1中特征向量A1距离最近的特征向量B1;
S3 查找索引结果:根据步骤S2 相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。
进一步的,在步骤S1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。
进一步的,在步骤S2和S3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。
进一步的,所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。
本发明的有益效果:本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于卷积神经网络的声波图像转声音方法的过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明所述的基于卷积神经网络的声波图像转声音方法,包基于卷积神经网络的声波图像转声音方法,包括以下步骤:
S1 对待检测图片A进行特征提取:对包含声波信息的待检测图片A进行预处理后,通过改进的卷积神经网络对待检测图片A进行特征提取出特征向量A1;
S2 相似度计算:设定阈值,将特征数据库中所有与步骤S1中特征向量A1距离小于所述阈值的特征向量分别与步骤S1中特征向量A1进行对比,选择与步骤S1中特征向量A1距离最近的特征向量B1;
S3 查找索引结果:根据步骤S2 相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。
本实施例中,在步骤S1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。
本实施例中,在步骤S2和S3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。
本实施例中,所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。
具体实施中,在图片和声音数据库图片进行特征提取过程中,采用深度学习方式相比于传统的图像特征(比如sift,gist等等),对图像的描述更加精准;在步骤S2中设定的阈值为3,通过采用LSH/局部敏感度哈希来完成相似度计算,大大降低了计算量,保证整个相似图片匹配时间在毫秒级;卷积神经网络中添加若干隐含层,使得卷积神经网络输出压缩成为低维度(几百维)且只含有0或者1的特征向量。
综上所述,借助于本发明的上述技术方案,本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于卷积神经网络的声波图像转声音方法,其特征在于,包括以下步骤:
S1 对待检测图片A进行特征提取:对包含声波信息的待检测图片A进行预处理后,通过改进的卷积神经网络对待检测图片A进行特征提取出特征向量A1;
S2 相似度计算:设定阈值,将特征数据库中所有与步骤S1中特征向量A1距离小于所述阈值的特征向量分别与步骤S1中特征向量A1进行对比,选择与步骤S1中特征向量A1距离最近的特征向量B1;
S3 查找索引结果:根据步骤S2相似度计算中所述特征向量B1在图片和声音数据库中检索出特征向量B1所对应的图片B以及图片B所对应的声音C,并输出所述声音C。
2.根据权利要求1所述的基于卷积神经网络的声波图像转声音方法,其特征在于,在步骤S1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。
3.根据权利要求2所述的基于卷积神经网络的声波图像转声音方法,其特征在于,在步骤S2和S3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deep learning 深度学习方式抽取的特征向量进行存储。
4.根据权利要求3所述的基于卷积神经网络的声波图像转声音方法,其特征在于,所述对待检测图片A以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。
CN201710947896.8A 2017-10-12 2017-10-12 基于卷积神经网络的声波图像转声音方法 Pending CN107832339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710947896.8A CN107832339A (zh) 2017-10-12 2017-10-12 基于卷积神经网络的声波图像转声音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710947896.8A CN107832339A (zh) 2017-10-12 2017-10-12 基于卷积神经网络的声波图像转声音方法

Publications (1)

Publication Number Publication Date
CN107832339A true CN107832339A (zh) 2018-03-23

Family

ID=61647886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710947896.8A Pending CN107832339A (zh) 2017-10-12 2017-10-12 基于卷积神经网络的声波图像转声音方法

Country Status (1)

Country Link
CN (1) CN107832339A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408017A (zh) * 2016-09-13 2017-02-15 天津大学 基于深度学习的超生颈动脉内中膜厚度测量装置和方法
CN106979980A (zh) * 2017-04-28 2017-07-25 武汉理工大学 一种新型多频谱声学相机及识别方法
CN107041840A (zh) * 2017-01-09 2017-08-15 东南大学 基于数据库表方法的超声成像穴位识别仪及其识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408017A (zh) * 2016-09-13 2017-02-15 天津大学 基于深度学习的超生颈动脉内中膜厚度测量装置和方法
CN107041840A (zh) * 2017-01-09 2017-08-15 东南大学 基于数据库表方法的超声成像穴位识别仪及其识别方法
CN106979980A (zh) * 2017-04-28 2017-07-25 武汉理工大学 一种新型多频谱声学相机及识别方法

Similar Documents

Publication Publication Date Title
Abbas et al. A comprehensive review of recent advances on deep vision systems
CN109800628B (zh) 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN107220611B (zh) 一种基于深度神经网络的空时特征提取方法
US11755889B2 (en) Method, system and apparatus for pattern recognition
Chen et al. Detection evolution with multi-order contextual co-occurrence
CN107273502B (zh) 一种基于空间认知学习的图像地理标注方法
CN110222728B (zh) 物品鉴别模型的训练方法、系统及物品鉴别方法、设备
Liu et al. Motion-driven visual tempo learning for video-based action recognition
CN111639596B (zh) 基于注意力机制和残差网络的抗眼镜遮挡人脸识别方法
CN105893941B (zh) 一种基于区域图像的人脸表情识别方法
CN109255768A (zh) 图像补全方法、装置、终端及计算机可读存储介质
Jang et al. Lip reading using committee networks with two different types of concatenated frame images
CN110046941A (zh) 一种人脸识别方法、系统及电子设备和存储介质
Zhang et al. Retargeting semantically-rich photos
CN110084174A (zh) 一种人脸识别方法、系统及电子设备和存储介质
CN114037833A (zh) 一种苗族服饰图像语义分割方法
Mushtaq et al. Image copy move forgery detection: a review
CN109031200A (zh) 一种基于深度学习的声源空间方位检测方法
Song et al. Depth-aware saliency detection using discriminative saliency fusion
CN102013101A (zh) 一种经过模糊后处理的置换篡改图像盲检测方法
CN117252884B (zh) 一种基于自注意力机制的茶芽叶目标分割方法
CN109284765A (zh) 基于负值特征的卷积神经网络的自然图像分类方法
CN108717436A (zh) 一种基于显著性检测的商品目标快速检索方法
CN107832339A (zh) 基于卷积神经网络的声波图像转声音方法
CN114387553B (zh) 一种基于帧结构感知聚合的视频人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180323

RJ01 Rejection of invention patent application after publication