CN111581430B - 一种音频指纹的生成方法和装置以及设备 - Google Patents
一种音频指纹的生成方法和装置以及设备 Download PDFInfo
- Publication number
- CN111581430B CN111581430B CN202010364797.9A CN202010364797A CN111581430B CN 111581430 B CN111581430 B CN 111581430B CN 202010364797 A CN202010364797 A CN 202010364797A CN 111581430 B CN111581430 B CN 111581430B
- Authority
- CN
- China
- Prior art keywords
- audio
- feature
- spectrogram
- audio data
- periodicity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000007670 refining Methods 0.000 claims abstract description 22
- 230000000737 periodic effect Effects 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000005538 encapsulation Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种音频指纹的生成方法和装置以及设备。其中,所述方法包括:获取用户的音频数据,和产生该获取的音频数据的声谱图和频谱图,和从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,和根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频,以及提取该现场音频的音频指纹。通过上述方式,能够实现提高从用户的音频数据中提取的音频指纹的准确率。
Description
技术领域
本发明涉及音频指纹技术领域,尤其涉及一种音频指纹的生成方法和装置以及设备。
背景技术
音频指纹是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为内容自动识别技术的的核心算法,已广泛应用于音乐识别,版权内容监播,内容库去重和电视第二屏互动等领域。
现有的音频指纹的生成方案,一般是获取用户的音频数据,并从该获取的音频数据中直接提取音频指纹的方式来完成对音频数据的音频指纹的生成,该提取的音频指纹的准确率主要受到该获取的音频数据准确率的影响。
然而,现有的音频指纹的生成方案,无法实现对用户的音频数据的准确率进行提高,无法实现提高从该用户的音频数据中提取的音频指纹的准确率。
发明内容
有鉴于此,本发明的目的在于提出一种音频指纹的生成方法和装置以及设备,能够实现提高从用户的音频数据中提取的音频指纹的准确率。
根据本发明的一个方面,提供一种音频指纹的生成方法,包括:获取用户的音频数据;产生所述获取的音频数据的声谱图和频谱图;从所述声谱图和所述频谱图中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征;根据所述音频普适性特征和所述音频周期性特征,还原所述获取的音频数据的现场音频;提取所述现场音频的音频指纹。
其中,所述产生所述获取的音频数据的声谱图和频谱图,包括:将所述获取的音频数据进行声学特征映射,和对所述经声学特征映射后的音频数据进行互相关卷积,和对所述经互相关卷积后的音频数据进行傅里叶变换,并根据所述经傅里叶变换后的音频数据,产生声谱图和频谱图。
其中,所述从所述声谱图和所述频谱图中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征,包括:从所述声谱图和所述频谱图中取得声学特征分布图、自功率谱分布图,和从所述声学特征分布图、所述自功率谱分布图中筛选出所有声学特征和对应所述声学特征的周期性特征,和根据所述筛选出的所有声学特征和对应所述声学特征的周期性特征的数量,形成所述声学特征和对应所述声学特征的周期性特征的集合,和从所述形成的集合中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征。
其中,所述根据所述音频普适性特征和所述音频周期性特征,还原所述获取的音频数据的现场音频,包括:根据所述音频普适性特征和所述音频周期性特征,在所述音频周期性特征对应的时间点上配置所述音频普适性特征对应的音频特征,采用音频封装方式,在所述音频周期性特征对应的时间点上还原所述配置的音频特征的现场音频,通过还原所述音频周期性特征对应的所有时间点上的所有现场音频的方式,还原所述获取的音频数据的现场音频。
其中,在所述提取所述现场音频的音频指纹之后,还包括:对所述音频指纹进行标记。
根据本发明的另一个方面,提供一种音频指纹的生成装置,包括:获取模块、产生模块、提炼模块、还原模块和提取模块;所述获取模块,用于获取用户的音频数据;所述产生模块,用于产生所述获取的音频数据的声谱图和频谱图;所述提炼模块,用于从所述声谱图和所述频谱图中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征;所述还原模块,用于根据所述音频普适性特征和所述音频周期性特征,还原所述获取的音频数据的现场音频;所述提取模块,用于提取所述现场音频的音频指纹。
其中,所述产生模块,具体用于:将所述获取的音频数据进行声学特征映射,和对所述经声学特征映射后的音频数据进行互相关卷积,和对所述经互相关卷积后的音频数据进行傅里叶变换,并根据所述经傅里叶变换后的音频数据,产生声谱图和频谱图。
其中,所述提炼模块,具体用于:从所述声谱图和所述频谱图中取得声学特征分布图、自功率谱分布图,和从所述声学特征分布图、所述自功率谱分布图中筛选出所有声学特征和对应所述声学特征的周期性特征,和根据所述筛选出的所有声学特征和对应所述声学特征的周期性特征的数量,形成所述声学特征和对应所述声学特征的周期性特征的集合,和从所述形成的集合中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征。
其中,所述还原模块,具体用于:根据所述音频普适性特征和所述音频周期性特征,在所述音频周期性特征对应的时间点上配置所述音频普适性特征对应的音频特征,采用音频封装方式,在所述音频周期性特征对应的时间点上还原所述配置的音频特征的现场音频,通过还原所述音频周期性特征对应的所有时间点上的所有现场音频的方式,还原所述获取的音频数据的现场音频。
其中,所述音频指纹的生成装置,还包括:标记模块;所述标记模块,用于对所述音频指纹进行标记。
根据本发明的又一个方面,提供一种音频指纹的生成设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的音频指纹的生成方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的音频指纹的生成方法。
可以发现,以上方案,可以获取用户的音频数据,和可以产生该获取的音频数据的声谱图和频谱图,和可以从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,和可以根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频,以及可以提取该现场音频的音频指纹,能够实现对用户的音频数据的准确率进行提高,能够提高从该用户的音频数据中提取的音频指纹的准确率。
进一步的,以上方案,可以将该获取的音频数据进行声学特征映射,和对该经声学特征映射后的音频数据进行互相关卷积,和对该经互相关卷积后的音频数据进行傅里叶变换,并根据该经傅里叶变换后的音频数据,产生声谱图和频谱图,这样的好处是该声学特征映射能够很好地反映该获取的音频数据的各声学特征之间的差异性,该互相关卷积能够根据该反映的各声学特征之间的差异性进行有针对性的消除干扰噪声进行降噪,该傅里叶变换能够使该降噪后的音频数据的音频周期性信号更加突出,能够提高该产生的声谱图和频谱图的准确率。
进一步的,以上方案,可以从该声谱图和该频谱图中取得声学特征分布图、自功率谱分布图,和从该声学特征分布图、该自功率谱分布图中筛选出所有声学特征和对应该声学特征的周期性特征,和根据该筛选出的所有声学特征和对应该声学特征的周期性特征的数量,形成该声学特征和对应该声学特征的周期性特征的集合,和从该形成的集合中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,这样的好处是能够实现便于根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据对应的现场音频。
进一步的,以上方案,可以根据该音频普适性特征和该音频周期性特征,在该音频周期性特征对应的时间点上配置该音频普适性特征对应的音频特征,采用音频封装方式,在该音频周期性特征对应的时间点上还原该配置的音频特征的现场音频,通过还原该音频周期性特征对应的所有时间点上的所有现场音频的方式,还原该获取的音频数据的现场音频,这样的好处是能够实现通过还原该获取的音频数据的现场音频的方式,能够对该获取的用户的音频数据的准确率进行提高。
进一步的,以上方案,可以对该音频指纹进行标记,这样的好处是能够实现便于根据该标记快速的查询到关联该标记的音频指纹。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明音频指纹的生成方法一实施例的流程示意图;
图2是本发明音频指纹的生成方法另一实施例的流程示意图;
图3是本发明音频指纹的生成装置一实施例的结构示意图;
图4是本发明音频指纹的生成装置另一实施例的结构示意图;
图5是本发明音频指纹的生成设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种音频指纹的生成方法,能够实现提高从用户的音频数据中提取的音频指纹的准确率。
请参见图1,图1是本发明音频指纹的生成方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取用户的音频数据。
在本实施例中,该用户可以是一个单一用户,也可以是多个用户等,本发明不加以限定。
在本实施例中,可以一次性获取多个用户的音频数据,也可以分多次获取多个用户的音频数据,还可以逐一逐个用户的获取多个用户的音频数据等,本发明不加以限定。
在本实施例中,可以是获取同一用户的多个音频数据,也可以是获取同一用户的单个音频数据,还可以是获取多个用户的多个音频数据等,本发明不加以限定。
S102:产生该获取的音频数据的声谱图和频谱图。
其中,该产生该获取的音频数据的声谱图和频谱图,可以包括:
将该获取的音频数据进行声学特征映射,和对该经声学特征映射后的音频数据进行互相关卷积,和对该经互相关卷积后的音频数据进行傅里叶变换,并根据该经傅里叶变换后的音频数据,产生声谱图和频谱图,这样的好处是该声学特征映射能够很好地反映该获取的音频数据的各声学特征之间的差异性,该互相关卷积能够根据该反映的各声学特征之间的差异性进行有针对性的消除干扰噪声进行降噪,该傅里叶变换能够使该降噪后的音频数据的音频周期性信号更加突出,能够提高该产生的声谱图和频谱图的准确率。
S103:从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征。
其中,该从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,可以包括:
从该声谱图和该频谱图中取得声学特征分布图、自功率谱分布图,和从该声学特征分布图、该自功率谱分布图中筛选出所有声学特征和对应该声学特征的周期性特征,和根据该筛选出的所有声学特征和对应该声学特征的周期性特征的数量,形成该声学特征和对应该声学特征的周期性特征的集合,和从该形成的集合中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,这样的好处是能够实现便于根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据对应的现场音频。
S104:根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频。
其中,该根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频,可以包括:
根据该音频普适性特征和该音频周期性特征,在该音频周期性特征对应的时间点上配置该音频普适性特征对应的音频特征,采用音频封装方式,在该音频周期性特征对应的时间点上还原该配置的音频特征的现场音频,通过还原该音频周期性特征对应的所有时间点上的所有现场音频的方式,还原该获取的音频数据的现场音频,这样的好处是能够实现通过还原该获取的音频数据的现场音频的方式,能够对该获取的用户的音频数据的准确率进行提高。
S105:提取该现场音频的音频指纹。
其中,在该提取该现场音频的音频指纹之后,还可以包括:
对该音频指纹进行标记,这样的好处是能够实现便于根据该标记快速的查询到关联该标记的音频指纹。
可以发现,在本实施例中,可以获取用户的音频数据,和可以产生该获取的音频数据的声谱图和频谱图,和可以从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,和可以根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频,以及可以提取该现场音频的音频指纹,能够实现对用户的音频数据的准确率进行提高,能够提高从该用户的音频数据中提取的音频指纹的准确率。
进一步的,在本实施例中,可以将该获取的音频数据进行声学特征映射,和对该经声学特征映射后的音频数据进行互相关卷积,和对该经互相关卷积后的音频数据进行傅里叶变换,并根据该经傅里叶变换后的音频数据,产生声谱图和频谱图,这样的好处是该声学特征映射能够很好地反映该获取的音频数据的各声学特征之间的差异性,该互相关卷积能够根据该反映的各声学特征之间的差异性进行有针对性的消除干扰噪声进行降噪,该傅里叶变换能够使该降噪后的音频数据的音频周期性信号更加突出,能够提高该产生的声谱图和频谱图的准确率。
进一步的,在本实施例中,可以从该声谱图和该频谱图中取得声学特征分布图、自功率谱分布图,和从该声学特征分布图、该自功率谱分布图中筛选出所有声学特征和对应该声学特征的周期性特征,和根据该筛选出的所有声学特征和对应该声学特征的周期性特征的数量,形成该声学特征和对应该声学特征的周期性特征的集合,和从该形成的集合中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,这样的好处是能够实现便于根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据对应的现场音频。
进一步的,在本实施例中,可以根据该音频普适性特征和该音频周期性特征,在该音频周期性特征对应的时间点上配置该音频普适性特征对应的音频特征,采用音频封装方式,在该音频周期性特征对应的时间点上还原该配置的音频特征的现场音频,通过还原该音频周期性特征对应的所有时间点上的所有现场音频的方式,还原该获取的音频数据的现场音频,这样的好处是能够实现通过还原该获取的音频数据的现场音频的方式,能够对该获取的用户的音频数据的准确率进行提高。
请参见图2,图2是本发明音频指纹的生成方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:获取用户的音频数据。
可如上S101所述,在此不作赘述。
S202:产生该获取的音频数据的声谱图和频谱图。
可如上S102所述,在此不作赘述。
S203:从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征。
可如上S103所述,在此不作赘述。
S204:根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频。
可如上S104所述,在此不作赘述。
S205:提取该现场音频的音频指纹。
可如上S105所述,在此不作赘述。
S206:对该音频指纹进行标记。
可以发现,在本实施例中,可以对该音频指纹进行标记,这样的好处是能够实现便于根据该标记快速的查询到关联该标记的音频指纹。
本发明还提供一种音频指纹的生成装置,能够实现提高从用户的音频数据中提取的音频指纹的准确率。
请参见图3,图3是本发明音频指纹的生成装置一实施例的结构示意图。本实施例中,该音频指纹的生成装置30包括获取模块31、产生模块32、提炼模块33、还原模块34和提取模块35。
该获取模块31,用于获取用户的音频数据。
该产生模块32,用于产生该获取的音频数据的声谱图和频谱图。
该提炼模块33,用于从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征。
该还原模块34,用于根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频。
该提取模块35,用于提取该现场音频的音频指纹。
可选地,该产生模块32,可以具体用于:
将该获取的音频数据进行声学特征映射,和对该经声学特征映射后的音频数据进行互相关卷积,和对该经互相关卷积后的音频数据进行傅里叶变换,并根据该经傅里叶变换后的音频数据,产生声谱图和频谱图。
可选地,该提炼模块33,可以具体用于:
从该声谱图和该频谱图中取得声学特征分布图、自功率谱分布图,和从该声学特征分布图、该自功率谱分布图中筛选出所有声学特征和对应该声学特征的周期性特征,和根据该筛选出的所有声学特征和对应该声学特征的周期性特征的数量,形成该声学特征和对应该声学特征的周期性特征的集合,和从该形成的集合中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征。
可选地,该还原模块34,可以具体用于:
根据该音频普适性特征和该音频周期性特征,在该音频周期性特征对应的时间点上配置该音频普适性特征对应的音频特征,采用音频封装方式,在该音频周期性特征对应的时间点上还原该配置的音频特征的现场音频,通过还原该音频周期性特征对应的所有时间点上的所有现场音频的方式,还原该获取的音频数据的现场音频。
请参见图4,图4是本发明音频指纹的生成装置另一实施例的结构示意图。区别于上一实施例,本实施例所述音频指纹的生成装置40还包括标记模块41。
该标记模块41,用于对该音频指纹进行标记。
该音频指纹的生成装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种音频指纹的生成设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的音频指纹的生成方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以获取用户的音频数据,和可以产生该获取的音频数据的声谱图和频谱图,和可以从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,和可以根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据的现场音频,以及可以提取该现场音频的音频指纹,能够实现对用户的音频数据的准确率进行提高,能够提高从该用户的音频数据中提取的音频指纹的准确率。
进一步的,以上方案,可以将该获取的音频数据进行声学特征映射,和对该经声学特征映射后的音频数据进行互相关卷积,和对该经互相关卷积后的音频数据进行傅里叶变换,并根据该经傅里叶变换后的音频数据,产生声谱图和频谱图,这样的好处是该声学特征映射能够很好地反映该获取的音频数据的各声学特征之间的差异性,该互相关卷积能够根据该反映的各声学特征之间的差异性进行有针对性的消除干扰噪声进行降噪,该傅里叶变换能够使该降噪后的音频数据的音频周期性信号更加突出,能够提高该产生的声谱图和频谱图的准确率。
进一步的,以上方案,可以从该声谱图和该频谱图中取得声学特征分布图、自功率谱分布图,和从该声学特征分布图、该自功率谱分布图中筛选出所有声学特征和对应该声学特征的周期性特征,和根据该筛选出的所有声学特征和对应该声学特征的周期性特征的数量,形成该声学特征和对应该声学特征的周期性特征的集合,和从该形成的集合中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,这样的好处是能够实现便于根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据对应的现场音频。
进一步的,以上方案,可以根据该音频普适性特征和该音频周期性特征,在该音频周期性特征对应的时间点上配置该音频普适性特征对应的音频特征,采用音频封装方式,在该音频周期性特征对应的时间点上还原该配置的音频特征的现场音频,通过还原该音频周期性特征对应的所有时间点上的所有现场音频的方式,还原该获取的音频数据的现场音频,这样的好处是能够实现通过还原该获取的音频数据的现场音频的方式,能够对该获取的用户的音频数据的准确率进行提高。
进一步的,以上方案,可以对该音频指纹进行标记,这样的好处是能够实现便于根据该标记快速的查询到关联该标记的音频指纹。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种音频指纹的生成方法,其特征在于,包括:
获取用户的音频数据;
产生所述获取的音频数据的声谱图和频谱图,将所述获取的音频数据进行声学特征映射,和对所述经声学特征映射后的音频数据进行互相关卷积,和对所述经互相关卷积后的音频数据进行傅里叶变换,并根据所述经傅里叶变换后的音频数据,产生声谱图和频谱图;
从所述声谱图和所述频谱图中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征;
根据所述音频普适性特征和所述音频周期性特征,还原所述获取的音频数据的现场音频,根据所述音频普适性特征和所述音频周期性特征,在所述音频周期性特征对应的时间点上配置所述音频普适性特征对应的音频特征,采用音频封装方式,在所述音频周期性特征对应的时间点上还原所述配置的音频特征的现场音频,通过还原所述音频周期性特征对应的所有时间点上的所有现场音频的方式,还原所述获取的音频数据的现场音频;
提取所述现场音频的音频指纹。
2.如权利要求1所述的音频指纹的生成方法,其特征在于,所述从所述声谱图和所述频谱图中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征,包括:
从所述声谱图和所述频谱图中取得声学特征分布图、自功率谱分布图,和从所述声学特征分布图、所述自功率谱分布图中筛选出所有声学特征和对应所述声学特征的周期性特征,和根据所述筛选出的所有声学特征和对应所述声学特征的周期性特征的数量,形成所述声学特征和对应所述声学特征的周期性特征的集合,和从所述形成的集合中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征。
3.如权利要求1所述的音频指纹的生成方法,其特征在于,在所述提取所述现场音频的音频指纹之后,还包括:
对所述音频指纹进行标记。
4.一种音频指纹的生成装置,其特征在于,包括:
获取模块、产生模块、提炼模块、还原模块和提取模块;
所述获取模块,用于获取用户的音频数据;
所述产生模块,用于产生所述获取的音频数据的声谱图和频谱图,将所述获取的音频数据进行声学特征映射,和对所述经声学特征映射后的音频数据进行互相关卷积,和对所述经互相关卷积后的音频数据进行傅里叶变换,并根据所述经傅里叶变换后的音频数据,产生声谱图和频谱图;
所述提炼模块,用于从所述声谱图和所述频谱图中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征;
所述还原模块,用于根据所述音频普适性特征和所述音频周期性特征,还原所述获取的音频数据的现场音频,根据所述音频普适性特征和所述音频周期性特征,在所述音频周期性特征对应的时间点上配置所述音频普适性特征对应的音频特征,采用音频封装方式,在所述音频周期性特征对应的时间点上还原所述配置的音频特征的现场音频,通过还原所述音频周期性特征对应的所有时间点上的所有现场音频的方式,还原所述获取的音频数据的现场音频;
所述提取模块,用于提取所述现场音频的音频指纹。
5.如权利要求4所述的音频指纹的生成装置,其特征在于,所述提炼模块,具体用于:
从所述声谱图和所述频谱图中取得声学特征分布图、自功率谱分布图,和从所述声学特征分布图、所述自功率谱分布图中筛选出所有声学特征和对应所述声学特征的周期性特征,和根据所述筛选出的所有声学特征和对应所述声学特征的周期性特征的数量,形成所述声学特征和对应所述声学特征的周期性特征的集合,和从所述形成的集合中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征。
6.如权利要求4所述的音频指纹的生成装置,其特征在于,所述音频指纹的生成装置,还包括:
标记模块;
所述标记模块,用于对所述音频指纹进行标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010364797.9A CN111581430B (zh) | 2020-04-30 | 2020-04-30 | 一种音频指纹的生成方法和装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010364797.9A CN111581430B (zh) | 2020-04-30 | 2020-04-30 | 一种音频指纹的生成方法和装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581430A CN111581430A (zh) | 2020-08-25 |
CN111581430B true CN111581430B (zh) | 2022-05-17 |
Family
ID=72113307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010364797.9A Active CN111581430B (zh) | 2020-04-30 | 2020-04-30 | 一种音频指纹的生成方法和装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581430B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250742A (zh) * | 2016-07-22 | 2016-12-21 | 北京小米移动软件有限公司 | 移动终端的解锁方法、装置和移动终端 |
CN110136744A (zh) * | 2019-05-24 | 2019-08-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频指纹生成方法、设备及存储介质 |
CN110377782A (zh) * | 2019-07-12 | 2019-10-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检索方法、装置和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101841985B1 (ko) * | 2016-09-06 | 2018-03-26 | 주식회사 티앤블루랩 | 오디오 핑거프린트 추출 장치 및 방법 |
CN107274906A (zh) * | 2017-06-28 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 语音信息处理方法、装置、终端及存储介质 |
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
-
2020
- 2020-04-30 CN CN202010364797.9A patent/CN111581430B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250742A (zh) * | 2016-07-22 | 2016-12-21 | 北京小米移动软件有限公司 | 移动终端的解锁方法、装置和移动终端 |
CN110136744A (zh) * | 2019-05-24 | 2019-08-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频指纹生成方法、设备及存储介质 |
CN110377782A (zh) * | 2019-07-12 | 2019-10-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检索方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111581430A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609186B (zh) | 信息处理方法及装置、终端设备及计算机可读存储介质 | |
CN105701122B (zh) | 一种日志收集方法、装置及系统 | |
US20190191276A1 (en) | User positioning method, information push method, and related apparatus | |
CN105049287A (zh) | 日志处理方法及装置 | |
CN103841464A (zh) | 一种视频信息推送方法及装置 | |
CN111179265A (zh) | 基于图像的指纹质量评估方法、装置及电子设备 | |
CN104881486A (zh) | 一种信息查询方法、终端设备及系统 | |
CN110750433A (zh) | 接口测试方法和装置 | |
CN110012049B (zh) | 信息推送方法. 系统. 服务器及计算机可读存储介质 | |
CN111863014A (zh) | 一种音频处理方法、装置、电子设备和可读存储介质 | |
CN107172039B (zh) | 协议键值的获取方法、装置和系统 | |
CN107748772B (zh) | 一种商标识别方法及装置 | |
CN110865828A (zh) | 数据升级方法、装置、设备及计算机可读存储介质 | |
CN111367870A (zh) | 一种绘本共享方法、装置和系统 | |
CN109656592B (zh) | 卡片管理方法、装置、终端及计算机可读存储介质 | |
CN115421968A (zh) | 数据恢复方法及电子设备 | |
CN109542398B (zh) | 一种业务系统生成方法、装置及计算机可读存储介质 | |
CN111581430B (zh) | 一种音频指纹的生成方法和装置以及设备 | |
CN117692074A (zh) | 一种适用于非稳态水声目标信号的低频混叠噪声抑制方法 | |
CN111522991B (zh) | 一种音频指纹的提取方法和装置以及设备 | |
CN110058995B (zh) | 一种可避免数据库类型的干扰的数据库测试方法以及系统 | |
CN109886041B (zh) | 实时数据的采集方法及装置 | |
CN109841232B (zh) | 音乐信号中音符位置的提取方法和装置及存储介质 | |
CN107506386B (zh) | 一种基于nas的数据聚合方法、装置、终端设备和存储介质 | |
CN109446060B (zh) | 一种服务端测试用例集的生成方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |