CN111522991B - 一种音频指纹的提取方法和装置以及设备 - Google Patents

一种音频指纹的提取方法和装置以及设备 Download PDF

Info

Publication number
CN111522991B
CN111522991B CN202010293880.1A CN202010293880A CN111522991B CN 111522991 B CN111522991 B CN 111522991B CN 202010293880 A CN202010293880 A CN 202010293880A CN 111522991 B CN111522991 B CN 111522991B
Authority
CN
China
Prior art keywords
audio
audio data
user
acquired
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010293880.1A
Other languages
English (en)
Other versions
CN111522991A (zh
Inventor
肖龙源
李稀敏
刘晓葳
谭玉坤
叶志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010293880.1A priority Critical patent/CN111522991B/zh
Publication of CN111522991A publication Critical patent/CN111522991A/zh
Application granted granted Critical
Publication of CN111522991B publication Critical patent/CN111522991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频指纹的提取方法和装置以及设备。其中,所述方法包括:获取至少一个用户的音频数据,和将该获取的每个用户的音频数据分别生成频谱图,和根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征,和分别还原该音频周期性特征对应的音频数据的现场音频,以及分别提取该现场音频的音频指纹。通过上述方式,能够实现对获取的用户的音频数据的准确率进行提高,进而能够实现提高从该音频数据中提取的音频指纹的准确率。

Description

一种音频指纹的提取方法和装置以及设备
技术领域
本发明涉及音频指纹技术领域,尤其涉及一种音频指纹的提取方法和装置以及设备。
背景技术
音频指纹是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为内容自动识别技术的的核心算法,已广泛应用于音乐识别,版权内容监播,内容库去重和电视第二屏互动等领域。
现有的音频指纹的提取方案,一般是通过从获取的用户的音频数据中提取音频指纹的方式来完成对音频数据的音频指纹的提取,在该音频指纹的提取过程中,该提取的音频指纹的准确率主要受到该获取的用户的音频数据准确率的影响。
但是,发明人发现现有技术中至少存在如下问题:
现有的音频指纹的提取方案,在音频指纹的提取过程中,该提取的音频指纹的准确率主要受到所获取的用户的音频数据准确率的影响,无法实现对获取的用户的音频数据的准确率进行提高,进而无法实现提高从该音频数据中提取的音频指纹的准确率。
发明内容
有鉴于此,本发明的目的在于提出一种音频指纹的提取方法和装置以及设备,能够实现对获取的用户的音频数据的准确率进行提高,进而能够实现提高从该音频数据中提取的音频指纹的准确率。
根据本发明的一个方面,提供一种音频指纹的提取方法,包括:获取至少一个用户的音频数据;将所述获取的每个用户的音频数据分别生成频谱图;根据所述分别生成的频谱图,分别提炼所述获取的每个用户的音频数据的音频周期性特征;分别还原所述音频周期性特征对应的音频数据的现场音频;分别提取所述现场音频的音频指纹。
其中,所述将所述获取的每个用户的音频数据分别生成频谱图,包括:将所述获取的每个用户的音频数据分别作自相关卷积,和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算,和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换,和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图。
其中,所述根据所述分别生成的频谱图,分别提炼所述获取的每个用户的音频数据的音频周期性特征,包括:在所述分别生成的频谱图上分别配置关联所述获取的每个用户的音频数据的自功率谱分布图,和从所述分别配置的自功率谱分布图中分别提炼所述获取的每个用户的音频数据的音频周期性特征。
其中,所述分别还原所述音频周期性特征对应的音频数据的现场音频,包括:按照所述音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频,并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原所述音频周期性特征对应的音频数据的现场音频。
其中,在所述分别提取所述现场音频的音频指纹之后,还包括:对所述分别提取的音频指纹分配匹配检索索引,并根据所述检索索引,构建关联所述分别提取的音频指纹的音频指纹数据库。
根据本发明的另一个方面,提供一种音频指纹的提取装置,包括:获取模块、生成模块、提炼模块、还原模块和提取模块;所述获取模块,用于获取至少一个用户的音频数据;所述生成模块,用于将所述获取的每个用户的音频数据分别生成频谱图;所述提炼模块,用于根据所述分别生成的频谱图,分别提炼所述获取的每个用户的音频数据的音频周期性特征;所述还原模块,用于分别还原所述音频周期性特征对应的音频数据的现场音频;所述提取模块,用于分别提取所述现场音频的音频指纹。
其中,所述生成模块,具体用于:将所述获取的每个用户的音频数据分别作自相关卷积,和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算,和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换,和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图。
其中,所述提炼模块,具体用于:在所述分别生成的频谱图上分别配置关联所述获取的每个用户的音频数据的自功率谱分布图,和从所述分别配置的自功率谱分布图中分别提炼所述获取的每个用户的音频数据的音频周期性特征。
其中,所述还原模块,具体用于:按照所述音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频,并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原所述音频周期性特征对应的音频数据的现场音频。
其中,所述音频指纹的提取装置,还包括:构建模块;所述构建模块,用于对所述分别提取的音频指纹分配匹配检索索引,并根据所述检索索引,构建关联所述分别提取的音频指纹的音频指纹数据库。
根据本发明的又一个方面,提供一种音频指纹的提取设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的音频指纹的提取方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的音频指纹的提取方法。
可以发现,以上方案,可以获取至少一个用户的音频数据,和可以将该获取的每个用户的音频数据分别生成频谱图,和可以根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征,和可以分别还原该音频周期性特征对应的音频数据的现场音频,以及可以分别提取该现场音频的音频指纹,能够实现对获取的用户的音频数据的准确率进行提高,进而能够实现提高从该音频数据中提取的音频指纹的准确率。
进一步的,以上方案,可以将该获取的每个用户的音频数据分别作自相关卷积,和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算,和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换,和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图,这样的好处是该作自相关卷积能够去掉该获取的每个用户的音频数据的随机干扰噪声,该进行的对数计算能够使该获取的每个用户的音频数据中的那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的音频周期信号,该进行的傅里叶变换能够使该获取的每个用户的音频数据的音频周期性信号更加突出,便于根据该分别生成的频谱图分别提炼该获取的每个用户的音频数据的音频周期性特征。
进一步的,以上方案,可以在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图,和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征,这样的好处是由于该配置的自功率谱分布图能够使音频周期性信号更加突出,便于分别提炼该获取的每个用户的音频数据的音频周期性特征。
进一步的,以上方案,可以按照该音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原该时间先后顺序对应的时间点上的音频数据的现场音频,并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原该音频周期性特征对应的音频数据的现场音频,这样的好处是能够实现通过还原该音频数据的现场音频的方式,对该获取的每个用户的音频数据的准确率进行提高。
进一步的,以上方案,可以对该分别提取的音频指纹分配匹配检索索引,并根据该检索索引,构建关联该分别提取的音频指纹的音频指纹数据库,这样的好处是能够实现便于通过该检索索引在该构建的音频指纹数据库中检索到对应的音频指纹。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明音频指纹的提取方法一实施例的流程示意图;
图2是本发明音频指纹的提取方法另一实施例的流程示意图;
图3是本发明音频指纹的提取装置一实施例的结构示意图;
图4是本发明音频指纹的提取装置另一实施例的结构示意图;
图5是本发明音频指纹的提取设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种音频指纹的提取方法,能够实现对获取的用户的音频数据的准确率进行提高,进而能够实现提高从该音频数据中提取的音频指纹的准确率。
请参见图1,图1是本发明存储设备的测试方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取至少一个用户的音频数据。
在本实施例中,可以一次性获取多个用户的音频数据,也可以分多次获取多个用户的音频数据,还可以逐一逐个用户的获取用户的音频数据等,本发明不加以限定。
在本实施例中,可以是获取同一用户的多个音频数据,也可以是获取同一用户的单个音频数据,还可以是获取多个用户的多个音频数据等,本发明不加以限定。
S102:将该获取的每个用户的音频数据分别生成频谱图。
其中,该将该获取的每个用户的音频数据分别生成频谱图,可以包括:
将该获取的每个用户的音频数据分别作自相关卷积,和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算,和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换,和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图,这样的好处是该作自相关卷积能够去掉该获取的每个用户的音频数据的随机干扰噪声,该进行的对数计算能够使该获取的每个用户的音频数据中的那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的音频周期信号,该进行的傅里叶变换能够使该获取的每个用户的音频数据的音频周期性信号更加突出,便于根据该分别生成的频谱图分别提炼该获取的每个用户的音频数据的音频周期性特征。
S103:根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征。
其中,该根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征,可以包括:
在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图,和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征,这样的好处是由于该配置的自功率谱分布图能够使音频周期性信号更加突出,便于分别提炼该获取的每个用户的音频数据的音频周期性特征。
S104:分别还原该音频周期性特征对应的音频数据的现场音频。
其中,该分别还原该音频周期性特征对应的音频数据的现场音频,可以包括:
按照该音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原该时间先后顺序对应的时间点上的音频数据的现场音频,并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原该音频周期性特征对应的音频数据的现场音频,这样的好处是能够实现通过还原该音频数据的现场音频的方式,对该获取的每个用户的音频数据的准确率进行提高。
S105:分别提取该现场音频的音频指纹。
其中,在该分别提取该现场音频的音频指纹之后,还可以包括:
对该分别提取的音频指纹分配匹配检索索引,并根据该检索索引,构建关联该分别提取的音频指纹的音频指纹数据库,这样的好处是能够实现便于通过该检索索引在该构建的音频指纹数据库中检索到对应的音频指纹。
可以发现,在本实施例中,可以获取至少一个用户的音频数据,和可以将该获取的每个用户的音频数据分别生成频谱图,和可以根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征,和可以分别还原该音频周期性特征对应的音频数据的现场音频,以及可以分别提取该现场音频的音频指纹,能够实现对获取的用户的音频数据的准确率进行提高,进而能够实现提高从该音频数据中提取的音频指纹的准确率。
进一步的,在本实施例中,可以将该获取的每个用户的音频数据分别作自相关卷积,和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算,和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换,和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图,这样的好处是该作自相关卷积能够去掉该获取的每个用户的音频数据的随机干扰噪声,该进行的对数计算能够使该获取的每个用户的音频数据中的那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的音频周期信号,该进行的傅里叶变换能够使该获取的每个用户的音频数据的音频周期性信号更加突出,便于根据该分别生成的频谱图分别提炼该获取的每个用户的音频数据的音频周期性特征。
进一步的,在本实施例中,可以在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图,和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征,这样的好处是由于该配置的自功率谱分布图能够使音频周期性信号更加突出,便于分别提炼该获取的每个用户的音频数据的音频周期性特征。
进一步的,在本实施例中,可以按照该音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原该时间先后顺序对应的时间点上的音频数据的现场音频,并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原该音频周期性特征对应的音频数据的现场音频,这样的好处是能够实现通过还原该音频数据的现场音频的方式,对该获取的每个用户的音频数据的准确率进行提高。
请参见图2,图2是本发明音频指纹的提取方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:获取至少一个用户的音频数据。
可如上S101所述,在此不作赘述。
S202:将该获取的每个用户的音频数据分别生成频谱图。
可如上S102所述,在此不作赘述。
S203:根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征。
可如上S103所述,在此不作赘述。
S204:分别还原该音频周期性特征对应的音频数据的现场音频。
可如上S104所述,在此不作赘述。
S205:分别提取该现场音频的音频指纹。
可如上S105所述,在此不作赘述。
S206:对该分别提取的音频指纹分配匹配检索索引,并根据该检索索引,构建关联该分别提取的音频指纹的音频指纹数据库。
可以发现,在本实施例中,可以对该分别提取的音频指纹分配匹配检索索引,并根据该检索索引,构建关联该分别提取的音频指纹的音频指纹数据库,这样的好处是能够实现便于通过该检索索引在该构建的音频指纹数据库中检索到对应的音频指纹。
本发明还提供一种音频指纹的提取装置,能够实现对获取的用户的音频数据的准确率进行提高,进而能够实现提高从该音频数据中提取的音频指纹的准确率。
请参见图3,图3是本发明音频指纹的提取装置一实施例的结构示意图。本实施例中,该音频指纹的提取装置30包括获取模块31、生成模块32、提炼模块33、还原模块34和提取模块35。
该获取模块31,用于获取至少一个用户的音频数据。
该生成模块32,用于将该获取的每个用户的音频数据分别生成频谱图。
该提炼模块33,用于根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征。
该还原模块34,用于分别还原该音频周期性特征对应的音频数据的现场音频。
该提取模块35,用于分别提取该现场音频的音频指纹。
可选地,该生成模块32,可以具体用于:
将该获取的每个用户的音频数据分别作自相关卷积,和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算,和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换,和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图。
可选地,该提炼模块33,可以具体用于:
在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图,和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征。
可选地,该还原模块34,可以具体用于:
按照该音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原该时间先后顺序对应的时间点上的音频数据的现场音频,并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原该音频周期性特征对应的音频数据的现场音频。
请参见图4,图4是本发明音频指纹的提取装置另一实施例的结构示意图。区别于上一实施例,本实施例所述音频指纹的提取装置40还包括构建模块41。
该构建模块41,用于对该分别提取的音频指纹分配匹配检索索引,并根据该检索索引,构建关联该分别提取的音频指纹的音频指纹数据库。
该音频指纹的提取装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种音频指纹的提取设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的音频指纹的提取方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以获取至少一个用户的音频数据,和可以将该获取的每个用户的音频数据分别生成频谱图,和可以根据该分别生成的频谱图,分别提炼该获取的每个用户的音频数据的音频周期性特征,和可以分别还原该音频周期性特征对应的音频数据的现场音频,以及可以分别提取该现场音频的音频指纹,能够实现对获取的用户的音频数据的准确率进行提高,进而能够实现提高从该音频数据中提取的音频指纹的准确率。
进一步的,以上方案,可以将该获取的每个用户的音频数据分别作自相关卷积,和对该经作自相关卷积后的该每个用户的音频数据分别进行对数计算,和对该经对数计算后的该每个用户的音频数据分别进行傅里叶变换,和根据该经傅里叶变换后的该每个用户的音频数据分别生成频谱图,这样的好处是该作自相关卷积能够去掉该获取的每个用户的音频数据的随机干扰噪声,该进行的对数计算能够使该获取的每个用户的音频数据中的那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的音频周期信号,该进行的傅里叶变换能够使该获取的每个用户的音频数据的音频周期性信号更加突出,便于根据该分别生成的频谱图分别提炼该获取的每个用户的音频数据的音频周期性特征。
进一步的,以上方案,可以在该分别生成的频谱图上分别配置关联该获取的每个用户的音频数据的自功率谱分布图,和从该分别配置的自功率谱分布图中分别提炼该获取的每个用户的音频数据的音频周期性特征,这样的好处是由于该配置的自功率谱分布图能够使音频周期性信号更加突出,便于分别提炼该获取的每个用户的音频数据的音频周期性特征。
进一步的,以上方案,可以按照该音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原该时间先后顺序对应的时间点上的音频数据的现场音频,并将该分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原该音频周期性特征对应的音频数据的现场音频,这样的好处是能够实现通过还原该音频数据的现场音频的方式,对该获取的每个用户的音频数据的准确率进行提高。
进一步的,以上方案,可以对该分别提取的音频指纹分配匹配检索索引,并根据该检索索引,构建关联该分别提取的音频指纹的音频指纹数据库,这样的好处是能够实现便于通过该检索索引在该构建的音频指纹数据库中检索到对应的音频指纹。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种音频指纹的提取方法,其特征在于,包括:
获取至少一个用户的音频数据;
将所述获取的每个用户的音频数据分别生成频谱图,将所述获取的每个用户的音频数据分别作自相关卷积,和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算,和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换,和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图;
根据所述分别生成的频谱图,分别提炼所述获取的每个用户的音频数据的音频周期性特征;
分别还原所述音频周期性特征对应的音频数据的现场音频,按照所述音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频,并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原所述音频周期性特征对应的音频数据的现场音频;
分别提取所述现场音频的音频指纹。
2.如权利要求1所述的音频指纹的提取方法,其特征在于,所述根据所述分别生成的频谱图,分别提炼所述获取的每个用户的音频数据的音频周期性特征,包括:
在所述分别生成的频谱图上分别配置关联所述获取的每个用户的音频数据的自功率谱分布图,和从所述分别配置的自功率谱分布图中分别提炼所述获取的每个用户的音频数据的音频周期性特征。
3.如权利要求1所述的音频指纹的提取方法,其特征在于,在所述分别提取所述现场音频的音频指纹之后,还包括:
对所述分别提取的音频指纹分配匹配检索索引,并根据所述检索索引,构建关联所述分别提取的音频指纹的音频指纹数据库。
4.一种音频指纹的提取装置,其特征在于,包括:
获取模块、生成模块、提炼模块、还原模块和提取模块;
所述获取模块,用于获取至少一个用户的音频数据;
所述生成模块,用于将所述获取的每个用户的音频数据分别生成频谱图,将所述获取的每个用户的音频数据分别作自相关卷积,和对所述经作自相关卷积后的所述每个用户的音频数据分别进行对数计算,和对所述经对数计算后的所述每个用户的音频数据分别进行傅里叶变换,和根据所述经傅里叶变换后的所述每个用户的音频数据分别生成频谱图;
所述提炼模块,用于根据所述分别生成的频谱图,分别提炼所述获取的每个用户的音频数据的音频周期性特征;
所述还原模块,用于分别还原所述音频周期性特征对应的音频数据的现场音频,按照所述音频周期性特征的时间先后顺序,采用音频封装的方式,分别还原所述时间先后顺序对应的时间点上的音频数据的现场音频,并将所述分别还原得到的现场音频进行按时间先后顺序的无缝拼接的方式,还原所述音频周期性特征对应的音频数据的现场音频;
所述提取模块,用于分别提取所述现场音频的音频指纹。
5.如权利要求4所述的音频指纹的提取装置,其特征在于,所述提炼模块,具体用于:
在所述分别生成的频谱图上分别配置关联所述获取的每个用户的音频数据的自功率谱分布图,和从所述分别配置的自功率谱分布图中分别提炼所述获取的每个用户的音频数据的音频周期性特征。
6.如权利要求4所述的音频指纹的提取装置,其特征在于,所述音频指纹的提取装置,还包括:
构建模块;
所述构建模块,用于对所述分别提取的音频指纹分配匹配检索索引,并根据所述检索索引,构建关联所述分别提取的音频指纹的音频指纹数据库。
CN202010293880.1A 2020-04-15 2020-04-15 一种音频指纹的提取方法和装置以及设备 Active CN111522991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010293880.1A CN111522991B (zh) 2020-04-15 2020-04-15 一种音频指纹的提取方法和装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293880.1A CN111522991B (zh) 2020-04-15 2020-04-15 一种音频指纹的提取方法和装置以及设备

Publications (2)

Publication Number Publication Date
CN111522991A CN111522991A (zh) 2020-08-11
CN111522991B true CN111522991B (zh) 2022-05-17

Family

ID=71901499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293880.1A Active CN111522991B (zh) 2020-04-15 2020-04-15 一种音频指纹的提取方法和装置以及设备

Country Status (1)

Country Link
CN (1) CN111522991B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708990A (zh) * 2016-12-15 2017-05-24 腾讯音乐娱乐(深圳)有限公司 一种音乐片段提取方法和设备
KR20180027209A (ko) * 2016-09-06 2018-03-14 주식회사 티앤블루랩 오디오 핑거프린트 추출 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN107622773B (zh) * 2017-09-08 2021-04-06 科大讯飞股份有限公司 一种音频特征提取方法与装置、电子设备
CN110136744B (zh) * 2019-05-24 2021-03-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频指纹生成方法、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027209A (ko) * 2016-09-06 2018-03-14 주식회사 티앤블루랩 오디오 핑거프린트 추출 장치 및 방법
CN106708990A (zh) * 2016-12-15 2017-05-24 腾讯音乐娱乐(深圳)有限公司 一种音乐片段提取方法和设备

Also Published As

Publication number Publication date
CN111522991A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN107609186B (zh) 信息处理方法及装置、终端设备及计算机可读存储介质
CN108172213B (zh) 娇喘音频识别方法、装置、设备及计算机可读介质
CN103930898A (zh) 程序分析/验证服务提供系统及其控制方法、控制程序、用于使计算机发挥功能的控制程序、程序分析/验证装置、程序分析/验证工具管理装置
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN108982965B (zh) 一种频谱分析装置
CN105068663A (zh) 一种基于脑电信号的对象选择方法及装置
CN111190962A (zh) 一种文件同步方法、装置及本地终端
CN111863014A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN110865828A (zh) 数据升级方法、装置、设备及计算机可读存储介质
CN104424352A (zh) 向用户终端提供代理服务的系统和方法
CN109697083B (zh) 数据的定点化加速方法、装置、电子设备及存储介质
CN111522991B (zh) 一种音频指纹的提取方法和装置以及设备
CN103390403B (zh) Mfcc特征的提取方法及装置
CN110889010A (zh) 音频匹配方法、装置、介质和电子设备
CN109410920A (zh) 用于获取信息的方法及装置
CN111414528B (zh) 确定设备标识的方法、装置、存储介质及电子设备
CN111581430B (zh) 一种音频指纹的生成方法和装置以及设备
CN109841232B (zh) 音乐信号中音符位置的提取方法和装置及存储介质
DE102010017101A1 (de) Computerimplementiertes System für ein Monitoring einer multimodalen Zugänglichkeit zu einer Mehrzahl von Medienartikeln
CN111190902A (zh) 一种医疗数据的结构化方法、装置、设备及存储介质
CN112002339B (zh) 语音降噪方法和装置、计算机可读的存储介质及电子装置
CN109446060B (zh) 一种服务端测试用例集的生成方法、终端设备及存储介质
CN111326162B (zh) 一种声纹特征的采集方法和装置以及设备
CN113094415A (zh) 数据抽取方法、装置、计算机可读介质及电子设备
CN105224998A (zh) 一种针对于预估模型的数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant