CN110299134B - 一种音频处理方法和系统 - Google Patents

一种音频处理方法和系统 Download PDF

Info

Publication number
CN110299134B
CN110299134B CN201910583711.9A CN201910583711A CN110299134B CN 110299134 B CN110299134 B CN 110299134B CN 201910583711 A CN201910583711 A CN 201910583711A CN 110299134 B CN110299134 B CN 110299134B
Authority
CN
China
Prior art keywords
audio
time
audio data
angular frequency
energy value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910583711.9A
Other languages
English (en)
Other versions
CN110299134A (zh
Inventor
杨浩
高岩
赵全军
陈宏江
孙萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinosoft Co ltd
Original Assignee
Sinosoft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinosoft Co ltd filed Critical Sinosoft Co ltd
Priority to CN201910583711.9A priority Critical patent/CN110299134B/zh
Publication of CN110299134A publication Critical patent/CN110299134A/zh
Application granted granted Critical
Publication of CN110299134B publication Critical patent/CN110299134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种音频处理方法,该方法包括以下步骤:读取整段音频;获取整段音频的幅度谱所对应的角频率和极大能量值;分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数;基于所述归一化后的音频参数获取整段音频的音频特征;其中,所述获取整段音频的音频特征包括随机采样步骤和余弦距离值获取步骤;重复执行随机采样步骤和余弦距离值获取步骤得到多个余弦距离值,根据所述多个余弦距离值生成统计直方图,将该统计直方图记为整段音频的音频特征。本发明还公开了一种音频处理系统。本发明最终获得的音频特征是全局特征向量,而且该音频特征的特征向量是固定维数,因此不会随音频长短而变化。

Description

一种音频处理方法和系统
技术领域
本发明属于涉及音频媒体文件处理的技术领域,尤其涉及一种音频处理方法和系统。
背景技术
目前,在音频的分类与检索中,提取音频的共性特征非常重要,这些共性特征既需要相互关联,又需要保持一定的差异性。在分类场景中,需要共性特征的关联性较强,用于区分不同的类别。
而在检索场景中,需要共性特征的差异性较强,保证每个样本具有独特的属性,检索出与其相似的样本。
现有技术中,一般是提取每一帧音频信号的基础特征进行处理,例如,梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征、基音(pitch)特征和频率特征等音频特征,无法根据整段音频提取出全局特征向量,而且提取出的音频特征向量不是固定维数,随着音频长短而发生变化,这样就无法直接对整个音频进行快速分类、检索等。
发明内容
有鉴于此,本发明实施例提供一种音频处理方法及系统,用以提取原始整段音频文件的全局特征向量,而且提取出的音频特征向量是固定维数,不随音频长短而发生变化,从而可以直接对整个音频进行快速分类、检索等。
第一方面,本发明实施例提供了一种音频处理方法该方法包括以下步骤:
读取整段音频;
获取整段音频的幅度谱所对应的角频率和极大能量值;
分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数;
基于所述归一化后的音频参数获取整段音频的音频特征;
其中,所述获取整段音频的音频特征包括以下子步骤;
随机采样步骤:在归一化后的音频参数中,随机采样两组音频数据,记为第一音频数据和第二音频数据;
余弦距离值获取步骤:基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值;
重复执行随机采样步骤和余弦距离值获取步骤得到多个余弦距离值,根据所述多个余弦距离值生成统计直方图,将该统计直方图记为整段音频的音频特征。
第二方面,本发明实施例提供了一种音频处理系统,该系统包括读取模块、第一获取模块、归一化模块和第二获取模块;
所述读取模块用于读取整段音频;
所述第一获取模块用于获取整段音频的幅度谱所对应的角频率和极大能量值;
所述归一化模块分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数;
所述第二获取模块基于所述归一化后的音频参数获取整段音频的音频特征;
所述第二获取模块包括采样模块和余弦距离值获取模块;
所述采样模块执行以下操作:在归一化后的音频参数中,随机采样两组音频数据,记为第一音频数据和第二音频数据;
所述余弦距离值获取模块执行以下操作:基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值;
所述采样模块和余弦距离值获取模块重复执行操作以得到多个余弦距离值,根据所述多个余弦距离值生成统计直方图,将该统计直方图记为整段音频的音频特征。
本发明通过获取整段音频的幅度谱所对应的角频率和极大能量值;并分别对所述角频率、极大能量值及及所述整段音频的时间进行归一化以得到归一化后的音频参数;基于所述音频参数获取整段音频文件的音频特征;本发明是基于整段音频文件来获得音频特征的,因此最终获得的音频特征是全局特征向量;而且该音频特征的特征向量是固定维数,因此不会随音频长短而变化;另外提取到的音频特征为统计特征,对截取音频具有较高冗余性。
附图说明
图1为本发明实施例提供的一种音频处理方法的流程示意图;
图2为本发明实施例提供的一种音频处理系统的结构示意图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
实施例一
下面介绍本发明实施例提供的一种音频处理方法的具体实施方式,参见图1,该提取方法包括;
S100:读取整段音频;
这里,本发明是读取整段音频文件进行处理的。
S200:获取整段音频的幅度谱所对应的角频率和极大能量值;
具体的,步骤S200包括以下子步骤s210和s220;
s210:利用傅里叶变换提取所述整段音频的幅度谱;
本实施例中,可以以1秒长度的音频为窗并利用傅里叶变换提取整段音频的幅度谱;
Figure BDA0002113779830000031
s220:根据整段音频的幅度谱得到对应的角频率和极大能量值;
所述角频率通过以下公式获得:
Figure BDA0002113779830000032
其中,F(ω,t0)表示在t0时刻,窗长度为1秒(以t0为基准,前后0.5秒)音频的幅度谱;|F(ω,t0)|2表示在t0时刻,窗长度为1秒(以t0为基准,前后0.5秒)音频的能量谱;ω是音频的角频率;ωmax(t0)表示在t0时刻能量值最高的角频率。
所述极大能量值通过以下公式获得:
E(t0)=|F(ωmax(t0),t0)|2;(3)
其中,E(t0)是t0时刻的极大能量值。
S300:分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数;
具体的,对所述角频率、极大能量值及所述整段音频的时间进行归一化处理的公式如下:
Figure BDA0002113779830000041
Figure BDA0002113779830000042
其中,E(t0)是t0时刻的极大能量值;F(ω,t0)表示在t0时刻,窗长度为1秒的音频的幅度谱;ω是角频率;Emean、ωmean分别为能量值的均值、角频率的均值;Evar、ωvar分别为能量值的方差、角频率的方差;Enorm,ωnorm分别为归一化后的能量值、归一化后的角频率。
对整段音频的时间进行归一化的处理公式如下,以将整段音频压缩到0-1的范围内;
Figure BDA0002113779830000043
其中,tst为整段音频的开始时间,ten为整段音频的结束时间,t0为整段音频的某个具体时间,Tnorm为归一化后的音频的时间。
S400:基于所述归一化后的音频参数获取整段音频的音频特征;
本实施例中,归一化后的音频参数即为步骤S300中的Tnorm、Enorm、ωnorm,所述获取整段音频的音频特征包括以下子步骤;
S410,随机采样步骤:在归一化后的音频参数中,随机采样两组音频数据,记为第一音频数据和第二音频数据;
具体的,上述两组音频数据可以表示为第一音频数据(t1,e1,f1)、第二音频数据(t2,e2,f2);
其中,t1为第一音频数据的时间,e1为第一音频数据的时间t1所对应的能量值,f1为第一音频数据的时间t1所对应的角频率;
其中,t2为第二音频数据的时间,e2为第二音频数据的时间t2所对应的能量值,f2为第二音频数据的时间t2所对应的角频率。
S420,余弦距离值获取步骤:基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值;
Figure BDA0002113779830000044
S430,重复执行步骤S420和S430,得到多个余弦距离值,根据所述多个余弦距离值生成统计直方图,将该统计直方图记为整段音频的音频特征;优选的,为了获取到的全局音频特征更加全面,需要计算不少于5000个余弦距离值。
本实施例所提取的音频特征是基于整段音频来获得,因此最终获得的音频特征是全局特征向量;而且该音频特征的特征向量是固定维数,因此不会随音频长短而变化,从而可以直接对整个音频进行快速分类、检索等;另外提取到的音频特征为统计特征,对截取音频具有较高的冗余性。
实施例二
图2为本发明实施例提供的一种音频处理系统的结构示意图,参见图2,本实施例中的一种音频处理系统,包括读取模块、第一获取模块、归一化模块和第二获取模块;
所述读取模块用于读取整段音频;
所述第一获取模块用于获取整段音频的幅度谱所对应的角频率和极大能量值;
所述归一化模块分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数;
所述第二获取模块基于所述归一化后的音频参数获取整段音频的音频特征;
所述第二获取模块包括采样模块和余弦距离值获取模块;
所述采样模块执行以下操作:在归一化后的音频参数中,随机采样两组音频数据,记为第一音频数据和第二音频数据;
所述余弦距离值获取模块执行以下操作:基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值;
所述采样模块和余弦距离值获取模块重复执行以上操作以得到多个余弦距离值,根据所述多个余弦距离值生成统计直方图,将该统计直方图记为整段音频的音频特征。
进一步的,利用傅里叶变换提取所述整段音频的幅度谱。
进一步的,所述归一化模块包括角频率归一化模块和极大能量值归一化模块;
所述极大能量值归一化模块对所述极大能量值进行归一化处理公式为:
Figure BDA0002113779830000051
所述角频率归一化模块对所述角频率进行归一化处理公式为:
Figure BDA0002113779830000052
其中,E(t0)是t0时刻的极大能量值;F(ω,t0)表示在t0时刻,窗长度为1秒的音频的幅度谱;ω是角频率;Emean、ωmean分别为能量值的均值、角频率的均值;Evar、ωvar分别为能量值的方差、角频率的方差;Enorm,ωnorm分别为归一化后的能量值、归一化后的角频率。
进一步的,所述归一化模块还包括时间归一化模块;
所述时间归一化模块对整段音频的时间进行归一化处理公式为:
Figure BDA0002113779830000061
其中,tst为整段音频的开始时间,ten为整段音频的结束时间,t0整段音频中的某个特定时间,Tnorm为归一化后的音频的时间。本实施例中的音频处理系统的工作过程与上述实施例基本一致,在此不再赘述。
本发明的有益效果:
本发明通过获取整段音频的幅度谱所对应的角频率和极大能量值;并分别对所述角频率、极大能量值及整段音频的时间进行归一化以得到归一化后的音频参数;基于所述音频参数获取整段音频的音频特征;本发明是基于整段音频来获得音频特征的,因此最终获得的音频特征是全局特征向量;而且该音频特征的特征向量是固定维数,因此不会随音频长短而变化;另外提取到的音频特征为统计特征,对截取音频具有较高冗余性。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种音频处理方法,其特征在于,该方法包括以下步骤:
读取整段音频;
获取整段音频的幅度谱所对应的角频率和极大能量值;
分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数;
基于所述归一化后的音频参数获取整段音频的音频特征;
其中,所述获取整段音频的音频特征包括以下子步骤;
随机采样步骤:在归一化后的音频参数中,随机采样两组音频数据,记为第一音频数据和第二音频数据;其中,所述第一音频数据包括t1、e1和f1,t1为第一音频数据的时间,e1为第一音频数据的时间t1所对应的能量值,f1为第一音频数据的时间t1所对应的角频率;所述第二音频数据包括t2、e2和f2,t2为第二音频数据的时间,e2为第二音频数据的时间t2所对应的能量值,f2为第二音频数据的时间t2所对应的角频率;
余弦距离值获取步骤:基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值;
重复执行随机采样步骤和余弦距离值获取步骤得到多个余弦距离值,根据所述多个余弦距离值生成统计直方图,将该统计直方图记为整段音频的音频特征。
2.根据权利要求1所述的方法,其特征在于,利用傅里叶变换提取所述整段音频的幅度谱。
3.根据权利要求1所述的方法,其特征在于,对所述角频率、极大能量值进行归一化处理的公式为:
Figure FDA0003214328070000011
Figure FDA0003214328070000012
其中,E(t0)是t0时刻的极大能量值;F(ω,t0)表示在t0时刻,窗长度为1秒的音频的幅度谱;ω是角频率;Emean、ωmean分别为能量值的均值、角频率的均值;Evar、ωvar分别为能量值的方差、角频率的方差;Enorm,ωnorm分别为归一化后的能量值、归一化后的角频率。
4.根据权利要求1所述的方法,其特征在于,对整段音频的时间进行归一化的处理公式为:
Figure FDA0003214328070000013
其中,tst为整段音频的开始时间,ten为整段音频的结束时间,t0为整段音频中的某个特定时间,Tnorm为归一化后的音频的时间。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:利用所述整段音频的音频特征对音频进行分类和检索。
6.一种音频处理系统,其特征在于,该系统包括读取模块、第一获取模块、归一化模块和第二获取模块;
所述读取模块用于读取整段音频;
所述第一获取模块用于获取整段音频的幅度谱所对应的角频率和极大能量值;
所述归一化模块分别对所述角频率、极大能量值及所述整段音频的时间进行归一化以得到归一化后的音频参数;
所述第二获取模块基于所述归一化后的音频参数获取整段音频的音频特征;
所述第二获取模块包括采样模块和余弦距离值获取模块;
所述采样模块执行以下操作:在归一化后的音频参数中,随机采样两组音频数据,记为第一音频数据和第二音频数据;其中,所述第一音频数据包括t1、e1和f1,t1为第一音频数据的时间,e1为第一音频数据的时间t1所对应的能量值,f1为第一音频数据的时间t1所对应的角频率;所述第二音频数据包括t2、e2和f2,t2为第二音频数据的时间,e2为第二音频数据的时间t2所对应的能量值,f2为第二音频数据的时间t2所对应的角频率;
所述余弦距离值获取模块执行以下操作:基于第一音频数据和第二音频数据得到两组音频数据间的余弦距离值;
所述采样模块和余弦距离值获取模块重复执行操作以得到多个余弦距离值,根据所述多个余弦距离值生成统计直方图,将该统计直方图记为整段音频的音频特征。
7.根据权利要求6所述的系统,其特征在于,利用傅里叶变换提取所述整段音频的幅度谱。
8.根据权利要求6所述的系统,其特征在于,所述归一化模块包括角频率归一化模块和极大能量值归一化模块;
所述极大能量值归一化模块对所述极大能量值进行归一化处理公式为:
Figure FDA0003214328070000021
所述角频率归一化模块对所述角频率进行归一化处理公式为:
Figure FDA0003214328070000022
其中,E(t0)是t0时刻的极大能量值;F(ω,t0)表示在t0时刻,窗长度为1秒的音频的幅度谱;ω是角频率;Emean、ωmean分别为能量值的均值、角频率的均值;Evar、ωvar分别为能量值的方差、角频率的方差;Enorm,ωnorm分别为归一化后的能量值、归一化后的角频率。
9.根据权利要求6所述的系统,其特征在于,所述归一化模块还包括时间归一化模块;
所述时间归一化模块对整段音频文件的时间进行归一化处理公式为:
Figure FDA0003214328070000031
其中,tst为整段音频的开始时间,ten为整段音频的结束时间,t0为整段音频中的某个特定时间,Tnorm为归一化后的音频的时间。
10.根据权利要求6-9任一项所述的系统,其特征在于,利用所述整段音频的音频特征对音频进行分类和检索。
CN201910583711.9A 2019-07-01 2019-07-01 一种音频处理方法和系统 Active CN110299134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910583711.9A CN110299134B (zh) 2019-07-01 2019-07-01 一种音频处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910583711.9A CN110299134B (zh) 2019-07-01 2019-07-01 一种音频处理方法和系统

Publications (2)

Publication Number Publication Date
CN110299134A CN110299134A (zh) 2019-10-01
CN110299134B true CN110299134B (zh) 2021-10-26

Family

ID=68029672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910583711.9A Active CN110299134B (zh) 2019-07-01 2019-07-01 一种音频处理方法和系统

Country Status (1)

Country Link
CN (1) CN110299134B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092877B2 (en) * 2001-07-31 2006-08-15 Turk & Turk Electric Gmbh Method for suppressing noise as well as a method for recognizing voice signals
CN100424692C (zh) * 2005-08-31 2008-10-08 中国科学院自动化研究所 音频快速搜索方法
CN106294331B (zh) * 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
CN109767756B (zh) * 2019-01-29 2021-07-16 大连海事大学 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Estimation of Acoustic Reflection Coefficients Through Pseudospectrum Matching;D. Marković;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20120131;全文 *

Also Published As

Publication number Publication date
CN110299134A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
JP7025569B2 (ja) 保険の録音による品質検査方法、装置、機器及びコンピュータ記憶媒体
EP3477506A1 (en) Video detection method, server and storage medium
US8977067B1 (en) Audio identification using wavelet-based signatures
US9009149B2 (en) Systems and methods for mobile search using Bag of Hash Bits and boundary reranking
JP6049693B2 (ja) ウェブ情報マイニングを用いたビデオ内製品アノテーション
CN109493881B (zh) 一种音频的标签化处理方法、装置和计算设备
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN108269122B (zh) 广告的相似度处理方法和装置
CN109117622B (zh) 一种基于音频指纹的身份认证方法
JP6923089B2 (ja) 情報処理装置、方法およびプログラム
CN104142831B (zh) 应用程序搜索方法及装置
CN113221918A (zh) 目标检测方法、目标检测模型的训练方法及装置
WO2023000764A1 (zh) 目标检索方法、装置、设备及存储介质
US20130121598A1 (en) System and Method for Randomized Point Set Geometry Verification for Image Identification
WO2015131528A1 (zh) 确定给定文本的主题分布的方法和装置
Yuan et al. Machinery fault diagnosis based on time–frequency images and label consistent K-SVD
CN111640438B (zh) 音频数据处理方法、装置、存储介质及电子设备
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
CN110299134B (zh) 一种音频处理方法和系统
CN113409771A (zh) 一种伪造音频的检测方法及其检测系统和存储介质
JPH11250106A (ja) 内容基盤の映像情報を利用した登録商標の自動検索方法
US9449085B2 (en) Pattern matching of sound data using hashing
CN112487809B (zh) 文本数据降噪方法及装置、电子设备和可读存储介质
CN109635180A (zh) 基于互联网海量信息的关键词分类处理系统及其方法
Al-Obaide et al. Image retrieval based on discrete curvelet transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant