CN107731220A - 音频识别方法、装置和服务器 - Google Patents
音频识别方法、装置和服务器 Download PDFInfo
- Publication number
- CN107731220A CN107731220A CN201710968754.XA CN201710968754A CN107731220A CN 107731220 A CN107731220 A CN 107731220A CN 201710968754 A CN201710968754 A CN 201710968754A CN 107731220 A CN107731220 A CN 107731220A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- fingerprint
- point data
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000002463 transducing effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 3
- 241001465754 Metazoa Species 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000006854 communication Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 9
- 239000012634 fragment Substances 0.000 description 6
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011435 rock Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种音频识别方法,获取待识别音频文件;提取该待识别音频文件的音频特征信息,该音频特征信息包括音频指纹;在指纹索引库中搜索与该音频特征信息匹配的音频属性信息,其中,该指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。由于指纹索引库中的音频指纹集合是对音频样本数据进行无效音频指纹去除后的,因此可以减少指纹索引库中音频指纹的存储空间,并且能够提高音频识别效率。此外还提供了一种音频识别装置和服务器。
Description
技术领域
本发明涉及音频识别技术领域,具体而言,本发明涉及一种音频识别方法、装置和服务器。
背景技术
在音频识别领域,可以基于音频指纹而判断音频属性,例如判断一段音乐的音乐风格,判断一段声音中出现的哪些动物叫声等等。基于指纹的音频检索系统中,每个音频文件中的音频指纹由在频域中的局部极大值点(峰值点)组成。很多时候为了达到一些效果(例如减少体积、增加艺术效果等等),一些音频提供方需要对音频文件进行特殊处理再提供给用户,这些特殊处理由于是对音频文件的再处理,因此可以理解成音频攻击,常见的音频攻击有分割、转换音频编码格式、翻录、采样率变换等等。
然而,传统的音频检索系统通常都是基于受音频攻击前的原始音频文件而存储相应的音频指纹,当受到这类音频攻击时,原始音频文件中原有的部分局部极大值点会消失或在频域空间中向其邻近的空间移动,从而导致基于该局部极大值点衍生出的音频指纹成为无效指纹。无效指纹的存在不但浪费了大量的存储空间,而且导致匹配指纹时计算量的大幅升高,因而识别效率低。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是浪费存储空间的技术缺陷。
本发明提供一种音频识别方法,所述方法包括:
获取待识别音频文件;
提取所述待识别音频文件的音频特征信息,所述音频特征信息包括音频指纹;
在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息;
其中,所述指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。
在其中一个实施例中,所述指纹索引库包括由分类器对音频样本数据进行无效音频指纹去除后的音频指纹集合。
在其中一个实施例中,所述分类器经以下步骤建立:
提取训练数据集中的音频数据的第一特征点数据;
对所述训练数据集中的音频数据进行音频攻击,提取经攻击后的训练数据集中的音频数据的第二特征点数据;
对比第一特征点数据和第二特征点数据,将消失或移动的特征点数据标记为反例数据,将鲁棒性存在的特征点数据标记为正例数据;
利用第一特征点数据、正例数据、反例数据训练和建立所述分类器。
在其中一个实施例中,所述分类器对所述音频样本数据进行筛选,将判定为反例数据的特征点数据作为无效音频指纹去除。
在其中一个实施例中,利用第一特征点数据、正例数据、反例数据训练和建立所述分类器的算法那包括以下至少一种:
最近邻算法、支持向量机、神经网络。
在其中一个实施例中,所述第一特征点数据和/或第二特征点数据包括以下至少一种:
局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在所述音频帧中的能量占比、所述音频帧中局部极大点的数量、所述音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。
在其中一个实施例中,所述音频攻击包括对音频文件进行的数据处理,所述数据处理包括以下至少一种:
分割、转换音频编码格式、采样率变换、按不同信噪比和噪声类型进行加噪处理、ova翻录、非ova翻录。
在其中一个实施例中,与所述音频特征信息匹配的音频属性信息包括以下至少一种:
歌曲风格、音频中自然声音、音频中发声者语言。
在其中一个实施例中,所述音频属性信息包括音频发声者语言及相应的翻译文字信息。
在其中一个实施例中,还包括步骤:
输出所述音频属性信息。
本发明还提供一种音频识别装置,包括:
获取模块,用于获取待识别音频文件;
提取模块,用于提取所述待识别音频文件的音频特征信息,所述音频特征信息包括音频指纹;
搜索模块,用于在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息;
其中,所述指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。
在其中一个实施例中,所述指纹索引库包括由分类器对音频样本数据进行无效音频指纹去除后的音频指纹集合。
在其中一个实施例中,所述分类器由以下步骤建立:
提取训练数据集中的音频数据的第一特征点数据;
对所述训练数据集中的音频数据进行音频攻击,提取经攻击后的训练数据集中的音频数据的第二特征点数据;
对比第一特征点数据和第二特征点数据,将消失或移动的特征点数据标记为反例数据,将鲁棒性存在的特征点数据标记为正例数据;
利用第一特征点数据、正例数据、反例数据训练和建立所述分类器。
在其中一个实施例中,所述分类器对所述音频样本数据进行筛选,将判定为反例数据的特征点数据作为无效音频指纹去除。
在其中一个实施例中,利用第一特征点数据、正例数据、反例数据训练和建立所述分类器的算法那包括以下至少一种:
最近邻算法、支持向量机、神经网络。
在其中一个实施例中,所述第一特征点数据和/或第二特征点数据包括以下至少一种:
局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在所述音频帧中的能量占比、所述音频帧中局部极大点的数量、所述音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。
在其中一个实施例中,所述音频攻击包括对音频文件进行的数据处理,所述数据处理包括以下至少一种:
分割、转换音频编码格式、采样率变换、按不同信噪比和噪声类型进行加噪处理、ova翻录、非ova翻录。
在其中一个实施例中,与所述音频特征信息匹配的音频属性信息包括以下至少一种:
歌曲风格、音频中自然声音、音频中发声者语言。
在其中一个实施例中,所述音频属性信息包括音频发声者语言及相应的翻译文字信息。
在其中一个实施例中,还包括输出模块,所述输出模块用于输出所述音频属性信息。
本发明还提供一种服务器,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述任一实施例的音频识别方法。
上述的音频识别方法、装置和服务器,获取待识别音频文件;提取所述待识别音频文件的音频特征信息,所述音频特征信息包括音频指纹;在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息,其中,所述指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。由于指纹索引库中的音频指纹集合是对音频样本数据进行无效音频指纹去除后的,因此可以减少指纹索引库中音频指纹的存储空间,并且能够提高音频识别效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例的音频识别方法流程图;
图2为一个实施例的分类器建立过程图;
图3为一个实施例的音频识别装置模块图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的远端网络设备,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
图1为一个实施例的音频识别方法流程图步骤S100~S400。
本发明提供一种音频识别方法,该方法包括:
步骤S100:获取待识别音频文件。
待识别音频文件可以是电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、音乐电台播放的音乐片段或人发出的音频数据(例如:哼唱的音乐、歌曲片段)等。用户若想要知道待识别音频文件的信息,例如:音乐文件的音乐风格、音频文件里动物叫声类型、说话者所说语言类型等信息,可发起音频识别请求。在本步骤中,当接收到用户发送的音频识别请求时,获取待识别音频文件。
待识别音频文件获取过程可以包含以下两种实施方式:第一种实施方式,在接收到用户发送的音频识别请求时,可启动录音功能,实时录制音频文件,这个实时录制的音频文件即待识别音频文件。第二种实施方式,在接收到用户发送的音频识别请求时,可接收用户提供的请求识别的待识别音频文件,用户可以通过上传的方式提供待识别音频文件。
步骤S200:提取该待识别音频文件的音频特征信息,该音频特征信息包括音频指纹。
音频文件的音频指纹指可以反映音频文件重要声学特征的标识信息;音频文件的指纹要求感知(或内容)相似性,具备区分性、鲁棒性、粒度等基本特征。其中,区分性指不同音频文件的指纹应具有较大的差异,而同一音频文件的原始记录的指纹和失真记录的指纹之间应该具有较小的差异;鲁棒性指音频文件在经历各种音频格式变换、信道噪声干扰等处理后,仍然能够被识别出来;粒度指即使针对短音频文件(即音频文件的长度较短,如5s-10s),也能够顺利识别。另外,音频文件的指纹在各种应用场景中,还具备更多的特征,例如:终端应用场景中,音频文件的指纹要求具备易计算性,在计算资源受限的终端中能够实现快速实时的指纹计算;再如:在无线网络应用场景中,音频文件的指纹要求数据量较小,以适应无线网络传输。
音频指纹由在频域中的局部极大值点(峰值点)组成。例如可以对音频文件进行基于短时傅里叶变换的时频分析,生成多个相位通道,每个相位通道对应有一个时频子图;然后提取这些相位通道中的每个相位通道的至少一个局部极大值点(峰值点),每个相位通道的至少一个峰值特征点构成每个相位通道的峰值特征点序列;对每个相位通道的峰值特征点序列进行处理(例如哈希运算)得到对应相位通道的每条指纹序列,然后这些指纹序列一起构成音频指纹。
在这里,音频特征信息是用于反映该待识别音频文件的特征信息,该音频特征信息可以包括反映该待识别音频文件的标识信息的音频指纹。
步骤S300:在指纹索引库中搜索与该音频特征信息匹配的音频属性信息;其中,该指纹索引库包括对音频样本数据(可能包含上百万个音频文件)进行无效音频指纹去除后的音频指纹集合。
音频属性数据是描述音频属性的数据,例如如果是音乐,则属性数据可以是音乐风格(流行、摇滚、古典、爵士等等),甚至可以详细到演唱者、音乐名称等等;如果是某段关于动物叫声的音频,则属性数据可以是音频中动物叫声的动物类型;如果是某段关于人物说话的音频,则属性数据可以是音频中说话语言的类型(例如汉语、英语、日语)。即与该音频特征信息匹配的音频属性信息可以包括以下至少一种:歌曲风格、音频中自然声音(如人物呼叫声、动物叫声、风声、打雷声、雨声、碰撞声)、音频中发声者语言。
因此,如果可以识别出音频中发声者的语言,那么可以考虑用来识别语言,例如语言类型或语言内容。这样,可以将本方法应用于翻译工具上,例如识别出语言内容并同时翻译出相应的文字,此时音频属性信息可以包括音频发声者语言及相应的翻译文字信息。
在一些实施例中,音频识别方法还可以包括步骤S400:输出该音频属性信息。例如将识别出的音乐的演唱者、歌曲名称等音乐信息输出给用户,将识别出的动物叫声输出给用户(可用于野外动物研究),将识别出的风声、打雷声、雨声输出给用户(可用于气象研究),将识别出的语言类型或语言内容输出给用户(可用于语言翻译)。
在一些实施例中,可以利用分类器对音频样本数据进行无效音频指纹去除,该分类器可以经以下步骤S301~S304建立。图2为一个实施例的分类器建立过程图。
S301:提取训练数据集中的音频数据的第一特征点数据。
训练数据集中的音频数据,是提前收集的各种音频数据。以音乐风格识别为例,可以提前收集各种音乐风格的歌曲,例如流行、摇滚、古典、爵士等等,每种风格都收集多个训练数据,并且对训练数据进行标注,即标注歌曲对应的是哪种音乐风格。为了保证较佳的识别效果,训练数据的数量应该尽可能多(例如每种类型一万多个音频文件)。
收集好样本后,即可以对训练数据集中的样本进行第一特征点数据的提取。该第一特征点数据是能够反映样本的音频属性的特征数据,如将每个音频文件分成多个音频帧,则可以包括以下至少一种:局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在该音频帧中的能量占比、该音频帧中局部极大点的数量、该音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。
S302:对该训练数据集中的音频数据进行音频攻击,提取经攻击后的训练数据集中的音频数据的第二特征点数据。
音频攻击包括对音频文件进行的数据处理,该数据处理包括以下至少一种类型:分割、转换音频编码格式、采样率变换、按不同信噪比和噪声类型进行加噪处理、ova(over-the-air)翻录、非ova翻录。一般情况下,只用单一种类型的音频攻击。除了“分割”以外,每种攻击都会造成一定的音质下降,如果进行组合攻击的话,可能会造成音质下降严重,此时再提取音频指纹也没有什么意义了。使用组合攻击时,一般只做“转换音频编码格式”和“采用率转换”两种攻击的组合。这两种攻击每种都有多个(例如数十个)可选参数,组合在一起的数量也有几百种可能。
音频攻击后,从攻击后的音频数据中提取第二特征点数据。与第一特征点数据类似,该第二特征点数据是能够反映样本的音频属性的特征数据,如将每个音频文件分成多个音频帧,则可以包括以下至少一种:局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在该音频帧中的能量占比、该音频帧中局部极大点的数量、该音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。
S303:对比第一特征点数据和第二特征点数据,将消失或移动的特征点数据标记为反例数据,将鲁棒性存在的特征点数据标记为正例数据。例如,将第一特征点数据和第二特征点数据进行对比,如果第一特征点数据中有些数据在第二特征点数据中是并没有的,则这些数据就是消失的特征点数据;又例如,某一个局部极大值点(第一特征点数据)原本在(1.10秒,200Hz)的位置,但是经过一次编解码转换(即音乐攻击)后,这个局部极大值点没有出现在原来的位置,而出现在了(1.11秒,200Hz)的位置(成为第二特征点数据),也就是说在时间维度上平移了0.01秒,则这个移动了的局部极大值点即移动的特征点数据。而鲁棒性仍然存在的或者没有移动的特征点数据即为正例数据。
S304:利用第一特征点数据、正例数据、反例数据训练和建立该分类器。在一些实施例中,利用第一特征点数据、正例数据、反例数据训练和建立该分类器的算法包括以下至少一种:支持向量机(SVM)、最近邻算法(K Nearest Neighbor,又称K-最近邻算法)、神经网络等等。
当分类器建立后,利用该分类器对该上述的音频样本数据进行筛选,将判定为反例数据的特征点数据作为无效音频指纹去除,同时可以去除那些由判定为反例数据的特征点数据衍生的无效音频指纹,然后根据去除了无效音频指纹后的音频指纹集合就可以形成上述的指纹索引库。去除无效指纹,可以降低指纹索引库中的指纹数量,提高识别音频的效率。
对应上述的音频识别方法,本发明还提供一种音频识别装置,其包括:获取模块100、提取模块200和搜索模块300。图3为一个实施例的音频识别装置模块图。
获取模块100用于获取待识别音频文件;提取模块200用于提取该待识别音频文件的音频特征信息,该音频特征信息包括音频指纹;搜索模块300用于在指纹索引库中搜索与该音频特征信息匹配的音频属性信息,其中,该指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。
获取模块100获取待识别音频文件。
待识别音频文件可以是电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、音乐电台播放的音乐片段或人发出的音频数据(例如:哼唱的音乐、歌曲片段)等。用户若想要知道待识别音频文件的信息,例如:音乐文件的音乐风格、音频文件里动物叫声类型、说话者所说语言类型等信息,可发起音频识别请求。当接收到用户发送的音频识别请求时,获取模块100获取待识别音频文件。
待识别音频文件获取过程可以包含以下两种实施方式:第一种实施方式,获取模块100在接收到用户发送的音频识别请求时,可启动录音功能,实时录制音频文件,这个实时录制的音频文件即待识别音频文件。第二种实施方式,获取模块100在接收到用户发送的音频识别请求时,可接收用户提供的请求识别的待识别音频文件,用户可以通过上传的方式提供待识别音频文件。
提取模块200提取该待识别音频文件的音频特征信息,该音频特征信息包括音频指纹。
音频文件的音频指纹指可以反映音频文件重要声学特征的标识信息;音频文件的指纹要求感知(或内容)相似性,具备区分性、鲁棒性、粒度等基本特征。其中,区分性指不同音频文件的指纹应具有较大的差异,而同一音频文件的原始记录的指纹和失真记录的指纹之间应该具有较小的差异;鲁棒性指音频文件在经历各种音频格式变换、信道噪声干扰等处理后,仍然能够被识别出来;粒度指即使针对短音频文件(即音频文件的长度较短,如5s-10s),也能够顺利识别。另外,音频文件的指纹在各种应用场景中,还具备更多的特征,例如:终端应用场景中,音频文件的指纹要求具备易计算性,在计算资源受限的终端中能够实现快速实时的指纹计算;再如:在无线网络应用场景中,音频文件的指纹要求数据量较小,以适应无线网络传输。
音频指纹由在频域中的局部极大值点(峰值点)组成。例如可以对音频文件进行基于短时傅里叶变换的时频分析,生成多个相位通道,每个相位通道对应有一个时频子图;然后提取这些相位通道中的每个相位通道的至少一个局部极大值点(峰值点),每个相位通道的至少一个峰值特征点构成每个相位通道的峰值特征点序列;对每个相位通道的峰值特征点序列进行处理(例如哈希运算)得到对应相位通道的每条指纹序列,然后这些指纹序列一起构成音频指纹。
在这里,音频特征信息是用于反映该待识别音频文件的特征信息,该音频特征信息可以包括反映该待识别音频文件的标识信息的音频指纹。
搜索模块300在指纹索引库中搜索与该音频特征信息匹配的音频属性信息;其中,该指纹索引库包括对音频样本数据(可能包含上百万个音频文件)进行无效音频指纹去除后的音频指纹集合。
音频属性数据是描述音频属性的数据,例如如果是音乐,则属性数据可以是音乐风格(流行、摇滚、古典、爵士等等),甚至可以详细到演唱者、音乐名称等等;如果是某段关于动物叫声的音频,则属性数据可以是音频中动物叫声的动物类型;如果是某段关于人物说话的音频,则属性数据可以是音频中说话语言的类型(例如汉语、英语、日语)。即与该音频特征信息匹配的音频属性信息可以包括以下至少一种:歌曲风格、音频中自然声音(如人物呼叫声、动物叫声、风声、打雷声、雨声、碰撞声)、音频中发声者语言。
因此,如果可以识别出音频中发声者的语言,那么可以考虑用来识别语言,例如语言类型或语言内容。这样,可以将本装置应用于翻译工具上,例如识别出语言内容并同时翻译出相应的文字,此时音频属性信息可以包括音频发声者语言及相应的翻译文字信息。
在一些实施例中,音频识别装置还可以包括输出模块400,用于输出该音频属性信息。例如输出模块400将识别出的音乐的演唱者、歌曲名称等音乐信息输出给用户,将识别出的动物叫声输出给用户(可用于野外动物研究),将识别出的风声、打雷声、雨声输出给用户(可用于气象研究),将识别出的语言类型或语言内容输出给用户(可用于语言翻译)。
在一些实施例中,可以利用分类器对音频样本数据进行无效音频指纹去除,所述分类器由以下步骤S301~S304建立,请参阅图2。
S301:提取训练数据集中的音频数据的第一特征点数据。
训练数据集中的音频数据,是提前收集的各种音频数据。以音乐风格识别为例,可以提前收集各种音乐风格的歌曲,例如流行、摇滚、古典、爵士等等,每种风格都收集多个训练数据,并且对训练数据进行标注,即标注歌曲对应的是哪种音乐风格。为了保证较佳的识别效果,训练数据的数量应该尽可能多(例如每种类型一万多个音频文件)。
收集好样本后,即可以对训练数据集中的样本进行第一特征点数据的提取。该第一特征点数据是能够反映样本的音频属性的特征数据,如将每个音频文件分成多个音频帧,则可以包括以下至少一种:局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在该音频帧中的能量占比、该音频帧中局部极大点的数量、该音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。
S302:对该训练数据集中的音频数据进行音频攻击,提取经攻击后的训练数据集中的音频数据的第二特征点数据。
音频攻击包括对音频文件进行的数据处理,该数据处理包括以下至少一种类型:分割、转换音频编码格式、采样率变换、按不同信噪比和噪声类型进行加噪处理、ova(over-the-air)翻录、非ova翻录。一般情况下,只用单一种类型的音频攻击。除了“分割”以外,每种攻击都会造成一定的音质下降,如果进行组合攻击的话,可能会造成音质下降严重,此时再提取音频指纹也没有什么意义了。使用组合攻击时,一般只做“转换音频编码格式”和“采用率转换”两种攻击的组合。这两种攻击每种都有多个(例如数十个)可选参数,组合在一起的数量也有几百种可能。
音频攻击后,从攻击后的音频数据中提取第二特征点数据。与第一特征点数据类似,该第二特征点数据是能够反映样本的音频属性的特征数据,如将每个音频文件分成多个音频帧,则可以包括以下至少一种:局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在该音频帧中的能量占比、该音频帧中局部极大点的数量、该音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。
S303:对比第一特征点数据和第二特征点数据,将消失或移动的特征点数据标记为反例数据,将鲁棒性存在的特征点数据标记为正例数据。例如,将第一特征点数据和第二特征点数据进行对比,如果第一特征点数据中有些数据在第二特征点数据中是并没有的,则这些数据就是消失的特征点数据;又例如,某一个局部极大值点(第一特征点数据)原本在(1.10秒,200Hz)的位置,但是经过一次编解码转换(即音乐攻击)后,这个局部极大值点没有出现在原来的位置,而出现在了(1.11秒,200Hz)的位置(成为第二特征点数据),也就是说在时间维度上平移了0.01秒,则这个移动了的局部极大值点即移动的特征点数据。而鲁棒性仍然存在的或者没有移动的特征点数据即为正例数据。
S304:利用第一特征点数据、正例数据、反例数据训练和建立该分类器。在一些实施例中,利用第一特征点数据、正例数据、反例数据训练和建立该分类器的算法包括以下至少一种:支持向量机(SVM)、最近邻算法(K Nearest Neighbor,又称K-最近邻算法)、神经网络等等。
当分类器建立后,分类器对该上述的音频样本数据进行筛选,将判定为反例数据的特征点数据作为无效音频指纹去除,同时可以去除那些由判定为反例数据的特征点数据衍生的无效音频指纹,然后根据去除了无效音频指纹后的音频指纹集合就可以形成上述的指纹索引库。去除无效指纹,可以降低指纹索引库中的指纹数量,提高识别音频的效率。
本发明还提供一种服务器,其包括:一个或多个处理器;存储器;一个或多个应用程序,其中该一个或多个应用程序被存储在该存储器中并被配置为由该一个或多个处理器执行,该一个或多个程序配置用于执行上述任一实施例的音频识别方法。
上述的音频识别方法、装置和服务器,获取待识别音频文件;提取该待识别音频文件的音频特征信息,该音频特征信息包括音频指纹;在指纹索引库中搜索与该音频特征信息匹配的音频属性信息,其中,该指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。由于指纹索引库中的音频指纹集合是对音频样本数据进行无效音频指纹去除后的,因此可以减少指纹索引库中音频指纹的存储空间,并且能够提高音频识别效率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种音频识别方法,其特征在于,所述方法包括:
获取待识别音频文件;
提取所述待识别音频文件的音频特征信息,所述音频特征信息包括音频指纹;
在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息;
其中,所述指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。
2.根据权利要求1所述的音频识别方法,其特征在于,所述指纹索引库包括由分类器对音频样本数据进行无效音频指纹去除后的音频指纹集合。
3.根据权利要求2所述的音频识别方法,其特征在于,所述分类器经以下步骤建立:
提取训练数据集中的音频数据的第一特征点数据;
对所述训练数据集中的音频数据进行音频攻击,提取经攻击后的训练数据集中的音频数据的第二特征点数据;
对比第一特征点数据和第二特征点数据,将消失或移动的特征点数据标记为反例数据,将鲁棒性存在的特征点数据标记为正例数据;
利用第一特征点数据、正例数据、反例数据训练和建立所述分类器。
4.根据权利要求3所述的音频识别方法,其特征在于,所述分类器对所述音频样本数据进行筛选,将判定为反例数据的特征点数据作为无效音频指纹去除。
5.根据权利要求3所述的音频识别方法,其特征在于,利用第一特征点数据、正例数据、反例数据训练和建立所述分类器的算法包括以下至少一种:
最近邻算法、支持向量机、神经网络。
6.根据权利要求2所述的音频识别方法,其特征在于,所述第一特征点数据和/或第二特征点数据包括以下至少一种:
局部极大值点所在音频帧的能量、局部极大值点所在频率的能量及在所述音频帧中的能量占比、所述音频帧中局部极大点的数量、所述音频帧在时间维度上相近音频帧的能量、局部极大值点周围点的能量分布。
7.根据权利要求2所述的音频识别方法,其特征在于,所述音频攻击包括对音频文件进行的数据处理,所述数据处理包括以下至少一种:
分割、转换音频编码格式、采样率变换、按不同信噪比和噪声类型进行加噪处理、ova翻录、非ova翻录。
8.根据权利要求1所述的音频识别方法,其特征在于,与所述音频特征信息匹配的音频属性信息包括以下至少一种:
歌曲风格、音频中自然声音、音频中发声者语言。
9.一种音频识别装置,其特征在于,包括:
获取模块,用于获取待识别音频文件;
提取模块,用于提取所述待识别音频文件的音频特征信息,所述音频特征信息包括音频指纹;
搜索模块,用于在指纹索引库中搜索与所述音频特征信息匹配的音频属性信息;
其中,所述指纹索引库包括对音频样本数据进行无效音频指纹去除后的音频指纹集合。
10.一种服务器,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1至8任一所述的音频识别方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710968754.XA CN107731220B (zh) | 2017-10-18 | 2017-10-18 | 音频识别方法、装置和服务器 |
PCT/CN2018/110598 WO2019076313A1 (zh) | 2017-10-18 | 2018-10-17 | 音频识别方法、装置和服务器 |
US16/757,273 US11482242B2 (en) | 2017-10-18 | 2018-10-17 | Audio recognition method, device and server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710968754.XA CN107731220B (zh) | 2017-10-18 | 2017-10-18 | 音频识别方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107731220A true CN107731220A (zh) | 2018-02-23 |
CN107731220B CN107731220B (zh) | 2019-01-22 |
Family
ID=61211717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710968754.XA Active CN107731220B (zh) | 2017-10-18 | 2017-10-18 | 音频识别方法、装置和服务器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11482242B2 (zh) |
CN (1) | CN107731220B (zh) |
WO (1) | WO2019076313A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986842A (zh) * | 2018-08-14 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 音乐风格识别处理方法及终端 |
WO2019076313A1 (zh) * | 2017-10-18 | 2019-04-25 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置和服务器 |
CN109871463A (zh) * | 2019-03-06 | 2019-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN110503961A (zh) * | 2019-09-03 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
CN111370019A (zh) * | 2020-03-02 | 2020-07-03 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN108847215B (zh) * | 2018-08-29 | 2020-07-17 | 北京云知声信息技术有限公司 | 基于用户音色进行语音合成的方法及装置 |
CN113836346A (zh) * | 2021-09-08 | 2021-12-24 | 网易(杭州)网络有限公司 | 为音频文件生成摘要的方法、装置、计算设备及存储介质 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11106729B2 (en) | 2018-01-08 | 2021-08-31 | Comcast Cable Communications, Llc | Media search filtering mechanism for search engine |
US11341945B2 (en) * | 2019-08-15 | 2022-05-24 | Samsung Electronics Co., Ltd. | Techniques for learning effective musical features for generative and retrieval-based applications |
US11609947B2 (en) * | 2019-10-21 | 2023-03-21 | Comcast Cable Communications, Llc | Guidance query for cache system |
US11461649B2 (en) * | 2020-03-19 | 2022-10-04 | Adobe Inc. | Searching for music |
CN112214635B (zh) * | 2020-10-23 | 2022-09-13 | 昆明理工大学 | 一种基于倒频谱分析的快速音频检索方法 |
US20220335087A1 (en) * | 2021-04-14 | 2022-10-20 | Ricoh Company, Ltd. | Data processing apparatus, data processing system, and data processing method |
CN114443891B (zh) * | 2022-01-14 | 2022-12-06 | 北京有竹居网络技术有限公司 | 编码器的生成方法、指纹提取方法、介质及电子设备 |
WO2023159090A1 (en) * | 2022-02-16 | 2023-08-24 | Shure Acquisition Holdings, Inc. | Wireless microphone system and methods for synchronizing a wireless transmitter and a wireless receiver |
CN115292545B (zh) * | 2022-10-08 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备以及可读存储介质 |
CN118248177B (zh) * | 2024-05-17 | 2024-07-26 | 吉林大学 | 基于近似最近邻搜索算法的语音情感识别系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090083841A1 (en) * | 2006-11-06 | 2009-03-26 | Gierach Karl D | Apparatus and method for performing hosted and secure identity authentication using biometric voice verification over a digital network medium |
CN102314875A (zh) * | 2011-08-01 | 2012-01-11 | 北京百度网讯科技有限公司 | 一种音频文件的识别方法和装置 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN103995890A (zh) * | 2014-05-30 | 2014-08-20 | 杭州智屏软件有限公司 | 一种实时音频指纹检索库数据更新和检索方法 |
CN104464726A (zh) * | 2014-12-30 | 2015-03-25 | 北京奇艺世纪科技有限公司 | 一种相似音频的确定方法及装置 |
CN104679847A (zh) * | 2015-02-13 | 2015-06-03 | 王磊 | 一种构建在线实时更新海量音频指纹库的方法和设备 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6112021A (en) * | 1997-12-19 | 2000-08-29 | Mitsubishi Electric Information Technology Center America, Inc, (Ita) | Markov model discriminator using negative examples |
WO2000045545A1 (en) * | 1999-01-28 | 2000-08-03 | Kent Ridge Digital Labs | Method and apparatus for watermarking wavetable synthesis architectures |
US6973574B2 (en) * | 2001-04-24 | 2005-12-06 | Microsoft Corp. | Recognizer of audio-content in digital signals |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
US7421305B2 (en) * | 2003-10-24 | 2008-09-02 | Microsoft Corporation | Audio duplicate detector |
US20070162761A1 (en) * | 2005-12-23 | 2007-07-12 | Davis Bruce L | Methods and Systems to Help Detect Identity Fraud |
US10242415B2 (en) * | 2006-12-20 | 2019-03-26 | Digimarc Corporation | Method and system for determining content treatment |
WO2010027847A1 (en) * | 2008-08-26 | 2010-03-11 | Dolby Laboratories Licensing Corporation | Robust media fingerprints |
US8245277B2 (en) * | 2008-10-15 | 2012-08-14 | Towson University | Universally usable human-interaction proof |
US9386386B2 (en) * | 2012-01-09 | 2016-07-05 | Actiwave Ab | System and method for audio enhancement of a consumer electronics device |
US9202255B2 (en) * | 2012-04-18 | 2015-12-01 | Dolby Laboratories Licensing Corporation | Identifying multimedia objects based on multimedia fingerprint |
US9305559B2 (en) * | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
US9519870B2 (en) * | 2014-03-13 | 2016-12-13 | Microsoft Technology Licensing, Llc | Weighting dictionary entities for language understanding models |
CN104023251B (zh) * | 2014-06-13 | 2015-08-19 | 腾讯科技(深圳)有限公司 | 基于视频的互动方法和系统 |
US9978095B2 (en) * | 2014-08-30 | 2018-05-22 | Digimarc Corporation | Methods and arrangements including data migration among computing platforms, E.G. through use of steganographic screen encoding |
EP3317879B1 (de) * | 2015-06-30 | 2020-02-19 | Fraunhofer Gesellschaft zur Förderung der Angewand | Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren |
US10216742B2 (en) * | 2015-08-28 | 2019-02-26 | Honeywell International Inc. | Converting data sets in a shared communication environment |
US10238028B2 (en) * | 2016-08-11 | 2019-03-26 | The Climate Corporation | Automatically detecting outlier values in harvested data |
US10403287B2 (en) * | 2017-01-19 | 2019-09-03 | International Business Machines Corporation | Managing users within a group that share a single teleconferencing device |
CN107731220B (zh) * | 2017-10-18 | 2019-01-22 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置和服务器 |
-
2017
- 2017-10-18 CN CN201710968754.XA patent/CN107731220B/zh active Active
-
2018
- 2018-10-17 US US16/757,273 patent/US11482242B2/en active Active
- 2018-10-17 WO PCT/CN2018/110598 patent/WO2019076313A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090083841A1 (en) * | 2006-11-06 | 2009-03-26 | Gierach Karl D | Apparatus and method for performing hosted and secure identity authentication using biometric voice verification over a digital network medium |
CN102314875A (zh) * | 2011-08-01 | 2012-01-11 | 北京百度网讯科技有限公司 | 一种音频文件的识别方法和装置 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN103995890A (zh) * | 2014-05-30 | 2014-08-20 | 杭州智屏软件有限公司 | 一种实时音频指纹检索库数据更新和检索方法 |
CN104464726A (zh) * | 2014-12-30 | 2015-03-25 | 北京奇艺世纪科技有限公司 | 一种相似音频的确定方法及装置 |
CN104679847A (zh) * | 2015-02-13 | 2015-06-03 | 王磊 | 一种构建在线实时更新海量音频指纹库的方法和设备 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019076313A1 (zh) * | 2017-10-18 | 2019-04-25 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置和服务器 |
US11482242B2 (en) | 2017-10-18 | 2022-10-25 | Beijing Dajia Internet Information Technology Co., Ltd. | Audio recognition method, device and server |
CN108986842A (zh) * | 2018-08-14 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 音乐风格识别处理方法及终端 |
CN108847215B (zh) * | 2018-08-29 | 2020-07-17 | 北京云知声信息技术有限公司 | 基于用户音色进行语音合成的方法及装置 |
CN109871463A (zh) * | 2019-03-06 | 2019-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN109871463B (zh) * | 2019-03-06 | 2024-04-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN110503961A (zh) * | 2019-09-03 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
CN111370019A (zh) * | 2020-03-02 | 2020-07-03 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN111370019B (zh) * | 2020-03-02 | 2023-08-29 | 字节跳动有限公司 | 声源分离方法及装置、神经网络的模型训练方法及装置 |
CN113836346A (zh) * | 2021-09-08 | 2021-12-24 | 网易(杭州)网络有限公司 | 为音频文件生成摘要的方法、装置、计算设备及存储介质 |
CN113836346B (zh) * | 2021-09-08 | 2023-08-08 | 网易(杭州)网络有限公司 | 为音频文件生成摘要的方法、装置、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107731220B (zh) | 2019-01-22 |
US11482242B2 (en) | 2022-10-25 |
US20210193167A1 (en) | 2021-06-24 |
WO2019076313A1 (zh) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731220B (zh) | 音频识别方法、装置和服务器 | |
US11853370B2 (en) | Scene aware searching | |
CN102332262B (zh) | 基于音频特征的歌曲智能识别方法 | |
CN107844586A (zh) | 新闻推荐方法和装置 | |
CN111640411B (zh) | 音频合成方法、装置及计算机可读存储介质 | |
CN103403710A (zh) | 对来自音频信号的特征指纹的提取和匹配 | |
CN103797482A (zh) | 进行接收到的数据的比较并基于比较提供后续服务的方法和系统 | |
US9058384B2 (en) | System and method for identification of highly-variable vocalizations | |
CN106098081B (zh) | 声音文件的音质识别方法及装置 | |
CN103594083A (zh) | 通过电视伴音自动识别电视节目的技术 | |
CN109509472A (zh) | 基于语音平台识别背景音乐的方法、装置及系统 | |
CN105989000B (zh) | 音视频拷贝检测方法及装置 | |
CN113573161A (zh) | 多媒体数据处理方法、装置、设备及存储介质 | |
CN102833595A (zh) | 一种信息传送的方法及装置 | |
CN111859970B (zh) | 用于处理信息的方法、装置、设备和介质 | |
KR100916310B1 (ko) | 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법 | |
US20230260527A1 (en) | Audio data processing method and apparatus, device, and medium | |
Liu et al. | Anti-forensics of fake stereo audio using generative adversarial network | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 | |
KR20100064423A (ko) | 동영상 오디오 정보에 따른 온라인 광고 제공 방법 및 그 시스템 | |
CN104484414B (zh) | 一种收藏夹信息的处理方法和装置 | |
CN114329063B (zh) | 视频片段检测方法、装置以及设备 | |
CN113407768B (zh) | 声纹检索方法、装置、系统、服务器及存储介质 | |
WO2023160515A1 (zh) | 视频处理方法、装置、设备及介质 | |
CN116543796B (zh) | 一种音频处理方法、装置及计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |