CN103971689A - 一种音频识别方法及装置 - Google Patents

一种音频识别方法及装置 Download PDF

Info

Publication number
CN103971689A
CN103971689A CN201310042408.0A CN201310042408A CN103971689A CN 103971689 A CN103971689 A CN 103971689A CN 201310042408 A CN201310042408 A CN 201310042408A CN 103971689 A CN103971689 A CN 103971689A
Authority
CN
China
Prior art keywords
audio file
characteristic information
time
audio
peak load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310042408.0A
Other languages
English (en)
Other versions
CN103971689B (zh
Inventor
刘海龙
谢达东
侯杰
肖斌
刘骁
陈波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310042408.0A priority Critical patent/CN103971689B/zh
Priority to TW102131132A priority patent/TWI494917B/zh
Priority to KR1020157024093A priority patent/KR101625944B1/ko
Priority to JP2015555549A priority patent/JP6090881B2/ja
Priority to PCT/CN2013/085309 priority patent/WO2014117542A1/en
Priority to CA2899657A priority patent/CA2899657C/en
Priority to BR112015018597A priority patent/BR112015018597A2/pt
Priority to US14/103,753 priority patent/US9373336B2/en
Publication of CN103971689A publication Critical patent/CN103971689A/zh
Application granted granted Critical
Publication of CN103971689B publication Critical patent/CN103971689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/005Voice controlled instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

本发明实施例提供一种音频识别方法及装置,其中的方法可包括:接收音频识别请求时,采集待识别的第一音频文件,并计算所述第一音频文件的第一特征信息;从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息,并获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据;将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。本发明可自动采集和分析待识别的音频文件,提升音频识别的准确性,提升音频识别的智能性。

Description

一种音频识别方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种音频识别方法及装置。
背景技术
随着互联网的发展,互联网已成为人们生活必不可少的信息获取工具,利用互联网设备实现未知音频的识别,成为一种新的应用趋势。传统的音频识别方法主要包括以下步骤,首先,用户人工输入未知音频文件的基本信息,例如:输入未知音频文件包含的歌词、输入未知音频文件的名称、输入未知音频文件的演唱者等等基本信息;其次,基于输入的基本信息,通过互联网设备(例如:互联网中的终端或服务器)查找该未知音频文件完整信息。上述可知,传统的音频识别方法需要人工输入基本信息,然而,大部分情况下,用户可能并不知道未知音频文件的基本信息,或者用户获得的未知音频文件的基本信息有误,从而无法实现有效的信息输入,例如:用户可能听到周围环境中的一小段音乐,但并不清楚该音乐的其他信息,无法进行有效输入;或者,用户可以哼唱某段歌曲的一小段旋律,但并不清楚该歌曲的其他信息,无法进行有效输入。上述情况下,采用传统的音频识别方法则无法对未知音频文件进行识别,降低了互联网设备的智能性。
发明内容
本发明实施例提供一种音频识别方法及装置,可自动采集和分析待识别的音频文件,提升音频识别的准确性,提升音频识别的智能性。
本发明第一方面提供一种音频识别方法,可包括:
接收音频识别请求时,采集待识别的第一音频文件,并计算所述第一音频文件的第一特征信息;
从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息,并获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据;
将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
本发明第二方面提供一种音频识别装置,可包括:
采集模块,用于在接收音频识别请求时,采集待识别的第一音频文件;
计算模块,用于计算所述第一音频文件的第一特征信息;
识别模块,用于从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息;
获取模块,用于获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据;
结果输出模块,用于将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
实施本发明实施例,具有如下有益效果:
本发明实施例中,在接收音频识别请求时,自动采集待识别的第一音频文件,无需用户人工输入待识别的第一音频文件的基本信息,从而提升了音频识别的智能性。另外,计算所述第一音频文件的第一特征信息,基于第一特征信息从预置数据库查找相匹配的第二音频文件的属性数据,并将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出;本发明实施例基于特征信息进行音频识别,当音频文件确定时,该音频文件的特征信息也是确定的,基于确定的特征信息进行音频识别,提升了音频识别的准确性,同时提升了音频识别的智能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音频识别方法的流程图;
图2为图1所示的步骤S102的实施例的流程图;
图3为图2所示的步骤s1201的实施例的流程图;
图4为图1所示的步骤S103的实施例的流程图;
图5为本发明实施例提供的一种音频识别装置的结构示意图;
图6为图5所示的计算模块的实施例的结构示意图;
图7为图6所示的时频分析单元的实施例的结构示意图;
图8为图5所示的识别模块的实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,音频文件的特征信息可以为音频文件的指纹,即第一音频文件的第一特征信息可以为第一音频文件的指纹;第二音频文件的第二特征信息可以为第二音频文件的指纹。
音频文件的指纹指可以代表音频文件的重要声学特征,且基于该音频文件内容的紧致数字签名;音频文件的指纹要求感知(或内容)相似性,具备区分性、鲁棒性、粒度等基本特征。其中,区分性指不同音频文件的指纹应具有较大的差异,而同一音频文件的原始记录的指纹和失真记录的指纹之间应该具有较小的差异;鲁棒性指音频文件在经历各种音频格式变换、信道噪声干扰等处理后,仍然能够被识别出来;粒度指即使针对短音频文件(即音频文件的长度较短,如5s-10s),也能够顺利识别。另外,音频文件的指纹在各种应用场景中,还具备更多的特征,例如:终端应用场景中,音频文件的指纹要求具备易计算性,在计算资源受限的终端中能够实现快速实时的指纹计算;再如:在无线网络应用场景中,音频文件的指纹要求具备数据紧致性,即要求数据量较小,以适应无线网络传输。
下面将结合附图1-附图4,对本发明实施例提供的音频识别方法进行详细介绍。
请参见图1,为本发明实施例提供的一种音频识别方法的流程图;该方法可包括以下步骤S101-步骤S105。
S101,接收音频识别请求时,采集待识别的第一音频文件。
其中,第一音频文件可以包括:电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、音乐电台播放的音频数据或人发出的音频数据(例如:哼唱的音乐、歌曲片段)等。用户若想要知道未知音频文件的信息,例如:音频文件的歌曲名称、演唱者、专辑名称、歌词等信息,可发起音频查询请求。本步骤中,当接收到用户发送的音频识别请求时,采集待识别的第一音频文件;本步骤的采集过程可以包含以下两种实施方式:
在第一种实施方式中,在接收到用户发送的音频查询请求时,本步骤可启动录音功能,实时录制用户所请求识别的第一音频文件。
在第二种实施方式中,在接收到用户发送的音频查询请求时,本步骤可接收用户上传的请求识别的第一音频文件。
上述两种实施方式中,优选地,第一音频文件为8KHz采样频率、16bit量化的PCM(Pulse-code modulation,脉冲编码调制)格式的数字音频文件。
S102,计算所述第一音频文件的第一特征信息。
其中,第一音频文件的第一特征信息可以为第一音频文件的指纹,第一音频文件的指纹指代表第一音频文件的重要声学特征、且基于第一音频文件的内容的紧致数字签名。本步骤中,对采集到的数字的第一音频文件进行计算,获得第一音频文件的第一特征信息。
S103,从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息。
所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据。本发明实施例中,所述预置数据库中存储的音频文件可以包括:电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、歌曲、音乐等。其中,音频文件的标识可以用TrackID表示,例如:音频文件1的标识可表示为TrackID-1,音频文件2的标识可表示为TrackID-2;一个TrackID用于唯一标识一个音频文件。其中,音频文件的特征信息可以为音频文件的指纹,例如:音频文件1的特征信息可为音频文件1的指纹,音频文件2的特征信息可以为音频文件2的指纹。其中,音频文件的属性数据可包括但不限于以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。本步骤中,第二特征信息与第一特征信息相匹配可以指第二特征信息与第一特征信息完全相同;或者,第二特征信息与第一特征信息的相似度达到预设相似度值,例如:预设相似度值为90%,若第二特征信息与第一特征信息的相似度达到90%或90%以上,则第二特征信息与第一特征信息相匹配。
S104,获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据。
上述步骤S103从预置数据库中查找到至少一个与第一特征信息相匹配的第二特征信息,其中,所述至少一个第二特征信息中的每个特征信息均对应一个第二音频文件。通过上述步骤S103可识别到与第一音频文件相匹配的至少一个第二音频文件,由此可表明,该第一音频文件可能是识别到的至少一个第二音频文件中的其中一个音频文件,或者该第一音频文件可能是识别到的至少一个第二音频文件的音频片段;本步骤则获取识别到的与第一音频文件相匹配的至少一个第二音频文件的属性数据。
S105,将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
本步骤可将步骤S104获得的至少一个第二音频文件中的所有音频文件的属性数据作为第一音频文件的识别结果进行输出,也可从步骤S104获得的至少一个音频文件中选择部分音频文件,将选择的音频文件的属性数据作为所述第一音频文件的识别结果进行输出。用户根据所述识别结果,可获知所请求查询的第一音频文件的属性数据,例如:用户可获知第一音频文件的歌曲名称、演唱者、专辑名称、歌词等属性数据。
本发明实施例中,在接收音频识别请求时,自动采集待识别的第一音频文件,无需用户人工输入待识别的第一音频文件的基本信息,从而提升了音频识别的智能性。另外,计算所述第一音频文件的第一特征信息,基于第一特征信息从预置数据库查找相匹配的第二音频文件的属性数据,并将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出;本发明实施例基于特征信息进行音频识别,当音频文件确定时,该音频文件的特征信息也是确定的,基于确定的特征信息进行音频识别,提升了音频识别的准确性,同时提升了音频识别的智能性。
下面将对图1所示的音频识别方法的各步骤进行详细介绍。
请参见图2,为图1所示的步骤S102的实施例的流程图;该步骤S102可包括以下步骤s1201-步骤s1204。
s1201,对所述第一音频文件进行时频分析,生成第一预设数量的相位通道。
其中,第一预设数量的值可根据实际情况进行设定,具体设定过程可考虑第一音频文件的影响因素,例如:第一预设数量的值可根据第一音频文件的信噪比因素进行设定,等等。本发明实施例中,第一预设数量可采用M进行表示,其中M为正整数。本步骤对采集到的数字的第一音频文件的时域信号进行基于STFT(Short-Time Fourier Transform,短时傅立叶变换)变换的时频分析,可以获得第一音频文件的二维时频图;将第一音频文件的二维时频图拆分成M个时频子图,则相应生成第一音频文件的M个相位通道,一个相位通道对应一个时频子图,例如:M个相位通道中和M个时频子图中,相位通道1对应时频子图1,相位通道2对应时频子图2,以此类推,相位通道M对应时频子图M。
s1202,提取所述第一预设数量的相位通道中的每个相位通道的至少一个峰值特征点,所述每个相位通道的至少一个峰值特征点构成所述每个相位通道的峰值特征点序列。
如前述,M个相位通道中,一个相位通道对应一个时频子图。本步骤中,对每个相位通道的峰值特征点的提取过程可以包括:1)在每个相位通道对应的时频子图中,分析每个特征点的能量值;2)根据每个特征点的能量值,选取一定矩形邻域内能量值极大的特征点作为峰值特征点。根据上述1)和2),可提取每个相位通道的至少一个峰值特征点。其中,矩形邻域的尺寸参数可根据实际需要进行设定,设定过程需要考虑以下因素,包括时频子图中的特征点的数量,以及时频子图中的特征点的分布情况,等等。M个相位通道中,每个相位通道可提取至少一个峰值特征点,对该至少一个峰值特征点进行排序可构成每个相位通道的峰值特征点序列,具体地,可先按照时间从先至后的顺序,对该至少一个峰值特征点进行排序,针对相同时间点出现的峰值特征点,再按照频率从高至低的顺序对该至少一个峰值特征点进行排序。本步骤可提取M个峰值特征点序列,例如:M个相位通道中,相位通道1对应峰值特征点序列1,相位通道2对应峰值特征点序列2,以此类推,相位通道M对应峰值特征点序列M。
s1203,对所述每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理,形成所述每个相位通道的峰值特征点对序列。
本实施例定义Sn(tk,fk)表示任一个相位通道的峰值特征点序列中的任一个峰值特征点,其中n表示相位通道的序号或时频子图的序号,且0<n≤M;k表示该峰值特征点在峰值特征点序列n中的序号,k为正整数;tk表示时频子图n中出现该峰值特征点的时间;fk表示该峰值特征点的频率。
本步骤对每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理的过程可以包括:(1)在每个相位通道对应的时频子图中,以每个相位通道的峰值特征点序列中的每个峰值特征点作为锚点,选取一个矩形目标区域;针对任一个时频子图中的任一个峰值特征点Sn(tk,fk),所述矩形目标区域满足以下条件:
tstart≤tk≤tend且fstart≤fk≤fend
其中,tstart表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的起始时间,tend表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的结束时间;fstart表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的最小频率,fend表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的最大频率。
(2)在矩形目标区域内选取除锚点之外的一个峰值特征点与锚点配对,锚点及与该锚点配对的峰值特征点构成峰值特征点对。与锚点配对的峰值特征点的选取原则可以包括:选取出现时间与锚点的出现时间的时间差最小的峰值特征点;或者,选取除锚点之外的能量值最大的峰值特征点。
通过上述(1)和(2),针对任一个峰值特征点Sn(tk,fk)均可获得一个配对的峰值特征点Sn(tb,fb)。其中n表示相位通道的序号或时频子图的序号,且0<n≤M;b表示该配对的峰值特征点在峰值特征点序列n中的序号,b为正整数;tb表示时频子图n中出现该配对的峰值特征点的时间;fb表示该配对的峰值特征点的频率。本实施例定义四元组(tk,fk,Δfk,Δtk)n来表示任一个相位通道的峰值特征点对序列中的任一对峰值特征点对,其中,n表示相位通道的序号或时频子图的序号;Δtk表示峰值特征点对中的两个峰值特征点之间的时间差,Δtk=tb-tk;Δfk表示峰值特征点对中的两个峰值特征点之间的频率差,Δfk=fb-fk
本步骤可对M个峰值特征点序列中的每个峰值特征点进行配对,则可形成M个峰值特征点对序列,例如:M个相位通道中,相位通道1对应峰值特征点对序列1,相位通道2对应峰值特征点序列对2,以此类推,相位通道M对应峰值特征点对序列M。
s1204,对所述每个相位通道的峰值特征点对序列进行哈希计算,获得所述每个相位通道对应的指纹序列,所述第一预设数量的相位通道对应的指纹序列的集合构成所述第一音频文件的第一特征信息。
如前述,四元组(tk,fk,Δfk,Δtk)n来表示任一个相位通道的峰值特征点对序列中的任一对峰值特征点对。该四元组中的参数可作如下理解:(fk,Δfk,Δtk)代表峰值特征点对的特征部分,tk代表出现(fk,Δfk,Δtk)的时间。本步骤可对(fk,Δfk,Δtk)进行哈希计算,将(fk,Δfk,Δtk)采用固定比特位数的哈希编码进行表示,具体如下:hashcodek=H(fk,Δfk,Δtk)。经过本步骤的计算,任一个相位通道的峰值特征点对序列中的任一对峰值特征点对可表示为(tk,hashcodek)n,n表示相位通道的序号或时频子图的序号,tk代表出现hashcodek的时间;该(tk,hashcodek)n为一个指纹项,可表示一对峰值特征点对。
经过本步骤,M个峰值特征点对序列中,每个峰值特征点对序列中的每一对峰值特征点对均可采用一个指纹项进行表示,则每个峰值特征点对序列均对应一个指纹序列,M个峰值特征点对序列对应M个指纹序列,例如:峰值特征点对序列1对应指纹序列1,峰值特征点序列对2对应指纹序列2,以此类推,峰值特征点对序列M对应指纹序列M。M个指纹序列的集合构成所述第一音频文件的第一特征信息,即第一音频文件的第一特征信息可表示为M个指纹序列的集合。
请参见图3,为图2所示的步骤s1201的实施例的流程图;该步骤s1201可包括以下步骤s1211-步骤s1215。
s1211,对所述第一音频文件进行时域分帧处理,形成多个音频帧信号。
本步骤可以窗函数作为分帧的参数,对采集到的第一音频文件进行时域分帧处理,形成多个音频帧信号。其中,窗函数可以为海明窗函数、汉宁窗函数、高斯窗函数等常见的窗函数。
s1212,对每一个音频帧信号进行STFT变换,获得所述每一个音频帧信号的频率谱。
s1213,提取所述每一个音频帧信号的频率谱对应的幅度谱。
s1214,根据所述每一个音频帧信号的时间、频率谱和幅度谱,绘制所述第一音频文件的时频图。本步骤中,可以按照每一个音频帧信号的时间顺序,依次绘制每一个音频帧信号的频率谱和幅度谱,形成第一音频文件的二维时频图。
s1215,按照时间取模的方式,对所述第一音频文件的时频图进行拆分,生成第一预设数量的时频子图,所述第一预设数量的时频子图中的一个时频子图对应所述第一音频文件的一个相位通道。
其中,第一预设数量可采用M进行表示,其中M为正整数。本步骤对第一音频文件的时频图按照时间t对M取模的方式进行拆分,生成M个时频子图,具体的拆分过程为:在二维时频图中分别选取t=0、M、2M…xM每个时间对应的特征点,将选取的特征点组成时频子图1;在二维时频图中分别选取t=1、1+M、1+2M…1+xM每个时间对应的特征点,将选取的特征点组成时频子图2;以此类推,在二维时频图中分别选取t=M-1、(M-1)+M…(M-1)+xM每个时间对应的特征点,将选取的特征点组成时频子图M。其中,x为正整数,且0<(M-1)+xM≤tmax,其中tmax为二维时频图中的最大时间点。本发明实施例中,一个时频子图对应第一音频文件的一个相位通道,M个时频子图对应M个相位通道,例如:时频子图1对应相位通道1,时频子图2对应相位通道2,以此类推,时频子图M对应相位通道M。
请参见图4,为图1所示的步骤S103的实施例的流程图;该步骤S103可包括以下步骤s1301-s1305。
s1301,将所述第一特征信息与所述预置数据库中的每个特征信息进行比对。
所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据。其中,音频文件的属性数据可包括以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。其中,音频文件的标识可以用TrackID表示,例如:音频文件1的标识可表示为TrackID-1,音频文件2的标识可表示为TrackID-2;一个TrackID用于唯一标识一个音频文件。其中,音频文件的特征信息可以为音频文件的指纹,例如:音频文件1的特征信息可为音频文件1的指纹,音频文件2的特征信息可以为音频文件2的指纹;参照图3所示实施例中指纹的表述方式,所述预置数据库中存储的音频文件的特征信息为指纹序列的集合。则任一个TrackID-d所标识的音频文件的一个指纹项可表示为(TimeOffesti,hashcodei)p,其中,p为指纹序列的集合中的指纹序列的序号;i为指纹序列中指纹项的序号;TimeOffesti为该指纹项出现hashcodei的时间偏移值。为了提升对预置数据库的查询效率,本发明实施例中,可以哈希表的结构来反向存储所述预置数据库的内容,该哈希表结构可如下表一所示:
表一:哈希表结构
上述表一中,Key值为指纹项中hashcode的值,Value值为音频文件的标识TrackID和出现该hashcode值的时间偏移值TimeOffest。
本步骤将所述第一特征信息与所述预置数据库中的每个特征信息进行比对,实际是将第一特征信息中的每个指纹项中的hashcode值与上述表一所示哈希表中的Key值进行比对。
s1302,根据比对结果对所述预置数据库中的每个特征信息所对应的音频文件的标识进行加权处理。
上述步骤s1301将第一特征信息中的每个指纹项中的hashcode值与上述表一所示哈希表中的Key值进行比对,例如:假设第一特征信息中的某个指纹项中的hashcode值为0x0002,经s1302比对后,可从上述表一所示的哈希表中找到Key值同样为0x0002的行,本步骤中则对比对查找到的Key值为0x0002行中的所有TrackID进行加权处理。具体实现中,本步骤可采用TF(Term Frequency,词频)-IDF(Inverse Document Frequency,逆文档频率)的加权方式,对TrackID进行加权处理。经过本步骤之后,所述预置数据库中的每个TrackID都会对应一个权重分数,该权重分数最低值为0。
s1303,按照权重由高至低的顺序,从所述预置数据库中选择第二预设数量的音频文件的特征信息组成候选列表。按照TrackID的权重分数由高至低的顺序,挑选权重分数位于前R个TrackID所标识的音频文件,将该R个音频文件的特征信息组成候选列表;其中,R为正整数。
s1304,计算所述候选列表中的每个音频文件的特征信息与所述第一特征信息的时间相关性。
所述第一特征信息为M个指纹序列的集合,且M个指纹序列的集合中的任一个指纹项可表示为(tk,hashcodek)n。所述候选列表中包含R个特征信息,该R个特征信息中的每个特征信息均为指纹序列的集合,例如:所述候选列表中的特征信息A为p个指纹序列构成的集合A,集合A中的任一个指纹项可表示为(TimeOffesti,hashcodei)p。本步骤中,时间相关性的计算过程可包括:(1)采用公式Δt'=tk-TimeOffesti,依次计算所述候选列表中的每个特征信息包含的指纹项与第一特征信息包含的指纹项的时间差。(2)针对所述候选列表中的任一个特征信息,统计相同时间差的数量,例如:针对所述候选列表中的特征信息A,根据(1)的计算结果统计得到20个Δt′=20,40个Δt′=30,50个Δt′=35。(3)针对所述候选列表中的任一个特征信息,选取(2)中统计得到的最大数量表示所述候选列表中的该特征信息与第一特征信息的时间相关性;依上述例子,候选列表中的特征信息A与第一特征信息的时间相关性的度量值L=50。
根据上述(1)-(3),可计算得到所述候选列表中的R个特征信息中的每个特征信息与第一特征信息的时间相关性的度量值。
s1305,从所述候选列表中选取与所述第一特征信息相匹配的至少一个第二特征信息,其中,所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。
按照时间相关性的值由高至低的顺序,对所述候选列表进行排序,再从排序后的候选列表中选取至少一个与第一特征信息相匹配的第二特征信息,所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。其中,预设阈值可根据实际情况进行设定。需要说明的是,如果排序后的候选列表中的所有特征信息与第一特征信息的时间相关性均不大于预设阈值,则认为所述预置数据库中没有与第一特征信息相匹配的特征信息,则表示无法识别第一音频文件。
本发明实施例中,在接收音频识别请求时,自动采集待识别的第一音频文件,无需用户人工输入待识别的第一音频文件的基本信息,从而提升了音频识别的智能性。另外,计算所述第一音频文件的第一特征信息,基于第一特征信息从预置数据库查找相匹配的第二音频文件的属性数据,并将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出;本发明实施例基于特征信息进行音频识别,当音频文件确定时,该音频文件的特征信息也是确定的,基于确定的特征信息进行音频识别,提升了音频识别的准确性,同时提升了音频识别的智能性。
本发明实施例提供一种音频识别装置,用以执行上述图1-图4所示实施例的音频识别方法的流程。所述音频识别装置可以存在以下两种可行的实施方式:在第一种可行的实施方式中,所述音频识别装置可以为独立的集成装置,通过该独立的集成装置可以执行图1-图4所示实施例的全部流程,以实现音频识别过程。本实施方式中,所述音频识别装置可以为终端或服务器。
在第二种可行的实施方式中,所述音频识别装置可以由第一分布装置和第二分布装置共同构成,第一分布装置和第二分布装置协同执行图1-图4所示实施例的全部流程,以实现音频识别过程。本实施方式中,所述第一分布装置可以为终端,所述第二分布装置可以为服务器。可以理解的是,当所述音频识别装置包含第一分布装置和第二分布装置时,第一分布装置和第二分布装置在协同过程中可采用一些技术处理手段,例如:对数据进行压缩处理等等,以减小协同过程中传输的数据量,提升协同操作的效率和速率。
下面将结合附图5-附图8,对本发明实施例提供的音频识别装置进行详细介绍。下述的音频识别装置可以应用于上述的音频识别方法中。
请参见图5,为本发明实施例提供的一种音频识别装置的结构示意图;该装置可包括:采集模块101、计算模块102、识别模块103、获取模块104和结果输出模块105。
采集模块101,用于在接收音频识别请求时,采集待识别的第一音频文件。
其中,第一音频文件可以包括:电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、音乐电台播放的音频数据或人发出的音频数据(例如:哼唱的音乐、歌曲片段)等。用户若想要知道未知音频文件的信息,例如:音频文件的歌曲名称、演唱者、专辑名称、歌词等信息,可发起音频查询请求。当接收到用户发送的音频识别请求时,所述采集模块101采集待识别的第一音频文件;所述采集模块101的采集过程可以包含以下两种实施方式:
在第一种实施方式中,在接收到用户发送的音频查询请求时,所述采集模块101可启动录音功能,实时录制用户所请求识别的第一音频文件。
在第二种实施方式中,在接收到用户发送的音频查询请求时,所述采集模块101可接收用户上传的请求识别的第一音频文件。
上述两种实施方式中,优选地,第一音频文件为8KHz采样频率、16bit量化的PCM格式的数字音频文件。
计算模块102,用于计算所述第一音频文件的第一特征信息。
其中,第一音频文件的第一特征信息可以为第一音频文件的指纹,第一音频文件的指纹指代表第一音频文件的重要声学特征、且基于第一音频文件的内容的紧致数字签名。所述计算模块102对采集到的数字的第一音频文件进行计算,获得第一音频文件的第一特征信息。
查询模块103,用于从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息。
所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据。本发明实施例中,所述预置数据库中存储的音频文件可以包括:电影中的音频片段、电视剧中的音频片段、电视节目中的音频片段、歌曲、音乐等。其中,音频文件的标识可以用TrackID表示;音频文件的特征信息可以为音频文件的指纹;音频文件的属性数据可包括但不限于以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。所述查询模块103查找到的第二特征信息与第一特征信息相匹配可以指第二特征信息与第一特征信息完全相同;或者,第二特征信息与第一特征信息的相似度达到预设相似度值,例如:预设相似度值为90%,若第二特征信息与第一特征信息的相似度达到90%或90%以上,则第二特征信息与第一特征信息相匹配。
获取模块104,用于获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据。
从预置数据库中查找到至少一个与第一特征信息相匹配的第二特征信息,其中,所述至少一个第二特征信息中的每个特征信息均对应一个第二音频文件。表明识别到与第一音频文件相匹配的至少一个第二音频文件,由此可表明,该第一音频文件可能是识别到的至少一个第二音频文件中的其中一个音频文件,或者该第一音频文件可能是识别到的至少一个第二音频文件的音频片段;所述获取模块104获取识别到的与第一音频文件相匹配的至少一个第二音频文件的属性数据。
结果输出模块105,用于将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
所述结果输出模块105可将获得的至少一个第二音频文件中的所有音频文件的属性数据作为第一音频文件的识别结果进行输出,也可将获得的至少一个音频文件中选择部分音频文件,将选择的音频文件的属性数据作为所述第一音频文件的识别结果进行输出。用户根据所述识别结果,可获知所请求查询的第一音频文件的属性数据,例如:用户可获知第一音频文件的歌曲名称、演唱者、专辑名称、歌词等属性数据。
本发明实施例中,在接收音频识别请求时,自动采集待识别的第一音频文件,无需用户人工输入待识别的第一音频文件的基本信息,从而提升了音频识别的智能性。另外,计算所述第一音频文件的第一特征信息,基于第一特征信息从预置数据库查找相匹配的第二音频文件的属性数据,并将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出;本发明实施例基于特征信息进行音频识别,当音频文件确定时,该音频文件的特征信息也是确定的,基于确定的特征信息进行音频识别,提升了音频识别的准确性,同时提升了音频识别的智能性。
下面将对图5所示的音频识别装置的各模块进行详细介绍。
请参见图6,为图5所示的计算模块的实施例的结构示意图;该计算模块102可包括:时频分析单元1201、特征提取单元1202、配对处理单元1203和计算单元1204。
时频分析单元1201,用于对所述第一音频文件进行时频分析,生成第一预设数量的相位通道。
其中,第一预设数量的值可根据实际情况进行设定,具体设定过程可考虑第一音频文件的影响因素,例如:第一预设数量的值可根据第一音频文件的信噪比因素进行设定,等等。本发明实施例中,第一预设数量可采用M进行表示,其中M为正整数。所述时频分析单元1201对采集到的数字的第一音频文件的时域信号进行基于STFT变换的时频分析,可以获得第一音频文件的二维时频图;将第一音频文件的二维时频图拆分成M个时频子图,则相应生成第一音频文件的M个相位通道,一个相位通道对应一个时频子图,例如:M个相位通道中和M个时频子图中,相位通道1对应时频子图1,相位通道2对应时频子图2,以此类推,相位通道M对应时频子图M。
特征提取单元1202,用于提取所述第一预设数量的相位通道中的每个相位通道的至少一个峰值特征点,所述每个相位通道的至少一个峰值特征点构成所述每个相位通道的峰值特征点序列。
如前述,M个相位通道中,一个相位通道对应一个时频子图。所述特征提取单元1202对每个相位通道的峰值特征点的提取过程可以包括:1)在每个相位通道对应的时频子图中,分析每个特征点的能量值;2)根据每个特征点的能量值,选取一定矩形邻域内能量值极大的特征点作为峰值特征点。根据上述1)和2),可提取每个相位通道的至少一个峰值特征点。其中,矩形邻域的尺寸参数可根据实际需要进行设定,设定过程需要考虑以下因素,包括时频子图中的特征点的数量,以及时频子图中的特征点的分布情况,等等。M个相位通道中,每个相位通道可提取至少一个峰值特征点,对该至少一个峰值特征点进行排序可构成每个相位通道的峰值特征点序列,具体地,可先按照时间从先至后的顺序,对该至少一个峰值特征点进行排序,针对相同时间点出现的峰值特征点,再按照频率从高至低的顺序对该至少一个峰值特征点进行排序。所述特征提取单元1202可提取M个峰值特征点序列,例如:M个相位通道中,相位通道1对应峰值特征点序列1,相位通道2对应峰值特征点序列2,以此类推,相位通道M对应峰值特征点序列M。
配对处理单元1203,用于对所述每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理,形成所述每个相位通道的峰值特征点对序列。
本实施例定义Sn(tk,fk)表示任一个相位通道的峰值特征点序列中的任一个峰值特征点,其中n表示相位通道的序号或时频子图的序号,且0<n≤M;k表示该峰值特征点在峰值特征点序列n中的序号,k为正整数;tk表示时频子图n中出现该峰值特征点的时间;fk表示该峰值特征点的频率。
所述配对处理单元1203对每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理的过程可以包括:(1)在每个相位通道对应的时频子图中,以每个相位通道的峰值特征点序列中的每个峰值特征点作为锚点,选取一个矩形目标区域;针对任一个时频子图中的任一个峰值特征点Sn(tk,fk),所述矩形目标区域满足以下条件:
tstart≤tk≤tend且fstart≤fk≤fend
其中,tstart表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的起始时间,tend表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的结束时间;fstart表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的最小频率,fend表示以峰值特征点Sn(tk,fk)作为锚点选取的矩形目标区域的最大频率。
(2)在矩形目标区域内选取除锚点之外的一个峰值特征点与锚点配对,锚点及与该锚点配对的峰值特征点构成峰值特征点对。与锚点配对的峰值特征点的选取原则可以包括:选取出现时间与锚点的出现时间的时间差最小的峰值特征点;或者,选取除锚点之外的能量值最大的峰值特征点。
通过上述(1)和(2),针对任一个峰值特征点Sn(tk,fk)均可获得一个配对的峰值特征点Sn(tb,fb)。其中n表示相位通道的序号或时频子图的序号,且0<n≤M;b表示该配对的峰值特征点在峰值特征点序列n中的序号,b为正整数;tb表示时频子图n中出现该配对的峰值特征点的时间;fb表示该配对的峰值特征点的频率。本实施例定义四元组(tk,fk,Δfk,Δtk)n来表示任一个相位通道的峰值特征点对序列中的任一对峰值特征点对,其中,n表示相位通道的序号或时频子图的序号;Δtk表示峰值特征点对中的两个峰值特征点之间的时间差,Δtk=tb-tk;Δfk表示峰值特征点对中的两个峰值特征点之间的频率差,Δfk=fb-fb
所述配对处理单元1203可对M个峰值特征点序列中的每个峰值特征点进行配对,则可形成M个峰值特征点对序列,例如:M个相位通道中,相位通道1对应峰值特征点对序列1,相位通道2对应峰值特征点序列对2,以此类推,相位通道M对应峰值特征点对序列M。
计算单元1204,用于对所述每个相位通道的峰值特征点对序列进行哈希计算,获得所述每个相位通道对应的指纹序列,所述第一预设数量的相位通道对应的指纹序列的集合构成所述第一音频文件的第一特征信息。
如前述,四元组(tk,fk,Δfk,Δtk)n来表示任一个相位通道的峰值特征点对序列中的任一对峰值特征点对。该四元组中的参数可作如下理解:(fk,Δfk,Δtk)代表峰值特征点对的特征部分,tk代表出现(fk,Δfk,Δtk)的时间。所述计算单元1204可对(fk,Δfk,Δtk)进行哈希计算,将(fk,Δfk,Δtk)采用固定比特位数的哈希编码进行表示,具体如下:hashcodek=H(fk,Δfk,Δtk)。经过所述计算单元1204的计算,任一个相位通道的峰值特征点对序列中的任一对峰值特征点对可表示为(tk,hashcodek)n,n表示相位通道的序号或时频子图的序号,tk代表出现hashcodek的时间;该(tk,hashcodek)n为一个指纹项,可表示一对峰值特征点对。
经过所述计算单元1204的计算,M个峰值特征点对序列中,每个峰值特征点对序列中的每一对峰值特征点对均可采用一个指纹项进行表示,则每个峰值特征点对序列均对应一个指纹序列,M个峰值特征点对序列对应M个指纹序列,例如:峰值特征点对序列1对应指纹序列1,峰值特征点序列对2对应指纹序列2,以此类推,峰值特征点对序列M对应指纹序列M。M个指纹序列的集合构成所述第一音频文件的第一特征信息,即第一音频文件的第一特征信息可表示为M个指纹序列的集合。
请参见图7,为图6所示的时频分析单元的实施例的结构示意图;该时频分析单元1201可包括:分帧处理子单元1211、变换子单元1212、幅度提取子单元1213、绘制子单元1214和拆分子单元1215。
分帧处理子单元1211,用于对所述第一音频文件进行时域分帧处理,形成多个音频帧信号。
所述分帧处理子单元1211可以窗函数作为分帧的参数,对采集到的第一音频文件进行时域分帧处理,形成多个音频帧信号。其中,窗函数可以为海明窗函数、汉宁窗函数、高斯窗函数等常见的窗函数。
变换子单元1212,用于对每一个音频帧信号进行STFT变换,获得所述每一个音频帧信号的频率谱。
幅度提取子单元1213,用于提取所述每一个音频帧信号的频率谱对应的幅度谱。
绘制子单元1214,用于根据所述每一个音频帧信号的时间、频率谱和幅度谱,绘制所述第一音频文件的时频图。所述绘制子单元1214可以按照每一个音频帧信号的时间顺序,依次绘制每一个音频帧信号的频率谱和幅度谱,形成第一音频文件的二维时频图。
拆分子单元1215,用于按照时间取模的方式,对所述第一音频文件的时频图进行拆分,生成第一预设数量的时频子图,所述第一预设数量的时频子图中的一个时频子图对应所述第一音频文件的一个相位通道。
其中,第一预设数量可采用M进行表示,其中M为正整数。所述拆分子单元1215对第一音频文件的时频图按照时间t对M取模的方式进行拆分,生成M个时频子图,具体的拆分过程为:在二维时频图中分别选取t=0、M、2M…xM每个时间对应的特征点,将选取的特征点组成时频子图1;在二维时频图中分别选取t=1、1+M、1+2M…1+xM每个时间对应的特征点,将选取的特征点组成时频子图2;以此类推,在二维时频图中分别选取t=M-1、(M-1)+M…(M-1)+xM每个时间对应的特征点,将选取的特征点组成时频子图M。其中,x为正整数,且0<(M-1)+xM≤tmax,其中tmax为二维时频图中的最大时间点。本发明实施例中,一个时频子图对应第一音频文件的一个相位通道,M个时频子图对应M个相位通道,例如:时频子图1对应相位通道1,时频子图2对应相位通道2,以此类推,时频子图M对应相位通道M。
请参见图8,为图5所示的识别模块的实施例的结构示意图;该识别模块103可包括:特征比对单元1301、加权处理单元1302、候选列表生成单元1303、相关性计算单元1304和匹配单元1305。
特征比对单元1301,用于将所述第一特征信息与所述预置数据库中的每个特征信息进行比对。
所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据。其中,音频文件的属性数据可包括以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。其中,音频文件的标识可以用TrackID表示,例如:音频文件1的标识可表示为TrackID-1,音频文件2的标识可表示为TrackID-2;一个TrackID用于唯一标识一个音频文件。其中,音频文件的特征信息可以为音频文件的指纹,例如:音频文件1的特征信息可为音频文件1的指纹,音频文件2的特征信息可以为音频文件2的指纹;参照图3所示实施例中指纹的表述方式,所述预置数据库中存储的音频文件的特征信息为指纹序列的集合。则任一个TrackID-d所标识的音频文件的一个指纹项可表示为(TimeOffesti,hashcodei)p,其中,p为指纹序列的集合中的指纹序列的序号;i为指纹序列中指纹项的序号;TimeOffesti为该指纹项出现hashcodei的时间偏移值。为了提升对预置数据库的查询效率,本发明实施例中,可以哈希表的结构来反向存储所述预置数据库的内容,该哈希表结构可上述表一所示。
所述特征比对单元1301将所述第一特征信息与所述预置数据库中的每个特征信息进行比对,实际是将第一特征信息中的每个指纹项中的hashcode值与上述表一所示哈希表中的Key值进行比对。
加权处理单元1302,用于根据比对结果对所述预置数据库中的每个特征信息所对应的音频文件的标识进行加权处理。
将第一特征信息中的每个指纹项中的hashcode值与上述表一所示哈希表中的Key值进行比对,例如:假设第一特征信息中的某个指纹项中的hashcode值为0x0002,经s1302比对后,可从上述表一所示的哈希表中找到Key值同样为0x0002的行,所述加权处理单元1302则对比对查找到的Key值为0x0002行中的所有TrackID进行加权处理。具体实现中,所述加权处理单元1302可采用TF-IDF的加权方式,对TrackID进行加权处理。经过所述加权处理单元1302加权处理之后,所述预置数据库中的每个TrackID都会对应一个权重分数,该权重分数最低值为0。
候选列表生成单元1303,用于按照权重由高至低的顺序,从所述预置数据库中选择第二预设数量的音频文件的特征信息组成候选列表。按照TrackID的权重分数由高至低的顺序,挑选权重分数位于前R个TrackID所标识的音频文件,将该R个音频文件的特征信息组成候选列表;其中,R为正整数。
相关性计算单元1304,用于计算所述候选列表中的每个音频文件的特征信息与所述第一特征信息的时间相关性。
所述第一特征信息为M个指纹序列的集合,且M个指纹序列的集合中的任一个指纹项可表示为(tk,hashcodek)n。所述候选列表中包含R个特征信息,该R个特征信息中的每个特征信息均为指纹序列的集合,例如:所述候选列表中的特征信息A为p个指纹序列构成的集合A,集合A中的任一个指纹项可表示为(TimeOfesti,hashcodei)p。所述相关性计算单元1304计算过程可包括:(1)采用公式Δt'=tk-TimeOffesti,依次计算所述候选列表中的每个特征信息包含的指纹项与第一特征信息包含的指纹项的时间差。(2)针对所述候选列表中的任一个特征信息,统计相同时间差的数量,例如:针对所述候选列表中的特征信息A,根据(1)的计算结果统计得到20个Δt′=20,40个Δt′=30,50个Δt′=35。(3)针对所述候选列表中的任一个特征信息,选取(2)中统计得到的最大数量表示所述候选列表中的该特征信息与第一特征信息的时间相关性;依上述例子,候选列表中的特征信息A与第一特征信息的时间相关性的度量值L=50。
根据上述(1)-(3),可计算得到所述候选列表中的R个特征信息中的每个特征信息与第一特征信息的时间相关性的度量值。
匹配单元1305,用于从所述候选列表中选取与所述第一特征信息相匹配的至少一个第二特征信息,其中,所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。
按照时间相关性的值由高至低的顺序,对所述候选列表进行排序,再从排序后的候选列表中选取至少一个与第一特征信息相匹配的第二特征信息,所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。其中,预设阈值可根据实际情况进行设定。需要说明的是,如果排序后的候选列表中的所有特征信息与第一特征信息的时间相关性均不大于预设阈值,所述匹配单元1305则认为所述预置数据库中没有与第一特征信息相匹配的特征信息,则表示无法识别第一音频文件。
图5-图8所示实施例中,在所述音频识别装置的第一种可行的实施方式中,所述采集模块101、所述计算模块102、所述识别模块103、所述获取模块104和所述结果输出模块105可以集成于同一装置中构成所述音频识别装置。
在所述音频识别装置的第二种可行的实施方式中,所述采集模块101可以位于第一分布装置中,所述计算模块102、所述识别模块103、所述获取模块104和所述结果输出模块105可以位于第二分布装置中,第一分布装置与第二分布于共同构成所述音频识别装置;或者,所述采集模块101、所述计算模块102可以位于第一分布装置中,所述识别模块103、所述获取模块104和所述结果输出模块105可以位于第二分布装置中,第一分布装置与第二分布于共同构成所述音频识别装置;或者,所述采集模块101及所述计算模块102中的时频分析单元1201和特征提取单元1202可以位于第一分布装置中,所述计算模块102中的配对处理单元1203和计算单元1204,以及所述识别模块103、所述获取模块104和所述结果输出模块105可以位于第二分布装置中,第一分布装置与第二分布于共同构成所述音频识别装置。
本发明实施例中,在接收音频识别请求时,自动采集待识别的第一音频文件,无需用户人工输入待识别的第一音频文件的基本信息,从而提升了音频识别的智能性。另外,计算所述第一音频文件的第一特征信息,基于第一特征信息从预置数据库查找相匹配的第二音频文件的属性数据,并将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出;本发明实施例基于特征信息进行音频识别,当音频文件确定时,该音频文件的特征信息也是确定的,基于确定的特征信息进行音频识别,提升了音频识别的准确性,同时提升了音频识别的智能性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memor,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种音频识别方法,其特征在于,包括:
接收音频识别请求时,采集待识别的第一音频文件,并计算所述第一音频文件的第一特征信息;
从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息,并获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据;
将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
2.如权利要求1所述的方法,其特征在于,所述计算所述第一音频文件的第一特征信息,包括:
对所述第一音频文件进行时频分析,生成第一预设数量的相位通道;
提取所述第一预设数量的相位通道中的每个相位通道的至少一个峰值特征点,所述每个相位通道的至少一个峰值特征点构成所述每个相位通道的峰值特征点序列;
对所述每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理,形成所述每个相位通道的峰值特征点对序列;
对所述每个相位通道的峰值特征点对序列进行哈希计算,获得所述每个相位通道对应的指纹序列,所述第一预设数量的相位通道对应的指纹序列的集合构成所述第一音频文件的第一特征信息。
3.如权利要求2所述的方法,其特征在于,所述对所述第一音频文件进行时频分析,生成第一预设数量的相位通道,包括:
对所述第一音频文件进行时域分帧处理,形成多个音频帧信号;
对每一个音频帧信号进行短时傅立叶变换STFT变换,获得所述每一个音频帧信号的频率谱,并提取所述每一个音频帧信号的频率谱对应的幅度谱;
根据所述每一个音频帧信号的时间、频率谱和幅度谱,绘制所述第一音频文件的时频图;
按照时间取模的方式,对所述第一音频文件的时频图进行拆分,生成第一预设数量的时频子图,所述第一预设数量的时频子图中的一个时频子图对应所述第一音频文件的一个相位通道。
4.如权利要求1-3任一项所述的方法,其特征在于,所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据;
所述属性数据包括以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。
5.如权利要求4所述的方法,其特征在于,所述从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息,包括:
将所述第一特征信息与所述预置数据库中的每个特征信息进行比对,根据比对结果对所述预置数据库中的每个特征信息所对应的音频文件的标识进行加权处理;
按照权重由高至低的顺序,从所述预置数据库中选择第二预设数量的音频文件的特征信息组成候选列表;
计算所述候选列表中的每个音频文件的特征信息与所述第一特征信息的时间相关性;
从所述候选列表中选取与所述第一特征信息相匹配的至少一个第二特征信息,其中,所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。
6.一种音频识别装置,其特征在于,包括:
采集模块,用于在接收音频识别请求时,采集待识别的第一音频文件;
计算模块,用于计算所述第一音频文件的第一特征信息;
识别模块,用于从预置数据库查找与所述第一特征信息相匹配的至少一个第二特征信息;
获取模块,用于获取所述至少一个第二特征信息中的每个第二特征信息对应的第二音频文件的属性数据;
结果输出模块,用于将所述第二音频文件的属性数据作为所述第一音频文件的识别结果进行输出。
7.如权利要求6所述的装置,其特征在于,所述计算模块包括:
时频分析单元,用于对所述第一音频文件进行时频分析,生成第一预设数量的相位通道;
特征提取单元,用于提取所述第一预设数量的相位通道中的每个相位通道的至少一个峰值特征点,所述每个相位通道的至少一个峰值特征点构成所述每个相位通道的峰值特征点序列;
配对处理单元,用于对所述每个相位通道的峰值特征点序列中的每个峰值特征点进行配对处理,形成所述每个相位通道的峰值特征点对序列;
计算单元,用于对所述每个相位通道的峰值特征点对序列进行哈希计算,获得所述每个相位通道对应的指纹序列,所述第一预设数量的相位通道对应的指纹序列的集合构成所述第一音频文件的第一特征信息。
8.如权利要求7所述的装置,其特征在于,所述时频分析模块包括:
分帧处理子单元,用于对所述第一音频文件进行时域分帧处理,形成多个音频帧信号;
变换子单元,用于对每一个音频帧信号进行短时傅立叶变换STFT变换,获得所述每一个音频帧信号的频率谱;
幅度提取子单元,用于提取所述每一个音频帧信号的频率谱对应的幅度谱;
绘制子单元,用于根据所述每一个音频帧信号的时间、频率谱和幅度谱,绘制所述第一音频文件的时频图;
拆分子单元,用于按照时间取模的方式,对所述第一音频文件的时频图进行拆分,生成第一预设数量的时频子图,所述第一预设数量的时频子图中的一个时频子图对应所述第一音频文件的一个相位通道。
9.如权利要求6-8任一项所述的装置,其特征在于,所述预置数据库中存储至少一个音频文件的标识、所述至少一个音频文件的特征信息、以及所述至少一个音频文件的属性数据;
所述属性数据包括以下数据中的至少一种:音频文件名称、音频文件所属的专辑信息、音频文件的链接地址、音频文件的歌词。
10.如权利要求9所述的装置,其特征在于,所述识别模块包括:
特征比对单元,用于将所述第一特征信息与所述预置数据库中的每个特征信息进行比对;
加权处理单元,用于根据比对结果对所述预置数据库中的每个特征信息所对应的音频文件的标识进行加权处理;
候选列表生成单元,用于按照权重由高至低的顺序,从所述预置数据库中选择第二预设数量的音频文件的特征信息组成候选列表;
相关性计算单元,用于计算所述候选列表中的每个音频文件的特征信息与所述第一特征信息的时间相关性;
匹配单元,用于从所述候选列表中选取与所述第一特征信息相匹配的至少一个第二特征信息,其中,所述第二特征信息与所述第一特征信息的时间相关性大于预设阈值。
CN201310042408.0A 2013-02-04 2013-02-04 一种音频识别方法及装置 Active CN103971689B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201310042408.0A CN103971689B (zh) 2013-02-04 2013-02-04 一种音频识别方法及装置
TW102131132A TWI494917B (zh) 2013-02-04 2013-08-29 音頻識別方法及裝置
JP2015555549A JP6090881B2 (ja) 2013-02-04 2013-10-16 オーディオ認識のための方法およびデバイス
PCT/CN2013/085309 WO2014117542A1 (en) 2013-02-04 2013-10-16 Method and device for audio recognition
KR1020157024093A KR101625944B1 (ko) 2013-02-04 2013-10-16 오디오 인식 방법 및 기기
CA2899657A CA2899657C (en) 2013-02-04 2013-10-16 Method and device for audio recognition
BR112015018597A BR112015018597A2 (pt) 2013-02-04 2013-10-16 método e dispositivo para reconhecimento de áudio
US14/103,753 US9373336B2 (en) 2013-02-04 2013-12-11 Method and device for audio recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310042408.0A CN103971689B (zh) 2013-02-04 2013-02-04 一种音频识别方法及装置

Publications (2)

Publication Number Publication Date
CN103971689A true CN103971689A (zh) 2014-08-06
CN103971689B CN103971689B (zh) 2016-01-27

Family

ID=51241107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310042408.0A Active CN103971689B (zh) 2013-02-04 2013-02-04 一种音频识别方法及装置

Country Status (7)

Country Link
JP (1) JP6090881B2 (zh)
KR (1) KR101625944B1 (zh)
CN (1) CN103971689B (zh)
BR (1) BR112015018597A2 (zh)
CA (1) CA2899657C (zh)
TW (1) TWI494917B (zh)
WO (1) WO2014117542A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139866A (zh) * 2015-08-10 2015-12-09 泉州师范学院 南音的识别方法及装置
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和系统
CN105589970A (zh) * 2015-12-25 2016-05-18 小米科技有限责任公司 音乐搜索方法和装置
CN105632513A (zh) * 2015-12-18 2016-06-01 合肥寰景信息技术有限公司 一种网络社区的语音过滤方法
CN105825850A (zh) * 2016-04-29 2016-08-03 腾讯科技(深圳)有限公司 一种音频处理方法及装置
WO2017050175A1 (zh) * 2015-09-24 2017-03-30 阿里巴巴集团控股有限公司 音频识别方法和系统
CN106708465A (zh) * 2016-12-16 2017-05-24 北京小米移动软件有限公司 智能鞋的控制方法及装置
CN106796785A (zh) * 2014-10-22 2017-05-31 高通股份有限公司 用于产生声音检测模型的声音样本验证
WO2017181852A1 (zh) * 2016-04-19 2017-10-26 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置、存储介质
CN107667334A (zh) * 2015-06-03 2018-02-06 雷蛇(亚太)私人有限公司 触觉装置及控制触觉装置的方法
CN107851442A (zh) * 2015-04-13 2018-03-27 日本电信电话株式会社 匹配装置、判定装置、它们的方法、程序及记录介质
CN108205546A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种歌曲信息的匹配系统及方法
CN110209872A (zh) * 2019-05-29 2019-09-06 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
CN110289013A (zh) * 2019-07-24 2019-09-27 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN110322897A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质
CN113836346A (zh) * 2021-09-08 2021-12-24 网易(杭州)网络有限公司 为音频文件生成摘要的方法、装置、计算设备及存储介质
WO2024077452A1 (zh) * 2022-10-10 2024-04-18 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013149188A1 (en) * 2012-03-29 2013-10-03 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN111161758B (zh) * 2019-12-04 2023-03-31 厦门快商通科技股份有限公司 一种基于音频指纹的听歌识曲方法、系统及音频设备
CN113268630B (zh) * 2021-06-08 2023-03-10 腾讯音乐娱乐科技(深圳)有限公司 一种音频检索方法、设备及介质
CN115910042B (zh) * 2023-01-09 2023-05-05 百融至信(北京)科技有限公司 识别格式化音频文件的信息种类的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070195963A1 (en) * 2006-02-21 2007-08-23 Nokia Corporation Measuring ear biometrics for sound optimization
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US20070294295A1 (en) * 2006-06-16 2007-12-20 Microsoft Corporation Highly meaningful multimedia metadata creation and associations
CN1592906B (zh) * 2000-07-31 2010-09-08 兰德马克数字服务公司 用于在强噪声和失真下识别声音和音乐信号的系统和方法
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及系统装置
CN102063904A (zh) * 2010-11-30 2011-05-18 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别系统
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62159195A (ja) * 1986-01-06 1987-07-15 沖電気工業株式会社 音声パタン作成方法
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
PT1504445E (pt) * 2002-04-25 2008-11-24 Landmark Digital Services Llc Emparelhamento de padrões áudio robusto e invariante
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
JP2006106535A (ja) * 2004-10-08 2006-04-20 Nippon Telegr & Teleph Corp <Ntt> 音響信号蓄積検索装置、及び音響信号蓄積検索プログラム
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
ES2488719T3 (es) * 2010-06-09 2014-08-28 Adelphoi Limited Sistema y método para el reconocimiento de medios de audio
TWI426501B (zh) * 2010-11-29 2014-02-11 Inst Information Industry 旋律辨識方法與其裝置
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
US20120296458A1 (en) * 2011-05-18 2012-11-22 Microsoft Corporation Background Audio Listening for Content Recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592906B (zh) * 2000-07-31 2010-09-08 兰德马克数字服务公司 用于在强噪声和失真下识别声音和音乐信号的系统和方法
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US20070195963A1 (en) * 2006-02-21 2007-08-23 Nokia Corporation Measuring ear biometrics for sound optimization
US20070294295A1 (en) * 2006-06-16 2007-12-20 Microsoft Corporation Highly meaningful multimedia metadata creation and associations
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及系统装置
CN102063904A (zh) * 2010-11-30 2011-05-18 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别系统
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAITSMA J,KALKER T.A: "《Highly Robust Audio Fingerprinting System》", 《INTERNATIONAL CONFERENCE ONMUSIC 》, 15 October 2002 (2002-10-15) *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796785A (zh) * 2014-10-22 2017-05-31 高通股份有限公司 用于产生声音检测模型的声音样本验证
CN107851442B (zh) * 2015-04-13 2021-07-20 日本电信电话株式会社 匹配装置、判定装置、它们的方法、程序及记录介质
CN107851442A (zh) * 2015-04-13 2018-03-27 日本电信电话株式会社 匹配装置、判定装置、它们的方法、程序及记录介质
CN107667334A (zh) * 2015-06-03 2018-02-06 雷蛇(亚太)私人有限公司 触觉装置及控制触觉装置的方法
CN105139866A (zh) * 2015-08-10 2015-12-09 泉州师范学院 南音的识别方法及装置
WO2017050175A1 (zh) * 2015-09-24 2017-03-30 阿里巴巴集团控股有限公司 音频识别方法和系统
US10679647B2 (en) 2015-09-24 2020-06-09 Alibaba Group Holding Limited Audio recognition method and system
CN105632513A (zh) * 2015-12-18 2016-06-01 合肥寰景信息技术有限公司 一种网络社区的语音过滤方法
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和系统
CN105589970A (zh) * 2015-12-25 2016-05-18 小米科技有限责任公司 音乐搜索方法和装置
WO2017181852A1 (zh) * 2016-04-19 2017-10-26 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置、存储介质
US10719551B2 (en) 2016-04-19 2020-07-21 Tencent Technology (Shenzhen) Company Limited Song determining method and device and storage medium
CN105825850A (zh) * 2016-04-29 2016-08-03 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN105825850B (zh) * 2016-04-29 2021-08-24 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN108205546A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种歌曲信息的匹配系统及方法
CN106708465A (zh) * 2016-12-16 2017-05-24 北京小米移动软件有限公司 智能鞋的控制方法及装置
CN108205546B (zh) * 2016-12-16 2021-01-12 北京酷我科技有限公司 一种歌曲信息的匹配系统及方法
US11182426B2 (en) 2018-03-29 2021-11-23 Beijing Bytedance Network Technology Co., Ltd. Audio retrieval and identification method and device
CN110322897A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
CN110322897B (zh) * 2018-03-29 2021-09-03 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
CN110209872A (zh) * 2019-05-29 2019-09-06 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
CN110289013A (zh) * 2019-07-24 2019-09-27 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质
CN113836346A (zh) * 2021-09-08 2021-12-24 网易(杭州)网络有限公司 为音频文件生成摘要的方法、装置、计算设备及存储介质
CN113836346B (zh) * 2021-09-08 2023-08-08 网易(杭州)网络有限公司 为音频文件生成摘要的方法、装置、计算设备及存储介质
WO2024077452A1 (zh) * 2022-10-10 2024-04-18 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CA2899657C (en) 2017-08-01
WO2014117542A1 (en) 2014-08-07
CN103971689B (zh) 2016-01-27
KR101625944B1 (ko) 2016-05-31
KR20150108936A (ko) 2015-09-30
JP6090881B2 (ja) 2017-03-08
BR112015018597A2 (pt) 2017-07-18
JP2016512610A (ja) 2016-04-28
CA2899657A1 (en) 2014-08-07
TWI494917B (zh) 2015-08-01
TW201432674A (zh) 2014-08-16

Similar Documents

Publication Publication Date Title
CN103971689B (zh) 一种音频识别方法及装置
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
EP2659480B1 (en) Repetition detection in media data
EP2791935B1 (en) Low complexity repetition detection in media data
KR102614021B1 (ko) 오디오 컨텐츠 인식 방법 및 장치
CN111161758B (zh) 一种基于音频指纹的听歌识曲方法、系统及音频设备
CN103403710A (zh) 对来自音频信号的特征指纹的提取和匹配
CN101292280A (zh) 导出音频输入信号的一个特征集的方法
CN102959624A (zh) 用于音频媒体识别的系统和方法
CN110377782B (zh) 音频检索方法、装置和存储介质
CN102063904A (zh) 一种音频文件的旋律提取方法及旋律识别系统
CN105575400A (zh) 一种获取歌曲信息的方法、终端、服务器和系统
CN109271501A (zh) 一种音频数据库的管理方法及系统
CN104866604A (zh) 一种信息处理方法及服务器
CN113806586B (zh) 数据处理方法、计算机设备以及可读存储介质
Englmeier et al. Musical similarity analysis based on chroma features and text retrieval methods
Lee et al. Audio fingerprinting to identify TV commercial advertisement in real-noisy environment
CN113744721A (zh) 模型训练方法、音频处理方法、设备及可读存储介质
CN116801004A (zh) 音乐处理方法、视频生成方法、装置、计算机设备和介质
Szczepański et al. Music Information Retrieval. A case study of MIR in modern rock and metal music

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200821

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.