CN113257276B - 一种音频场景检测方法、装置、设备及存储介质 - Google Patents

一种音频场景检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113257276B
CN113257276B CN202110499109.4A CN202110499109A CN113257276B CN 113257276 B CN113257276 B CN 113257276B CN 202110499109 A CN202110499109 A CN 202110499109A CN 113257276 B CN113257276 B CN 113257276B
Authority
CN
China
Prior art keywords
frequency
audio
preset
domain signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110499109.4A
Other languages
English (en)
Other versions
CN113257276A (zh
Inventor
陈英博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pulian International Co ltd
Original Assignee
Pulian International Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pulian International Co ltd filed Critical Pulian International Co ltd
Priority to CN202110499109.4A priority Critical patent/CN113257276B/zh
Publication of CN113257276A publication Critical patent/CN113257276A/zh
Application granted granted Critical
Publication of CN113257276B publication Critical patent/CN113257276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种音频场景检测方法、装置、设备及存储介质,所述方法包括获取待检测的音频频域信号;计算所述音频频域信号中任一帧的任一频点的频率;将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点;计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景。本发明技术方案简单且能够准确地判断出待检测的音频频域信号中是否含有预设音频场景。

Description

一种音频场景检测方法、装置、设备及存储介质
技术领域
本发明涉及音频技术领域,尤其涉及一种音频场景检测方法、装置、设备及存储介质。
背景技术
音乐场景检测在一些音频类任务中比较重要。比如,在由音乐节奏控制LED灯闪动的应用场景中,若能够识别出正在监听的场景中存在音乐,那么会为后续的节奏检测任务提供很多的先验信息,避免发生场景中没有音乐,但是LED灯被激活的问题。
现有音乐场景检测方法主要包括频谱能量法和机器学习方法,然而,现有基于频谱能量检测音乐场景的技术方案获得的效果差、基于机器学习检测音乐场景的技术方案太复杂。
发明内容
本发明的目的在于提供一种音频场景检测方法、装置、设备及存储介质,以解决现有基于频谱能量检测音乐场景的技术方案获得的效果差、基于机器学习检测音乐场景的技术方案太复杂的技术问题,本发明技术方案简单且效果好。
为了解决上述技术问题,第一方面,本发明实施例提供一种音频场景检测方法,包括:
获取待检测的音频频域信号;
计算所述音频频域信号中任一帧的任一频点的频率;
将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点;
计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;
当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;
当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景。
进一步地,所述获取待检测的音频频域信号之前,还包括:
获取待检测的音频信号;
对所述音频信号进行分帧处理,得到音频时域信号;
将所述音频时域信号转换到频域,得到待检测的音频频域信号。
进一步地,根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n),其中Fs表示音频信号的采样频率,n表示任一频点在任一帧中的位置,N表示任一帧的总频点数。
进一步地,所述将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,具体包括:
计算所述任一频点的频率与预设的音高与频率对照表中任一频率的差值;
当所述预设的音高与频率对照表中存在一频率使所述差值小于第三预设阈值时,则所述任一频点为预设音频频点。
进一步地,所述预设的音高与频率对照表为国际标准音高与频率对照表,所述预设音频场景为含音乐场景。
第二方面,本发明实施例提供一种音频场景检测装置,包括:
音频频域信号获取模块,用于获取待检测的音频频域信号;
频率计算模块,用于计算所述音频频域信号中任一帧的任一频点的频率;
比较模块,用于将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点;
频谱能量之和计算模块,用于计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;
第一判断模块,用于当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;
第二判断模块,用于当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景。
进一步地,所述获取待检测的音频频域信号之前,还包括:
获取待检测的音频信号;
对所述音频信号进行分帧处理,得到音频时域信号;
将所述音频时域信号转换到频域,得到待检测的音频频域信号。
进一步地,根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n),其中Fs表示音频信号的采样频率,n表示任一频点在任一帧中的位置,N表示任一帧的总频点数。
进一步地,所述将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,具体包括:
计算所述任一频点的频率与预设的音高与频率对照表中任一频率的差值;
当所述预设的音高与频率对照表中存在一频率使所述差值小于第三预设阈值时,则所述任一频点为预设音频频点。
进一步地,所述预设的音高与频率对照表为国际标准音高与频率对照表,所述预设音频场景为含音乐场景。
第三方面,本发明实施例提供一种音频场景检测设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的音频场景检测方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项所述的音频场景检测方法。
与现有技术相比,本发明实施例提供的音频场景检测方法包括:获取待检测的音频频域信号;计算所述音频频域信号中任一帧的任一频点的频率;将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点;计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景。相比于基于机器学习的音频场景检测技术,本发明实施例计算方法更加简单,能够快速识别出待检测的音频中是否含有预设音频场景,此外,相比于基于频谱能量的音频场景检测技术,本发明实施例将任一频点的频率与预设的音高与频率对照表进行比较,来判断所述任一频点是否为预设音频频点,能够更加准确的判断出待检测的音频频域信号中是否含有预设音频场景,因此,效果更好。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的音频场景检测方法的流程示意图;
图2是本发明一实施例提供的音频场景检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
实施例1:
请参阅图1,本发明实施例提供一种音频场景检测方法,包括S1-S6:
S1、获取待检测的音频频域信号;
S2、计算所述音频频域信号中任一帧的任一频点的频率;
S3、将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点;
S4、计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;
S5、当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;
S6、当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景。
在本发明实施例中,所述第一预设阈值根据实际情况确定,本发明对此不限制,例如,当判断所述任一帧中是否含有音乐时,所述第一预设阈值可定为0.5~0.8左右,所述第二预设阈值根据情况确定,本发明对此也不作限定,例如,可以设为0.8。
应当理解的时,所述音频场景检测方法可由电子设备执行,也可由服务器执行,本发明对此不作限制。
相比于基于机器学习的音频场景检测技术,本发明实施例计算更加简单,能够快速识别出待检测的音频中是否含有预设音频场景,此外,相比于基于频谱能量的音频场景检测技术,本发明实施例能够更加准确的判断出待检测的音频频域信号中是否含有预设音频场景,因此,效果更好。
作为本发明实施例的一种举例,所述获取待检测的音频频域信号之前,还包括:
获取待检测的音频信号;
对所述音频信号进行分帧处理,得到音频时域信号;
将所述音频时域信号转换到频域,得到待检测的音频频域信号。
在本发明实施例中,具体的,通过傅里叶变换将所述音频时域信号转换到频域,得到待检测的音频频域信号。
作为本发明实施例的一种举例,根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n),其中Fs表示音频信号的采样频率,n表示任一频点在任一帧中的位置,N表示任一帧的总频点数。
在本发明实施例中,所述n的取值范围为:0≤n≤N/2。所述N的取值根据实际设计需求确定,本发明对此不作限制。为提升频谱分辨率,所述N的取值可取大一些,例如,取1024或2048。所述音频信号的采样频率同样根据实际设计需求确定,本发明对此不作限制,例如可以是8kHz或16kHz。
作为本发明实施例的一种举例,所述将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,具体包括:
计算所述任一频点的频率与预设的音高与频率对照表中任一频率的差值;
当所述预设的音高与频率对照表中存在一频率使所述差值小于第三预设阈值时,则所述任一频点为预设音频频点。
具体地,当|F(n)-f|<D成立时,所述任一频点为预设音频频点;其中,F(n)为所述任一频点的频率,f为所述预设的音高与频率对照表中的任一频率,D为第三预设阈值。
在本发明实施例中,所述第三预设阈值根据实际情况设定,本发明对此不作限制。当所述预设的音高与频率对照表为国际标准音高与频率对照表时,所述第三预设阈值在5Hz~20Hz之间。
请参阅图2,作为本发明实施例的一种举例,所述预设的音高与频率对照表为国际标准音高与频率对照表,所述预设音频场景为含音乐场景。
第二方面,本发明实施例提供一种音频场景检测装置,包括:
音频频域信号获取模块1,用于获取待检测的音频频域信号;
频率计算模块2,用于计算所述音频频域信号中任一帧的任一频点的频率;
比较模块3,用于将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点;
频谱能量之和计算模块4,用于计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;
第一判断模块5,用于当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;
第二判断模块6,用于当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景。
在本发明实施例中,所述第一预设阈值根据实际情况确定,本发明对此不限制,例如,当所述任一帧中含有音乐时,所述第一预设阈值可定为0.5~0.8左右,所述第二预设阈值根据情况确定,本发明对此也不作限定,例如,可以为0.8。
相比于基于机器学习的音频场景检测技术,本发明实施例计算更加简单、因此,能够快速识别出待检测的音频中是否含有预设音频场景,此外,相比于基于频谱能量的音频场景检测技术,本发明实施例能够更加准确的判断出待检测的音频频域信号中是否含有预设音频场景,因此,效果更好。
作为本发明实施例的一种举例,所述获取待检测的音频频域信号之前,还包括:
获取待检测的音频信号;
对所述音频信号进行分帧处理,得到音频时域信号;
将所述音频时域信号转换到频域,得到待检测的音频频域信号。
在本发明实施例中,具体的,通过傅里叶变换将所述音频时域信号转换到频域,得到待检测的音频频域信号。
作为本发明实施例的一种举例,根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n),其中Fs表示音频信号的采样频率,n表示任一频点在任一帧中的位置,N表示任一帧的总频点数。
在本发明实施例中,所述n的取值范围为:0≤n≤N/2。所述的N取值根据实际设计需求确定,本发明对此不作限制。为提升频谱分辨率,所述N的取值可取大一些,例如,取1024或2048。所述音频信号的采样频率同样根据实际设计需求确定,本发明对此不作限制,例如可以是8kHz或16kHz。
作为本发明实施例的一种举例,所述将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,具体包括:
计算所述任一频点的频率与预设的音高与频率对照表中任一频率的差值;
当所述预设的音高与频率对照表中存在一频率使所述差值小于第三预设阈值时,则所述任一频点为预设音频频点。
具体地,当|F(n)-f|<D成立时,所述任一频点为预设音频频点;其中,F(n)为所述任一频点的频率,f为所述预设的音高与频率对照表中的任一频率,D为第三预设阈值。
在本发明实施例中,所述第三预设阈值根据实际情况设定,本发明对此不作限制。当所述预设的音高与频率对照表为国际标准音高与频率对照表时,所述第三预设阈值在5Hz~20Hz之间。
实施例3:
本发明实施例提供一种音频场景检测设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的音频场景检测方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的音频场景检测方法。
需要说明的是,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种音频场景检测方法,其特征在于,包括:
获取待检测的音频频域信号;
计算所述音频频域信号中任一帧的任一频点的频率;
将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,其中,所述预设的音高与频率对照表为国际标准音高与频率对照表;
计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;
当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;
当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景,其中,所述预设音频场景为含音乐场景。
2.根据权利要求1所述的音频场景检测方法,其特征在于,所述获取待检测的音频频域信号之前,还包括:
获取待检测的音频信号;
对所述音频信号进行分帧处理,得到音频时域信号;
将所述音频时域信号转换到频域,得到待检测的音频频域信号。
3.根据权利要求2所述的音频场景检测方法,其特征在于,根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n),其中Fs表示音频信号的采样频率,n表示任一频点在任一帧中的位置,N表示任一帧的总频点数。
4.根据权利要求1所述的音频场景检测方法,其特征在于,所述将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,具体包括:
计算所述任一频点的频率与预设的音高与频率对照表中任一频率的差值;
当所述预设的音高与频率对照表中存在一频率使所述差值小于第三预设阈值时,则所述任一频点为预设音频频点。
5.一种音频场景检测装置,其特征在于,包括:
音频频域信号获取模块,用于获取待检测的音频频域信号;
频率计算模块,用于计算所述音频频域信号中任一帧的任一频点的频率;
比较模块,用于将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,其中,所述预设的音高与频率对照表为国际标准音高与频率对照表;
频谱能量之和计算模块,用于计算所述任一帧中预设音频频点的频谱能量之和,得到预设音频频谱能量;
第一判断模块,用于当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时,则所述任一帧中含有预设音频;
第二判断模块,用于当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时,则所述音频频域信号中含有预设音频场景,其中,所述预设音频场景为含音乐场景。
6.根据权利要求5所述的音频场景检测装置,其特征在于,所述将所述任一频点的频率与预设的音高与频率对照表进行比较,判断所述任一频点是否为预设音频频点,具体包括:
计算所述任一频点的频率与预设的音高与频率对照表中任一频率的差值;
当所述预设的音高与频率对照表中存在一频率使所述差值小于第三预设阈值时,则所述任一频点为预设音频频点。
7.一种音频场景检测设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的音频场景检测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任一项所述的音频场景检测方法。
CN202110499109.4A 2021-05-07 2021-05-07 一种音频场景检测方法、装置、设备及存储介质 Active CN113257276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110499109.4A CN113257276B (zh) 2021-05-07 2021-05-07 一种音频场景检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110499109.4A CN113257276B (zh) 2021-05-07 2021-05-07 一种音频场景检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113257276A CN113257276A (zh) 2021-08-13
CN113257276B true CN113257276B (zh) 2024-03-29

Family

ID=77224092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110499109.4A Active CN113257276B (zh) 2021-05-07 2021-05-07 一种音频场景检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113257276B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060102757A (ko) * 2005-03-24 2006-09-28 김재천 분류알고리즘을 이용한 음악장르 분류 방법
CN101197135A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 声音信号分类方法和装置
KR20080097684A (ko) * 2007-05-03 2008-11-06 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
WO2009001202A1 (en) * 2007-06-28 2008-12-31 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
WO2015078121A1 (zh) * 2013-11-29 2015-06-04 华为技术有限公司 音频信号质量检测方法及装置
CN109087634A (zh) * 2018-10-30 2018-12-25 四川长虹电器股份有限公司 一种基于音频分类的音质设置方法
CN109766929A (zh) * 2018-12-24 2019-05-17 重庆第二师范学院 一种基于svm的音频分类方法及系统
CN110136696A (zh) * 2019-05-22 2019-08-16 上海声构信息科技有限公司 音频数据的监控处理方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
US9754607B2 (en) * 2015-08-26 2017-09-05 Apple Inc. Acoustic scene interpretation systems and related methods

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060102757A (ko) * 2005-03-24 2006-09-28 김재천 분류알고리즘을 이용한 음악장르 분류 방법
CN101197135A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 声音信号分类方法和装置
KR20080097684A (ko) * 2007-05-03 2008-11-06 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
WO2009001202A1 (en) * 2007-06-28 2008-12-31 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
WO2015078121A1 (zh) * 2013-11-29 2015-06-04 华为技术有限公司 音频信号质量检测方法及装置
CN109087634A (zh) * 2018-10-30 2018-12-25 四川长虹电器股份有限公司 一种基于音频分类的音质设置方法
CN109766929A (zh) * 2018-12-24 2019-05-17 重庆第二师范学院 一种基于svm的音频分类方法及系统
CN110136696A (zh) * 2019-05-22 2019-08-16 上海声构信息科技有限公司 音频数据的监控处理方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Acoustic Scene Classification: Classifying environments from the sounds they produce;Daniele Barchiesi,等;《 IEEE Signal Processing Magazine 》;全文 *
音频场景分析与识别方法研究;杨丽;《中国优秀硕士学位论文全文数据库》;全文 *
音频场景检测机制的设计与实施;刘若澜;《中国优秀硕士学位论文全文数据库》;全文 *

Also Published As

Publication number Publication date
CN113257276A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
Renevey et al. Entropy based voice activity detection in very noisy conditions.
US7117149B1 (en) Sound source classification
EP2828856B1 (en) Audio classification using harmonicity estimation
US7818169B2 (en) Formant frequency estimation method, apparatus, and medium in speech recognition
US20100215191A1 (en) Sound determination device, sound detection device, and sound determination method
US8344234B2 (en) Tempo detecting device and tempo detecting program
CN110324726B (zh) 模型生成、视频处理方法、装置、电子设备及存储介质
KR101762723B1 (ko) 피치 주기의 정확도를 검출하는 방법 및 장치
CN111341333B (zh) 噪声检测方法、噪声检测装置、介质及电子设备
KR101140896B1 (ko) 음성 세그먼트화를 위한 방법 및 장치
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
CN113257276B (zh) 一种音频场景检测方法、装置、设备及存储介质
EP2328143B1 (en) Human voice distinguishing method and device
CN111312287B (zh) 一种音频信息的检测方法、装置及存储介质
Ruhland et al. Reduction of Gaussian, supergaussian, and impulsive noise by interpolation of the binary mask residual
CN111613243A (zh) 一种语音检测的方法及其装置
CN110324657A (zh) 模型生成、视频处理方法、装置、电子设备及存储介质
CN114329042A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN113613159B (zh) 麦克风吹气信号检测方法、装置和系统
JPH04264596A (ja) 雑音下音声認識方法
US20240013799A1 (en) Adaptive noise estimation
Rahman et al. Fundamental Frequency Extraction of Noisy Speech Using Exponent Enhancement in Weighted Autocorrelation
Pwint et al. A new speech/non-speech classification method using minimal Walsh basis functions
Park et al. Pitch Error Improved with SNR Compensation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant