CN110931044A - 收音机搜频方法、频道分类方法和电子设备 - Google Patents
收音机搜频方法、频道分类方法和电子设备 Download PDFInfo
- Publication number
- CN110931044A CN110931044A CN201911273047.4A CN201911273047A CN110931044A CN 110931044 A CN110931044 A CN 110931044A CN 201911273047 A CN201911273047 A CN 201911273047A CN 110931044 A CN110931044 A CN 110931044A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- channel
- feature
- model
- radio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims abstract description 149
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000012706 support-vector machine Methods 0.000 claims abstract description 42
- 239000000203 mixture Substances 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 39
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/06—Receivers
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种收音机搜频方法和电子设备,包括以下步骤:搜索频道,获得有效频段中的音频信号;使用小波变换对音频信号进行特征提取;将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;以及将第一特征向量输入经支持向量机预先构建的音频信号特征模型,以判决第一特征向量对应的音频信号是否为电台音频信号。本发明涉及的收音机搜频方法和电子设备可以实现更智能地进行收音机搜频,从而大幅度地提高收音机搜频的精准性。本发明还提供了一种收音机频道分类方法和电子设备,通过使用频道特征模型进行频道分类,能够省去用户手动编辑频道列表的操作,避免了用户手动进行频道分类时的误操作,从而提高了收音机的用户体验。
Description
技术领域
本发明主要涉及收音机技术领域,尤其涉及一种收音机搜频方法、频道分类方法和电子设备。
背景技术
随着计算机技术、网络技术和通信技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有重要的地位。伴随着智能设备的快速发展,越来越多的人喜欢收听广播来丰富业余生活、陶冶情操。但是在搜索频道的过程中时常会碰到信号不太好、噪音比较大以及其他因素的干扰导致无法搜索到有效的频道,将一些噪声信号误认为真台,或将一些真实频道点给摒除掉,导致最终的收音机搜频结果不精准。
现有的收音机搜频技术通常通过以下两种方法进行搜频,一种是根据接收信号强度(Received Signal Strength Indication,RSSI)的检测结果与预设的固定搜频阈值进行比较,高于该阈值就判断该频点为一个有效的频道信号,反之则判断为无效频道信号;另一种是根据接收信号的导频能量来进行判断该信号是否为一个有效的电台频道信号。
另一方面,用户想要对电台频道进行分类列表管理时,需要手动将电台频道加入到相应的频道分类列表中,收音机没有对识别到的音频信号自动进行频道分类的功能,影响了用户的使用体验。
发明内容
本发明要解决的技术问题是提供一种收音机搜频方法,可用于更精准地进行收音机搜频。
为解决上述技术问题,本发明提供了一种收音机搜频方法,包括以下步骤:搜索频道,获得有效频段中的音频信号;使用小波变换对音频信号进行特征提取;将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;以及将第一特征向量输入经支持向量机预先构建的音频信号特征模型,以判决第一特征向量对应的音频信号是否为电台音频信号。
可选地,该方法还包括对音频信号进行自适应增强,自适应增强操作使用混合增益补偿系数。
可选地,自适应增强操作具有可编程的绝对能量误差参考门限。
可选地,小波变换提取的特征包括过零率、短时能量、基频、音频内容或其任意组合。
可选地,构建音频信号特征模型的步骤包括:获得多个音频信号训练样本;使用小波变换对多个音频信号训练样本进行特征提取;将所提取的特征经过高斯混合模型进行训练,得到第二特征向量;以及将第二特征向量输入支持向量机,构建音频信号特征模型。
可选地,将所提取的特征经过高斯混合模型的最大期望算法进行训练。
可选地,该方法还包括将第一特征向量输入经支持向量机预先构建的以下频道特征模型中的至少一个以进行频道分类:音乐频道特征模型、生活频道特征模型、交通频道特征模型以及新闻频道特征模型。
可选地,构建频道特征模型的步骤包括:获得多个音频信号训练样本;使用小波变换对多个音频信号训练样本进行特征提取;将所提取的特征经过高斯混合模型进行训练,得到第二特征向量;以及将第二特征向量输入支持向量机,构建频道特征模型。
可选地,该方法还包括对音频信号进行预处理,包括:预加重、切分、加窗成帧以及语音活动检测。
可选地,在判决第一特征向量对应的音频信号为电台音频信号后,还包括判断音频信号是否为信号最强的频道,如果不是,则进行频率微调。
本发明还提供了一种收音机频道分类方法,包括以下步骤:搜索频道,获得有效频段中的音频信号;使用小波变换对音频信号进行特征提取;将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;以及将第一特征向量输入经支持向量机预先构建的一个或多个频道特征模型,以判决第一特征向量对应的音频信号的频道类型。
本发明还提供了一种电子设备,包括:存储器,用于存储可由处理器执行的指令;处理器,配置为执行所述指令以实现如上所述的收音机搜频方法。
与现有技术相比,本发明的收音机搜频方法和电子设备通过使用结合高斯混合模型与支持向量机来构建的音频信号特征模型,实现更智能地进行收音机搜频,从而大幅度地提高收音机搜频的精准性。
与现有技术相比,本发明的收音机频道分类方法和电子设备通过使用频道特征模型进行频道分类,可以省去用户手动编辑频道列表的操作,避免了用户手动进行频道分类时的误操作,从而提高了收音机的用户体验。
附图说明
包括附图是为提供对本申请进一步的理解,它们被收录并构成本申请的一部分,附图示出了本申请的实施例,并与本说明书一起起到解释本发明原理的作用。附图中:
图1是根据本发明一实施例示出的收音机搜频方法的流程示意图。
图2是根据本发明一实施例示出的构建音频信号特征模型的流程示意图。
图3是根据本发明一实施例示出的电子设备的系统框图。
图4是根据本发明另一实施例示出的收音机搜频方法的流程示意图。
图5是根据本发明一实施例示出的构建频道特征模型的流程示意图。
图6是根据本发明一实施例示出的收音机频道分类方法的流程示意图。
具体实施方式
为了更清楚地说明本发明的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。本发明文件中使用的术语“和/或”,包括一个或多个相关的所列项目的任意的和所有的组合。
本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
收音机应用范围十分广泛,除了专用的收音机设备,还可以应用在汽车、手机等移动终端和家庭娱乐中心、智能音箱等智能终端。本发明中所提供的收音机搜频方法和电子设备可应用于收音机专用设备或其它终端,本发明对此不作限定。
本发明提供了一种收音机搜频方法。图1是根据本发明一实施例示出的收音机搜频方法的流程示意图。如图1所示,本发明实施例的收音机搜频方法包括以下步骤:
步骤101,搜索频道,获得有效频段中的音频信号;
步骤102,使用小波变换对音频信号进行特征提取;
步骤103,将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;以及
步骤104,将第一特征向量输入经支持向量机预先构建的音频信号特征模型,以判决第一特征向量对应的音频信号是否为电台音频信号。
以下对该收音机搜频方法中的各个步骤进行进一步的详细描述:
在步骤101中,搜索频道,获得有效频段中的音频信号。
收音机执行搜索频道功能,并获得有效频段中的音频信号。搜索频道为在一个频率带宽范围内进行轮询搜索。例如,中国地区的频率带宽范围为87.0MHz~108.0MHz,因此有效频段中最低频点的音频信号指的是87.0MHz对应的音频信号,最后一个频点的音频信号为108.0MHz对应的音频信号。
可选地,该方法还可以包括对音频信号进行自适应增强,自适应增强操作使用混合增益补偿系数。
当搜索得到的音频信号的信号强度较低时(例如,音频信号的信号强度低于预设的阈值),还可以对该音频信号进行自适应信号增强。自适应增强可以根据不同的环境进行,可以更灵活地实现增益补偿和提高信号强度,将信号增强到一个可识别清晰的信号值,从而避免在搜频过程中由于信号太弱导致无法收听清楚和无法精准搜索到有效频道等问题。
自适应增强可以采用自动增益控制(Automatic Gain Control,AGC)算法,数字自动增益控制器的实现结构可以采用平均绝对误差控制器(Mean Absolute Deviation,MAD)结构,其中MAD结构可以使用混合增益补偿系数。AGC算法具有高精度、快速收敛和稳定性好等优点。在AGC算法中使用混合增益补偿系数可以实现AGC的快速调整和稳定跟踪,提高AGC的灵活性和可扩展性。
可选地,自适应增强操作可以具有可编程的绝对能量误差参考门限。可以在自适应增强操作中设置可编程的绝对能量误差参考门限,以进一步提高自适应增强操作中的混合增益补偿系数转换的灵活性和可扩展性。
可选地,该方法还可以包括对音频信号进行预处理,包括:预加重、切分、加窗成帧以及语音活动检测。
原始音频信号可能会在不同的收音机收听流程中受到不同噪声的干扰,例如在调制过程中引入了杂波,导致在声源处出现问题;又如在传输过程中,受到天气环境产生的电磁波或者高压电线等因素的干扰;再如在解调过程中因为设备老化引入了杂波。这些在调制-传输-解调过程中可能引入的信号干扰都会影响最后收音机收音的音质效果。因此,还可以对音频信号进行预加重、切分、加窗成帧以及语音活动检测(Voice ActivityDetection,VAD)等预处理操作。
预加重处理可以减少噪声的影响,补偿高频信号因在传输过程或其他过程中幅值被削减。切分与加窗成帧处理可以对音频信号进行切分,将音频流切分成音频段(clip)系列。由于音频帧的时间粒度太小,很难从中提取有意义的语义内容,所以需要在帧的基础上定义时间粒度更大的音频结构单元,称为音频段(clip)。clip由若干帧组成,时间长度一定,是音频分类的基本对象,具有一定语义,如语音clip,音乐clip等。将音频流切分成clip系列,可以提高后续进行特征提取的速度。语音活动检测操作主要是用于进行去噪处理。通过对音频信号进行上述的预处理操作,降低了噪声对音频信号的影响,大幅度地提升了音频信号的清晰度。在步骤102中,使用小波变换对音频信号进行特征提取。
小波变换具有时域局部性和频域局部性,并且其时域窗口可以根据不同频率自适应地调节,从而能精准地反映非平稳信号的瞬间变化。基于小波变换这些特性,利用小波变换技术进行音频信号的特征提取。
可选地,小波变换提取的特征可以包括过零率、短时能量、基频、音频内容或其任意组合。过零率(Zero-Crossing Rate,ZCR)是指一个信号的符号变化的比率,例如信号从正数变成负数或反向。短时能量是指计算较短时间内的语音能量,通常情况下,较短时间指的是一帧。基频,又可称作基带,是指一个复音中基音的频率。
在步骤103中,将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量。
将所提取到的音频信号特征(例如过零率、短时能量、基频、音频内容等特征)经过高斯混合模型(Gaussian Mixed Model,简称GMM)算法处理得到一组第一特征向量,其中该组第一特征向量可以是一组高斯混合模型特性参数。高斯混合模型是一种广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,可选地使用期望最大(ExpectationMaximization,简称EM)算法进行训练。高斯混合模型的概率统计分布描述能力强,并且具有良好的鲁棒性。
在步骤104中,将第一特征向量输入经支持向量机预先构建的音频信号特征模型,以判决第一特征向量对应的音频信号是否为电台音频信号。
将第一特征向量输入音频信号特征模型,其中该音频信号特征模型是由支持向量机(Support Vector Machine,SVM)预先构建的,SVM的核函数可以采用径向基函数(RadialBasic Function,RBF)。SVM是一类按监督学习方式对数据进行二元分类的广义线性分类器(Generalized Linear Classifier),其决策边界是对学习样本求解的最大边距超平面(Maximum-Margin Hyperplane)。使用径向基函数作为核函数的SVM分类器的分类精度较高,训练速度较快。将第一特征向量输入音频信号特征模型后,音频信号特征模型对第一特征向量进行判决分类,判断该第一特征向量对应的音频信号是否为一个电台广播频道的音频信号。使用SVM构建的音频信号特征模型具有良好的判决分类性能,能够更精准地对音频信号进行判决。
可选地,在判决第一特征向量对应的音频信号为电台音频信号后,还可以包括判断音频信号是否为信号最强的频道,如果不是,则进行频率微调。
在判决第一特征向量对应的音频信号为电台音频信号后,该音频信号有可能不是信号最强的信号频道。因此,当音频信号不是信号最强的信号频道时,可以通过频率微调来进行调整,实现在一个频偏范围内找到最强信号的频道。在一个示例中,判断音频信号是否为信号最强的信号频道可以通过比较音频信号的波峰大小来判断。在一个示例中,频率微调可以通过在该频率信号基础上向后调整一个50KHz或100KHz步长频率来实现,频偏范围可以为200KHz。
可选地,该方法还可以包括将第一特征向量输入经支持向量机预先构建的以下频道特征模型中的至少一个以进行频道分类:音乐频道特征模型、生活频道特征模型、交通频道特征模型以及新闻频道特征模型。
将第一特征向量分别输入经支持向量机预先构建的频道特征模型后,各个频道特征模型可以分别对第一特征向量进行判决分类以判断该第一特征向量对应的音频信号是否属于该频道特征模型的频道分类。当判断第一特征向量属于频道特征模型的频道分类时,可以将该第一特征向量对应的音频信号分类到相应分类的频道列表中。例如,将一组第一特征向量输入音乐频道特征模型,音乐频道特征模型判断该组第一特征向量对应的音频信号属于音乐频道分类,则将该组第一特征向量对应的音频信号加入到音乐频道列表中。若音乐频道特征模型判断该组第一特征向量对应的音频信号不属于音乐频道分类,则不将该组第一特征向量对应的音频信号加入到音乐频道列表中。使用上述频道特征模型进行频道分类,可以省去用户手动编辑频道列表的操作,避免了用户手动进行频道分类时的误操作,优化了用户的收音机使用体验。综上所述,本发明实施例的收音机搜频方法通过使用结合高斯混合模型与支持向量机来构建的音频信号特征模型,从而实现更智能地进行收音机搜频,大幅度地提高收音机搜频的精准性。
音频信号特征模型是通过支持向量机预先构建的,以下根据本发明一实施例对构建音频信号特征模型的方法进行详细描述:
图2是根据本发明一实施例示出的构建音频信号特征模型的流程示意图。如图2所示,可选地,构建音频信号特征模型的步骤可以包括:
步骤201,获得多个音频信号训练样本;
步骤202,使用小波变换对多个音频信号训练样本进行特征提取;
步骤203,将所提取的特征经过高斯混合模型进行训练,得到第二特征向量;以及
步骤204,将第二特征向量输入支持向量机,构建音频信号特征模型。
以下对构建音频信号特征模型中的各个步骤进行进一步的详细描述:
在步骤201中,获得多个音频信号训练样本。
构建音频信号特征模型需要多个音频信号训练样本。训练样本是指经过标注后,有相对稳妥、精确的特征描述的数据集。标注是指以各种技术手段将音频信号信息以数字化、计算机可理解的方式表达出来,以供模型训练使用。在本发明实施例中,音频信号训练样本是指带有“是否为电台信号”标注的音频信号数据集。
可选地,可以对多个音频信号训练样本进行预处理。可以参考前文步骤101中的预处理方法来对上述的多个音频信号训练样本进行预处理,以提升多个音频信号训练样本的清晰度,在此不再赘述。
在步骤202中,使用小波变换对多个音频信号训练样本进行特征提取。
可以使用小波变换技术对多个音频信号训练样本的特征进行提取。可以参考前文步骤102来对上述的多个音频信号训练样本进行预处理,在此不再赘述。
在步骤203中,将所提取的特征经过高斯混合模型进行训练,得到第二特征向量。
将所提取的特征经过高斯混合模型进行训练可以是将所提取的特征先经过聚类分析得到加权系数、均值矢量和协方差矩阵的初始值,然后通过迭代为所提取的特征确定一组第二特征向量,使得音频特征矢量序列模型概率最大,即得到一组加权系数、均值矢量和协方差矩阵作为参数建立起模型。
可选地,可以将所提取的特征经过高斯混合模型的最大期望算法进行训练。
高斯混合模型训练中的核心函数可以为极大似然估计算法或最大期望算法。两者的主要区别是最大期望算法可以对采样数据进行分类,而极大似然估计算法则没有分类功能。因此,高斯混合模型训练中使用最大期望算法可以起到对所提取的特征进行分类的作用。
在步骤204中,可以将第二特征向量输入支持向量机,构建音频信号特征模型。
将高斯混合模型训练得到的第二特征向量作为支持向量机的输入矢量,进行支持向量机模型的构建,最后构建出音频信号特征模型。结合高斯混合模型与支持向量机来构建的音频信号特征模型,可以更智能地进行收音机搜频,从而大幅度地提高收音机搜频的精准性。
本发明提供了一种收音机搜频方法。图4是根据本发明另一实施例示出的收音机搜频方法的流程示意图。如图4所示,本发明实施例的收音机搜频方法包括以下步骤:
步骤401,搜索频道,获得有效频段中的音频信号;
步骤402,使用小波变换对音频信号进行特征提取;
步骤403,将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;
步骤404,将第一特征向量输入经支持向量机预先构建的音频信号特征模型,以判决第一特征向量对应的音频信号是否为电台音频信号;
步骤405,将第一特征向量输入经支持向量机预先构建的以下频道特征模型中的至少一个以进行频道分类:音乐频道特征模型、生活频道特征模型、交通频道特征模型以及新闻频道特征模型。
其中,步骤401-404可以参考前文中的收音机搜频方法的实施例的步骤101-104,在此不再赘述。
在步骤405中,频道特征模型是预先使用支持向量机(SVM)构建的。频道特征模型可以包括以下模型中的至少一个:音乐频道特征模型、生活频道特征模型、交通频道特征模型以及新闻频道特征模型。将第一特征向量分别输入上述频道特征模型后,各个频道特征模型可以分别对第一特征向量进行判决分类以判断该第一特征向量对应的音频信号是否属于该频道特征模型的频道分类。当判断第一特征向量属于频道特征模型的频道分类时,可以将该第一特征向量对应的音频信号分类到相应分类的频道列表中。例如,将一组第一特征向量输入音乐频道特征模型,音乐频道特征模型判断该组第一特征向量对应的音频信号属于音乐频道分类,则将该组第一特征向量对应的音频信号加入到音乐频道列表中。若音乐频道特征模型判断该组第一特征向量对应的音频信号不属于音乐频道分类,则不将该组第一特征向量对应的音频信号加入到音乐频道列表中。使用上述频道特征模型进行频道分类,可以省去用户手动编辑频道列表的操作,避免了用户手动进行频道分类时的误操作,优化了用户的收音机使用体验。
频道特征模型是通过支持向量机预先构建的,以下根据本发明一实施例对构建频道特征模型的方法进行详细描述:
图5是根据本发明一实施例示出的构建频道特征模型的流程示意图。如图5所示,可选地,构建频道特征模型的步骤可以包括:
步骤501,获得多个音频信号训练样本;
步骤502,使用小波变换对多个音频信号训练样本进行特征提取;
步骤503,将所提取的特征经过高斯混合模型进行训练,得到第二特征向量;以及
步骤504,将第二特征向量输入支持向量机,构建频道特征模型。
在步骤501中,构建音频信号特征模型需要多个音频信号训练样本。训练样本是指经过标注后,有相对稳妥、精确的特征描述的数据集。标注是指以各种技术手段将音频信号信息以数字化、计算机可理解的方式表达出来,以供模型训练使用。在本发明实施例中,音频信号训练样本是指带有对应频道分类的标注的音频信号数据集。
步骤502-503可以参考前文的构建音频信号特征模型的步骤的实施例的步骤202-203,在此不再赘述。
在步骤504中,将经过高斯混合模型训练得到的第二特征向量作为支持向量机的输入矢量,进行支持向量机模型的构建,最后构建出频道特征模型。结合高斯混合模型与支持向量机来构建的频道特征模型,可以智能地和准确地进行收音机频道分类。
本发明还提供了一种收音机频道分类方法。图6是根据本发明一实施例示出的收音机频道分类方法的流程示意图。如图6所示,本发明实施例的收音机频道分类方法包括以下步骤:
步骤601,搜索频道,获得有效频段中的音频信号;
步骤602,使用小波变换对音频信号进行特征提取;
步骤603,将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;以及
步骤604,将第一特征向量输入经支持向量机预先构建的一个或多个频道特征模型,以判决第一特征向量对应的音频信号的频道类型。
其中,步骤601-603可以参考前文中的收音机搜频方法的实施例的步骤101-103,在此不再赘述。
在步骤604中,频道特征模型是预先使用支持向量机(SVM)构建的。频道特征模型可以包括以下模型中的至少一个:音乐频道特征模型、生活频道特征模型、交通频道特征模型以及新闻频道特征模型。将第一特征向量分别输入上述频道特征模型后,各个频道特征模型可以分别对第一特征向量进行判决分类以判断该第一特征向量对应的音频信号是否属于该频道特征模型的频道分类。当判断第一特征向量属于频道特征模型的频道分类时,可以将该第一特征向量对应的音频信号分类到相应分类的频道列表中。例如,将一组第一特征向量输入音乐频道特征模型,音乐频道特征模型判断该组第一特征向量对应的音频信号属于音乐频道分类,则将该组第一特征向量对应的音频信号加入到音乐频道列表中。若音乐频道特征模型判断该组第一特征向量对应的音频信号不属于音乐频道分类,则不将该组第一特征向量对应的音频信号加入到音乐频道列表中。使用上述频道特征模型进行频道分类,可以省去用户手动编辑频道列表的操作,避免了用户手动进行频道分类时的误操作,优化了用户的收音机使用体验。
本发明还提供了一种电子设备,包括:存储器,用于存储可由处理器执行的指令;处理器,配置为执行所述指令以实现如上所述的收音机搜频方法。
图3是根据本发明一实施例示出的电子设备的系统框图。电子设备300可包括内部通信总线301、处理器(Processor)302、只读存储器(ROM)303、随机存取存储器(RAM)304、通信端口305、以及硬盘307。内部通信总线301可以实现电子设备300组件间的数据通信。处理器302可以进行判断和发出提示。在一些实施例中,处理器302可以由一个或多个处理器组成。通信端口305可以实现电子设备300与外部的数据通信。在一些实施例中,电子设备300可以通过通信端口305从网络发送和接受信息及数据。电子设备300还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘307,只读存储器(ROM)303和随机存取存储器(RAM)304,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器302所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备,在用户界面上显示。
举例来说,上述的收音机搜频过程可以实施为计算机程序,保存在硬盘307中,并可记载到处理器302中执行,以实施本发明的方法。
收音机搜频过程实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述发明披露仅仅作为示例,而并不构成对本发明的限定。虽然此处并没有明确说明,本领域技术人员可能会对本发明进行各种修改、改进和修正。该类修改、改进和修正在本发明中被建议,所以该类修改、改进、修正仍属于本发明示例性实施例的精神和范围。
同时,本发明使用了特定词语来描述本发明的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本发明的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
本发明的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外,本发明的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。例如,计算机可读介质可包括,但不限于,磁性存储设备(例如,硬盘、软盘、磁带……)、光盘(例如,压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如,卡、棒、键驱动器……)。
同理,应当注意的是,为了简化本发明披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本发明实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本公开对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
虽然本发明已参照当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,在没有脱离本发明精神的情况下还可作出各种等效的变化或替换,因此,只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本发明的权利要求书的范围内。
Claims (12)
1.一种收音机搜频方法,包括以下步骤:
搜索频道,获得有效频段中的音频信号;
使用小波变换对所述音频信号进行特征提取;
将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;以及
将所述第一特征向量输入经支持向量机预先构建的音频信号特征模型,以判决所述第一特征向量对应的音频信号是否为电台音频信号。
2.如权利要求1所述的方法,其特征在于,还包括对所述音频信号进行自适应增强,所述自适应增强操作使用混合增益补偿系数。
3.如权利要求2所述的方法,其特征在于,所述自适应增强操作具有可编程的绝对能量误差参考门限。
4.如权利要求1所述的方法,其特征在于,所述小波变换提取的特征包括过零率、短时能量、基频、音频内容或其任意组合。
5.如权利要求1所述的方法,其特征在于,构建所述音频信号特征模型的步骤包括:
获得多个音频信号训练样本;
使用小波变换对所述多个音频信号训练样本进行特征提取;
将所提取的特征经过高斯混合模型进行训练,得到第二特征向量;以及
将所述第二特征向量输入支持向量机,构建音频信号特征模型。
6.如权利要求5所述的方法,其特征在于,将所提取的特征经过高斯混合模型的最大期望算法进行训练。
7.如权利要求1所述的方法,其特征在于,还包括将所述第一特征向量输入经支持向量机预先构建的以下频道特征模型中的至少一个以进行频道分类:音乐频道特征模型、生活频道特征模型、交通频道特征模型以及新闻频道特征模型。
8.如权利要求7所述的方法,其特征在于,构建所述频道特征模型的步骤包括:
获得多个音频信号训练样本;
使用小波变换对所述多个音频信号训练样本进行特征提取;
将所提取的特征经过高斯混合模型进行训练,得到第二特征向量;以及
将所述第二特征向量输入支持向量机,构建频道特征模型。
9.如权利要求1所述的方法,其特征在于,还包括对所述音频信号进行预处理,包括:预加重、切分、加窗成帧以及语音活动检测。
10.如权利要求1所述的方法,其特征在于,在判决所述第一特征向量对应的音频信号为电台音频信号后,还包括判断所述音频信号是否为信号最强的频道,如果不是,则进行频率微调。
11.一种收音机频道分类方法,包括以下步骤:
搜索频道,获得有效频段中的音频信号;
使用小波变换对所述音频信号进行特征提取;
将所提取的特征经过高斯混合模型算法处理得到一组第一特征向量;以及
将所述第一特征向量输入经支持向量机预先构建的一个或多个频道特征模型,以判决所述第一特征向量对应的音频信号的频道类型。
12.一种电子设备,包括:
存储器,用于存储可由处理器执行的指令;
处理器,配置为执行所述指令以实现如权利要求1-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911273047.4A CN110931044A (zh) | 2019-12-12 | 2019-12-12 | 收音机搜频方法、频道分类方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911273047.4A CN110931044A (zh) | 2019-12-12 | 2019-12-12 | 收音机搜频方法、频道分类方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110931044A true CN110931044A (zh) | 2020-03-27 |
Family
ID=69859183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911273047.4A Pending CN110931044A (zh) | 2019-12-12 | 2019-12-12 | 收音机搜频方法、频道分类方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110931044A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1998168A (zh) * | 2004-02-19 | 2007-07-11 | 兰德马克数字服务有限责任公司 | 用于广播源辨识的方法与装置 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN109166591A (zh) * | 2018-08-29 | 2019-01-08 | 昆明理工大学 | 一种基于音频特征信号的分类方法 |
CN109766929A (zh) * | 2018-12-24 | 2019-05-17 | 重庆第二师范学院 | 一种基于svm的音频分类方法及系统 |
-
2019
- 2019-12-12 CN CN201911273047.4A patent/CN110931044A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1998168A (zh) * | 2004-02-19 | 2007-07-11 | 兰德马克数字服务有限责任公司 | 用于广播源辨识的方法与装置 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN109166591A (zh) * | 2018-08-29 | 2019-01-08 | 昆明理工大学 | 一种基于音频特征信号的分类方法 |
CN109766929A (zh) * | 2018-12-24 | 2019-05-17 | 重庆第二师范学院 | 一种基于svm的音频分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
上海无线电二厂: "《晶体管收音机的特殊电路》", 31 October 1972, 上海人民出版社 * |
周兴恩: "基于GMM和SVM的音频分类算法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王晓琴等: "面向OFDM接收机的一种自适应自动增益控制策略", 《电子学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111312256B (zh) | 语音身份识别的方法、装置及计算机设备 | |
CN104347068B (zh) | 音频信号处理装置和方法以及监控系统 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
Sun et al. | Dynamic time warping for speech recognition with training part to reduce the computation | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN111583906A (zh) | 一种语音会话的角色识别方法、装置及终端 | |
CN110767248B (zh) | 一种抗变调干扰的音频指纹提取方法 | |
CN113593597B (zh) | 语音噪声过滤方法、装置、电子设备和介质 | |
Górriz et al. | An effective cluster-based model for robust speech detection and speech recognition in noisy environments | |
CN110931044A (zh) | 收音机搜频方法、频道分类方法和电子设备 | |
US8935159B2 (en) | Noise removing system in voice communication, apparatus and method thereof | |
CN111402898B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN112151054A (zh) | 音频降噪处理方法、装置、服务器及存储介质 | |
CN117727298B (zh) | 基于深度学习的手提电脑语音识别方法及系统 | |
CN117877525B (zh) | 一种基于可变粒度特征的音频检索方法和装置 | |
CN112735470B (zh) | 基于时延神经网络的音频切割方法、系统、设备及介质 | |
Kangala et al. | A Fractional Ebola Optimization Search Algorithm Approach for Enhanced Speaker Diarization. | |
Nawata et al. | Automatic musical thumbnailing based on audio object localization and its evaluation | |
CN113346969B (zh) | 一种基于门控循环单元的频谱感知方法及系统 | |
TWI756817B (zh) | 語音活動偵測裝置與方法 | |
Maka | Features of average spectral envelope for audio regions determination | |
Petridis et al. | A multi-class method for detecting audio events in news broadcasts | |
Guo et al. | Denoising Algorithm of Environmental Sound Fused NMF and OMLSA in Non-Stationary Noise Environment | |
CN115881091A (zh) | 音频信号的动态特征提取的方法及系统 | |
Xunbo et al. | Speech Endpoint Detection Based on Improvement Feature and S-Transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 201203 1st, 6th and 7th floors, building 2, No. 1761, Zhangdong Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201203 Applicant after: Shanghai Li Ke Semiconductor Technology Co.,Ltd. Address before: 201206 No. 1258 Mingyue Road, Shanghai, Pudong New Area Applicant before: Shanghai Li Ke Semiconductor Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |