CN115376546A

CN115376546A - 受话器异音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN115376546A
Application number: CN202210877086.0A
Authority: CN
Inventors: 叶渡辉
Original assignee: Huizhou Sen Ye Hardware Electronics Co ltd
Current assignee: Huizhou Sen Ye Hardware Electronics Co ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-11-22

Abstract

本发明涉及一种受话器异音识别方法、装置、计算机设备和存储介质，受话器异音识别方法包括如下步骤，短时能量自学习步骤、待分析音频接收步骤、第一分析处理步骤：若待分析音频信号的各帧的短时能量属于参考短时能量范围值的数量与待分析音频信号帧数总量的比值在预设比值以上，则进行下一步；否则为异常音频信号；第二分析处理步骤：若待分析音频信号的各帧的短时能量的平均值与第一参考平均值的差值在第一预设差值内，则进行下一步；否则为异常音频信号；第三分析处理步骤：若待分析音频信号的各帧的短时能量的众数值与第二参考平均值的差值在第二预设差值内，则进行下一步；否则为异常音频信号；第四分析处理步骤、第五分析处理步骤。

Description

受话器异音识别方法、装置、计算机设备和存储介质

技术领域

本发明涉及金异音识别领域，特别是涉及一种受话器异音识别方法。

背景技术

受话器也叫听筒，是一种在无声音泄漏条件下将音频电信号转换成声音信号的电声器件，广泛用于移动电话、固定电话及助听器等通信终端设备中，实现音频重放。通常所说的受话器是指动圈式受话器，其工作原理跟传统的动圈式扬声器相似：变化的音频电信号馈入音圈，音圈置于一个永磁体磁路的磁隙里，音圈因变化的电流所产生的变化的电磁场力的驱动而上下振动，并带动振动膜驱动前后空气，产生声波。因为需要输出的是一种压力场的电声特性，通常地，受话器的结构中还会配置前后声腔及声阻尼，用于调整音频特性。尽管还有很多别的换能原理的受话器类型，但迄今为止，动圈式受话器因其较高的性价比，成熟的生产工艺，变化多端的外形尺寸及引出方式，已成为移动电话及固定电话中音频终端的主流电声器件。

受话器把放大的电信号转换为声音信号。经过处理和放大的音频信号被送到受话器，由受话器转换成声音信号再经耳钩、传声管等输出到外耳道内。助听器采用受话器是一种微型和舌簧或扬声器，它与普通动圈式扬声器结构完全不同，其特点是灵敏度高、体积小，但制造工艺复杂、精密。在现实生活中会因为各种因素而产生杂音，杂音对于声音地接受造成了较为严重的影响，传统的杂音识别方法，复杂程度高、计算量大、实时性较差。

发明内容

基于此，有必要针对传统的杂音识别方法，复杂程度高、计算量大、实时性较差的技术问题提供一种受话器异音识别方法、装置、计算机设备和存储介质。

一种受话器异音识别方法，所述方法包括以下步骤：

短时能量自学习步骤：接受第一预设时间内的学习音频信号，计算采集到学习音频信号的每一帧的短时能量，取最高值和最低值形成短时能量范围值，取平均值为短时能量平均值；取众数值为短时能量众数值；上述步骤重复若干次，取若干次短时能量范围值的并集作为参考短时能量范围值，取若干次短时能量平均值的平均值为第一参考平均值，在若干次短时能量众数值的平均值为第二参考平均值；

待分析音频接收步骤：接受第二预设时间内的待分析音频信号，计算采集到的待分析音频信号的每一帧的短时能量；

第一分析处理步骤：若待分析音频信号的各帧的短时能量属于参考短时能量范围值的数量与待分析音频信号帧数总量的比值在预设比值以上，则进行下一步；否则为异常音频信号；

第二分析处理步骤：若待分析音频信号的各帧的短时能量的平均值与第一参考平均值的差值在第一预设差值内，则进行下一步；否则为异常音频信号；

第三分析处理步骤：若待分析音频信号的各帧的短时能量的众数值与第二参考平均值的差值在第二预设差值内，则进行下一步；否则为异常音频信号；

声音预播放步骤：在预设音量下播放采集到的待分析音频信号所对应的声音，采集该段声音的音调和响度信息；

第四分析处理步骤：每隔第三预设时间对这段声音采集一次音调值，得到若干音调值；若各音调值的方差值位于预设音调方差范围值内，则进行下一步；否则为异常音频信号；

第五分析处理步骤：每隔第三预设时间对这段声音采集一次响度值，得到若干响度值；若各响度值的方差值位于预设响度方差范围值内，则为正常音频信号；否则为异常音频信号。

在其中一个实施例中，在所述声音预播放步骤之前还包括，音调自学习步骤：接受第一预设时间内的学习音频信号，在预设音量下播放采集到的学习音频信号所对应的声音，采集该段声音的音调和响度信息；每隔第三预设时间对这段声音采集一次音调值，得到若干音调值；计算出各音调值的方差值为初步方差值；上述步骤重复若干次，取若干次初步方差值的中的最大值和最小值得到所述预设音调方差范围值。

在其中一个实施例中，在所述音调自学习步骤之前还包括，响度自学习步骤：接受第一预设时间内的学习音频信号，在预设音量下播放采集到的学习音频信号所对应的声音，采集该段声音的响度和响度信息；每隔第三预设时间对这段声音采集一次响度值，得到若干响度值；计算出各响度值的方差值为初步方差值；上述步骤重复若干次，取若干次初步方差值的中的最大值和最小值得到所述预设响度方差范围值。

在其中一个实施例中，所述第一预设时间为30秒至60秒。

在其中一个实施例中，所述第二预设时间为5秒至10秒。

在其中一个实施例中，所述第三预设时间为0.05秒至0.1秒。

在其中一个实施例中，若判定待分析音频信号为异常音频信号，则发出警示信号。

一种受话器异音识别装置，所述装置包括：

短时能量自学习模块，用于接受第一预设时间内的学习音频信号，计算采集到学习音频信号的每一帧的短时能量，取最高值和最低值形成短时能量范围值，取平均值为短时能量平均值；取众数值为短时能量众数值；上述步骤重复若干次，取若干次短时能量范围值的并集作为参考短时能量范围值，取若干次短时能量平均值的平均值为第一参考平均值，在若干次短时能量众数值的平均值为第二参考平均值；

待分析音频接收模块，用于接受第二预设时间内的待分析音频信号，计算采集到的待分析音频信号的每一帧的短时能量；

声音预播放模块，用于在预设音量下播放采集到的待分析音频信号所对应的声音，采集该段声音的音调和响度信息；

分析处理模块，用于判定若待分析音频信号的各帧的短时能量属于参考短时能量范围值的数量与待分析音频信号帧数总量的比值是否在预设比值以上；用于判定待分析音频信号的各帧的短时能量的平均值与第一参考平均值的差值是否在第一预设差值内；用于判定待分析音频信号的各帧的短时能量的众数值与第二参考平均值的差值是否在第二预设差值内；用于判定各音调值的方差值是否均位于预设音调方差范围值内；用于判定各响度值的方差值是否均位于预设响度方差范围值内。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述受话器异音识别方法，一方面通过对待分析音频信号的短时能量与自学习到的参考短时能量范围值、第一参考平均值以及第二参考平均值进行多维度、多角度地比较。另一方面对待分析音频信号所转化的声音的各音调值的方差值与自学习到的预设音调方差范围值进行比较，进一步地对待分析音频信号所转化的声音的各响度值的方差值与自学习到的预设响度方差范围值进行比较。来综合判定接受到的音频信号是否为异音音频信号。该受话器异音识别方法的判定准确率高、简练精妙、计算量低。

附图说明

图1为一个实施例中受话器异音识别方法的应用环境图；

图2为一个实施例中受话器异音识别方法的流程示意图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请提供的受话器异音识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，提供了一种受话器异音识别方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤；

步骤101：短时能量自学习步骤：接受第一预设时间内的学习音频信号，计算采集到学习音频信号的每一帧的短时能量，取最高值和最低值形成短时能量范围值，取平均值为短时能量平均值；取众数值为短时能量众数值；上述步骤重复若干次，取若干次短时能量范围值的并集作为参考短时能量范围值，取若干次短时能量平均值的平均值为第一参考平均值，在若干次短时能量众数值的平均值为第二参考平均值。

其中，学习音频信号为多种，也就是说，重复多次学习的学习音频信号不同。在本实施例中，所述第一预设时间为30秒至60秒。

步骤102：待分析音频接收步骤：接受第二预设时间内的待分析音频信号，计算采集到的待分析音频信号的每一帧的短时能量；

其中，所述第二预设时间为5秒至10秒。

步骤103：第一分析处理步骤：若待分析音频信号的各帧的短时能量属于参考短时能量范围值的数量与待分析音频信号帧数总量的比值在预设比值以上，则进行下一步；否则为异常音频信号；在本实施例中，若判定待分析音频信号为异常音频信号，则发出警示信号。

步骤104：第二分析处理步骤：若待分析音频信号的各帧的短时能量的平均值与第一参考平均值的差值在第一预设差值内，则进行下一步；否则为异常音频信号；在本实施例中，若判定待分析音频信号为异常音频信号，则发出警示信号。

步骤105：第三分析处理步骤：若待分析音频信号的各帧的短时能量的众数值与第二参考平均值的差值在第二预设差值内，则进行下一步；否则为异常音频信号；在本实施例中，若判定待分析音频信号为异常音频信号，则发出警示信号。

步骤106：声音预播放步骤：在预设音量下播放采集到的待分析音频信号所对应的声音，采集该段声音的音调和响度信息；

步骤107：第四分析处理步骤：每隔第三预设时间对这段声音采集一次音调值，得到若干音调值；若各音调值的方差值位于预设音调方差范围值内，则进行下一步；否则为异常音频信号；在本实施例中，若判定待分析音频信号为异常音频信号，则发出警示信号。

其中，在本实施例中，所述第三预设时间为0.05秒至0.1秒。

步骤108：第五分析处理步骤：每隔第三预设时间对这段声音采集一次响度值，得到若干响度值；若各响度值的方差值位于预设响度方差范围值内，则为正常音频信号；否则为异常音频信号。在本实施例中，若判定待分析音频信号为异常音频信号，则发出警示信号。

其中，在本实施例中，所述第三预设时间为0.05秒至0.1秒。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种受话器异音识别装置，包括：短时能量自学习模块、待分析音频接收模块、声音预播放模块和分析处理模块，其中：

关于受话器异音识别装置的具体限定可以参见上文中对于受话器异音识别方法的限定，在此不再赘述。上述受话器异音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种受话器异音识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种受话器异音识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在所述声音预播放步骤之前还包括，音调自学习步骤：接受第一预设时间内的学习音频信号，在预设音量下播放采集到的学习音频信号所对应的声音，采集该段声音的音调和响度信息；每隔第三预设时间对这段声音采集一次音调值，得到若干音调值；计算出各音调值的方差值为初步方差值；上述步骤重复若干次，取若干次初步方差值的中的最大值和最小值得到所述预设音调方差范围值。

3.根据权利要求2所述的方法，其特征在于，在所述音调自学习步骤之前还包括，响度自学习步骤：接受第一预设时间内的学习音频信号，在预设音量下播放采集到的学习音频信号所对应的声音，采集该段声音的响度和响度信息；每隔第三预设时间对这段声音采集一次响度值，得到若干响度值；计算出各响度值的方差值为初步方差值；上述步骤重复若干次，取若干次初步方差值的中的最大值和最小值得到所述预设响度方差范围值。

4.根据权利要求1所述的方法，其特征在于，所述第一预设时间为30秒至60秒。

5.根据权利要求1所述的方法，其特征在于，所述第二预设时间为5秒至10秒。

6.根据权利要求1所述的方法，其特征在于，所述第三预设时间为0.05秒至0.1秒。

7.根据权利要求1所述的方法，其特征在于，若判定待分析音频信号为异常音频信号，则发出警示信号。

8.一种受话器异音识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。