CN114220457A - 双通道通信链路的音频数据处理方法、装置及存储介质 - Google Patents
双通道通信链路的音频数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114220457A CN114220457A CN202111276064.0A CN202111276064A CN114220457A CN 114220457 A CN114220457 A CN 114220457A CN 202111276064 A CN202111276064 A CN 202111276064A CN 114220457 A CN114220457 A CN 114220457A
- Authority
- CN
- China
- Prior art keywords
- audio data
- data
- sound
- preset
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 15
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种双通道通信链路的音频数据处理方法、装置及存储介质,所述方法包括:获取音频数据,音频数据包括至少两个咪头采集的声音数据;判断音频数据中是否存在故障音频数据;若是,则从音频数据中剔除故障音频数据,得到目标音频数据,否则,则在音频数据中选取出最优的声音数据,作为目标音频数据;去除目标音频数据中的非人声数据,得到去噪音频数据;对去噪音频数据进行声音加强处理,得到加强音频数据;向调音台输出加强音频数据;本发明不仅可保证在一路咪头出现故障时,依旧能够实现音频数据的输出,还可有效避免因为某个麦克风损坏而产生对音频质量影响的问题,从而提高了会议系统的音频质量以及会议系统的冗灾能力。
Description
技术领域
本发明属于音频处理技术领域,具体涉及一种双通道通信链路的音频数据处理方法、装置及存储介质。
背景技术
数字会议讨论系统是把计算机、通信、控制、多媒体、图像以及音频等技术集中于一体的会议系统,其可将会议报到、发言、表决、翻译、摄像、音响、显示以及网络接入等各自独立的子系统有机的连接成一体,由中央控制计算机根据会议议程协调各子系统工作,从而为各种大型的国际会议,学术报告会以及远程会议提供最准确和最即时的信息和服务。
目前,在数字会议讨论系统中,多采用单通道通信,虽然出现有双通信通信链路,但仅仅只能实现一用一备的功能,而无法利用双通道链路同时进行音频传输,也没有双通道通信链路的音频处理方法;同时,会议系统中具备远程交互能力的智能设备多采用麦克风阵列,而麦克风阵列包括多个麦克风,由于元器件寿命、灰尘堵塞或其它人为因素,可能导致麦克风阵列中一个或一个以上的麦克风出现故障,例如无法采集到声音或者出现持续的干扰声,这种情况会导致采集到的声音的信噪比大幅下降,使采集到的声音的清晰度受到较大影响,从而影响智能设备的语音识别能力;因此,提供一种基于双通道通信链路的音频数据处理方法,来提高会议系统的音频数据的质量迫在眉睫。
发明内容
本发明的目的是提供一种双通道通信链路的音频数据处理方法、装置及存储介质,以解决现有会议系统无法利用双通道通信链路进行音频传输以及上传的音频质量较差的问题。
为了实现上述目的,本发明采用以下技术方案:
本发明提供了一种双通道通信链路的音频数据处理方法,包括:
获取音频数据,其中,所述音频数据包括至少两个咪头采集的声音数据;
判断所述音频数据中是否存在故障音频数据;
若是,则从所述音频数据中剔除所述故障音频数据,得到目标音频数据,否则,则在所述音频数据中选取出最优的声音数据,作为目标音频数据;
去除所述目标音频数据中的非人声数据,得到去噪音频数据;
对所述去噪音频数据进行声音加强处理,得到加强音频数据;
向调音台输出所述加强音频数据,以完成所述音频数据的处理。
基于上述公开的内容,本发明对两个咪头采集的声音数据进行处理,就相当于对双通道采集的声音数据进行处理,即先判断双通道的音频数据中是否存在故障音频数据,若存在,则去除故障音频数据,只留下未故障的音频数据进行输出,如此,即可保证在一路通道出现故障时,依旧能够实现音频数据的输出,保证会议系统的正常工作;而若不存在故障音频数据,则在双通道的音频数据中选择最优的声音数据进行输出,相当于选择音频质量最好的进行输出;由此,采用音频择优输出的方式,可有效避免因为某个麦克风损坏而产生对音频质量影响的问题,提高了会议系统的音频质量以及会议系统的冗灾能力;另外,本发明还可对筛选出的数据(即目标音频数据)进行非人声的去噪以及声音增强,由此,可进一步的提高输出音频的质量,保证会议系统音频的清晰度。
通过上述设计,本发明可在双通道的音频数据中进行故障音频数据的去除,以及在双通道音频均为正常音频数据时,进行音频数据的择优输出,由此,本发明不仅可保证在一路通道出现故障时,依旧能够实现音频数据的输出,还可有效避免因为某个麦克风损坏而产生对音频质量影响的问题,从而提高了会议系统的音频质量以及会议系统的冗灾能力。
在一个可能的设计中,判断所述音频数据中是否存在故障音频数据,包括:
获取所述音频数据中每个声音数据的幅值;
计算所述每个声音数据与预设音频数据的相似度;
判断所述每个声音数据的幅值是否小于预设幅值以及判断所述每个声音数据与预设音频数据的相似度是否超出预设阈值范围;
若是,则将幅值小于所述预设幅值的声音数据作为所述故障音频数据和/或将相似度超出预设阈值范围的声音数据作为所述故障音频数据。
基于上述公开的内容,本发明公开了故障音频数据的判断方法,即只要满足前述两个条件中的任意一个,即可作为故障音频数据,也就是将幅值小于预设幅值和/或相似度超出预设阈值范围的声音数据作为故障音频数据。
在一个可能的设计中,计算所述每个声音数据与预设音频数据的相似度,包括:
计算所述每个声音数据与预设音频数据的语音相似度,以及计算所述每个声音数据与所述预设音频数据的频谱相似度;
相应的,判断所述每个声音数据与预设音频数据的相似度是否超出预设阈值范围,包括:
判断所述每个声音数据与所述预设音频数据的语音相似度是否超出第一预设阈值范围;
若是,则判断所述每个声音数据与所述预设音频数据的频谱相似度是否超出第二预设阈值范围;
若是,则将频谱相似度超出第二预设阈值范围的声音数据作为所述故障音频数据。
基于上述公开的内容,本发明通过计算每个声音数据与预设音频数据的语音相似度以及频谱相似度,从而进行双重判断,也就是在语音相似度超出第一阈值范围时,会再次判断二者的频谱相似度,只有在频谱相似度超出第二阈值范围时,才会认定对应声音数据为故障音频数据,通过上述设计,可提高故障音频数据检测的准确性。
在一个可能的设计中,计算所述每个声音数据与预设音频数据的语音相似度,包括:
按照预设采样频率,对所述每个声音数据进行采样处理,得到每个声音数据对应的采样数据;
对所述每个声音数据对应的采样数据进行特征提取,得到每个声音数据对应的语音特征向量;
计算所述每个声音数据对应的语音特征向量与所述预设音频数据的语音特征向量之间的余弦距离,作为所述语音相似度。
在一个可能的设计中,计算所述每个声音数据与所述预设音频数据的频谱相似度,包括:
从所述每个声音数据中,提取出每个声音数据对应的环境噪声数据;
对所述每个声音数据对应的环境噪声数据进行特征提取,得到每个声音数据对应的频谱特征向量;
计算所述每个声音数据对应的频谱特征向量与所述预设音频数据的频谱特征向量之间的余弦距离,作为所述频谱相似度。
在一个可能的设计中在所述音频数据中选取出最优的声音数据,包括:
获取所述音频数据中每个声音数据的信噪比;
将信噪比最大的声音数据作为所述最优的声音数据。
基于上述公开的内容,本发明公开了最优的声音数据的具体选取方法,即利用信噪比得出,信噪比表示信号与噪声的比例,信噪比越大,说明混在信号中的噪声越小,声音回放的音质量越大,反之亦然;因此,信噪比最大的声音数据,则代表最优的声音数据。
在一个可能的设计中,所述方法还包括:
若判断出所述音频数据中的每个声音数据均为故障音频数据,则生成故障报警信息,以提示用户所述至少两个咪头中的每个咪头均出现故障。
基于上述公开的内容,本发明在判断出所有的声音数据均为故障音频数据后,可发出故障报警信息,以便提示用户会议系统中的咪头出现了故障,无法正常传输音频,以便用户及时进行维护。
第二方面,本发明提供了一种双通道通信链路的音频数据处理装置,包括:获取单元、判断单元、筛选单元、去噪单元、声音增强单元以及发送单元;
所述获取单元,用于获取音频数据,其中,所述音频数据包括至少两个咪头采集的声音数据;
所述判断单元,用于判断所述音频数据中是否存在故障音频数据;
所述筛选单元,用于在所述判断单元判断为是时,从所述音频数据中剔除所述故障音频数据,得到目标音频数据,以及在所述判断单元判断为否时,在所述音频数据中选取出最优的声音数据,作为目标音频数据;
所述去噪单元,用于去除所述目标音频数据中的非人声数据,得到去噪音频数据;
所述声音增强单元,用于对所述去噪音频数据进行声音加强处理,得到加强音频数据;
所述发送单元,用于向调音台输出所述加强音频数据,以完成所述音频数据的处理。
第三方面,本发明提供了另一种双通道通信链路的音频数据处理装置,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意一种可能设计的所述双通道通信链路的音频数据处理方法。
第四方面,本发明提供了一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意一种可能设计的所述双通道通信链路的音频数据处理方法。
第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面中任意一种可能设计的所述双通道通信链路的音频数据处理方法。
附图说明
图1为本发明提供的双通道通信链路的会议系统的系统架构示意图;
图2为本发明提供的双通道通信链路的音频数据处理方法的步骤流程示意图;
图3为本发明提供的双通道通信链路的音频数据处理方法的流程框图;
图4为本发明提供的声音数据与预设音频数据的相似度的计算流程框图;
图5为本发明提供的RNNnoise神经网络模型的训练框图;
图6为本发明提供的双通道通信链路的音频数据处理装置的结构示意图;
图7为本发明提供的计算机主设备的结构示意图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
实施例
如图1所示,为本申请提供一种应用时的系统架构,即应用于会议系统中,而该会议系统则使用本实施例所提供的音频数据处理方法进行音频处理;本实施例中,举例会议系统可以但不限于包括:通信连接的会议讨论单元机以及主机,其中,会议讨论单元机包括多个麦克风,多个麦克风设置于会议室内的不同发言位置上,且每个麦克风内设置有两个咪头(咪头A以及咪头B,即相当于设置有两个音频通道),其中,所有麦克风中的咪头A通过第一主控连接主机,从而组成第一音频通道,同理,所有麦克风中的咪头B通过第二主控连接主机,从而组成第二音频通道,以将两个咪头采集的音频通过对应音频通道传输至主机;同时,主机在接收到两个通道传输的音频数据时,则使用本实施例所提供的方法进行音频处理,以在双通道的音频数据中进行故障音频数据的去除,以及在双通道中的音频均正常时,进行音频数据的择优输出,由此,即可保证在一路咪头出现故障时,依旧能够实现音频数据的输出,以及避免因为某个麦克风损坏而对音频质量产生影响。
本实施例第一方面所提供的双通道通信链路的音频数据处理方法,可进行双通道音频数据的故障识别,从而在出现一路音频故障时,进行故障音频的去除,仅上传未故障的音频数据,从而保证在一路咪头出现故障时,依旧能够实现音频数据的输出;同时,在两路音频均未出故障时,可进行音频数据的择优输出,由此,可有效避免因为某个麦克风损坏而对音频质量产生影响,从而提高会议系统的音频质量以及会议系统的冗灾能力。
参见图2和图3所示,本实施例第一方面所提供的双通道通信链路的音频数据处理方法,可以但不限于包括如下步骤S1~S6;当然,前述步骤S1~S6可以但不限于在主机侧执行。
S1.获取音频数据,其中,所述音频数据包括至少两个咪头采集的声音数据。
步骤S1则是获取会议室中任意一个麦克风内的两个咪头所采集的声音数据,从而得到双通道的音频数据;当然,可在麦克风中设置两个以上的咪头,从而组成多通道通信链路,其处理方法与两通道一致,因此,本实施例以两通道为例进行阐述,参见如下步骤S2~S6所示。
主机在接收到两个咪头通过对应通道上传的音频数据后,即可进行双通道的音频的故障识别,从而根据识别结果采用不同的方法进行音频处理,其中,故障识别过程如步骤S2及其子步骤所示。
S2.判断所述音频数据中是否存在故障音频数据。
在本实施例中,举例判断故障音频数据的存在与否,可以但不限于包括如下步骤S21~S24所示。
S21.获取所述音频数据中每个声音数据的幅值。
S22.计算所述每个声音数据与预设音频数据的相似度。
本实施例中,则采用两个指标来判断声音数据是否为故障音频数据,分别为:声音数据的幅值(也就是频率幅值)以及与预设音频数据的相似度,同时,只要前述指标满足一个即可认定为故障音频数据,如以下步骤S23和步骤S24所示。
S23.判断所述每个声音数据的幅值是否小于预设幅值以及判断所述每个声音数据与预设音频数据的相似度是否超出预设阈值范围。
S24.若是,则将幅值小于所述预设幅值的声音数据作为所述故障音频数据和/或将相似度超出预设阈值范围的声音数据作为所述故障音频数据。
通过前述步骤S23和步骤S24可知,只要声音数据的幅值小于预设幅值和/或相似度超出预设阈值范围,即可认定该声音数据为故障音频数据。
参见图4所示,在本实施例中,举例计算每个声音数据与预设音频数据的相似度,可以但不限于包括:计算所述每个声音数据与预设音频数据的语音相似度,以及计算所述每个声音数据与所述预设音频数据的频谱相似度,也就是说,本实施例会进行语音相似度以及频谱相似度的计算,从而实现双重检测。
下述提供语音相似度以及频谱相似度的具体计算过程,如以下步骤A~F所示。
A.按照预设采样频率,对所述每个声音数据进行采样处理,得到每个声音数据对应的采样数据。
B.对所述每个声音数据对应的采样数据进行特征提取,得到每个声音数据对应的语音特征向量。
C.计算所述每个声音数据对应的语音特征向量与所述预设音频数据的语音特征向量之间的余弦距离,作为所述语音相似度。
前述步骤A~C的原理为:按照预设采样频率(如16000Hz或48000Hz等)对每个声音数据进行采样,得到采样数据,然后进行语音特征提取,得到语音特征向量;同理,对于预设音频数据也采用相同的方法,得到其对应的语音特征向量,并作为标准语音特征向量;最后,求取二者之间的余弦距离,即可得出二者的语音相似度,也就是二者的余弦距离的值作为语音相似度。
在本实施例中,语音特征提取为在每个语音信号(即声音数据)中提取一个多维特征向量,可以但不限于利用感知线性预测、线性预测编码或梅尔频谱倒谱系数来进行特征提取;以梅尔频谱倒谱系数提取特征为例,其具体的处理过程为:对声音数据依次进行预加重(实质为将声音数据通过一个高通滤波器,从而提升高频部分,使信号的频率变得平坦,移除频谱倾斜,来补偿语音信号受到抑制的高频部分),然后进行分帧、加窗以及快速傅里叶变化,其原因为:由于语音信号是短时平稳信号,因此进行分帧处理可把每一帧当成平稳信号处理,减少帧与帧之间的变化,最后,经过前述处理的数据通过梅尔滤波处理和离散余弦变化处理,即可得到梅尔频谱倒谱系数,由此,即可根据梅尔频谱倒谱系数实现语音特征的提取。
在本实施例中,声音数据与预设音频数据之间的语音相似度,由二者的余弦距离来描述,而余弦距离表示的为两个语音特征向量之间的余弦值,其是使用欧几里得点积公式求出,其中,余弦距离越小,二者越相似,反之,二者则差异越大;因此,只需要求出声音数据的语音特征向量与预设音频数据的语音特征向量之间的余弦距离,则可得出声音数据与预设音频数据之间的语音相似度;最后,根据余弦距离的值的大小,判断其是否在第一预设阈值范围内,即可判断声音数据是否与预设音频数据相似。
同理,对于声音数据与预设音频数据之间的频谱相似度的计算过程,则如下述步骤D~F所示。
D.从所述每个声音数据中,提取出每个声音数据对应的环境噪声数据。
E.对所述每个声音数据对应的环境噪声数据进行特征提取,得到每个声音数据对应的频谱特征向量。
F.计算所述每个声音数据对应的频谱特征向量与所述预设音频数据的频谱特征向量之间的余弦距离,作为所述频谱相似度。
在计算声音数据与预设音频数据的频谱相似度时,其原理与前述语音相似度原理一致,均是计算二者的频谱特征向量的余弦距离,而不同的是,本实施例是计算声音数据中的环境噪声数据与预设音频数据之间的频谱相似度,也就是说,频谱相似度未超出第二预设阈值范围,则说明声音数据的环境噪声并未达到故障标准,也就是说,其不是故障音频数据;反之,则说明声音数据的环境噪声达到了故障标准,可认定为故障音频数据。
在本实施例中,举例对声音数据进行频谱特征的提取可以但不限于使用matlab软件实现。
由此,前述步骤S23中根据相似度进行故障音频的判断时,则会分为两次判断,也就是在语音相似度超出第一预设范围时,会再次判断声音数据与预设音频数据的频谱相似度是否超出第二预设阈值范围,若超出,则可认定该声音数据为故障音频数据;因此,相似度的判断过程可以但不限于包括如下步骤S231~S233。
S231.判断所述每个声音数据与所述预设音频数据的语音相似度是否超出第一预设阈值范围。
S232.若是,则判断所述每个声音数据与所述预设音频数据的频谱相似度是否超出第二预设阈值范围。
S233.若是,则将频谱相似度超出第二预设阈值范围的声音数据作为所述故障音频数据。
通过前述步骤S231~S233,可实现声音数据与预设音频数据之间的相似度的双重判断,从而提高故障音频数据检测的准确性。
在本实施例中,在步骤S23中判定出声音数据与预设音频数据的相似度超出预设阈值范围后,即可认定该声音数据对应咪头为故障咪头,此时,可生成报警信息,从而提示用户及时维修,保证会议系统的音频传输质量。
例如,在前述举例的基础上进行阐述,存在A和B两个咪头,其中,咪头A对应第一声音数据,咪头B对应第二声音数据,因此,当第一声音数据与预设音频数据的相似度超出预设阈值范围时,即可认定咪头A为故障咪头。
由此,在经过前述两个指标的判断,得出音频数据中的故障音频数据后,即可根据检测结果,采用不同的方法实现音频数据的上传,如下述步骤S3所示。
S3.若是,则从所述音频数据中剔除所述故障音频数据,得到目标音频数据,否则,则在所述音频数据中选取出最优的声音数据,作为目标音频数据。
在本实施例中,若音频数据中的一个声音数据为故障音频数据,那么则会剔除该故障音频数据,仅保留未故障的音频数据进行输出;例如,音频数据中包括第一声音数据和第二声音数据,当检测到第一声音数据为故障音频数据时,则会剔除第一声音数据,只保留第二声音数据作为目标音频数据;由此,即可保证在一路咪头出现故障时,依旧能够实现音频数据的输出。
而若判定出音频数据中未存在故障音频数据,即所有的声音数据全部为正常音频数据,那么则会在所有声音数据中选择最优的声音数据作为目标音频数据,也就是进行择优输出,由此,则可避免因为某个麦克风损坏而产生对音频质量影响的问题。
另外,在本实施例中,若判断出音频数据中的每个声音数据均为故障音频数据,那么,则会生成故障报警信息,以提示用户所述至少两个咪头中的每个咪头均出现故障。
在本实施例中,举例在音频数据中选取出最优的声音数据,可以但不限于使用如下方法S31和S32。
S31.获取所述音频数据中每个声音数据的信噪比。
S32.将信噪比最大的声音数据作为所述最优的声音数据。
步骤S31和步骤S32的原理为:信噪比表示信号与噪声的比例,信噪比越大,说明混在信号中的噪声越小,声音回放的音质量越高,反之亦然;因此,信噪比最大的声音数据,则代表最优的声音数据。
在本实施例中,在得出目标音频数据后,为了进一步的提高音频的质量,还设置有如下步骤S4和步骤S5,以实现噪声的去除,以及声音的增强。
S4.去除所述目标音频数据中的非人声数据,得到去噪音频数据。
步骤S4则是去除目标音频数据中的非人声数据,从而减少音频中的噪声;例如,去除键盘声、敲桌子、喝水声和/或咳嗽声等非稳态噪声。
在本实施例中,举例使用训练后的RNNnoise神经网络模型,进行非人声数据的去除,其中,RNNnoise神经网络模型的训练过程如下:
参见图5所示,将干净的人声语音信号作为数据输入源1,先将干净语音经过加噪泛化,得到加噪语音,然后将加噪语音输入至RNNnosie神经网络模型中进行训练,得到训练后的RNNnoise神经网络模型;最后,即可将目标音频数据输入至训练后的RNNnoise神经网络模型,得到去噪音频数据。
RNNnoise神经网络模型实质为循环神经网络(Recurrent Neural Network,RNN),其采用GRU(Gate Recurrent Unit,门控循环单元)网路提取特征,训练神经网络,获取权重数据,从而实现去噪功能。
经过去噪处理后的目标音频数据,即可进行声音加强处理,以进一步的提高声音质量,如下述步骤S5所示。
S5.对所述去噪音频数据进行声音加强处理,得到加强音频数据。
在本实施例中,举例可以但不限于采用自动增益控制算法(Automatic GainControl,AGC)以及动态范围控制(Dynamic Range Contro,DRC)算法实现声音增强。
经过声音增强后的数据,即可输出至调音台,从而完成音频数据的处理,如步骤S6所示。
S6.向调音台输出所述加强音频数据,以完成所述音频数据的处理。
在本实施例中,两通道以上的音频数据,其处理原理与前述双通道一致,于此不多加赘述。
如图6所示,本实施例第二方面提供了一种实现实施例第一方面中所述的双通道通信链路的音频数据处理方法的硬件装置,包括:获取单元、判断单元、筛选单元、去噪单元、声音增强单元以及发送单元。
所述获取单元,用于获取音频数据,其中,所述音频数据包括至少两个咪头采集的声音数据。
所述判断单元,用于判断所述音频数据中是否存在故障音频数据。
所述筛选单元,用于在所述判断单元判断为是时,从所述音频数据中剔除所述故障音频数据,得到目标音频数据,以及在所述判断单元判断为否时,在所述音频数据中选取出最优的声音数据,作为目标音频数据。
所述去噪单元,用于去除所述目标音频数据中的非人声数据,得到去噪音频数据。
所述声音增强单元,用于对所述去噪音频数据进行声音加强处理,得到加强音频数据。
所述发送单元,用于向调音台输出所述加强音频数据,以完成所述音频数据的处理。
本实施例提供的硬件装置的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
如图7所示,本实施例第三方面提供了另一种双通道通信链路的音频数据处理装置,以装置为计算机主设备为例,包括:依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如实施例第一方面所述的双通道通信链路的音频数据处理方法。
具体举例的,所述存储器可以但不限于包括随机存取存储器(random accessmemory,RAM)、只读存储器(Read Only Memory image,ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等等;所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机(reduced instruction set computer,RSIC)微处理器、X86等架构处理器或集成嵌入式神经网络处理器(neural-network processing units,NPU)的处理器;所述收发器可以但不限于为无线保真(WIFI)无线收发器、蓝牙无线收发器、通用分组无线服务技术(General Packet Radio Service,GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议,ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。此外,所述装置还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例提供的计算机主设备的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
本实施例第四方面提供了一种存储包含有实施例第一方面所述的双通道通信链路的音频数据处理方法的指令的存储介质,即所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面所述的双通道通信链路的音频数据处理方法。
其中,所述存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例提供的存储介质的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如实施例第一方面所述的双通道通信链路的音频数据处理方法,其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种双通道通信链路的音频数据处理方法,其特征在于,包括:
获取音频数据,其中,所述音频数据包括至少两个咪头采集的声音数据;
判断所述音频数据中是否存在故障音频数据;
若是,则从所述音频数据中剔除所述故障音频数据,得到目标音频数据,否则,则在所述音频数据中选取出最优的声音数据,作为目标音频数据;
去除所述目标音频数据中的非人声数据,得到去噪音频数据;
对所述去噪音频数据进行声音加强处理,得到加强音频数据;
向调音台输出所述加强音频数据,以完成所述音频数据的处理。
2.如权利要求1所述的方法,其特征在于,判断所述音频数据中是否存在故障音频数据,包括:
获取所述音频数据中每个声音数据的幅值;
计算所述每个声音数据与预设音频数据的相似度;
判断所述每个声音数据的幅值是否小于预设幅值以及判断所述每个声音数据与预设音频数据的相似度是否超出预设阈值范围;
若是,则将幅值小于所述预设幅值的声音数据作为所述故障音频数据和/或将相似度超出预设阈值范围的声音数据作为所述故障音频数据。
3.如权利要求2所述的方法,其特征在于,计算所述每个声音数据与预设音频数据的相似度,包括:
计算所述每个声音数据与预设音频数据的语音相似度,以及计算所述每个声音数据与所述预设音频数据的频谱相似度;
相应的,判断所述每个声音数据与预设音频数据的相似度是否超出预设阈值范围,包括:
判断所述每个声音数据与所述预设音频数据的语音相似度是否超出第一预设阈值范围;
若是,则判断所述每个声音数据与所述预设音频数据的频谱相似度是否超出第二预设阈值范围;
若是,则将频谱相似度超出第二预设阈值范围的声音数据作为所述故障音频数据。
4.如权利要求3所述的方法,其特征在于,计算所述每个声音数据与预设音频数据的语音相似度,包括:
按照预设采样频率,对所述每个声音数据进行采样处理,得到每个声音数据对应的采样数据;
对所述每个声音数据对应的采样数据进行特征提取,得到每个声音数据对应的语音特征向量;
计算所述每个声音数据对应的语音特征向量与所述预设音频数据的语音特征向量之间的余弦距离,作为所述语音相似度。
5.如权利要求3所述的方法,其特征在于,计算所述每个声音数据与所述预设音频数据的频谱相似度,包括:
从所述每个声音数据中,提取出每个声音数据对应的环境噪声数据;
对所述每个声音数据对应的环境噪声数据进行特征提取,得到每个声音数据对应的频谱特征向量;
计算所述每个声音数据对应的频谱特征向量与所述预设音频数据的频谱特征向量之间的余弦距离,作为所述频谱相似度。
6.如权利要求1所述的方法,其特征在于,在所述音频数据中选取出最优的声音数据,包括:
获取所述音频数据中每个声音数据的信噪比;
将信噪比最大的声音数据作为所述最优的声音数据。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
若判断出所述音频数据中的每个声音数据均为故障音频数据,则生成故障报警信息,以提示用户所述至少两个咪头中的每个咪头均出现故障。
8.一种双通道通信链路的音频数据处理装置,其特征在于,包括:获取单元、判断单元、筛选单元、去噪单元、声音增强单元以及发送单元;
所述获取单元,用于获取音频数据,其中,所述音频数据包括至少两个咪头采集的声音数据;
所述判断单元,用于判断所述音频数据中是否存在故障音频数据;
所述筛选单元,用于在所述判断单元判断为是时,从所述音频数据中剔除所述故障音频数据,得到目标音频数据,以及在所述判断单元判断为否时,在所述音频数据中选取出最优的声音数据,作为目标音频数据;
所述去噪单元,用于去除所述目标音频数据中的非人声数据,得到去噪音频数据;
所述声音增强单元,用于对所述去噪音频数据进行声音加强处理,得到加强音频数据;
所述发送单元,用于向调音台输出所述加强音频数据,以完成所述音频数据的处理。
9.一种双通道通信链路的音频数据处理装置,其特征在于,包括:依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~7任意一项所述的双通道通信链路的音频数据处理方法。
10.一种存储介质,其特征在于:所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~7任意一项所述的双通道通信链路的音频数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111276064.0A CN114220457A (zh) | 2021-10-29 | 2021-10-29 | 双通道通信链路的音频数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111276064.0A CN114220457A (zh) | 2021-10-29 | 2021-10-29 | 双通道通信链路的音频数据处理方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114220457A true CN114220457A (zh) | 2022-03-22 |
Family
ID=80696306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111276064.0A Pending CN114220457A (zh) | 2021-10-29 | 2021-10-29 | 双通道通信链路的音频数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220457A (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105323363A (zh) * | 2014-06-30 | 2016-02-10 | 中兴通讯股份有限公司 | 选择主麦克风的方法及装置 |
US20170084294A1 (en) * | 2015-09-17 | 2017-03-23 | Sonos, Inc. | Device Impairment Detection |
CN109005272A (zh) * | 2018-07-24 | 2018-12-14 | Oppo(重庆)智能科技有限公司 | 语音拾取方法及相关产品 |
US20190045312A1 (en) * | 2016-02-23 | 2019-02-07 | Dolby Laboratories Licensing Corporation | Auxiliary Signal for Detecting Microphone Impairment |
CN110166615A (zh) * | 2019-05-28 | 2019-08-23 | 努比亚技术有限公司 | 自动切换通话上行信号源的方法、装置、终端及存储介质 |
US20190364375A1 (en) * | 2018-05-25 | 2019-11-28 | Sonos, Inc. | Determining and Adapting to Changes in Microphone Performance of Playback Devices |
JP2020086034A (ja) * | 2018-11-20 | 2020-06-04 | キヤノン株式会社 | 情報処理装置、情報処理装置およびプログラム |
CN111341345A (zh) * | 2020-05-21 | 2020-06-26 | 深圳市友杰智新科技有限公司 | 语音设备的控制方法、装置、语音设备和存储介质 |
CN111739542A (zh) * | 2020-05-13 | 2020-10-02 | 深圳市微纳感知计算技术有限公司 | 一种特征声音检测的方法、装置及设备 |
CN111770427A (zh) * | 2020-06-24 | 2020-10-13 | 杭州海康威视数字技术股份有限公司 | 麦克风阵列的检测方法、装置、设备以及存储介质 |
CN112289336A (zh) * | 2020-10-30 | 2021-01-29 | 维沃移动通信有限公司 | 音频信号处理方法和装置 |
CN112397072A (zh) * | 2021-01-18 | 2021-02-23 | 深圳市声扬科技有限公司 | 语音检测方法、装置、电子设备及存储介质 |
CN112820317A (zh) * | 2019-10-30 | 2021-05-18 | 华为技术有限公司 | 语音处理方法和电子设备 |
CN113286244A (zh) * | 2021-05-12 | 2021-08-20 | 展讯通信(上海)有限公司 | 一种麦克风异常检测方法及装置 |
CN113543010A (zh) * | 2021-09-15 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 麦克风设备的检测方法、装置、存储介质及处理器 |
US20220358952A1 (en) * | 2020-01-27 | 2022-11-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for recognizing acoustic anomalies |
-
2021
- 2021-10-29 CN CN202111276064.0A patent/CN114220457A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105323363A (zh) * | 2014-06-30 | 2016-02-10 | 中兴通讯股份有限公司 | 选择主麦克风的方法及装置 |
US20170084294A1 (en) * | 2015-09-17 | 2017-03-23 | Sonos, Inc. | Device Impairment Detection |
US20190045312A1 (en) * | 2016-02-23 | 2019-02-07 | Dolby Laboratories Licensing Corporation | Auxiliary Signal for Detecting Microphone Impairment |
US20190364375A1 (en) * | 2018-05-25 | 2019-11-28 | Sonos, Inc. | Determining and Adapting to Changes in Microphone Performance of Playback Devices |
CN109005272A (zh) * | 2018-07-24 | 2018-12-14 | Oppo(重庆)智能科技有限公司 | 语音拾取方法及相关产品 |
JP2020086034A (ja) * | 2018-11-20 | 2020-06-04 | キヤノン株式会社 | 情報処理装置、情報処理装置およびプログラム |
CN110166615A (zh) * | 2019-05-28 | 2019-08-23 | 努比亚技术有限公司 | 自动切换通话上行信号源的方法、装置、终端及存储介质 |
CN112820317A (zh) * | 2019-10-30 | 2021-05-18 | 华为技术有限公司 | 语音处理方法和电子设备 |
US20220358952A1 (en) * | 2020-01-27 | 2022-11-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for recognizing acoustic anomalies |
CN111739542A (zh) * | 2020-05-13 | 2020-10-02 | 深圳市微纳感知计算技术有限公司 | 一种特征声音检测的方法、装置及设备 |
CN111341345A (zh) * | 2020-05-21 | 2020-06-26 | 深圳市友杰智新科技有限公司 | 语音设备的控制方法、装置、语音设备和存储介质 |
CN111770427A (zh) * | 2020-06-24 | 2020-10-13 | 杭州海康威视数字技术股份有限公司 | 麦克风阵列的检测方法、装置、设备以及存储介质 |
CN112289336A (zh) * | 2020-10-30 | 2021-01-29 | 维沃移动通信有限公司 | 音频信号处理方法和装置 |
CN112397072A (zh) * | 2021-01-18 | 2021-02-23 | 深圳市声扬科技有限公司 | 语音检测方法、装置、电子设备及存储介质 |
CN113286244A (zh) * | 2021-05-12 | 2021-08-20 | 展讯通信(上海)有限公司 | 一种麦克风异常检测方法及装置 |
CN113543010A (zh) * | 2021-09-15 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 麦克风设备的检测方法、装置、存储介质及处理器 |
Non-Patent Citations (1)
Title |
---|
张澍;: "音频声纹比对识别技术在广电监管中应用的技术探讨", 内蒙古广播与电视技术, no. 04, 15 December 2014 (2014-12-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827837B (zh) | 一种基于深度学习的鲸鱼活动音频分类方法 | |
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
US10242677B2 (en) | Speaker dependent voiced sound pattern detection thresholds | |
CN108229441B (zh) | 一种基于图像和语音分析的课堂教学自动反馈系统和反馈方法 | |
US11869481B2 (en) | Speech signal recognition method and device | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测系统 | |
CN110600059A (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
US9378754B1 (en) | Adaptive spatial classifier for multi-microphone systems | |
CN104036786A (zh) | 一种语音降噪的方法及装置 | |
CN104078051B (zh) | 一种人声提取方法、系统以及人声音频播放方法及装置 | |
CN107863099A (zh) | 一种新型双麦克风语音检测和增强方法 | |
CN111868823B (zh) | 一种声源分离方法、装置及设备 | |
US9792898B2 (en) | Concurrent segmentation of multiple similar vocalizations | |
US20200227069A1 (en) | Method, device and apparatus for recognizing voice signal, and storage medium | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
JPWO2014168022A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN116959471A (zh) | 语音增强方法、语音增强网络的训练方法及电子设备 | |
CN113077812B (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
CN114220457A (zh) | 双通道通信链路的音频数据处理方法、装置及存储介质 | |
US11490198B1 (en) | Single-microphone wind detection for audio device | |
CN115293205A (zh) | 一种异常检测方法、自编码器模型训练方法和电子设备 | |
CN115410593A (zh) | 音频信道的选择方法、装置、设备及存储介质 | |
CN103337245A (zh) | 基于子带信号的信噪比曲线的噪声抑制方法及装置 | |
CN116453537B (zh) | 一种提高音频信息传输效果方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |