CN117636909B - 一种数据处理方法、装置、设备以及计算机可读存储介质 - Google Patents
一种数据处理方法、装置、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117636909B CN117636909B CN202410111028.6A CN202410111028A CN117636909B CN 117636909 B CN117636909 B CN 117636909B CN 202410111028 A CN202410111028 A CN 202410111028A CN 117636909 B CN117636909 B CN 117636909B
- Authority
- CN
- China
- Prior art keywords
- frame
- filtering
- window
- sliding window
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 443
- 230000002159 abnormal effect Effects 0.000 claims abstract description 143
- 238000001514 detection method Methods 0.000 claims abstract description 127
- 230000004913 activation Effects 0.000 claims abstract description 126
- 238000000034 method Methods 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims description 101
- 230000005856 abnormality Effects 0.000 claims description 54
- 238000005070 sampling Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 34
- 238000013473 artificial intelligence Methods 0.000 abstract description 20
- 230000008569 process Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000011068 loading method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备以及计算机可读存储介质,该方法包括:获取包括A个音频帧的第一帧统计滤波;根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B个帧统计滤波包括第一帧统计滤波;根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。采用本申请,可以提高音频帧的帧状态的检测准确度。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、设备以及计算机可读存储介质。
背景技术
音质异常检测在音视频通话、在线会议等业务场景中十分重要。所谓异常音质,并非指环境噪声、声学回声,而是实时通信过程中产生的长时间段静音、失真(例如破音、爆音),采样点不连续(例如卡顿、电流音)等数据异常。
在现有技术中,计算机设备获取时序音频数据,并对其进行切分,得到连续的音频帧,对每个音频帧分别进行声压检测或对每个音频帧分别进行相位检测,通过上述的声压检测或相位检测,确定每个音频帧分别对应的异常预测结果,根据一个音频帧对应的异常预测结果,确定该音频帧的帧状态。明显地,现有技术是根据一帧的异常预测结果,确定一帧的帧状态,故在出现单帧误检、漏检时,会错误地确定该单帧的帧状态,此时,降低了音频帧的帧状态的检测准确度。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及计算机可读存储介质,可以提高音频帧的帧状态的检测准确度。
本申请实施例一方面提供了一种数据处理方法,包括:
获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;
根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;
获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;
根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。
本申请实施例一方面提供了一种数据处理装置,包括:
获取模块,用于获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;
检测模块,用于根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;
获取模块,还用于获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;
检测模块,还用于根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。
在一种可能的实现方式中,检测模块根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,用于执行以下操作:
获取A个音频帧分别对应的异常预测概率,将A个异常预测概率与异常概率阈值进行对比;
统计A个异常预测概率中,等于或大于异常概率阈值的异常预测概率的第一数量,将第一数量与第一数量阈值进行对比;
若第一数量等于或大于第一数量阈值,则将已激活状态确定为第一帧统计滤波的激活状态;
若第一数量小于第一数量阈值,则将未激活状态确定为第一帧统计滤波的激活状态。
在一种可能的实现方式中,获取模块还用于执行以下操作:
统计第一滑动窗口中的帧统计滤波的第二数量,将第二数量与第二数量阈值B进行对比;
若第二数量等于B,则执行获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;
若第二数量小于B,则获取具有第一滤波时间长度的第二帧统计滤波,将确定激活状态的第二帧统计滤波添加至第一滑动窗口中,直至第一滑动窗口包括B个帧统计滤波,执行获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;第一帧统计滤波为第二帧统计滤波的上一个帧统计滤波。
在一种可能的实现方式中,检测模块根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,用于执行以下操作:
统计B个激活状态中的已激活状态的第三数量,将第三数量与第三数量阈值进行对比;
若第三数量等于或大于第三数量阈值,则将窗口异常属性确定为第一滑动窗口的窗口属性;
若第三数量小于第三数量阈值,则将窗口正常属性确定为第一滑动窗口的窗口属性。
在一种可能的实现方式中,第一滑动窗口包括第一时域滑动窗口以及第一频域滑动窗口;第一滑动窗口的窗口属性包括第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性;任意一个第一滑动窗口的窗口属性为窗口正常属性或窗口异常属性;
检测模块根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,用于执行以下操作:
若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性,均为窗口正常属性,则将滤波正常状态确定为B个帧统计滤波的滤波状态;
若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则对第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性进行属性整合处理,得到B个帧统计滤波的滤波状态。
在一种可能的实现方式中,若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则检测模块对第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性进行属性整合处理,得到B个帧统计滤波的滤波状态,用于执行以下操作:
若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性,均为窗口异常属性,则将滤波异常状态确定为B个帧统计滤波的滤波状态;
若第一时域滑动窗口的窗口属性为窗口正常属性,且第一频域滑动窗口的窗口属性为窗口异常属性,则获取用于表征窗口正常属性的第一数值,以及用于表征窗口异常属性的第二数值;
采用第一时域滑动窗口的窗口权重以及第一频域滑动窗口的窗口权重,对第一数值以及第二数值进行加权求和处理,得到第三数值;
将第三数值与异常数值阈值进行对比,若第三数值小于异常数值阈值,则将滤波正常状态确定为B个帧统计滤波的滤波状态;
若第三数值等于或大于异常数值阈值,则将滤波异常状态确定为B个帧统计滤波的滤波状态。
在一种可能的实现方式中,B个帧统计滤波包括第三帧统计滤波,以及除了第三帧统计滤波之外的B-1个第四帧统计滤波;第三帧统计滤波为B个帧统计滤波中的第一个帧统计滤波;
检测模块还用于执行以下操作:
若B个帧统计滤波的滤波状态为滤波正常状态,则根据滑动步长,对第一滑动窗口进行滑动处理,得到具有第二滤波时间长度的第二滑动窗口;滑动步长与第一滤波时间长度相同;第二滑动窗口包括B-1个第四帧统计滤波,以及根据滑动处理所得到的第五帧统计滤波;
根据B-1个第四帧统计滤波对应的激活状态以及第五帧统计滤波对应的激活状态,对第二滑动窗口进行属性检测,得到第二滑动窗口的窗口属性;
根据第二滑动窗口的窗口属性,确定B-1个第四帧统计滤波以及第五帧统计滤波分别对应的滤波状态。
在一种可能的实现方式中,检测模块还用于执行以下操作:
若B个帧统计滤波的滤波状态为滤波异常状态,则将第一滑动窗口中的B个帧统计滤波进行删除处理;
获取具有第一滤波时间长度的第六帧统计滤波,将确定激活状态的第六帧统计滤波添加至第三滑动窗口;第六帧统计滤波为B个帧统计滤波中的最后一个帧统计滤波的下一个帧统计滤波;
在第三滑动窗口包括第六帧统计滤波以及B-1个第七帧统计滤波时,根据B-1个第七帧统计滤波对应的激活状态以及第六帧统计滤波对应的激活状态,对第三滑动窗口进行属性检测,得到第三滑动窗口的窗口属性;B-1个第七帧统计滤波对应的获取时间戳晚于为第六帧统计滤波对应的时间戳;
根据第三滑动窗口的窗口属性,确定B-1个第七帧统计滤波以及第六帧统计滤波分别对应的滤波状态。
在一种可能的实现方式中,A个音频帧包括音频帧Cd,d为正整数,且d小于或等于A;
获取模块还用于执行以下操作:
对音频帧Cd进行时域异常检测,得到音频帧Cd的时域异常预测概率;
对音频帧Cd进行频域异常检测,得到音频帧Cd的频域异常预测概率;
将音频帧Cd的时域异常预测概率以及音频帧Cd的频域异常预测概率,确定为音频帧Cd的异常预测概率。
在一种可能的实现方式中,获取模块对音频帧Cd进行时域处理,得到音频帧Cd的时域异常预测概率,用于执行以下操作:
获取音频帧Cd所包括的采样点的幅值,对采样点的幅值进行平方处理,得到采样点的幅值平方值;
对采样点的幅值平方值进行求和处理,得到采样点的幅值平方总值;
对采样点的幅值平方总值进行均值处理,得到采样点的幅值平方均值;
对采样点的幅值平方均值进行平方根处理,得到音频帧Cd的音频强度值;
获取第一强度阈值以及大于第一强度阈值的第二强调阈值,将第一强度阈值以及第二强调阈值均与音频帧Cd的音频强度值进行对比;
若音频帧Cd的音频强度值小于第一强度阈值,或,音频帧Cd的音频强度值大于第二强调阈值,则将第四数值确定为音频帧Cd的时域异常预测概率;
若音频帧Cd的音频强度值大于或等于第一强度阈值,且音频帧Cd的音频强度值小于或等于第二强调阈值,则将第五数值确定为音频帧Cd的时域异常预测概率。
在一种可能的实现方式中,获取模块对音频帧Cd进行频域处理,得到音频帧Cd的频域异常预测概率,用于执行以下操作:
对音频帧Cd进行时频转换处理,得到音频帧Cd的频域信号;
获取信号识别模型,将频域信号输入至信号识别模型;
通过信号识别模型,对频域信号进行识别处理,得到频域信号的信号异常预测概率;
将信号异常预测概率,确定为音频帧Cd的频域异常预测概率。
在一种可能的实现方式中,获取模块对音频帧Cd进行时频转换处理,得到音频帧Cd的频域信号,用于执行以下操作:
对音频帧Cd进行时频转换处理,得到音频帧Cd的中间频域信号;
若音频帧Cd的信号采样率大于信号采样率阈值,则对音频帧Cd的中间频域信号进行频带分离处理,在频带分离后的中间频域信号中,获取小于或等于信号采样率阈值的频域信号,将获取到的频域信号确定为音频帧Cd的频域信号;
若音频帧Cd的信号采样率等于或小于信号采样率阈值,则将音频帧Cd的中间频域信号,确定为音频帧Cd的频域信号。
在一种可能的实现方式中,获取模块还用于执行以下操作:
若B个帧统计滤波的滤波状态为滤波异常状态,则生成与滤波异常状态相关联的音频异常提示信息;
将音频异常提示信息显示于业务客户端,以使业务客户端对应的业务对象基于音频异常提示信息进行设备检查操作;业务客户端是指输出B个帧统计滤波的客户端。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中的方法。
在本申请实施例中,计算机设备可以获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;根据A个音频帧分别对应的异常预测概率,可以对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;进一步,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;根据B个激活状态,可以对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,可以确定B个帧统计滤波的滤波状态。上述可知,本申请实施例提出两种类型的滤波,分别为包括音频帧的帧统计滤波以及包括帧统计滤波的滑动窗口,通过A个音频帧分别对应的异常预测概率,确定第一帧统计滤波的激活状态;通过B个激活状态,确定第一滑动窗口的窗口属性;通过第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,即确定B个帧统计滤波所分别包括的音频帧的帧状态;明显地,本申请实施例是通过两种不同类型的滤波,确定音频帧的帧状态,故可以减少单帧误检、漏检所导致的帧特征的检测错误,即可以提高音频帧的帧状态的检测准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图一;
图3是本申请实施例提供的一种数据处理的场景示意图一;
图4是本申请实施例提供的一种数据处理的场景示意图二;
图5是本申请实施例提供的一种数据处理方法的流程示意图二;
图6是本申请实施例提供的一种数据处理的场景示意图三;
图7是本申请实施例提供的一种数据处理方法的流程示意图三;
图8是本申请实施例提供的一种数据处理的场景示意图四;
图9是本申请实施例提供的一种信号识别模型对频域信号进行识别处理的过程示意图;
图10是本申请实施例提供的一种语音处理的数据流图;
图11是本申请实施例提供的一种数据处理装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解,首先对相关概念进行阐述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)、语音合成技术(Text To Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革,WavLM,UniSpeech等沿用Transformer(转换)架构的预训练模型具有强大的泛化性、通用性,可以优秀完成各方向的语音处理任务。在本申请实施例中,语音技术可以用于识别音频数据。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中,自然语言处理可以用于识别音频数据。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。在本申请实施例中,机器学习可以确定对音频帧进行频域异常检测。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音技术以及机器学习等技术,具体通过如下实施例进行说明。
请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括业务服务器100以及终端设备集群。终端设备集群可以包括:终端设备200a、终端设备200b、终端设备200c、…、终端设备200n,可以理解的是,上述系统可以包括一个或者多个终端设备,本申请不对终端设备的数量进行限制。
其中,终端设备集群之间可以存在通信连接,例如终端设备200a与终端设备200b之间存在通信连接,终端设备200a与终端设备200c之间存在通信连接。同时,终端设备集群中的任一终端设备可以与业务服务器100存在通信连接,例如终端设备200a与业务服务器100之间存在通信连接,其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其它方式,本申请在此不做限制。
应当理解,如图1所示的终端设备集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的业务服务器100进行数据交互,即上述的通信连接。其中,该应用客户端可以为视频应用、便捷生活应用、支付应用、游戏应用、购物应用、小说应用、相机应用、浏览器等具有确定音频数据的数据状态功能的应用客户端。
其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,视频客户端以及出行客户端等)中的嵌入式子客户端,在此不做限定。以电子地图应用为例,业务服务器100可以为包括电子地图应用对应的后台服务器、数据处理服务器等多个服务器的集合,因此,每个终端设备均可以通过该电子地图应用对应的应用客户端,与业务服务器100进行数据传输,如每个终端设备均可以通过电子地图应用的应用客户端,将音频数据上传至业务服务器100,进而业务服务器100可以对音频数据进行异常检测以确定音频数据的数据状态,并将音频数据的数据状态返回给终端设备或上传至云端服务器。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息(例如帧统计滤波)等相关的数据,当本申请中的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。
为便于后续理解和说明,本申请实施例可以在图1所示的终端设备集群中选择一个终端设备示例进行描述,例如以终端设备200a示例进行描述。当应用客户端在音频数据中采集音频帧,终端设备200a可以对每个音频帧分别进行异常检测,得到每个音频帧分别对应的异常预测概率。本申请实施例暂不对音频帧的异常检测的具体过程展开描述,请参见下文图7所对应的实施例中的描述。
本申请实施例不对音频数据的数据类型进行限定,可以为实时音频数据,例如实时通信(直播、在线会议、音视频通话)过程中产生的音频数据;也可以为离线音频数据,例如实时通信结束后所保存的音频数据。本申请实施例不对音频数据的具体内容进行限定,可以根据实际应用场景进行设定。
终端设备200a在该音频数据中,可以获取具有第一滤波时间长度的第一帧统计滤波,该第一帧统计滤波包括A个音频帧,A为正整数,即终端设备200a将一个或多个音频帧组成一个帧统计滤波,该帧统计滤波可以理解为一个短滤波(block)。进一步,根据A个音频帧分别对应的异常预测概率,终端设备200a可以对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,其中,激活状态可以为已激活状态或未激活状态;终端设备200a将携带激活状态的第一帧统计滤波添加至第一滑动窗口。
终端设备200a可以获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态,其中,B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和,第一滑动窗口中的B个帧统计滤波可以理解为一个长滤波。进一步,终端设备200a根据B个激活状态,可以对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,终端设备200a可以确定B个帧统计滤波的滤波状态。
若B个帧统计滤波的滤波状态为滤波异常状态,则终端设备200a可以在其对应的屏幕上显示音频异常提示信息,若音频数据为实时音频数据,则该音频异常提示信息可以提示终端设备200a对应的业务对象,对终端设备200a进行设备检查操作,以使后续的音频数据处于数据正常状态,即后续的帧统计滤波的滤波状态为滤波正常状态。
可选的,在获取到针对音频数据的异常检测指令时,终端设备200a可以对音频帧进行编码处理,得到编码后的音频帧,将编码后的音频帧发送至业务服务器100,业务服务器100对接收的编码后的音频帧进行解码处理,得到音频帧,对音频帧进行异常检测处理,得到音频帧的异常预测概率。后续过程与上述过程相同,故不进行赘述。
可以理解的是,计算机设备(包括终端设备以及业务服务器)确定每个音频帧的异常预测概率的过程是相同的,故本申请实施例在描述音频帧时,不限定音频帧的数量,可以为一个或多个。
上述可知,本申请实施例提出两种类型的滤波,分别为包括音频帧的帧统计滤波以及包括帧统计滤波的滑动窗口,通过A个音频帧分别对应的异常预测概率,确定第一帧统计滤波的激活状态;通过B个激活状态,确定第一滑动窗口的窗口属性;通过第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,即确定B个帧统计滤波所分别包括的音频帧的帧状态;明显地,本申请实施例是通过两种不同类型的滤波,确定音频帧的帧状态,故可以减少单帧误检、漏检所导致的帧特征的检测错误,即可以提高音频帧的帧状态的检测准确度。
需要说明的是,上述业务服务器100、终端设备200a、终端设备200b、终端设备200c...、终端设备200n均可以为区块链网络中的区块链节点,全文叙述的数据(例如B个帧统计滤波以及其对应的滤波状态)可以进行存储,存储方式可以是区块链节点根据数据生成区块,并将区块添加至区块链中进行存储的方式。
区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式,主要用于对数据按时间顺序进行整理,并加密成账本,使其不可被篡改和伪造,同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库,该数据库中的每个节点均存储一条相同的区块链,区块链网络可以将节点区分为核心节点、数据节点以及轻节点。核心节点、数据节点以及轻节点共同组成区块链节点。其中核心节点负责区块链全网的共识,也就是说核心节点为区块链网络中的共识节点。
对于区块链网络中的交易数据被写入账本的流程可以为,区块链网络中的数据节点或轻节点获取到交易数据,将交易数据在区块链网络中传递(也就是节点以接力棒的方式进行传递),直到共识节点收到该交易数据,共识节点再将该交易数据打包进区块,对该区块执行共识,待共识完成后将该交易数据写入账本。此处以B个帧统计滤波以及其对应的滤波状态示例交易数据,业务服务器100(区块链节点)在通过对交易数据的共识后,根据交易数据生成区块,将区块存储至区块链网络中;而对于交易数据(即B个帧统计滤波以及其对应的滤波状态)的读取,则可以由区块链节点在区块链网络中,获取到包含该交易数据的区块,进一步,在区块中获取交易数据。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端设备或业务服务器。其中,业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。其中,终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。
进一步地,请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图一。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶、自动驾驶等。该数据处理方法可以由业务服务器(例如,上述图1所示的业务服务器100)执行,也可以由终端设备(例如,上述图1所示的终端设备200a)执行,还可以由业务服务器和终端设备交互执行。为便于理解,本申请实施例以该方法由终端设备执行为例进行说明,即终端设备作为计算机设备执行该数据处理方法。如图2所示,该数据处理方法至少可以包括以下步骤S101-步骤S104。
步骤S101,获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数。
具体的,音质异常检测在实时业务场景中十分重要,例如基于网际协议的语音传输(Voice over Internet Protocol,VOIP)音视频通话、在线会议、直播等业务场景。异常音质并非指环境噪声、声学回声,而是实时通信(例如直播、会议)过程中产生的长时间段静音、失真(包括破音、爆音)、采样点不连续(包括卡顿、电流音)等数据异常。
为了提高音频数据异常检测的准确性,减少单帧依赖权重(包括防止单帧出现误检、漏检),本申请实施例提出了一种决策方法,即滑动窗口长短滤波算法,将正常音频单帧/异常音频单帧概率送入该算法,获得一段音频帧的决策结果。其中,短滤波为一个block,本申请实施例也称为帧统计滤波;长滤波为一段时长的帧统计滤波集合,具有决策作用,故可以称作决策滤波,等同于本申请实施例中的B个帧统计滤波。
请一并参见图3,图3是本申请实施例提供的一种数据处理的场景示意图一。如图3所示,在9点11分25秒时,主播20a通过终端设备200a进行直播,例如主播20a在直播时表述“本次讨论几个有趣的话题…”,故终端设备200a可以获取时序音频数据,例如在9点11分26秒时,终端设备200a获取 50 个音频帧,单帧长度为 20毫秒,共1秒的实时音频数据20b。其中,每个音频帧对应的时间长度是一个可以调整的参数,本申请实施例示例为20毫秒,实际应用时,可以根据应用场景进行设置。
终端设备200a获取第一滤波时间长度(可以简称为第一滤波时长),第一滤波时间长度是音频帧对应的时间长度的整数倍,是一个可以调整的参数,可以根据实际应用场景进行设定。图3示例第一滤波时间长度(图3简称为第一时长)为100毫秒,故一个帧统计滤波包括5个音频帧(100毫秒=520毫秒),即图3示例A=5。在图3所示例的50个音频帧中,终端设备200a可以生成10个帧统计滤波,即每5个相邻的音频帧对应1个帧统计滤波。
其中,本申请实施例中的第一帧统计滤波,可以为图3示例的10个帧统计滤波中的任意一个帧统计滤波。为了便于理解以及叙述,图3示例第一帧统计滤波20c包括50个音频帧中的前5个音频帧,分别为音频帧201c、音频帧202c、音频帧203c、音频帧204c以及音频帧205c。
步骤S102,根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口。
具体的,获取A个音频帧分别对应的异常预测概率,将A个异常预测概率与异常概率阈值进行对比;统计A个异常预测概率中,等于或大于异常概率阈值的异常预测概率的第一数量,将第一数量与第一数量阈值进行对比;若第一数量等于或大于第一数量阈值,则将已激活状态确定为第一帧统计滤波的激活状态;若第一数量小于第一数量阈值,则将未激活状态确定为第一帧统计滤波的激活状态。
本步骤不限定一个音频帧对应的异常预测概率的总数量,其中,一个音频帧对应的异常预测概率的总数量可以为一个或多个,例如一个音频帧对应的异常预测概率包括一个时域异常预测概率以及一个频域异常预测概率。一个音频帧对应的一个异常预测概率,是通过一种异常检测方法所生成的,例如,一个音频帧对应的时域异常预测概率,是通过时域异常检测方法所生成的,一个音频帧对应的频域异常预测概率,是通过频域异常检测方法所生成的。本步骤暂不描述音频帧对应的异常预测概率的具体生成方法。
为了便于理解以及叙述,本步骤以频域异常预测概率示例进行描述,可以理解的是,根据其它类型的异常预测概率(包括时域异常预测概率),确定第一帧统计滤波的激活状态的过程,与根据频域异常预测概率,确定第一帧统计滤波的激活状态的过程相同。
请再参见图3,终端设备200a获取A(图3示例为5)个音频帧分别对应的频域异常预测概率,具体如下:终端设备200a对音频帧201c进行频域异常检测,得到音频帧201c对应的频域异常预测概率,图3示例为0.86;对音频帧202c进行频域异常检测,得到音频帧202c对应的频域异常预测概率,图3示例为0.74;对音频帧203c进行频域异常检测,得到音频帧203c对应的频域异常预测概率,图3示例为0.69;对音频帧204c进行频域异常检测,得到音频帧204c对应的频域异常预测概率,图3示例为0.55;对音频帧205c进行频域异常检测,得到音频帧205c对应的频域异常预测概率,图3示例为0.93。其中,对音频帧进行频域异常检测的具体过程,本步骤暂不描述,请参见下文图7所对应的实施例中步骤S302的描述。
进一步,终端设备200a将5个音频帧分别对应的频域异常预测概率,与频域异常概率阈值20x进行对比,其中,频域异常概率阈值20x是一个可以调整的参数,可以根据实际应用场景进行设定。图3示例频域异常概率阈值20x等于0.6,具体过程如下:终端设备200a将音频帧201c对应的频域异常预测概率(图3示例为0.86),与频域异常概率阈值20x进行对比,对比结果为0.86大于0.6;将音频帧202c对应的频域异常预测概率(图3示例为0.74),与频域异常概率阈值20x进行对比,对比结果为0.74大于0.6;终端设备200a将音频帧203c对应的频域异常预测概率(图3示例为0.69),与频域异常概率阈值20x进行对比,对比结果为0.69大于0.6;将音频帧204c对应的频域异常预测概率(图3示例为0.55),与频域异常概率阈值20x进行对比,对比结果为0.55小于0.6;将音频帧205c对应的频域异常预测概率(图3示例为0.93),与频域异常概率阈值20x进行对比,对比结果为0.93大于0.6。
如图3所示例,5个频域异常预测概率中存在4个频域异常预测概率,等于或大于频域异常概率阈值20x,故第一数量等于4。进一步,终端设备200a将第一数量与第一数量阈值20y进行对比,第一数量阈值20y是一个可以调整的参数,可以根据实际应用场景进行设定,且针对不同的异常检测方法,第一数量阈值可以不同。图3示例针对频域异常检测方法,第一数量阈值20y等于4,故图3示例第一数量等于第一数量阈值20y,此时,终端设备200a可以将已激活状态确定为第一帧统计滤波20c在频域维度上的激活状态。假设第一数量阈值20y等于5,此时第一数量(图3示例为4)小于第一数量阈值20y,则终端设备200a可以将未激活状态确定为第一帧统计滤波20y在频域维度上的激活状态。
若一个音频帧对应的异常预测概率的总数量为多个,即终端设备从多个不同的维度(例如时域、频域)上,对音频帧进行异常检测,得到多个维度上的异常预测概率(例如时域异常预测概率、频域异常预测概率),则执行完本步骤,终端设备可以确定第一帧统计滤波在多个不同维度(例如时域、频域)上的激活状态。
进一步,终端设备将携带激活状态的第一帧统计滤波添加至第一滑动窗口。可以理解的是,若确定第一帧统计滤波在多个不同维度(例如时域、频域)上的激活状态,则终端设备针对第一帧统计滤波,可以生成多个不同维度上的第一滑动窗口,例如本申请实施例中的第一时域滑动窗口以及第一频域滑动窗口,每个第一滑动窗口的处理过程是相同的,例如终端设备对第一时域滑动窗口的处理过程,与对第一频域滑动窗口的处理过程相同。
结合图3以及图4,图4是本申请实施例提供的一种数据处理的场景示意图二。如图4所示,终端设备200a将携带已激活状态的第一帧统计滤波20c,添加至第一频域滑动窗口20e。任意一个第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和,第二滤波时间长度是一个可以调整的参数,可以根据实际应用场景进行设定,图4示例第二滤波时间长度等于2秒,此时B=(2000毫秒/100毫秒)=20。
步骤S103,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和。
具体的,统计第一滑动窗口中的帧统计滤波的第二数量,将第二数量与第二数量阈值B进行对比;若第二数量等于B,则执行获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;若第二数量小于B,则获取具有第一滤波时间长度的第二帧统计滤波,将确定激活状态的第二帧统计滤波添加至第一滑动窗口中,直至第一滑动窗口包括B个帧统计滤波,执行获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;第一帧统计滤波为第二帧统计滤波的上一个帧统计滤波。
请再参见图4,终端设备统计第一频域滑动窗口20e中的帧统计滤波的第二数量,若第二数量等于1,即此时只有第一帧统计滤波20c添加至第一频域滑动窗口20e,则第二数量1小于第二数量阈值B(图4示例为20),终端设备可以确定第一频域滑动窗口当前处于装填状态,即需要装填(添加)更多的帧统计滤波,包括本申请实施例中的第二帧统计滤波,结合图3,第二帧统计滤波可以包括图3中的50个音频帧中的第6个音频帧-第10个音频帧。
结合图3以及图4,在9点11分27秒时,终端设备200a可以获取一段2秒的音频数据,每个音频帧对应的时间长度为20秒,故终端设备200a可以生成20个帧统计滤波,其中,每个帧统计滤波均包括5个音频帧,每个帧统计滤波所包括的音频帧均不相同。20个帧统计滤波可以如图4所示例的第一帧统计滤波20c、帧统计滤波202e、帧统计滤波203e、…、帧统计滤波220e,第一帧统计滤波20c可以包括第1个音频帧-第5个音频帧,帧统计滤波202e可以包括第6个音频帧-第10个音频帧,帧统计滤波203e可以包括第11个音频帧-第15个音频帧,以此类推,帧统计滤波220e可以包括第96个音频帧-第100个音频帧。
如图4所示,第一帧统计滤波20c在频域维度上的激活状态为已激活状态,帧统计滤波202e在频域维度上的激活状态为已激活状态,帧统计滤波203e在频域维度上的激活状态为已激活状态,…,帧统计滤波220e在频域维度上的激活状态为未激活状态。
步骤S104,根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。
具体的,统计B个激活状态中的已激活状态的第三数量,将第三数量与第三数量阈值进行对比;若第三数量等于或大于第三数量阈值,则将窗口异常属性确定为第一滑动窗口的窗口属性;若第三数量小于第三数量阈值,则将窗口正常属性确定为第一滑动窗口的窗口属性。
具体的,第一滑动窗口包括第一时域滑动窗口以及第一频域滑动窗口;第一滑动窗口的窗口属性包括第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性;任意一个第一滑动窗口的窗口属性为窗口正常属性或窗口异常属性;若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性,均为窗口正常属性,则将滤波正常状态确定为B个帧统计滤波的滤波状态;若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则对第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性进行属性整合处理,得到B个帧统计滤波的滤波状态。
其中,若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则对第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性进行属性整合处理,得到B个帧统计滤波的滤波状态的具体过程可以包括:若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性,均为窗口异常属性,则将滤波异常状态确定为B个帧统计滤波的滤波状态;若第一时域滑动窗口的窗口属性为窗口正常属性,且第一频域滑动窗口的窗口属性为窗口异常属性,则获取用于表征窗口正常属性的第一数值,以及用于表征窗口异常属性的第二数值;采用第一时域滑动窗口的窗口权重以及第一频域滑动窗口的窗口权重,对第一数值以及第二数值进行加权求和处理,得到第三数值;将第三数值与异常数值阈值进行对比,若第三数值小于异常数值阈值,则将滤波正常状态确定为B个帧统计滤波的滤波状态;若第三数值等于或大于异常数值阈值,则将滤波异常状态确定为B个帧统计滤波的滤波状态。
请再参见图4,终端设备统计B(图4示例为20)个激活状态中的已激活状态的第三数量,图4将第三数量示例为11。进一步,终端设备将第三数量与第三数量阈值进行对比,其中,第三数量阈值是一个可以调整的参数,可以根据实际应用场景进行设定。若第三数量等于或大于第三数量阈值,例如第三数量阈值为10,则终端设备可以将窗口异常属性,确定为第一频域滑动窗口20e的窗口属性;若第三数量小于第三数量阈值,例如第三数量阈值为15,则终端设备可以将窗口正常属性,确定为第一频域滑动窗口的窗口属性。
可以理解的是,针对第一帧统计滤波,若终端设备生成多个不同维度上的第一滑动窗口,例如本申请实施例中的第一时域滑动窗口以及第一频域滑动窗口,那么终端设备对第一时域滑动窗口的窗口属性的确定过程,与对第一频域滑动窗口的窗口属性的确定过程相同,故此处不进行赘述。
B个帧统计滤波的滤波状态为滤波正常状态,是指B个帧统计滤波中的每一个帧统计滤波的滤波状态均为滤波正常状态,例如图4的第一帧统计滤波20c、帧统计滤波202e、帧统计滤波203e、…、帧统计滤波220e分别对应的滤波状态,均为滤波正常状态,此时,每一个帧统计滤波所包括的5个音频帧分别对应的帧状态,均为帧正常状态。若B个帧统计滤波的滤波状态为滤波正常状态,则根据滑动步长,对第一滑动窗口进行滑动处理,得到具有第二滤波时间长度的第二滑动窗口;滑动步长与第一滤波时间长度相同;第二滑动窗口包括B-1个第四帧统计滤波,以及根据滑动处理所得到的第五帧统计滤波。
相同地,B个帧统计滤波的滤波状态为滤波异常状态,是指B个帧统计滤波中的每一个帧统计滤波的滤波状态均为滤波异常状态,例如图4的第一帧统计滤波20c、帧统计滤波202e、帧统计滤波203e、…、帧统计滤波220e分别对应的滤波状态,均为滤波异常状态,此时,每一个帧统计滤波所包括的5个音频帧分别对应的帧状态,均为帧异常状态。若B个帧统计滤波的滤波状态为滤波异常状态,则将第一滑动窗口中的B个帧统计滤波进行删除处理,生成与滤波异常状态相关联的音频异常提示信息;将音频异常提示信息显示于业务客户端,以使业务客户端对应的业务对象基于音频异常提示信息进行设备检查操作;业务客户端是指输出B个帧统计滤波的客户端。
在一种可行的实施方式中,若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在一个窗口属性为窗口异常属性以及一个窗口属性为窗口正常属性,则终端设备可以将滤波异常状态确定为B个帧统计滤波的滤波状态。例如第一时域滑动窗口的窗口属性为窗口正常属性,且第一频域滑动窗口的窗口属性为窗口异常属性,此时,终端设备可以将滤波异常状态确定为B个帧统计滤波的滤波状态。例如第一时域滑动窗口的窗口属性为窗口异常属性,且第一频域滑动窗口的窗口属性为窗口正常属性,此时,终端设备可以将滤波异常状态确定为B个帧统计滤波的滤波状态。
在一种可行的实施方式中,若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在一个窗口属性为窗口异常属性以及一个窗口属性为窗口正常属性,则终端设备获取第一时域滑动窗口的窗口权重以及第一频域滑动窗口的窗口权重,对第一时域滑动窗口的窗口权重以及第一频域滑动窗口的窗口权重进行对比,若第一时域滑动窗口的窗口权重大于或等于第一频域滑动窗口的窗口权重,则根据第一时域滑动窗口的窗口属性,终端设备确定B个帧统计滤波的滤波状态;具体地,若第一时域滑动窗口的窗口属性为窗口正常属性,则终端设备将滤波正常状态确定为B个帧统计滤波的滤波状态;若第一时域滑动窗口的窗口属性为窗口异常属性,则将滤波异常状态确定为B个帧统计滤波的滤波状态。
相对应地,若第一时域滑动窗口的窗口权重小于第一频域滑动窗口的窗口权重,则根据第一频域滑动窗口的窗口属性,终端设备确定B个帧统计滤波的滤波状态;具体地,若第一频域滑动窗口的窗口属性为窗口正常属性,则终端设备将滤波正常状态确定为B个帧统计滤波的滤波状态;若第一频域滑动窗口的窗口属性为窗口异常属性,则将滤波异常状态确定为B个帧统计滤波的滤波状态。
用于表征窗口正常属性的第一数值可以取数值0,用于表征窗口异常属性的第二数值可以取数值;第一时域滑动窗口的窗口权重、第一频域滑动窗口的窗口权重以及异常数值阈值,均为可以调整的参数,均可以根据实际应用场景进行设定,本申请实施例对此不作限定。
在本申请实施例中,计算机设备可以获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;根据A个音频帧分别对应的异常预测概率,可以对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;进一步,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;根据B个激活状态,可以对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,可以确定B个帧统计滤波的滤波状态。上述可知,本申请实施例提出两种类型的滤波,分别为包括音频帧的帧统计滤波以及包括帧统计滤波的滑动窗口,通过A个音频帧分别对应的异常预测概率,确定第一帧统计滤波的激活状态;通过B个激活状态,确定第一滑动窗口的窗口属性;通过第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,即确定B个帧统计滤波所分别包括的音频帧的帧状态;明显地,本申请实施例是通过两种不同类型的滤波,确定音频帧的帧状态,故可以减少单帧误检、漏检所导致的帧特征的检测错误,即可以提高音频帧的帧状态的检测准确度。
请参见图5,图5是本申请实施例提供的一种数据处理方法的流程示意图二。该方法可以由业务服务器(例如,上述图1所示的业务服务器100)执行,也可以由终端设备(例如,上述图1所示的终端设备200a)执行,还可以由业务服务器和终端设备交互执行。为便于理解,本申请实施例以该方法由终端设备执行为例进行说明,即终端设备作为计算机设备执行该数据处理方法。如图5所示,该方法至少可以包括以下步骤S201-步骤S211。
步骤S201,获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数。
具体的,终端设备可以对实时音频数据进行异常检测处理,也可以对离线音频数据进行异常检测处理,本申请实施例不对包括音频帧的音频数据的数据类型进行限定。
每隔第一滤波时间长度,终端设备就可以获取一个帧统计滤波,即每个帧统计滤波所包括的音频帧互不相同,且上一个帧统计滤波的最后一个音频帧,是下一个帧统计滤波的第一个音频帧的上一个音频帧。
步骤S202,根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口。
具体的,本申请实施例描述了如何确定第一帧统计滤波的激活状态,可以理解的是,每个帧统计滤波的激活状态的确定过程是相同的,例如第一帧统计滤波的激活状态的确定过程,与第二帧统计滤波的激活状态的确定过程相同,故本申请实施例不赘述剩余的帧统计滤波的激活状态的确定过程。
步骤S203,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和。
具体的,B个帧统计滤波包括第三帧统计滤波,以及除了第三帧统计滤波之外的B-1个第四帧统计滤波;第三帧统计滤波为B个帧统计滤波中的第一个帧统计滤波。
第一滑动窗口在时间维度上,可以为装填状态或滑动状态,若第一滑动窗口所包括的帧统计滤波小于B,则第一滑动窗口处于装填状态,即终端设备需要将更多的帧统计滤波添加至第一滑动窗口;若第一滑动窗口所包括的帧统计滤波等于B,则第一滑动窗口处于滑动状态,终端设备可以执行步骤S204,即确定第一滑动窗口的窗口属性。
请一并参见图6,图6是本申请实施例提供的一种数据处理的场景示意图三。如图6所示,第二滤波时间长度示例为2秒,B示例为20,第一滑动窗口50a包括处于已激活状态的帧统计滤波501a、处于已激活状态的帧统计滤波502a、处于已激活状态的帧统计滤波503a、…、处于未激活状态的帧统计滤波520a。
其中,本申请实施例中的第一帧统计滤波可以为第一滑动窗口50a中的任意一个帧统计滤波,第三帧统计滤波为B个帧统计滤波中的第一个帧统计滤波,故第三帧统计滤波可以示例为图6中的帧统计滤波501a,即第一滑动窗口50a中的第一个帧统计滤波;B-1个第四帧统计滤波可以包括图6中的帧统计滤波502a、帧统计滤波503a、…、帧统计滤波520a。
步骤S204,根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。
其中,步骤S204的具体实现过程,请参见上文图2所对应的实施例中的步骤S104,此处不进行赘述。
步骤S205,若B个帧统计滤波的滤波状态为滤波正常状态,则根据滑动步长,对第一滑动窗口进行滑动处理,得到具有第二滤波时间长度的第二滑动窗口;滑动步长与第一滤波时间长度相同;第二滑动窗口包括B-1个第四帧统计滤波,以及根据滑动处理所得到的第五帧统计滤波。
具体的,请再参见图6,根据与第一滤波时间长度相同的滑动步长,对第一滑动窗口50a进行滑动处理,故终端设备删除第一滑动窗口50a中的第一个帧统计滤波(如图6中的帧统计滤波501a),添加第五帧统计滤波,如图6中示例的帧统计滤波521a。可以理解的是,帧统计滤波521a是帧统计滤波520a的下一个帧统计滤波,故终端设备可以得到第二滑动窗口50b,第二滑动窗口50b包括帧统计滤波502a、帧统计滤波503a、…、帧统计滤波520a以及帧统计滤波521a。明显地,第二滑动窗口50b所包括的帧统计滤波的数量等于20(图6示例B=20),故第二滑动窗口50b处于滑动状态。
步骤S206,根据B-1个第四帧统计滤波对应的激活状态以及第五帧统计滤波对应的激活状态,对第二滑动窗口进行属性检测,得到第二滑动窗口的窗口属性。
具体的,第二滑动窗口中新增的第五帧统计滤波的激活状态的确定过程,与第一滑动窗口中的第一帧统计滤波的激活状态的确定过程相同,故请参见上文图2所对应的实施例中步骤S102中的描述,此处不进行赘述,图6示例帧统计滤波521a的激活状态为未激活状态。
同样地,第二滑动窗口的窗口属性的确定过程,与第一滑动窗口的窗口属性的确定过程相同,故请参见上文图2所对应的实施例中步骤S104中的描述,此处不进行赘述。
步骤S207,根据第二滑动窗口的窗口属性,确定B-1个第四帧统计滤波以及第五帧统计滤波分别对应的滤波状态。
具体的,第二滑动窗口中的帧统计滤波的滤波状态的确定过程,与第一滑动窗口中的帧统计滤波的滤波状态的确定过程相同,故请参见上文图2所对应的实施例中步骤S104中的描述,此处不进行赘述。
步骤S208,若B个帧统计滤波的滤波状态为滤波异常状态,则将第一滑动窗口中的B个帧统计滤波进行删除处理。
具体的,若B个帧统计滤波的滤波状态为滤波异常状态,则生成与滤波异常状态相关联的音频异常提示信息;将音频异常提示信息显示于业务客户端,以使业务客户端对应的业务对象基于音频异常提示信息进行设备检查操作;业务客户端是指输出B个帧统计滤波的客户端。
请再参见图6,若第一滑动窗口50a中的B个帧统计滤波的滤波状态为滤波异常状态,则终端设备将第一滑动窗口50a中的B个帧统计滤波进行删除处理。
终端设备200a可以生成与滤波异常状态相关联的音频异常提示信息50d,图6将音频异常提示信息50d示例为“检测到音质异常,请检查您的麦克风等声音采集设备”。进一步,终端设备200a可以将音频异常提示信息50d显示于业务客户端,例如直播客户端,以使业务客户端对应的业务对象(例如图6所示例的主播20a),基于音频异常提示信息50d进行设备检查操作。
步骤S209,获取具有第一滤波时间长度的第六帧统计滤波,将确定激活状态的第六帧统计滤波添加至第三滑动窗口;第六帧统计滤波为B个帧统计滤波中的最后一个帧统计滤波的下一个帧统计滤波。
具体的,请再参见图6,终端设备200a将第一滑动窗口50a中的20个帧统计滤波删除,此时,第一滑动窗口50a不包括帧统计滤波,故其处于装填状态。进一步,终端设备200a获取第六帧统计滤波,如图6所示例的帧统计滤波521a,即帧统计滤波520a的下一个帧统计滤波,可以理解的是,第六帧统计滤波的激活状态的确定过程,与第一帧统计滤波的激活状态的确定过程相同,故请参见上文图2所对应的实施例中步骤S102中的描述,此处不进行赘述。
终端设备200a将确定激活状态(图6示例为未激活状态)的第六帧统计滤波,添加至处于装填状态的第一滑动窗口,可以得到第三滑动窗口50c,由于第三滑动窗口50c只包括第六帧统计滤波,即图6中的帧统计滤波521a,故第三滑动窗口处于装填状态。
步骤S210,在第三滑动窗口包括第六帧统计滤波以及B-1个第七帧统计滤波时,根据B-1个第七帧统计滤波对应的激活状态以及第六帧统计滤波对应的激活状态,对第三滑动窗口进行属性检测,得到第三滑动窗口的窗口属性;B-1个第七帧统计滤波对应的获取时间戳晚于为第六帧统计滤波对应的时间戳。
具体的,第七帧统计滤波的激活状态的确定过程,与第一帧统计滤波的激活状态的确定过程相同,故请参见上文图2所对应的实施例中步骤S102中的描述,此处不进行赘述。
第三滑动窗口的窗口属性的确定过程,与第一滑动窗口的窗口属性的确定过程相同,故请参见上文图2所对应的实施例中步骤S104中的描述,此处不进行赘述。
步骤S211,根据第三滑动窗口的窗口属性,确定B-1个第七帧统计滤波以及第六帧统计滤波分别对应的滤波状态。
具体的,第三滑动窗口中的帧统计滤波的滤波状态的确定过程,与第一滑动窗口中的帧统计滤波的滤波状态的确定过程相同,故请参见上文图2所对应的实施例中步骤S104中的描述,此处不进行赘述。
在本申请实施例中,计算机设备可以获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;根据A个音频帧分别对应的异常预测概率,可以对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;进一步,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;根据B个激活状态,可以对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,可以确定B个帧统计滤波的滤波状态。上述可知,本申请实施例提出两种类型的滤波,分别为包括音频帧的帧统计滤波以及包括帧统计滤波的滑动窗口,通过A个音频帧分别对应的异常预测概率,确定第一帧统计滤波的激活状态;通过B个激活状态,确定第一滑动窗口的窗口属性;通过第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,即确定B个帧统计滤波所分别包括的音频帧的帧状态;明显地,本申请实施例是通过两种不同类型的滤波,确定音频帧的帧状态,故可以减少单帧误检、漏检所导致的帧特征的检测错误,即可以提高音频帧的帧状态的检测准确度。
进一步地,请参见图7,图7是本申请实施例提供的一种数据处理方法的流程示意图三。该数据处理方法可以由业务服务器(例如,上述图1所示的业务服务器100)执行,也可以由终端设备(例如,上述图1所示的终端设备200a)执行,还可以由业务服务器和终端设备交互执行。为便于理解,本申请实施例以该方法由终端设备执行为例进行说明,即终端设备作为计算机设备执行该数据处理方法。如图7所示,该数据处理方法至少可以包括以下步骤S301-步骤S307。
步骤S301,对音频帧Cd进行时域异常检测,得到音频帧Cd的时域异常预测概率。
具体的,获取音频帧Cd所包括的采样点的幅值,对采样点的幅值进行平方处理,得到采样点的幅值平方值;对采样点的幅值平方值进行求和处理,得到采样点的幅值平方总值;对采样点的幅值平方总值进行均值处理,得到采样点的幅值平方均值;对采样点的幅值平方均值进行平方根处理,得到音频帧Cd的音频强度值;获取第一强度阈值以及大于第一强度阈值的第二强调阈值,将第一强度阈值以及第二强调阈值均与音频帧Cd的音频强度值进行对比;若音频帧Cd的音频强度值小于第一强度阈值,或,音频帧Cd的音频强度值大于第二强调阈值,则将第四数值确定为音频帧Cd的时域异常预测概率;若音频帧Cd的音频强度值大于或等于第一强度阈值,且音频帧Cd的音频强度值小于或等于第二强调阈值,则将第五数值确定为音频帧Cd的时域异常预测概率。
本申请提出了一种低计算量的结合数字信号处理与神经网络的音质异常检测方案,将数字信号处理(Digital Signal Process,简称 DSP)技术与深度学习结合,不采用端到端的模式。其中检测与分类部分采用神经网络,保证算法的泛化能力,无需设置阈值;频域特征提取与时域分析仍然保留信号处理算法,在减轻计算复杂度的同时也减轻了数据收集、标注的压力。
请一并参见图8,图8是本申请实施例提供的一种数据处理的场景示意图四。如图8所示,终端设备获取音频信号70a,本申请实施例不对音频信号70a的实时性进行限定,可以为实时音频信号,例如音视频通话、在线会议、直播等业务场景中的音频信号;也可以为离线音频信号,例如在线会议结束后保存的音频信号。终端设备将音频信号70a分别进行时域信号分析和频域信号分析,分析结果用于异常帧决策,并将决策结果同时送入决策整合单元进行统计,最终将结果反馈终端设备以及上报后台。
本步骤主要描述时域信号分析,即时域异常检测。本申请实施例保留了时域分析中高准确率低计算量的部分,即音频信号的均方根(Root mean square,简称RMS)算法,如图8中的时域处理单元。RMS在时域中可以很好的衡量音频信号强度,适合检测音频信号70a是否存在长时间的静音或过于嘈杂情况,通过设置不同的高低阈值,具体为对静音数据设置低阈值,对嘈杂音设置高阈值,其中,本申请将低阈值称为第一强度阈值,将高阈值称为第二强度阈值。其中,低阈值以及高阈值均为可以调整的参数,可以根据实际应用场景进行设定。
终端设备对音频信号70a进行采样处理,得到音频帧,对每个音频帧分别求RMS后得到音频强度值,若该帧的音频帧强度值小于低阈值,则终端设备确定该帧为静音,若该帧RMS大于高阈值,则可以确定该帧为嘈杂。终端设备将每帧结果送入音质异常决策整合单元,在整合单元中记录每帧的状态,若连续一段时间都处于静音或嘈杂状态,则可以确定这段时间的音频为异常。例如,在一种实施例中,设定高低阈值分别为2000、1.5,并在决策单元记录连续5秒钟内每帧的状态,若在5秒钟内每个音频帧数据的RMS都大于2000或小于1.5,则终端设备可以确定这段时间为嘈杂或静音状态,会将该状态上报终端设备和后台系统,同时清空决策单元的所有历史数据,重新进入检测状态。
其中,第四数值可以设置为1,第五数值可以设置为0。
步骤S302,对音频帧Cd进行频域异常检测,得到音频帧Cd的频域异常预测概率。
具体的,对音频帧Cd进行时频转换处理,得到音频帧Cd的频域信号;获取信号识别模型,将频域信号输入至信号识别模型;通过信号识别模型,对频域信号进行识别处理,得到频域信号的信号异常预测概率;将信号异常预测概率,确定为音频帧Cd的频域异常预测概率。
其中,对音频帧Cd进行时频转换处理,得到音频帧Cd的频域信号的具体过程可以包括:对音频帧Cd进行时频转换处理,得到音频帧Cd的中间频域信号;若音频帧Cd的信号采样率大于信号采样率阈值,则对音频帧Cd的中间频域信号进行频带分离处理,在频带分离后的中间频域信号中,获取小于或等于信号采样率阈值的频域信号,将获取到的频域信号确定为音频帧Cd的频域信号;若音频帧Cd的信号采样率等于或小于信号采样率阈值,则将音频帧Cd的中间频域信号,确定为音频帧Cd的频域信号。
频域分析(即频域异常检测)结合了数字信号处理与神经网络算法的优势,其中,频域异常帧检测采用神经网络算法,具体如图8所示,终端设备对音频信号70a进行时域转频域处理,该处理过程包括分帧、加窗、时频转换算法(例如快速傅立叶变换,Fast FourierTransform,FFT,由时域转换为频域。若时域信号为超清或超高清数据,例如信号采样率阈值(为一个可以调整的参数)为16000,即16K,在信号采样率大于16K时,终端设备需先对转换后的频域信号做重采样、频带分离,只取分离后的低频16K采样,或其对应的8K赫兹(Hz)带宽信号,将高频数据过滤,随后终端设备将分离后的16K数据域处理后,作为神经网络的输入特征。在实际应用中,选择频域信号而非时域信号,并且取低频16K是因为这对一些常见的异常音频足够提取到相关特征,可进一步减少计算量。进一步,终端设备将神经网络的预测结果进行进一步处理后,送给整合单元进行最终结果预测。
音质检测任务本质上可以理解为对正常/异常音频的分类任务,深度学习算法在分类任务中具有强拟合能力,本步骤以Audio Spectrogram Transformer(简称AST)模型示例一个分类神经网络模型,请一并参见图9,图9是本申请实施例提供的一种信号识别模型对频域信号进行识别处理的过程示意图。通过对输入的频域信号进行逐层处理,最终输出异常音质的概率分布,如图9所示,图中输入为由时域信号经过时频转换再经过一系列域处理得到的频域信号,例如频域信号1(等同于音频帧1),频域信号2(等同于音频帧2),…,频域信号8(等同于音频帧8),图9对应简称为1,2,3,4,5,6,7,8。
终端设备将每个频域信号按顺序输入一个线性映射层,得到每个频域信号分别对应的编码向量(token-E),例如频域信号1对应的编码向量1(图9简称E1),频域信号2对应的编码向量2(图9简称E2),以此类推,生成E3、E4、E5、E6、E7、E8,并在第一个Token前增加分类标识(Classification ,简称CLS),图9简写为C,CLS即每帧的分类。该线性层可以称为块编码层(patch embedding layer)。
由于特征编码层(Transformer Encoder)结构无法准确的捕获每一个token的位置信息,所以本申请实施例在token-E送入Transformer前在每一个token中增加位置编码Position(简称Pos),图9简写为W,即在E1中加入其对应的位置特征W1,在E2中加入其对应的位置特征W2,在E3中加入其对应的位置特征W3,在E4中加入其对应的位置特征W4,在E5中加入其对应的位置特征W5,在E6中加入其对应的位置特征W6,在E7中加入其对应的位置特征W7,在E8中加入其对应的位置特征W8。
终端设备将带有位置信息的token送入特征编码层,将Transformer的结果送入深度神经网络(Deep Neural Networks,简称DNN)线性层计算,并使用归一化层(例如softmax函数)输出每个频域信号的信号异常预测概率,如图9所示,输出频域信号1(图9简称1)的信号异常预测概率1(图9简称概率1),输出频域信号2(图9简称2)的信号异常预测概率2(图9简称概率2),输出频域信号3(图9简称3)的信号异常预测概率3(图9简称概率3),输出频域信号4(图9简称4)的信号异常预测概率4(图9简称概率4),输出频域信号5(图9简称5)的信号异常预测概率5(图9简称概率5),输出频域信号6(图9简称6)的信号异常预测概率6(图9简称概率6),输出频域信号7(图9简称7)的信号异常预测概率7(图9简称概率7),输出频域信号8(图9简称8)的信号异常预测概率8(图9简称概率8)。
请一并参见图10,图10是本申请实施例提供的一种语音处理的数据流图。如图10所示,在一种实施例中,对时域音频信号进行分帧、加窗、时频转换(例如FFT/短时傅里叶变换,Short-Time Fourier Transform ,简称STFT)后,得到频域信号。一些业务场景如直播、特别是音乐直播,音频采样率一般会在44.1k、48k甚至96k,故需要对得到的频域信号做下采样以及频带分离,从中取出数据中的最低频16k(作为音频采样率阈值说明)进行计算。一方面16k数据已经足够表示数据所含内容,另一方面选用16k数据可以进一步降低神经网络的输入维度,降低计算量。进一步,终端设备将分离的数据做预处理,生成128维梅尔频带(Mel filter bank),再将数据分为8个1016的小块(16/>8 = 128),将得到的小块输入如图9所示的AST音频分类器中,最后将softmax结果进行进一步处理后送入策略整合单元。
可以理解的是,小块(patch)大小、数量,AST神经网络维度、网络层数以及梅尔频带数量均为可以调整的数据,本申请不作限制。信号识别模型也可选用循环神经网络(Recurrent Neural Networks,简称RNN)、噪声抑制(Rnnoise)网络、DNN、FullbandNet等网络结构。
步骤S303,将音频帧Cd的时域异常预测概率以及音频帧Cd的频域异常预测概率,确定为音频帧Cd的异常预测概率。
具体的,本申请结合了数字信号处理与神经网络的优势,对时域特征采用信号处理的方式,对频域特征采用结合的方式,将数据预处理提取得到特征后,输入信号识别模型。信号识别模型进行异常音质预测,并输出每一帧是否是异常音的概率。音质异常决策整合单元将预测结果整合处理后,通知终端对象并上报以便及时处理。
针对不同的异常音质或产品需求,可以选择不同的检测链路,如长时间段静音、长时间段嘈杂声等简单异常,可以只选择时域处理单元;对失真、电流音、采样点不连续等异常,可选择频域处理单元,使用神经网络预测更准确的结果(在数据充足的前提下,神经网络也具有预测静音的能力)。实际应用中可根据终端计算性能以及状态、需求,设置选择是否只进行时域分析、频域分析,或同时进行多种异常检测。
步骤S304,获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数。
具体的,A个音频帧包括音频帧Cd,d为正整数,且d小于或等于A。
步骤S305,根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口。
步骤S306,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和。
步骤S307,根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。
其中,步骤S304-步骤S307的具体实现过程,请参见上文图2所对应的实施例中的步骤S101-步骤S104,此处不进行赘述。
在本申请实施例中,计算机设备可以获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;根据A个音频帧分别对应的异常预测概率,可以对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;进一步,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;根据B个激活状态,可以对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,可以确定B个帧统计滤波的滤波状态。上述可知,本申请实施例提出两种类型的滤波,分别为包括音频帧的帧统计滤波以及包括帧统计滤波的滑动窗口,通过A个音频帧分别对应的异常预测概率,确定第一帧统计滤波的激活状态;通过B个激活状态,确定第一滑动窗口的窗口属性;通过第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,即确定B个帧统计滤波所分别包括的音频帧的帧状态;明显地,本申请实施例是通过两种不同类型的滤波,确定音频帧的帧状态,故可以减少单帧误检、漏检所导致的帧特征的检测错误,即可以提高音频帧的帧状态的检测准确度。
进一步地,请参见图11,图11是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置1为一个应用软件;数据处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示,该数据处理装置1可以包括:
获取模块11,用于获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;
检测模块12,用于根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;
获取模块11,还用于获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;
检测模块12,还用于根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。
在一种可能的实现方式中,检测模块12根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,用于执行以下操作:
获取A个音频帧分别对应的异常预测概率,将A个异常预测概率与异常概率阈值进行对比;
统计A个异常预测概率中,等于或大于异常概率阈值的异常预测概率的第一数量,将第一数量与第一数量阈值进行对比;
若第一数量等于或大于第一数量阈值,则将已激活状态确定为第一帧统计滤波的激活状态;
若第一数量小于第一数量阈值,则将未激活状态确定为第一帧统计滤波的激活状态。
在一种可能的实现方式中,获取模块11还用于执行以下操作:
统计第一滑动窗口中的帧统计滤波的第二数量,将第二数量与第二数量阈值B进行对比;
若第二数量等于B,则执行获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;
若第二数量小于B,则获取具有第一滤波时间长度的第二帧统计滤波,将确定激活状态的第二帧统计滤波添加至第一滑动窗口中,直至第一滑动窗口包括B个帧统计滤波,执行获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;第一帧统计滤波为第二帧统计滤波的上一个帧统计滤波。
在一种可能的实现方式中,检测模块12根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,用于执行以下操作:
统计B个激活状态中的已激活状态的第三数量,将第三数量与第三数量阈值进行对比;
若第三数量等于或大于第三数量阈值,则将窗口异常属性确定为第一滑动窗口的窗口属性;
若第三数量小于第三数量阈值,则将窗口正常属性确定为第一滑动窗口的窗口属性。
在一种可能的实现方式中,第一滑动窗口包括第一时域滑动窗口以及第一频域滑动窗口;第一滑动窗口的窗口属性包括第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性;任意一个第一滑动窗口的窗口属性为窗口正常属性或窗口异常属性;
检测模块12根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,用于执行以下操作:
若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性,均为窗口正常属性,则将滤波正常状态确定为B个帧统计滤波的滤波状态;
若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则对第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性进行属性整合处理,得到B个帧统计滤波的滤波状态。
在一种可能的实现方式中,若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则检测模块12对第一时域滑动窗口的窗口属性,以及第一频域滑动窗口的窗口属性进行属性整合处理,得到B个帧统计滤波的滤波状态,用于执行以下操作:
若第一时域滑动窗口的窗口属性以及第一频域滑动窗口的窗口属性,均为窗口异常属性,则将滤波异常状态确定为B个帧统计滤波的滤波状态;
若第一时域滑动窗口的窗口属性为窗口正常属性,且第一频域滑动窗口的窗口属性为窗口异常属性,则获取用于表征窗口正常属性的第一数值,以及用于表征窗口异常属性的第二数值;
采用第一时域滑动窗口的窗口权重以及第一频域滑动窗口的窗口权重,对第一数值以及第二数值进行加权求和处理,得到第三数值;
将第三数值与异常数值阈值进行对比,若第三数值小于异常数值阈值,则将滤波正常状态确定为B个帧统计滤波的滤波状态;
若第三数值等于或大于异常数值阈值,则将滤波异常状态确定为B个帧统计滤波的滤波状态。
在一种可能的实现方式中,B个帧统计滤波包括第三帧统计滤波,以及除了第三帧统计滤波之外的B-1个第四帧统计滤波;第三帧统计滤波为B个帧统计滤波中的第一个帧统计滤波;
检测模块12还用于执行以下操作:
若B个帧统计滤波的滤波状态为滤波正常状态,则根据滑动步长,对第一滑动窗口进行滑动处理,得到具有第二滤波时间长度的第二滑动窗口;滑动步长与第一滤波时间长度相同;第二滑动窗口包括B-1个第四帧统计滤波,以及根据滑动处理所得到的第五帧统计滤波;
根据B-1个第四帧统计滤波对应的激活状态以及第五帧统计滤波对应的激活状态,对第二滑动窗口进行属性检测,得到第二滑动窗口的窗口属性;
根据第二滑动窗口的窗口属性,确定B-1个第四帧统计滤波以及第五帧统计滤波分别对应的滤波状态。
在一种可能的实现方式中,检测模块12还用于执行以下操作:
若B个帧统计滤波的滤波状态为滤波异常状态,则将第一滑动窗口中的B个帧统计滤波进行删除处理;
获取具有第一滤波时间长度的第六帧统计滤波,将确定激活状态的第六帧统计滤波添加至第三滑动窗口;第六帧统计滤波为B个帧统计滤波中的最后一个帧统计滤波的下一个帧统计滤波;
在第三滑动窗口包括第六帧统计滤波以及B-1个第七帧统计滤波时,根据B-1个第七帧统计滤波对应的激活状态以及第六帧统计滤波对应的激活状态,对第三滑动窗口进行属性检测,得到第三滑动窗口的窗口属性;B-1个第七帧统计滤波对应的获取时间戳晚于为第六帧统计滤波对应的时间戳;
根据第三滑动窗口的窗口属性,确定B-1个第七帧统计滤波以及第六帧统计滤波分别对应的滤波状态。
在一种可能的实现方式中,A个音频帧包括音频帧Cd,d为正整数,且d小于或等于A;
获取模块11还用于执行以下操作:
对音频帧Cd进行时域异常检测,得到音频帧Cd的时域异常预测概率;
对音频帧Cd进行频域异常检测,得到音频帧Cd的频域异常预测概率;
将音频帧Cd的时域异常预测概率以及音频帧Cd的频域异常预测概率,确定为音频帧Cd的异常预测概率。
在一种可能的实现方式中,获取模块11对音频帧Cd进行时域处理,得到音频帧Cd的时域异常预测概率,用于执行以下操作:
获取音频帧Cd所包括的采样点的幅值,对采样点的幅值进行平方处理,得到采样点的幅值平方值;
对采样点的幅值平方值进行求和处理,得到采样点的幅值平方总值;
对采样点的幅值平方总值进行均值处理,得到采样点的幅值平方均值;
对采样点的幅值平方均值进行平方根处理,得到音频帧Cd的音频强度值;
获取第一强度阈值以及大于第一强度阈值的第二强调阈值,将第一强度阈值以及第二强调阈值均与音频帧Cd的音频强度值进行对比;
若音频帧Cd的音频强度值小于第一强度阈值,或,音频帧Cd的音频强度值大于第二强调阈值,则将第四数值确定为音频帧Cd的时域异常预测概率;
若音频帧Cd的音频强度值大于或等于第一强度阈值,且音频帧Cd的音频强度值小于或等于第二强调阈值,则将第五数值确定为音频帧Cd的时域异常预测概率。
在一种可能的实现方式中,获取模块11对音频帧Cd进行频域处理,得到音频帧Cd的频域异常预测概率,用于执行以下操作:
对音频帧Cd进行时频转换处理,得到音频帧Cd的频域信号;
获取信号识别模型,将频域信号输入至信号识别模型;
通过信号识别模型,对频域信号进行识别处理,得到频域信号的信号异常预测概率;
将信号异常预测概率,确定为音频帧Cd的频域异常预测概率。
在一种可能的实现方式中,获取模块11对音频帧Cd进行时频转换处理,得到音频帧Cd的频域信号,用于执行以下操作:
对音频帧Cd进行时频转换处理,得到音频帧Cd的中间频域信号;
若音频帧Cd的信号采样率大于信号采样率阈值,则对音频帧Cd的中间频域信号进行频带分离处理,在频带分离后的中间频域信号中,获取小于或等于信号采样率阈值的频域信号,将获取到的频域信号确定为音频帧Cd的频域信号;
若音频帧Cd的信号采样率等于或小于信号采样率阈值,则将音频帧Cd的中间频域信号,确定为音频帧Cd的频域信号。
在一种可能的实现方式中,获取模块11还用于执行以下操作:
若B个帧统计滤波的滤波状态为滤波异常状态,则生成与滤波异常状态相关联的音频异常提示信息;
将音频异常提示信息显示于业务客户端,以使业务客户端对应的业务对象基于音频异常提示信息进行设备检查操作;业务客户端是指输出B个帧统计滤波的客户端。
在本申请实施例中,计算机设备可以获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;根据A个音频帧分别对应的异常预测概率,可以对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;进一步,获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;根据B个激活状态,可以对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,可以确定B个帧统计滤波的滤波状态。上述可知,本申请实施例提出两种类型的滤波,分别为包括音频帧的帧统计滤波以及包括帧统计滤波的滑动窗口,通过A个音频帧分别对应的异常预测概率,确定第一帧统计滤波的激活状态;通过B个激活状态,确定第一滑动窗口的窗口属性;通过第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态,即确定B个帧统计滤波所分别包括的音频帧的帧状态;明显地,本申请实施例是通过两种不同类型的滤波,确定音频帧的帧状态,故可以减少单帧误检、漏检所导致的帧特征的检测错误,即可以提高音频帧的帧状态的检测准确度。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
进一步地,请参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,在一些实施例中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图12所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取具有第一滤波时间长度的第一帧统计滤波;第一帧统计滤波包括A个音频帧;A为正整数;
根据A个音频帧分别对应的异常预测概率,对第一帧统计滤波进行状态检测,得到第一帧统计滤波的激活状态,将携带激活状态的第一帧统计滤波添加至第一滑动窗口;
获取第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;B个帧统计滤波包括第一帧统计滤波;第一滑动窗口对应的第二滤波时间长度等于B个第一滤波时间长度之和;
根据B个激活状态,对第一滑动窗口进行属性检测,得到第一滑动窗口的窗口属性,根据第一滑动窗口的窗口属性,确定B个帧统计滤波的滤波状态。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文各实施例中对数据处理方法或装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现前文各实施例中对数据处理方法或装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smartmediacard,SMC),安全数字(securedigital,SD)卡,闪存卡(flashcard)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备可执行前文各实施例中对数据处理方法或装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (17)
1.一种数据处理方法,其特征在于,包括:
获取具有第一滤波时间长度的第一帧统计滤波;所述第一帧统计滤波包括A个音频帧;A为正整数;
根据所述A个音频帧分别对应的异常预测概率,对所述第一帧统计滤波进行状态检测,得到所述第一帧统计滤波的激活状态,将携带激活状态的所述第一帧统计滤波添加至第一滑动窗口;
获取所述第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;所述B个帧统计滤波包括所述第一帧统计滤波;所述第一滑动窗口对应的第二滤波时间长度等于B个所述第一滤波时间长度之和;
根据B个激活状态,对所述第一滑动窗口进行属性检测,得到所述第一滑动窗口的窗口属性,根据所述第一滑动窗口的窗口属性,确定所述B个帧统计滤波的滤波状态。
2.根据权利要求1所述的方法,其特征在于,所述根据所述A个音频帧分别对应的异常预测概率,对所述第一帧统计滤波进行状态检测,得到所述第一帧统计滤波的激活状态,包括:
获取所述A个音频帧分别对应的异常预测概率,将A个异常预测概率与异常概率阈值进行对比;
统计所述A个异常预测概率中,等于或大于所述异常概率阈值的异常预测概率的第一数量,将所述第一数量与第一数量阈值进行对比;
若所述第一数量等于或大于所述第一数量阈值,则将已激活状态确定为所述第一帧统计滤波的激活状态;
若所述第一数量小于所述第一数量阈值,则将未激活状态确定为所述第一帧统计滤波的激活状态。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
统计所述第一滑动窗口中的帧统计滤波的第二数量,将所述第二数量与第二数量阈值B进行对比;
若所述第二数量等于B,则执行所述获取所述第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;
若所述第二数量小于B,则获取具有所述第一滤波时间长度的第二帧统计滤波,将确定激活状态的第二帧统计滤波添加至所述第一滑动窗口中,直至所述第一滑动窗口包括B个帧统计滤波,执行所述获取所述第一滑动窗口中的B个帧统计滤波分别对应的激活状态的步骤;所述第一帧统计滤波为所述第二帧统计滤波的上一个帧统计滤波。
4.根据权利要求1所述的方法,其特征在于,所述根据B个激活状态,对所述第一滑动窗口进行属性检测,得到所述第一滑动窗口的窗口属性,包括:
统计所述B个激活状态中的已激活状态的第三数量,将所述第三数量与第三数量阈值进行对比;
若所述第三数量等于或大于所述第三数量阈值,则将窗口异常属性确定为所述第一滑动窗口的窗口属性;
若所述第三数量小于所述第三数量阈值,则将窗口正常属性确定为所述第一滑动窗口的窗口属性。
5.根据权利要求1所述的方法,其特征在于,所述第一滑动窗口包括第一时域滑动窗口以及第一频域滑动窗口;所述第一滑动窗口的窗口属性包括所述第一时域滑动窗口的窗口属性,以及所述第一频域滑动窗口的窗口属性;任意一个第一滑动窗口的窗口属性为窗口正常属性或窗口异常属性;
所述根据所述第一滑动窗口的窗口属性,确定所述B个帧统计滤波的滤波状态,包括:
若所述第一时域滑动窗口的窗口属性以及所述第一频域滑动窗口的窗口属性,均为所述窗口正常属性,则将滤波正常状态确定为所述B个帧统计滤波的滤波状态;
若所述第一时域滑动窗口的窗口属性以及所述第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则对所述第一时域滑动窗口的窗口属性,以及所述第一频域滑动窗口的窗口属性进行属性整合处理,得到所述B个帧统计滤波的滤波状态。
6.根据权利要求5所述的方法,其特征在于,所述若所述第一时域滑动窗口的窗口属性以及所述第一频域滑动窗口的窗口属性中,存在至少一个窗口属性为窗口异常属性,则对所述第一时域滑动窗口的窗口属性,以及所述第一频域滑动窗口的窗口属性进行属性整合处理,得到所述B个帧统计滤波的滤波状态,包括:
若所述第一时域滑动窗口的窗口属性以及所述第一频域滑动窗口的窗口属性,均为所述窗口异常属性,则将滤波异常状态确定为所述B个帧统计滤波的滤波状态;
若所述第一时域滑动窗口的窗口属性为所述窗口正常属性,且所述第一频域滑动窗口的窗口属性为所述窗口异常属性,则获取用于表征所述窗口正常属性的第一数值,以及用于表征所述窗口异常属性的第二数值;
采用所述第一时域滑动窗口的窗口权重以及所述第一频域滑动窗口的窗口权重,对所述第一数值以及所述第二数值进行加权求和处理,得到第三数值;
将所述第三数值与异常数值阈值进行对比,若所述第三数值小于所述异常数值阈值,则将滤波正常状态确定为所述B个帧统计滤波的滤波状态;
若所述第三数值等于或大于所述异常数值阈值,则将滤波异常状态确定为所述B个帧统计滤波的滤波状态。
7.根据权利要求1所述的方法,其特征在于,所述B个帧统计滤波包括第三帧统计滤波,以及除了所述第三帧统计滤波之外的B-1个第四帧统计滤波;所述第三帧统计滤波为所述B个帧统计滤波中的第一个帧统计滤波;
所述方法还包括:
若所述B个帧统计滤波的滤波状态为滤波正常状态,则根据滑动步长,对所述第一滑动窗口进行滑动处理,得到具有所述第二滤波时间长度的第二滑动窗口;所述滑动步长与所述第一滤波时间长度相同;所述第二滑动窗口包括所述B-1个第四帧统计滤波,以及根据所述滑动处理所得到的第五帧统计滤波;
根据所述B-1个第四帧统计滤波对应的激活状态以及所述第五帧统计滤波对应的激活状态,对所述第二滑动窗口进行属性检测,得到所述第二滑动窗口的窗口属性;
根据所述第二滑动窗口的窗口属性,确定所述B-1个第四帧统计滤波以及所述第五帧统计滤波分别对应的滤波状态。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述B个帧统计滤波的滤波状态为滤波异常状态,则将所述第一滑动窗口中的所述B个帧统计滤波进行删除处理;
获取具有所述第一滤波时间长度的第六帧统计滤波,将确定激活状态的所述第六帧统计滤波添加至第三滑动窗口;所述第六帧统计滤波为所述B个帧统计滤波中的最后一个帧统计滤波的下一个帧统计滤波;
在所述第三滑动窗口包括所述第六帧统计滤波以及B-1个第七帧统计滤波时,根据所述B-1个第七帧统计滤波对应的激活状态以及所述第六帧统计滤波对应的激活状态,对所述第三滑动窗口进行属性检测,得到所述第三滑动窗口的窗口属性;所述B-1个第七帧统计滤波对应的获取时间戳晚于为所述第六帧统计滤波对应的时间戳;
根据所述第三滑动窗口的窗口属性,确定所述B-1个第七帧统计滤波以及所述第六帧统计滤波分别对应的滤波状态。
9.根据权利要求1所述的方法,其特征在于,所述A个音频帧包括音频帧Cd,d为正整数,且d小于或等于A;
所述方法还包括:
对所述音频帧Cd进行时域异常检测,得到所述音频帧Cd的时域异常预测概率;
对所述音频帧Cd进行频域异常检测,得到所述音频帧Cd的频域异常预测概率;
将所述音频帧Cd的时域异常预测概率以及所述音频帧Cd的频域异常预测概率,确定为所述音频帧Cd的异常预测概率。
10.根据权利要求9所述的方法,其特征在于,所述对所述音频帧Cd进行时域处理,得到所述音频帧Cd的时域异常预测概率,包括:
获取所述音频帧Cd所包括的采样点的幅值,对所述采样点的幅值进行平方处理,得到所述采样点的幅值平方值;
对所述采样点的幅值平方值进行求和处理,得到所述采样点的幅值平方总值;
对所述采样点的幅值平方总值进行均值处理,得到所述采样点的幅值平方均值;
对所述采样点的幅值平方均值进行平方根处理,得到所述音频帧Cd的音频强度值;
获取第一强度阈值以及大于所述第一强度阈值的第二强调阈值,将所述第一强度阈值以及所述第二强调阈值均与所述音频帧Cd的音频强度值进行对比;
若所述音频帧Cd的音频强度值小于所述第一强度阈值,或,所述音频帧Cd的音频强度值大于所述第二强调阈值,则将第四数值确定为所述音频帧Cd的时域异常预测概率;
若所述音频帧Cd的音频强度值大于或等于所述第一强度阈值,且所述音频帧Cd的音频强度值小于或等于所述第二强调阈值,则将第五数值确定为所述音频帧Cd的时域异常预测概率。
11.根据权利要求9所述的方法,其特征在于,所述对所述音频帧Cd进行频域处理,得到所述音频帧Cd的频域异常预测概率,包括:
对所述音频帧Cd进行时频转换处理,得到所述音频帧Cd的频域信号;
获取信号识别模型,将所述频域信号输入至所述信号识别模型;
通过所述信号识别模型,对所述频域信号进行识别处理,得到所述频域信号的信号异常预测概率;
将所述信号异常预测概率,确定为所述音频帧Cd的频域异常预测概率。
12.根据权利要求11所述的方法,其特征在于,所述对所述音频帧Cd进行时频转换处理,得到所述音频帧Cd的频域信号,包括:
对所述音频帧Cd进行时频转换处理,得到所述音频帧Cd的中间频域信号;
若所述音频帧Cd的信号采样率大于信号采样率阈值,则对所述音频帧Cd的中间频域信号进行频带分离处理,在频带分离后的中间频域信号中,获取小于或等于所述信号采样率阈值的频域信号,将获取到的频域信号确定为所述音频帧Cd的频域信号;
若所述音频帧Cd的信号采样率等于或小于所述信号采样率阈值,则将所述音频帧Cd的中间频域信号,确定为所述音频帧Cd的频域信号。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述B个帧统计滤波的滤波状态为滤波异常状态,则生成与所述滤波异常状态相关联的音频异常提示信息;
将所述音频异常提示信息显示于业务客户端,以使所述业务客户端对应的业务对象基于所述音频异常提示信息进行设备检查操作;所述业务客户端是指输出所述B个帧统计滤波的客户端。
14.一种数据处理装置,其特征在于,包括:
获取模块,用于获取具有第一滤波时间长度的第一帧统计滤波;所述第一帧统计滤波包括A个音频帧;A为正整数;
检测模块,用于根据所述A个音频帧分别对应的异常预测概率,对所述第一帧统计滤波进行状态检测,得到所述第一帧统计滤波的激活状态,将携带激活状态的所述第一帧统计滤波添加至第一滑动窗口;
所述获取模块,还用于获取所述第一滑动窗口中的B个帧统计滤波分别对应的激活状态;B为正整数;所述B个帧统计滤波包括所述第一帧统计滤波;所述第一滑动窗口对应的第二滤波时间长度等于B个所述第一滤波时间长度之和;
所述检测模块,还用于根据B个激活状态,对所述第一滑动窗口进行属性检测,得到所述第一滑动窗口的窗口属性,根据所述第一滑动窗口的窗口属性,确定所述B个帧统计滤波的滤波状态。
15.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-13任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,所述计算机程序适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1-13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410111028.6A CN117636909B (zh) | 2024-01-26 | 2024-01-26 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410111028.6A CN117636909B (zh) | 2024-01-26 | 2024-01-26 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117636909A CN117636909A (zh) | 2024-03-01 |
CN117636909B true CN117636909B (zh) | 2024-04-09 |
Family
ID=90022018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410111028.6A Active CN117636909B (zh) | 2024-01-26 | 2024-01-26 | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636909B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104681038A (zh) * | 2013-11-29 | 2015-06-03 | 清华大学 | 音频信号质量检测方法及装置 |
CN113077821A (zh) * | 2021-03-23 | 2021-07-06 | 平安科技(深圳)有限公司 | 音频质量检测方法、装置、电子设备及存储介质 |
CN113572898A (zh) * | 2021-01-18 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 语音通话中的无声异常检测方法及对应的装置 |
CN114822595A (zh) * | 2022-04-28 | 2022-07-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种高解析音频的音质检测方法及相关装置 |
CN115130569A (zh) * | 2022-06-23 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置及计算机设备、存储介质、程序产品 |
CN117034963A (zh) * | 2023-07-04 | 2023-11-10 | 淘宝(中国)软件有限公司 | 模型训练方法、翻译方法、预估方法、推荐方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105374367B (zh) * | 2014-07-29 | 2019-04-05 | 华为技术有限公司 | 异常帧检测方法和装置 |
CN115831155A (zh) * | 2021-09-16 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 音频信号的处理方法、装置、电子设备及存储介质 |
-
2024
- 2024-01-26 CN CN202410111028.6A patent/CN117636909B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104681038A (zh) * | 2013-11-29 | 2015-06-03 | 清华大学 | 音频信号质量检测方法及装置 |
CN113572898A (zh) * | 2021-01-18 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 语音通话中的无声异常检测方法及对应的装置 |
CN113077821A (zh) * | 2021-03-23 | 2021-07-06 | 平安科技(深圳)有限公司 | 音频质量检测方法、装置、电子设备及存储介质 |
CN114822595A (zh) * | 2022-04-28 | 2022-07-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种高解析音频的音质检测方法及相关装置 |
CN115130569A (zh) * | 2022-06-23 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置及计算机设备、存储介质、程序产品 |
CN117034963A (zh) * | 2023-07-04 | 2023-11-10 | 淘宝(中国)软件有限公司 | 模型训练方法、翻译方法、预估方法、推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117636909A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN107928673B (zh) | 音频信号处理方法、装置、存储介质和计算机设备 | |
CN109087667B (zh) | 语音流利度识别方法、装置、计算机设备及可读存储介质 | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN112289338B (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN109308903A (zh) | 语音模仿方法、终端设备及计算机可读存储介质 | |
CN111816216A (zh) | 语音活性检测方法和装置 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN113707173A (zh) | 基于音频切分的语音分离方法、装置、设备及存储介质 | |
CN116959471A (zh) | 语音增强方法、语音增强网络的训练方法及电子设备 | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
CN112750461A (zh) | 语音通信优化方法、装置、电子设备及可读存储介质 | |
CN114333912A (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN117636909B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
Nigro et al. | Multimodal system for audio scene source counting and analysis | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
CN116959417A (zh) | 对话回合的检测方法、装置、设备、介质、程序产品 | |
CN111833897B (zh) | 一种用于交互式教育的语音增强方法 | |
CN113571063A (zh) | 语音信号的识别方法、装置、电子设备及存储介质 | |
CN112750469A (zh) | 语音中检测音乐的方法、语音通信优化方法及对应的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |