CN115394316A - 一种音频处理方法、系统、装置及存储介质 - Google Patents

一种音频处理方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN115394316A
CN115394316A CN202211017286.5A CN202211017286A CN115394316A CN 115394316 A CN115394316 A CN 115394316A CN 202211017286 A CN202211017286 A CN 202211017286A CN 115394316 A CN115394316 A CN 115394316A
Authority
CN
China
Prior art keywords
audio
played
exception
decoding
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211017286.5A
Other languages
English (en)
Inventor
郑阳阳
陈洋
吴昌恒
沙沛明
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hansang Nanjing Technology Co ltd
Original Assignee
Hansang Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hansang Nanjing Technology Co ltd filed Critical Hansang Nanjing Technology Co ltd
Priority to CN202211017286.5A priority Critical patent/CN115394316A/zh
Publication of CN115394316A publication Critical patent/CN115394316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本说明书实施例提供一种音频处理方法和系统,该音频处理方法包括:检测待播放音频的异常信息,所述待播放音频包含多帧子音频;基于所述异常信息确定替换音频;利用所述替换音频对所述待播放音频进行处理,得到目标音频;基于所述目标音频进行播放。

Description

一种音频处理方法、系统、装置及存储介质
技术领域
本说明书涉及音视频处理技术领域,特别涉及一种音频处理方法、系统、装置及存储介质。
背景技术
在通过移动终端或音频播放器等音频设备进行音频播放时,通常会遇到音频数据丢失、错误或切换到不支持码流的问题,尤其无线音频设备更为突出,这些异常发生时,往往伴随严重失真的噪声,甚至对功放电路和扬声器造成损伤。当检测到音频数据异常时,播放设备会触发静音或者采取保护策略,但是这种策略往往伴随迟滞,在异常触发一定时间后才能做出响应策略,有时并不能完全消除音频数据异常带来的影响。因此,为了能够及时消除音频数据异常带来的影响,有必要提供一种音频处理的方法。
发明内容
本说明书一个或多个实施例提供一种音频处理的方法,所述方法包括:检测待播放音频的异常信息,所述待播放音频包含多帧子音频;基于所述异常信息确定替换音频;利用所述替换音频对所述待播放音频进行处理,得到目标音频;基于所述目标音频进行播放。
本说明书实一个或多个实施例提供一种音频处理的系统,所述系统包括:检测模块,用于检测待播放音频的异常信息,所述待播放音频包含多帧子音频;确定模块,用于基于所述异常信息确定替换音频;处理模块,利用所述替换音频对所述待播放音频进行处理,得到目标音频;播放模块,用于基于所述目标音频进行播放。
本说明书一个或多个实施例提供一种音频处理装置,所述装置包括处理器,所述处理器用于执行上述实施例中任一项所述音频处理的方法。
本说明书一个或多个实施例提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如上述实施例中任一项所述音频处理的方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的音频处理系统的应用场景示意图;
图2是根据本说明书一些实施例所示的音频处理系统的示例性模块图;
图3是根据本说明书一些实施例所示的音频处理方法的示例性流程图;
图4是根据本说明书一些实施例所示的检测异常信息的示例性示意图;
图5是根据本说明书一些实施例所示的确定替换音频的示例性示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的音频处理系统的应用场景示意图。如图1所示,应用场景100可以包括处理器110、存储设备120和播放终端130。
处理器110可以用于处理与音频处理系统的应用场景100有关的信息和/数据。在一些实施例中,处理器110可以从存储设备120中获取信息和/或数据。例如,处理器110可以从存储设备120中获取待播放音频。在一些实施例中,处理器110可以处理从存储设备120中获取的信息和/或数据。例如,处理器110可以对待播放音频是否异常进行检测。在检测到待播放音频存在异常时,处理器110可以基于异常信息确定替换音频,并根据替换音频对待播放音频进行处理得到目标音频。
在一些实施例中,处理器110可以将处理后的信息和/或数据存储至存储设备120,也可以将处理后的信息和/或数据发送至播放终端130。例如,处理器110可以将处理后得到的目标音频发送给播放终端130中进行播放。
存储设备120可以用于存储数据和/或指令和/或任何其他信息。在一些实施例中,存储设备120可以存储一个或多个音频数据。例如,存储设备120可以从云数据库或终端中获取并存储待播放音频。又例如,存储设备120可以存储从处理器110中获取并存储目标音频。在一些实施例中,存储设备120可以存储处理器110用来执行或使用以完成本说明书中描述的示例性音频处理方法的数据和/或指令。
在一些实施例中,存储设备120可以连接与应用场景100中的至少一个其他组件(例如,处理器110、播放终端130)通信。应用场景100中的至少一个组件可以访问存储设备120中存储的数据或指令。例如,播放终端130可以访问存储设备120中存储的音频数据,并直接对存储设备120中的音频数据进行播放。又例如,处理器110可以访问存储设备120中存储的指令以执行本说明书中描述的示例性音频处理方法。在一些实施例中,存储设备120可以是处理器110的一部分。
播放终端130可以是用于播放音频的硬件设备或软件设备。在一些实施例中,播放终端130可以包括音箱、耳机、MP3、MP4、CD播放器、各种音乐类APP等。在一些实施例中,播放终端130可以对音频数据进行解码播放时,其支持播放的解码格式可以包括WMA、WAV、MP3、MP3Pro、ASF、AAC、VQF等。在一些实施例中,播放终端130可以从处理器110和/或存储设备120中获取信息和/或数据。例如,播放终端130可以从处理器110中获取处理后的目标音频,并对目标音频进行播放。又例如,播放终端可以直接从存储设备120中直接获取音频数据,并对该音频数据进行播放。
应当注意应用场景100仅仅是为了说明的目的而提供,并不意图限制本说明书的范围。对于本领域的普通技术人员来说,可以根据本说明书的描述,做出多种修改或变化。例如,应用场景100可以在其他设备上实现以实现类似或不同的功能。然而,变化和修改不会背离本说明书的范围。
图2是根据本说明书一些实施例所示的音频处理系统的示例性模块图。在一些实施例中,音频处理系统200可以包括检测模块210、确定模块220、处理模块230和播放模块240。
检测模块210可以用于检测待播放音频的异常信息,待播放音频包含多帧子音频。关于待播放音频的异常信息的更多内容可以参见步骤310及其相关描述。
在一些实施例中,检测模块210可以基于待播放音频携带的头文件,确定待播放音频是否存在解码异常。在一些实施例中,检测模块210还可以基于检测模型对待播放音频进行处理,确定待播放音频是否存在非解码异常以及异常帧位置。关于确定待播放音频是否存在解码异常、非解码异常以及异常帧位置的更多内容可以参见图4及其相关描述。
确定模块220可以用于基于异常信息确定替换音频。在一些实施例中,异常类型为解码异常时,确定模块220可以确定替换音频包括静默音频。关于静默音频的更多内容参见图3及其相关描述。
在一些实施例中,异常类型为非解码异常时,确定模块230还可以基于预测模型对多帧历史音频处理,预测替换音频,多帧历史音频为多帧待播放音频之前无异常的音频。关于确定替换音频的更多内容可以参见图5及其相关描述。
处理模块230可以利用替换音频对待播放音频进行处理,得到目标音频。关于确定目标音频的更多内容可以参见步骤330及其相关描述。
播放模块240可以用于基于目标音频进行播放。关于播放目标音频的更多内容可以参见步骤340及其相关描述。
需要注意的是,以上对于候选项显示、确定系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图2中披露的检测模块210、确定模块220、处理模块230和播放模块240可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
图3是根据本说明书一些实施例所示的音频处理方法的示例性流程图。在一些实施例中,音频处理方法可以由处理器110或音频处理系统200执行。例如,流程300可以以程序或指令的形式存储在存储设备(例如,存储设备120)中,当处理器110或音频处理系统200执行该程序或指令时,可以实现流程300。下文呈现的流程300的操作示意图是说明性的。在一些实施例中,可以利用一个或以上未描述的附加操作和/或未讨论的一个或以上操作来完成该过程。另外,图3中示出的及下文描述的流程300的操作的顺序并非限制性的。
步骤310,检测待播放音频的异常信息。在一些实施例中,步骤310可以由处理器110或检测模块210执行。
待播放音频可以指需要播放但还未播放的各种音频数据。例如,待播放音频可以是位于当前播放的音频帧后面的暂未播放的一帧或多帧音频帧。示例的,播放终端正在播放第3~5帧音频,待播放音频可以是第6~8帧、第7~8帧音频。
待播放音频的类型可以有多种。例如,待播放音频的类型可以包括待播放的音乐数据、语音数据等类型中的至少一种。
待播放音频可以包括多种格式,如动态影像专家压缩标准音频层面3(MovingPicture Experts Group Audio Layer III,MP3)、微软音频格式(Windows Media Audio,WMA)、自适应多速率压缩音频编码格式(Adaptive Multi-Rate,AMR)、高级音频编码(Advanced Audio Coding,AAC)等。
在一些实施例中,处理器可以从存储设备(如,存储设备120)中获取其中存储的待播放音频。
在一些实施例中,待播放音频可以包含多帧子音频。
子音频可以指音频数据中的音频帧。例如,一段80s的音频数据中共包含1100个音频帧,其中每一个音频帧为该音频数据的子音频。不同子音频的振幅、采样率、比特率等可能相同或不同。
异常信息可以指导致音频无法正常播放的异常情况。例如,音频数据丢失、音频数据产生突变、音频数据编码格式不支持播放等。
在一些实施例中,异常信息可以包括异常类型。
异常类型可以指异常信息的分类。在一些实施例中,异常类型可以包括解码异常和非解码异常中的至少一种。
解码异常可以指由于音频的编码格式与播放终端所支持的解码格式不匹配,播放终端无法正常对待播放音频进行解码播放而导致的异常。例如,待播放音频A的编码格式为AAC格式,而播放终端B无法对AAC格式的音频进行解码,则播放终端B对待播放音频A进行处理时会导致解码异常,无法播放。
非解码异常可以指在音频编码格式与播放终端所支持的解码格式匹配的情况下检测到的异常情况。例如,非解码异常可以包括音频数据丢失、音频数据突变等。其中,音频数据丢失可以指待播放音频中的至少一个子音频丢失;音频数据突变可以指待播放音频中至少一个子音频出错。例如,子音频的振幅从最小值突变到最大值。
在一些实施例中,异常信息还可以包括异常帧位置。其中,异常帧位置可以指待播放音频中,出现异常的异常帧(即存在异常的子音频)所在的位置。例如,一段包含1000帧的待播放音频,出现异常的异常帧为第50帧、第200帧、第500帧、第850帧等,前述第50帧、第200帧、第500帧、第850帧即为异常帧位置。关于确定异常帧位置的更多内容可以参见图4及其相关描述。
处理器可以通过多种方式检测待播放音频的异常信息。在一些实施例中,处理器可以将待播放音频中的多帧子音频与正常音频中的子音频进行对比,确定待播放音频中的异常信息。
在一些实施例中,处理器可以基于待播放音频携带的头文件,确定待播放音频是否存在解码异常。在一些实施例中,处理器还可以基于检测模型对待播放音频进行处理,确定待播放音频是否存在非解码异常以及异常帧位置。更多关于检测待播放音频的异常信息的内容可以参见图4及其描述。
在一些实施例中,处理器可以基于判断模型对待播放音频进行处理,确定待播放音频的异常类型,其中,待播放音频为包括头文件的音频数据。在一些实施例中,判断模型的输入可以为包括头文件的待播放音频,输出可以为异常类型,其中,当异常类型为非解码异常时,模型的输出还包括异常帧位置。在一些实施例中,判断模型的模型结构可以为深度神经网络模型(Deep Neural Networks,DNN)、循环神经网络模型(Rerrent NeuralNetwork,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)等。判断模型可以通过有监督学习训练获取,训练数据可以是利用异常音频帧对正常音频数据进行替换或插值后的音频数据,标签为异常类型和异常帧位置。
在一些实施例中,处理器可以在播放音频数据中的一帧或多帧音频帧的同时,提前对后续暂未播放的一帧或多帧音频帧进行检测和/或处理。在播放完当前的音频帧后,紧接着播放检测完成和/或处理完成的音频帧。例如,对于一段音频数据,假设处理器一次可以检测和处理其中5帧音频帧,则处理器每检测和/或预测完5帧后,利用播放终端对检测完成和/或处理完成的音频帧进行播放,同时,处理器继续检测和/或预测后续的5帧音频数据,再利用播放终端对检测完成和/或处理完成的音频帧进行播放,直到整个音频数据处理完成。在一些实施例中,处理器还可以提前对整个音频数据进行检测与预测处理后,再对该音频数据进行播放。
步骤320,基于异常信息确定替换音频。在一些实施例中,步骤320可以由处理器110或确定模块220执行。
替换音频可以指用于替换整个待播放音频或者待播放音频中一个或多个异常帧的音频数据。在一些实施例中,替换音频中可以包括一个或多个子音频(后续可称为“替换帧”)。通过替换音频来对待播放音频进行处理,可以使待播放音频播放时减少POP声和噪声。其中,POP声可以指播放音频时由于音频异常产生的爆破声。
在一些实施例中,处理器可以基于异常信息确定替换音频。在一些实施例中,处理器可以对异常信息进行分析处理,确定替换音频。例如,当异常信息为非解码异常时,处理器可以基于音频帧丢失的数量将音频帧丢失位置前相应数量的音频帧进行复制以确定替换音频。又例如,处理器可以基于丢失位置前的音频帧进行拟合以确定替换音频。
在一些实施例中,当异常类型为解码异常时,替换音频包括静默音频。
静默音频可以指播放终端可对其进行解码播放,但不会产生听觉效果的音频数据。例如,静默音频可以包括音频振幅为0值的数据。插入静默音频后,待播放音频中解码异常的音频数据可以被替换成播放终端可识别的音频,但这段音频不会有任何的播放效果。
本说明书的一些实施例中,在异常类型为解码异常时,通过将静默音频确定为替换音频,可以消除解码异常的音频对播放终端的影响,有效消除播放时的POP声。
在一些实施例中,当异常类型为非解码异常时,处理器可以基于预测模型对多帧历史音频处理,预测替换音频。关于非解码异常时预测替换音频的更多内容可以参见图5及其描述。
步骤330,利用替换音频对待播放音频进行处理,得到目标音频。在一些实施例中,步骤330可以由处理器110或处理模块230执行。
目标音频可以指对待播放音频进行处理后得到的可以正常播放的音频。例如,目标音频可以包括将解码异常的音频替换为静默音频后的音频数据。又例如,目标音频可以包括对非解码异常的音频数据采用替换音频进行替换后的音频数据。在一些实施例中,目标音频可以包括至少一帧子音频。
在一些实施例中,处理器可以基于异常帧位置和替换音频,将一个或多个异常帧替换为对应的一个或多个替换帧,得到目标音频。例如,待播放音频中,异常帧位置为第80帧,异常帧为子音频A,对应的替换帧为子音频B,处理器可以在待播放音频的第80帧,将子音频A替换为子音频B,得到目标音频。
步骤340,基于目标音频进行播放。在一些实施例中,步骤340可以由处理器110或播放模块240执行。
在一些实施例中,处理器可以将处理得到的目标音频发送至播放终端(例如,播放终端130)中进行播放。
在一些实施例中,音频处理系统200中还可以包括转换模块,该转换模块可以被配置为开关,用于根据检测模块210的检测结果控制播放模块240所播放的音频数据的来源。例如,转换模块可以控制播放模块240获取原始的待播放音频(即未经确定模块220、处理模块230处理的音频数据)。又例如,转换模块可以控制播放模块240获取目标音频(即经确定模块220、处理模块230处理的音频数据)。
在一些实施例中,当检测模块210检测到待播放音频存在异常时,转换模块可以控制播放模块240获取目标音频,此时需要确定模块220和处理模块230对待播放音频进行处理以确定替换音频并得到目标音频。进而,转换模块可以控制播放模块240将目标音频发送至播放终端中进行播放,以使得播放模块240按照目标音频进行播放。在一些实施例中,当检测模块210检测的待播放音频不存在异常时,转换模块可以控制播放模块240将原始的待播放音频发送至播放终端中进行播放。
在本说明书一些实施例中,通过提前对正在播放的音频后面一帧或多帧音频帧进行异常检测,确定异常信息、异常类型、以及异常音频的位置,再分别针对不同的异常类型进行处理,获得可以正常播放的音频。通过这种方式,可以有效消除音频播放时出现的POP声和噪声,使音频播放更加流畅、避免出现卡顿现象,减少延时,增强听觉效果,提升用户体验。同时,通过异常类型确定对应的替换音频,可以提高异常处理的针对性和有效性。另外,通过转换模块来控制播放终端是对正常音频进行播放还是对目标音频进行播放,可以避免延迟对播放造成的影响,提升用户的使用感受。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,流程300还可以包括获取待播放音频等。
图4是根据本说明书一些实施例所示检测异常信息的示例性示意图。
在一些实施例中,检测待播放音频的异常信息包括:确定待播放音频是否存在解码异常。在一些实施例中,处理器可以基于待播放音频的头文件,确定待播放音频是否存在解码异常。
待播放音频的头文件可以指待播放音频的音频数据中用于描述该待播放音频的属性、特征等的数据信息。例如,待播放音频的头文件可以包括音频数据的位率、采样率、编码格式等信息。在一些实施例中,不同待播放音频可以具有不同的头文件。
在一些实施例中,处理器可以对待播放音频的头文件进行解析,确定待播放音频是否存在解码异常。在一些实施例中,处理器可以基于对待播放音频的头文件进行解析,确定待播放音频的编码格式,并与播放终端所支持的解码格式进行匹配,基于匹配结果确定待播放音频是否存在解码异常。例如,基于对待播放音频的头文件进行解析,若确定待播放音频的编码格式为AAC,而播放终端所支持的解码格式包括AAC格式,两者匹配,则可以确定待播放音频不存在解码异常;反之,待播放音频存在解码异常。
在一些实施例中,处理器可以基于待播放音频存在解码异常,将待播放音频替换为静默音频。
在本说明书一些实施例中,通过对待播放音频头文件进行解析,可以直接、快捷地确定待播放音频是否存在解码异常。当待播放音频存在解码异常时,可以直接将异常音频替换为静默数据,无需再进一步判断是否存在其他类型的异常信息,有效提高数据处理的效率。
在一些实施例中,检测待播放音频的异常信息包括:确定待播放音频是否存在非解码异常。在一些实施例中,处理器可以基于检测模型对待播放音频进行处理,确定待播放音频是否存在非解码异常。在一些实施例中,检测模型还可以用于确定异常帧位置。检测模型为机器学习模型。
在一些实施例中,检测模型可以包括DNN、RNN、CNN或其他自定义的模型结构等中的任意一种或组合。
在一些实施例中,检测模型的输入可以包括待播放音频。在一些实施例中,检测模型的输入可以为去除头文件后的待播放音频。例如,头文件可以在进行头文件解析时去除。在一些实施例中,检测模型的输出可以包括是否存在非解码异常、以及异常帧位置。例如,检测模型输入一段去除头文件的待播放音频,可以输出待播放音频不存在非解码异常的结果,或待播放音频存在非解码异常的结果;当输出为待播放音频存在非解码异常时,同时输出异常帧位置。在一些实施例中,检测模型的输出还可以包括非解码异常的类型,非解码异常的类型可以包括音频数据丢失、音频数据突变等。
在一些实施例中,检测模型可以基于训练获取。检测模型的训练可以由处理器执行。
在一些实施例中,训练检测模型时,可以使用多个带有第一标签的第一训练样本,通过多种方法(例如,梯度下降法)进行训练,从而可以学习到模型的参数,当训练的模型满足预设条件时,训练结束,获取训练好的检测模型。
在一些实施例中,第一训练样本和第一标签可以通过对正常的音频数据进行处理而获取。在一些实施例中,可以替换正常音频中的部分帧,和/或删除正常音频中部分帧,将处理后的音频作为第一训练样本;同时,可以将替换位置和/或删除位置作为异常帧位置的第一标签。第一训练样本还可以包括部分无异常的音频数据,对应第一标签可以为不存在非解码异常。
本说明书的一些实施例中,在训练检测模型时,通过对正常音频数据中部分帧替换,得到训练样本和标签,可以解决模型训练时训练样本和标签不容易获取的问题。
在一些实施例中,当确定待播放音频不存在解码异常时,处理器可以进一步基于检测模型检测待播放音频是否存在非解码异常。可以理解的,当确定待播放音频存在解码异常时,由于播放终端无法对该待播放音频进行解码播放,处理器可以无需再进一步检测待播放音频是否存在非解码异常,节约检测效率。
需要说明的是,本说明书的实施例对处理器在确定待播放音频是否存在解码异常或非解码异常的顺序不做限制。例如,处理器可以先确定待播放音频是否存在解码异常,若不存在解码异常,再进一步确定是否存在非解码异常。又例如,解码异常和非解码异常可以同步检测。
本说明书一些实施例中,通过先确定待播放音频是否存在解码异常,若存在解码异常,则无需进一步确定是否存在非解码异常,直接插入静默音频,减少了数据处理的步骤,可以提高处理效率。同时,基于待播放音频不存在解码异常时进一步对待播放音频进行检测,确定是否存在非解码异常,可以进一步检测待播放音频是否存在其他的异常类型,为后续确定替换音频提供可靠的支撑。
图5是根据本说明书一些实施例所示的预测替换音频的示例性示意图。
在一些实施例中,当异常类型为非解码异常时,处理器可以基于预测模型对多帧历史音频进行处理,预测替换音频。
多帧历史音频可以指待播放音频之前已播放的无异常的多帧子音频。在一些实施例中,多帧历史音频还可以是待播放音频中异常帧位置之前的无异常的多帧子音频。在一些实施例中,多帧历史音频还可以为待播放音频之前的所有子音频。例如,待播放音频位于某音频文件的第20-25帧,则多帧历史音频可以是该音频文件的第1-19帧。
值得说明的是,此处所说的无异常可以指未经替换的正常音频,也可以指对异常音频进行替换后得到的音频。例如,假设待播放音频为一段音频数据中的第6~8帧,而该段音频数据中第1~5帧为无异常的音频,则多帧历史音频可以是该1~5帧音频中的两帧或两帧以上。
在一些实施例中,预测模型的输入可以是多帧历史音频,输出可以是替换音频。
在一些实施例中,预测模型的输入的多帧历史音频可以以序列数据的形式输入模型中。该序列数据可以由多帧历史音频中各个子音频的按照一定的顺序(例如,播放的前后位置顺序)排列组成。在一些实施例中,序列数据中可以包括多帧历史音频中各子音频的相关信息,如振幅大小等。例如,待播放音频为一段音频数据中的第20~25帧,则序列数据中可以包括第20~25帧前面的1~20帧中的多帧历史音频中各子音频的相关信息,如其中各个子音频的振幅大小等。
在一些实施例中,预测模型可以包括DNN、RNN、CNN等模型结构等中的任意一种或组合。
在一些实施例中,预测模型可以基于训练获取,预测模型的训练可以由处理器执行。在一些实施例中,训练预测模型时,可以使用多个带有第二标签的第二训练样本,通过多种方法(例如,梯度下降法)进行训练,从而可以学习到模型的参数,当训练的模型满足预设条件时,训练结束,获取训练好的预测模型。
在一些实施例中,第二训练样本和第二标签可以通过对正常的音频数据进行处理而获取。在一些实施例中,可以替换正常音频中的部分帧,和/或删除正常音频中部分帧,得到处理后的音频。将处理后的音频中被替换或者被删除的部分帧之前的音频为第二训练样本;同时,可以将被替换或者被删除的该部分帧作为第二标签。
本说明书的一些实施例中,在训练预测模型时,通过对正常音频数据中部分帧替换,得到训练样本和标签,可以解决模型训练时训练样本和标签不容易获取的问题。
在一些实施例中,预测模型对多帧历史音频进行分析,确定多帧历史音频的类型、风格和振幅大小,以生成类型、风格和振幅大小相匹配的替换音频。其中,音频的类型可以包括古典音乐、流行音乐、重金属音乐、摇滚乐、电子音乐、爵士乐等;音频的风格可以指音频的特征,可以包括音频的节奏、旋律、音色等;音频的振幅体现了音频中声音的能量,振幅越大,能量越大,音量越高。
在一些实施例中,预测模型520可以包括识别层521、预测层522和输出层523,如图5所示,其中,识别层521和预测层522的输出可以作为输出层523的输入,输出层523的输出可以作为预测模型最终的输出。
在一些实施例中,预测模型的识别层521可以对待播放音频511进行处理,确定风格特征向量531;预测层522可以对多帧历史音频512进行处理,确定振幅特征向量532;输出层523可以基于对识别层521输出的风格特征向量531和预测层522输出的振幅特征向量532进行处理,确定替换音频540。其中,风格特征向量可以指表示待播放音频风格和类型的数据组成的向量。例如,风格特征向量为(a,b),其中a可以表示待播放音频的类型,b可以表示待播放音频的风格。振幅特征向量可以指反映多帧历史音频振幅变化的数据组成的向量。例如,假设有5帧历史音频,其振幅特征向量表示为(A1,A2,A3,A4,A5),其中A1,A2,A3,A4,A5分别表示这5帧历史音频的振幅。
识别层521的输入可以是待播放音频511,输出可以是风格特征向量531。在一些实施例中,识别层521的输入可以是待播放音频511中的至少一个子音频,输出为对应子音频的风格特征向量531。在一些实施例中,识别层521的模型类型可以包括CNN。
在一些实施例中,预测层522的输入可以是多帧历史音频512,输出为振幅特征向量532。
在一些实施例中,预测层的输入还可以为音频数据序列和检测模型输出的异常帧位置,输出可以为多帧历史音频对应的振幅特征向量。通过预测层对音频数据序列、异常帧位置进行处理可以确定异常帧位置前的多帧子音频为多帧历史音频,进而预测层可以对多帧历史音频进行处理,最终输出多帧历史音频对应的振幅特征向量。其中,音频数据序列可以指完整的音频文件对应的序列数据。
在一些实施例中,预测层522的模型类型可以包括RNN。
输出层523的输入可以包括识别层521输出风格特征向量531和预测层522输出的振幅特征向量532,输出可以为替换音频540。在一些实施例中,输出层523的模型类型可以包括DNN。
在一些实施例中,当预测层522的输入包括音频数据序列和检测模型输出的异常帧位置时,相应的,将识别层521和预测层522的输出结果输入到输出层523中进行处理时,输出层523的输出可以为待播放音频中该异常帧对应的替换音频。
通过对待播放音频和多帧历史音频进行处理,可以确定待播放音频对应的替换音频,从而可以利用替换音频对待播放音频进行处理以确定正常的目标音频。通过将异常帧位置和音频数据序列输入至预测模型,可以进一步确定待播放音频中一个或多个异常帧对应的一个或多个替换帧,从而对异常帧进行针对性处理,提高处理效率和播放效果。
在一些实施例中,预测模型可以通过联合训练的方式获取。训练所用的第三训练样本包括:本待播放音频、样本多帧历史音频,第三训练样本的第三标签为样本替换音频。例如,可以向识别层输入样本待播放音频,得到识别层输出的风格特征向量;向预测层输入样本多帧历史音频,得到预测层输出的振幅特征向量;然后将风格特征向量和振幅特征向量输入输出层,得到输出层输出的替换音频。基于输出的替换音频和第三标签构建损失函数,基于损失函数同步更新识别层、预测层和输出层的参数,得到训练好的预测模型。
在本说明书一些实施例中,通过上述训练方式获得识别层和预测层的参数,在一些情况下有利于解决单独训练识别层或预测层难以获得标签的问题,还可以使识别层和预测层能较好地反映待播放音频的风格特征和反映多帧历史音频的振幅特征。
在本说明书一些实施例中,通过机器学习模型生成替换音频,可以利用机器学习模型的自学习能力,在大量音频数据中找到规律,生成更为准确的替换音频,有利于基于替换音频得到目标音频后,消除播放产生的pop声或噪声。同时,利用检测模型检测异常和利用预测模型确定替换音频,可以先判断出音频是否存在异常,再对异常音频进行处理和替换,模型处理的计算量较小,可以减轻处理器负荷。
在一些实施例中,处理器还可以在未检测待播放音频是否存在异常的情况下,基于第一验证模型对待播放音频之前的多帧历史音频进行处理,预测验证音频。其中,该第一验证模型可以为机器学习模型,用于实现异常音频检测和替换。验证音频可以指用于验证待播放音频是否存在异常的音频数据。
在一些实施例中,转换模块还可以基于当前的待播放音频,与预测的验证音频进行对比,确定当前的待播放音频是否存在异常,进而确定播放模块240所播放的音频数据的来源。例如,预测的验证音频与待播放音频不同时,可以确定待播放音频存在异常,并将验证音频作为替换音频,进而转换模块可以控制播放模块240将替换后的目标音频发送至播放终端中进行播放。又例如,预测的验证音频与待播放音频相同时,可以确定待播放音频不存在异常,进而转换模块可以控制播放模块240将该待播放音频发送至播放终端中进行播放。值得说明的是,这里所指的“相同”可以指验证音频与待播放音频之间的差异满足预设条件。
第一验证模型的输入可以包括待播放音频之前的多帧历史音频,输出可以为验证音频。第一验证模型的模型结构可以为DNN、RNN、CNN等。第一验证模型可以通过有监督学习训练获取,对应的第四训练样本可以包括样本待播放数据之前的多帧历史音频(例如,可以包括正常音频,也可以包括替换正常音频时被替换部分之前的帧和/或删除正常音频时被删除部分之前的帧),第四训练样本的第四标签为正常音频。
在一些实施例中,处理器可以基于第二验证模型在预测验证音频的同时,还可以输出待播放音频属于正常音频的置信度。第二验证模型包括生成层和对比层,生成层的输入包括待播放音频之前的多帧历史音频,输出为验证音频;对比层输入包括验证音频和待播放音频,输出为待播放音频属于正常音频的置信度。其中,该第二验证模型可以为机器学习模型,用于实现异常音频检测和替换。置信度可以反映待播放音频为正常音频的可信程度。例如,置信度可以是0.5。
在一些实施例中,前述转换模块可以基于验证模型输出的置信度与预设的置信度阈值进行比较,确定播放模块240所播放的音频数据的来源。例如,当置信度小于置信度阈值时,处理器可以将验证音频作为替换音频对待播放音频进行处理,进而转换模块可以控制播放模块240将替换后的目标视频发送至播放终端中进行播放;当置信度大于置信度阈值,转换模块可以控制播放模块240将该待播放音频发送至播放终端中进行播放。其中,置信度阈值可以是系统默认值、经验值、人为预先设定值等或其任意组合,可以根据实际需求设定,本说明书对此不做限制。
在一些实施例中,第二验证模型的生成层和对比层可以通过联合训练得到。训练所用的第五训练样本包括:样本待播放音频、样本多帧历史音频,第五训练样本的第五标签为样本验证音频和样本置信度。例如,可以向生成层中输入样本多帧历史音频,得到生成层输出的验证音频;然后将生成层的输出和样本待播放音频作为对比层的输入,得到样本待播放音频属于正常音频的置信度。训练过程中,基于第五标签和识别层的输出建立损失函数,基于损失函数同步更新生成层和对比层的参数。当训练的模型满足预设条件时,训练结束,获取训练好的第二验证模型。
本说明书一些实施例中,通过上述两类验证模型可以同时实现异常音频的检测和替换,有效提高模型处理的效率,有效减少音频播放的延时。
本说明书一个或多个实施例还提供一种音频处理装置,该装置包括处理器,所述处理器用于执行上述实施例中任一项所述音频处理的方法。
本说明书一个或多个实施例还提供一种计算机可读存储介质,该存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如上述实施例中任一项所述音频处理的方法。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (10)

1.一种音频处理方法,其特征在于,所述方法包括:
检测待播放音频的异常信息,所述待播放音频包含多帧子音频;
基于所述异常信息确定替换音频;
利用所述替换音频对所述待播放音频进行处理,得到目标音频;
基于所述目标音频进行播放。
2.根据权利要求1所述的方法,其特征在于,所述异常信息包括异常类型,所述异常类型包括解码异常和非解码异常中的至少一种。
3.如权利要求2所述的方法,其特征在于,所述检测待播放音频的异常信息包括:
基于待播放音频携带的头文件,确定所述待播放音频是否存在所述解码异常。
4.如权利要求2所述的方法,其特征在于,所述检测待播放音频的异常信息包括:
基于检测模型对所述待播放音频进行处理,确定所述待播放音频是否存在非解码异常以及异常帧位置,所述检测模型为机器学习模型。
5.如权利要求2所述的方法,其特征在于,所述异常类型为所述解码异常时,
所述替换音频包括静默音频。
6.如权利要求2所述的方法,其特征在于,所述异常类型为所述非解码异常时,
基于预测模型对多帧历史音频处理,预测所述替换音频,所述多帧历史音频为所述多帧待播放音频之前无异常的音频。
7.一种音频处理系统,其特征在于,所述系统包括:
检测模块,用于检测待播放音频的异常信息,所述待播放音频包含多帧子音频;
确定模块,用于基于所述异常信息确定替换音频;
处理模块,利用所述替换音频对所述待播放音频进行处理,得到目标音频;
播放模块,用于基于所述目标音频进行播放。
8.如权利要求7所述的系统,其特征在于,所述异常信息包括异常类型,所述异常类型包括解码异常和非解码异常中的至少一种。
9.一种音频处理装置,包括处理器,所述处理器用于执行权利要求1-6所述的音频处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1-6所述的音频处理方法。
CN202211017286.5A 2022-08-23 2022-08-23 一种音频处理方法、系统、装置及存储介质 Pending CN115394316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211017286.5A CN115394316A (zh) 2022-08-23 2022-08-23 一种音频处理方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211017286.5A CN115394316A (zh) 2022-08-23 2022-08-23 一种音频处理方法、系统、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115394316A true CN115394316A (zh) 2022-11-25

Family

ID=84120910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211017286.5A Pending CN115394316A (zh) 2022-08-23 2022-08-23 一种音频处理方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115394316A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013334A (zh) * 2023-01-28 2023-04-25 荣耀终端有限公司 音频数据处理方法、电子设备及存储介质
CN116665685A (zh) * 2023-07-31 2023-08-29 深圳爱图仕创新科技股份有限公司 音频信号的滤波方法、装置、计算机设备及存储介质
CN118632044A (zh) * 2024-08-02 2024-09-10 阿里云计算有限公司 音视频转码处理与播放方法、设备、存储介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09307513A (ja) * 1996-05-09 1997-11-28 Matsushita Electric Works Ltd 音声品質改善装置
CN107566890A (zh) * 2017-09-15 2018-01-09 深圳国微技术有限公司 处理音频流播放异常的方法、装置、计算机装置及计算机可读存储介质
CN114121050A (zh) * 2021-11-30 2022-03-01 云知声智能科技股份有限公司 音频播放方法、装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09307513A (ja) * 1996-05-09 1997-11-28 Matsushita Electric Works Ltd 音声品質改善装置
CN107566890A (zh) * 2017-09-15 2018-01-09 深圳国微技术有限公司 处理音频流播放异常的方法、装置、计算机装置及计算机可读存储介质
CN114121050A (zh) * 2021-11-30 2022-03-01 云知声智能科技股份有限公司 音频播放方法、装置、电子设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013334A (zh) * 2023-01-28 2023-04-25 荣耀终端有限公司 音频数据处理方法、电子设备及存储介质
CN116013334B (zh) * 2023-01-28 2023-08-18 荣耀终端有限公司 音频数据处理方法、电子设备及存储介质
CN116665685A (zh) * 2023-07-31 2023-08-29 深圳爱图仕创新科技股份有限公司 音频信号的滤波方法、装置、计算机设备及存储介质
CN116665685B (zh) * 2023-07-31 2023-10-20 深圳爱图仕创新科技股份有限公司 音频信号的滤波方法、装置、计算机设备及存储介质
CN118632044A (zh) * 2024-08-02 2024-09-10 阿里云计算有限公司 音视频转码处理与播放方法、设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN115394316A (zh) 一种音频处理方法、系统、装置及存储介质
US20200388272A1 (en) System and method of automated model adaptation
CN106683677B (zh) 语音识别方法及装置
US9928829B2 (en) Methods and systems for identifying errors in a speech recognition system
JP5576113B2 (ja) 音声認識システムにモデルを適合させるための方法およびシステム
CN111081230B (zh) 语音识别方法和设备
Ding et al. Developments of Machine Learning Schemes for Dynamic Time‐Wrapping‐Based Speech Recognition
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN111667818A (zh) 一种训练唤醒模型的方法及装置
CN109754789A (zh) 语音音素的识别方法及装置
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
JP2016161823A (ja) 音響モデル学習支援装置、音響モデル学習支援方法
CN102708857A (zh) 基于运动的语音活动检测
CN112734565B (zh) 流动性覆盖率预测方法及装置
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
JP6903613B2 (ja) 音声認識装置、音声認識方法及びプログラム
CN110930985A (zh) 电话语音识别模型、方法、系统、设备及介质
US9520851B2 (en) Predictive automatic gain control in a media processing system
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
US12125474B2 (en) Learning apparatus, estimation apparatus, methods and programs for the same
WO2021014649A1 (ja) 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
WO2001033548A1 (fr) Dispositif et procede de reglage du debit dans un systeme de codage de la parole a debit variable
JP4167014B2 (ja) ワードスポッティング音声認識装置、ワードスポッティング音声認識方法、ワードスポッティング音声認識用プログラム
CN118351880A (zh) 录制视频的安全性分析方法和装置
JP4366986B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221125

RJ01 Rejection of invention patent application after publication