CN117409794B - 音频信号处理方法、系统、计算机设备及存储介质 - Google Patents

音频信号处理方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN117409794B
CN117409794B CN202311708910.0A CN202311708910A CN117409794B CN 117409794 B CN117409794 B CN 117409794B CN 202311708910 A CN202311708910 A CN 202311708910A CN 117409794 B CN117409794 B CN 117409794B
Authority
CN
China
Prior art keywords
audio
audio signal
transmission
parameter
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311708910.0A
Other languages
English (en)
Other versions
CN117409794A (zh
Inventor
李庆余
熊悦
熊晨阳
黄智�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shengfeite Technology Co ltd
Original Assignee
Shenzhen Shengfeite Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shengfeite Technology Co ltd filed Critical Shenzhen Shengfeite Technology Co ltd
Priority to CN202311708910.0A priority Critical patent/CN117409794B/zh
Publication of CN117409794A publication Critical patent/CN117409794A/zh
Application granted granted Critical
Publication of CN117409794B publication Critical patent/CN117409794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/39Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/0635Clock or time synchronisation in a network
    • H04J3/0638Clock or time synchronisation among nodes; Internode synchronisation
    • H04J3/0658Clock or time synchronisation among packet nodes
    • H04J3/0661Clock or time synchronisation among packet nodes using timestamps
    • H04J3/0667Bidirectional timestamps, e.g. NTP or PTP for compensation of clock drift and for compensation of propagation delays
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及音频信号处理技术领域,公开了一种音频信号处理方法、系统、计算机设备及存储介质。方法包括:通过音频传输设备接收原始音频信号,并进行时钟同步和数据传输,得到第一音频信号;将第一音频信号输入音频信号调制模型进行音频信号调制,得到第二音频信号;对预置的初始音频传输模型进行初始化,并通过初始音频传输模型对第二音频信号进行音频信号传输,获取音频传输监控参数;对音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过多个音频传输监控特征进行传输参数优化,生成目标参数策略;根据目标参数策略,对初始音频传输模型进行参数优化,得到目标音频传输模型,进而提高了音频的实时传输质量。

Description

音频信号处理方法、系统、计算机设备及存储介质
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种音频信号处理方法、系统、计算机设备及存储介质。
背景技术
随着数字音频应用的普及和发展,对高质量音频的实时传输需求不断增加。这些应用包括音频会议、音频流媒体、音频通信和音频监控等领域。在这些应用中,用户对音频质量和实时性的要求非常高,因此研究音频信号处理方法变得至关重要。
传统音频传输方法在高质量和低延迟方面存在一些问题。例如,传统的音频编解码器会引入音质损失,而网络延迟和时钟同步问题导致实时性下降。此外,不同音频应用对音频传输的需求各不相同,需要适应性较强的传输策略和参数优化。
发明内容
本发明提供了一种音频信号处理方法、系统、计算机设备及存储介质,用于提高音频的实时传输质量。
本发明第一方面提供了一种音频信号处理方法,所述音频信号处理方法包括:
通过预置的音频传输设备接收原始音频信号,并对所述原始音频信号进行时钟同步和数据传输,得到第一音频信号;
将所述第一音频信号输入预置的音频信号调制模型,并通过所述音频信号调制模型中的多个音频信号处理器进行音频信号调制,得到第二音频信号;
对预置的初始音频传输模型进行初始化,并通过预置的初始音频传输模型对所述第二音频信号进行音频信号传输,获取对应的音频传输监控参数;
对所述音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过所述多个音频传输监控特征进行传输参数优化,生成目标参数策略;
根据所述目标参数策略,对所述初始音频传输模型进行参数优化,得到目标音频传输模型。
本发明第二方面提供了一种音频信号处理方系统,所述音频信号处理方系统包括:
接收模块,用于通过预置的音频传输设备接收原始音频信号,并对所述原始音频信号进行时钟同步和数据传输,得到第一音频信号;
调制模块,用于将所述第一音频信号输入预置的音频信号调制模型,并通过所述音频信号调制模型中的多个音频信号处理器进行音频信号调制,得到第二音频信号;
传输模块,用于对预置的初始音频传输模型进行初始化,并通过预置的初始音频传输模型对所述第二音频信号进行音频信号传输,获取对应的音频传输监控参数;
提取模块,用于对所述音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过所述多个音频传输监控特征进行传输参数优化,生成目标参数策略;
优化模块,用于根据所述目标参数策略,对所述初始音频传输模型进行参数优化,得到目标音频传输模型。
本发明第三方面提供了一种计算机设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行上述的音频信号处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的音频信号处理方法。
本发明提供的技术方案中,通过采用音频信号处理模型和参数优化策略,能够实现高质量的音频传输,减小了音质损失,使得接收端能够还原原始音频的更多细节和质量。采用精密时钟协议支持,提供高度同步的时钟管理,有效解决了网络中的时钟同步问题,确保音频数据的同步性和一致性。通过传输参数优化和特征提取,能够自动适应不同网络条件和应用场景,动态调整传输策略,以最大程度地满足不同需求。采用深度学习中的音频信号处理模型,能够更好地捕捉音频数据中的时序信息,提高了音频内容的理解能力。通过传输参数优化和网络延迟计算,能够降低音频传输的延迟,进而提高了音频的实时传输质量。
附图说明
图1为本发明实施例中音频信号处理方法的一个实施例示意图;
图2为本发明实施例中音频信号处理方系统的一个实施例示意图。
具体实施方式
本发明实施例提供了一种音频信号处理方法、系统、计算机设备及存储介质,用于提高音频的实时传输质量。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中音频信号处理方法的一个实施例包括:
步骤101、通过预置的音频传输设备接收原始音频信号,并对原始音频信号进行时钟同步和数据传输,得到第一音频信号;
可以理解的是,本发明的执行主体可以为音频信号处理方系统,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
具体的,服务器获取音频信号。原始音频信号可以来自不同的源,如麦克风、音频输入设备或者其他音频源。这些信号经过模拟-数字转换(ADC)等过程,被转换成数字音频信号,以便于数字化处理和传输。为了实现时钟同步,服务器使用了PTP(Precision TimeProtocol)协议。PTP是一种用于在网络中同步设备时钟的协议,它可以实现高精度的时间同步。通过预置的音频传输设备,服务器启用PTP协议来确保所有参与音频传输的设备具有相同的时间参考。在PTP协议下,音频传输设备会根据协议的规则配置成主设备(master)或从设备(slave)。主设备通常担任主时钟源的角色,即它们提供时间参考给其他从设备,以确保所有设备的时钟保持同步。这个配置过程基于协议规则自动完成。当设备配置为主或从,它们将开始进行时钟同步。主设备通过PTP协议向从设备提供时间信息,从设备使用这些信息来调整其本地时钟,以与主设备的时钟保持同步。在这个过程中,设备之间会交换时间戳信息,以测量信号的传输时间。根据时间戳信息,每个设备可以计算出网络延迟(signal propagation delay)和时钟漂移(clock offset)。网络延迟是信号从一个设备传输到另一个设备所需的时间,时钟漂移是设备时钟与主时钟的差异。这些计算提供了有关音频传输性能的关键信息。基于计算出的网络延迟和时钟漂移,设备可以在传输过程中进行数据同步。数据传输的目标是确保音频数据按照正确的时间顺序到达接收设备,以还原原始音频信号。通过精确的时钟同步和计算的延迟补偿,服务器得到高质量的音频传输,最终得到第一音频信号。例如,例如,考虑一个音频会议应用,其中多个参与者位于不同的地理位置,并通过互联网进行实时音频通信。在这种情况下,每个参与者的麦克风捕获原始音频信号,然后通过预置的音频传输设备发送到会议的主设备。这些设备启用PTP协议,配置成主或从设备,并通过时钟同步确保他们的时钟是同步的。计算出的网络延迟和时钟漂移用于调整音频数据的传输,以确保在会议中实现高质量的音频传输,使每个参与者能够听到其他人的声音,同时保持实时性。
步骤102、将第一音频信号输入预置的音频信号调制模型,并通过音频信号调制模型中的多个音频信号处理器进行音频信号调制,得到第二音频信号;
具体的,服务器获取用于训练的音频信号和多个音频信号处理器。训练音频信号通常包括高质量的音频数据,用于训练模型。同时,服务器初始化多个音频信号处理器,并为每个处理器分配第一权重数据。这些初始化权重通常是随机的,因为服务器在训练过程中优化它们。服务器使用多个音频信号处理器对训练音频信号进行音频信号调制。每个处理器将音频数据进行不同类型的处理,以提取有用的特征。这包括卷积、特征映射、LSTM处理等步骤。每个处理器的输出是第一训练调制信号,这些信号反映了不同处理器对音频数据的处理结果。服务器将第一训练调制信号通过信号融合的方式进行合并。这可以是简单的加权平均或其他融合方法,其中融合的权重由第一权重数据决定。这一步骤旨在整合不同处理器的信息,以获得更综合的音频信号调制。服务器计算第二训练调制信号的信号评价指标。这些指标用于评估模型的性能和输出信号的质量。通常,服务器会使用一些评价标准,例如信噪比(SNR)或均方根误差(RMSE),来度量模型生成的音频信号与原始训练音频之间的差异。基于信号评价指标,服务器执行权重优化操作。服务器调整每个音频信号处理器的第一权重数据,以最小化信号评价指标的值。这个过程可以使用各种优化算法,如梯度下降来完成。优化的目标是改善模型的性能,使其生成更高质量的音频信号。根据第二权重数据,服务器对多个音频信号处理器进行模型集成。服务器将每个处理器与其对应的第二权重数据组合起来,以构建最终的音频信号调制模型。这个模型现在已经过训练和优化,可以用于实时音频传输。例如,考虑一个实时音频通信应用。本实施例中,服务器一个音频信号调制模型,该模型能够将话者的音频数据进行调制,以实现高质量的音频传输。服务器收集了大量的训练音频数据,包括各种语音和音效。服务器初始化了多个音频信号处理器,每个处理器负责提取不同的音频特征,如语音特征、音乐特征、环境噪声特征等。通过训练过程,服务器使用这些音频信号处理器对训练音频进行调制,并通过信号融合获得第二训练调制信号。服务器使用信号评价指标来评估模型的性能,并通过权重优化来改善模型。根据优化后的权重数据,服务器构建了一个音频信号调制模型,可以将话者的音频数据进行调制,以实现高质量的音频传输。
其中,使用预置的音频信号调制模型。这个模型包括多个音频信号处理器,每个处理器包括卷积和池化层、第一全连接层、长短时记忆网络(LSTM)和第二全连接层。这些处理器协同工作以对第一音频信号进行调制,以生成第二音频信号。每个音频信号处理器的第一步是使用卷积神经网络(CNN)中的卷积和池化层对第一音频信号进行卷积运算和池化操作。这有助于提取音频数据中的空间特征。通过每个音频信号处理器中的第一全连接层,对卷积层的输出进行特征映射,将其映射到高维特征空间中。这一步骤有助于将音频数据的特征表示转化为更加抽象和有用的形式。LSTM是一种适用于序列数据的神经网络层,它用于对高维特征空间中的第一特征信号进行处理。LSTM能够提取时序信息和长距离依赖关系,这对于音频信号非常重要,因为音频数据通常包含时间相关的信息,例如语音和音乐。通过每个音频信号处理器中的第二全连接层,对经过LSTM处理的第二特征信号进行处理,以生成音频信号的最终输出。为了得到第二音频信号,使用第二权重数据来对每个音频信号处理器的初始输出信号进行信号融合。这可以是一种线性或非线性的融合方法,目的是将不同处理器生成的音频信号整合为一个统一的音频信号。例如,假设服务器正在开发一种音频流媒体应用,它需要实时传输音乐。在这种情况下,服务器使用上述方法来处理原始音频信号。例如,服务器将音乐作为第一音频信号输入到预置的音频信号调制模型中。模型的多个音频信号处理器将同时工作,每个处理器负责提取不同类型的音乐特征,例如音符、节奏和音乐风格。卷积和池化层有助于提取音乐中的空间特征,第一全连接层将这些特征映射到高维特征空间中,LSTM层则能够捕捉音乐的时序信息和长距离依赖关系。通过第二全连接层,每个处理器将生成音乐信号的初步输出。服务器使用第二权重数据将这些输出信号融合为最终的音频信号,以在音频流媒体应用中实现高质量音乐传输。
步骤103、对预置的初始音频传输模型进行初始化,并通过预置的初始音频传输模型对第二音频信号进行音频信号传输,获取对应的音频传输监控参数;
需要说明的是,服务器选择一个合适的音频传输模型。这个模型可以基于各种技术,包括传统的信号处理方法或者更现代的深度学习技术。模型的选择将取决于具体的应用场景和要求。对模型进行初始化。设置模型的初始参数,以便它可以开始工作。参数的初始化可以基于随机值或者经过预训练的权重,具体取决于模型的类型和需求。初始化是确保模型能够处于一个合适状态,可以进行后续的音频传输的重要步骤。随后,通过初始化后的音频传输模型,服务器开始对第二音频信号进行音频信号传输。这通常涉及将音频信号输入到模型中,模型对其进行处理,并生成传输后的音频信号。传输过程包括信号编码、压缩和传输协议等步骤,以确保音频能够在网络上进行有效的传输。同时,服务器监控传输的性能,以确保音频传输满足用户的要求。为此,服务器获取一系列音频传输监控参数,这些参数反映了传输的质量和性能。例如,服务器测量网络延迟,以确保音频的实时性;服务器还可以评估丢包率,以确定传输的可靠性。此外,带宽利用率和信噪比等参数也可以用来衡量传输的效率和音频质量。获取到的音频传输监控参数可以用于优化传输系统。如果监控数据显示出性能问题,服务器根据这些数据采取相应的措施,例如调整传输参数、增加带宽或改进编码方法。这样,服务器不断提高音频传输的质量和实时性,以满足用户的需求。
步骤104、对音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过多个音频传输监控特征进行传输参数优化,生成目标参数策略;
具体的,服务器收集和提取音频传输监控参数。这些参数可以包括网络延迟、丢包率、带宽利用率、信噪比等,用于评估音频传输的性能和质量。这些参数通常由传输系统中的监控组件或传感器收集,并以数字形式记录。服务器将这些音频传输监控参数输入到预置的特征聚类模型中。特征聚类模型的目的是将监控参数聚类成一组特征聚类中心。这可以通过各种聚类算法,如K均值聚类,来实现。每个特征聚类中心代表了一组类似的监控参数集合。服务器使用这些中心来对音频传输监控参数进行特征聚类。服务器将每个监控参数映射到最接近的特征聚类中心,从而将其转化为一组音频传输监控特征。这些特征反映了监控参数的统计特性和变化趋势。采用离散化方法对音频传输监控特征进行处理。这可以使用K-Bins算法或其他离散化技术来完成。离散化将音频传输监控特征映射到离散的值或区间,以减少数据的复杂性和噪音的影响。这有助于建立更稳定的模型和策略。基于离散化的音频传输监控特征,服务器开始传输参数的优化。服务器根据这些特征来调整初始音频传输模型的参数,以优化传输性能和音频质量。传输参数的优化可以采用各种优化算法,如梯度下降或遗传算法。接着,服务器生成目标参数策略。这个策略定义了如何根据不同的音频传输监控特征来调整传输系统的参数,以达到最佳性能。例如,如果网络延迟较高,策略可以建议增加数据压缩比率,以减少传输延迟。例如,考虑一个在线音频通信应用,用户可以通过该应用进行实时语音通话。在这种情况下,音频传输的性能至关重要,因为用户需要清晰、实时的语音传输。服务器收集音频传输监控参数,如网络延迟、丢包率和信噪比。通过特征聚类模型,服务器将这些参数聚类成多个特征聚类中心,例如高延迟、低延迟、高丢包率和低丢包率等。服务器将实时监测的音频传输参数映射到最近的特征聚类中心,以获得一组音频传输监控特征。这些特征可以包括“高延迟、低丢包率”或“低延迟、高丢包率”等。服务器采用K-Bins算法将这些特征离散化,例如将延迟特征分为“高延迟”和“低延迟”的两个离散值。基于离散化后的特征,服务器优化音频传输的参数策略。例如,如果特征表明延迟较高,策略可以建议减小音频压缩比率,以提高音频质量。
其中,首先确定目标K值,即要将特征离散化为多少个区间。这个值通常根据特定应用的需求来确定,可以基于问题的性质来选择。例如,服务器假设目标K值为5,即将特征分成5个区间。同时,需要获取涉及音频传输监控特征的最大值和最小值,这可以通过对数据进行扫描或统计来获取。需要计算每个区间的宽度。宽度的计算可以使用以下公式来完成:区间宽度=(最大特征值-最小特征值)/K.这个公式将特征范围均匀地分成K个区间,确保了每个区间的宽度相等。基于计算得到的区间宽度,创建K个区间。这些区间是特征的离散表示,每个区间代表一组特征值的范围。例如,如果最大特征值为100,最小特征值为0,而目标K值为5,则区间宽度为(100-0)/5=20。根据这个宽度,服务器创建5个区间:区间1:0-20、区间2:20-40、区间3:40-60、区间4:60-80、区间5:80-100。对音频传输监控特征进行离散化。对于每个特征值,服务器将其映射到与其所属区间相对应的离散值或区间编号。这样,服务器就获得了离散化的音频传输监控特征。例如,考虑一个音频流媒体应用,需要对音频传输质量进行监控和控制。服务器希望离散化网络延迟这一音频传输监控特征,以便更好地理解不同延迟级别的影响。服务器确定目标K值为4,并获取了网络延迟的最大值和最小值(最大延迟为200毫秒,最小延迟为20毫秒)。服务器计算每个区间的宽度:区间宽度=(最大延迟-最小延迟)/K=(200-20)/4=45毫秒。服务器创建4个区间:区间1:20-65毫秒、区间2:65-110毫秒、区间3:110-155毫秒、区间4:155-200毫秒。对于每个音频传输监控特征,例如某一时刻的网络延迟为75毫秒,服务器将其离散化为"区间2",从而更好地表示延迟水平。这使得服务器根据不同的延迟级别来制定相应的策略,以满足音频流媒体应用的性能要求。
其中,根据离散化的多个音频传输监控特征,使用预置的遗传算法来初始化传输参数策略群体。这个策略群体包含了多个第一候选参数策略,每个策略代表了一组传输参数的设定。对于每个第一候选参数策略,需要计算其策略适应度值C。策略适应度值通常表示了该策略在特定情境下的性能。这个性能可以是音频传输质量、延迟、带宽利用率等。在计算策略适应度值后,需要将其与第一适应度阈值S1和第二适应度阈值S2进行比较。这些阈值的设定取决于问题的性质和目标。如果策略适应度值C小于第一适应度阈值S1,那么该策略被划分至第一参数策略群体;如果第一适应度阈值S1小于策略适应度值C但小于第二适应度阈值S2,那么该策略被划分至第二参数策略群体;如果策略适应度值C大于第二适应度阈值S2,那么该策略被划分至第三参数策略群体。这样,服务器将策略按照其适应度值的不同范围进行分组,以便后续的优化和进化。对于第一参数策略群体和第二参数策略群体,可以进行遗传算法的繁殖、交叉和变异操作,以生成多个第二候选参数策略。这些操作有助于探索更多的策略空间,并提供了更优的传输参数组合。对于多个第二候选参数策略,需要计算它们的策略适应度值,并进行最优化分析。这可以采用目标函数或其他性能评估指标来完成。通过比较不同参数策略的适应度值,可以选择出最佳的目标参数策略。例如,考虑一个音频会议应用,要求在不同网络条件下传输高质量音频。服务器使用遗传算法来优化音频传输参数,以提供最佳的音频质量和实时性。服务器初始化传输参数策略群体,包括一组第一候选参数策略。每个策略包括音频编码器设置、传输协议参数和网络带宽配置等。服务器计算每个策略的策略适应度值,考虑音频质量、延迟和丢包率等因素。服务器将策略适应度值与预设的适应度阈值S1和S2进行比较。例如,假设S1表示音频质量的最低要求,S2表示音频质量的良好水平;如果策略适应度值小于S1,该策略被划分至第一参数策略群体,表示需要重新优化以满足音频质量要求;如果S1小于策略适应度值但小于S2,策略被划分至第二参数策略群体,表示性能可以进一步提高;如果策略适应度值大于S2,策略被划分至第三参数策略群体,表示已经具备良好的性能。服务器对第一参数策略群体和第二参数策略群体进行繁殖、交叉和变异操作,以生成多个第二候选参数策略。这些策略经过优化后,再次计算其适应度值。通过比较第二候选参数策略的适应度值,服务器选择出最佳的目标参数策略,以实现高质量音频的实时传输。
步骤105、根据目标参数策略,对初始音频传输模型进行参数优化,得到目标音频传输模型。
具体的,服务器明确定义目标参数策略。这个策略包括了一系列音频传输参数的设置,如编码器参数、压缩比率、传输协议配置、网络带宽分配等。这些参数将根据应用需求和性能指标来制定。在进行参数优化之前,服务器有一个初始音频传输模型,它包含了一组默认或初始的参数设置。这个初始模型是根据先前的经验或基本规则创建的。参数优化过程是根据目标参数策略,对初始音频传输模型进行调整的关键步骤。需要明确定义音频传输参数的空间,包括每个参数的取值范围和的变化幅度。这有助于确保参数优化在合理的范围内进行。需要定义一个目标函数,用于评估每个参数设置的性能。这个目标函数通常与应用的性能指标相关,如音频质量、延迟、带宽利用率等。目标函数的设计需要反映目标参数策略中的优先级和权重。选择适合的优化算法来搜索参数空间以找到最佳参数设置。常用的算法包括梯度下降、遗传算法、模拟退火等。选择算法时需要考虑参数空间的维度、优化目标的复杂性和计算资源。通过优化算法,在参数空间中搜索并调整参数,以找到最小化或最大化目标函数的参数设置。这个过程涉及多次迭代,每次迭代都尝试不同的参数组合。通过参数优化过程,服务器得到了一个优化后的音频传输模型,它的参数设置满足了目标参数策略中的性能要求。这个模型称为目标音频传输模型。例如,假设服务器有一个音频流媒体应用,要求在不同网络条件下传输高质量的音频。服务器已经确定了目标参数策略,其中包括了以下几个重要参数:音频编码器的比特率、传输协议的选择、音频缓冲大小和网络带宽的分配。服务器有一个初始音频传输模型,其中这些参数都设置为默认值。然而,在某些网络条件下,这些参数不足以满足高质量音频的传输需求。服务器使用参数优化过程来调整这些参数。服务器定义了参数空间,例如比特率可以在50kbps到200kbps之间变化,传输协议可以是UDP或TCP,音频缓冲大小可以在100ms到500ms之间变化,带宽分配可以根据网络情况分配。服务器还定义了一个目标函数,它考虑了音频质量和延迟的权衡。目标函数的目标是最大化音频质量并保持延迟在可接受范围内。服务器选择了一个适当的优化算法,如梯度下降算法。在多次迭代中,算法搜索参数空间,寻找最佳参数设置。在每次迭代中,算法根据目标函数的值来评估参数性能,并调整参数。经过若干次迭代后,服务器得到了一个优化后的音频传输模型,其参数设置可以满足目标参数策略的性能要求。例如,经过优化,服务器得到了一个更高比特率的编码器设置,选择了更适合的传输协议,调整了缓冲大小以及合理分配了带宽。这个优化后的音频传输模型能够在不同网络条件下提供高质量的音频传输,确保音频会话的顺畅和质量稳定。
本发明实施例中,通过音频传输设备接收原始音频信号,并对原始音频信号进行时钟同步和数据传输,得到第一音频信号;将第一音频信号输入音频信号调制模型进行音频信号调制,得到第二音频信号;对预置的初始音频传输模型进行初始化,并通过初始音频传输模型对第二音频信号进行音频信号传输,获取音频传输监控参数;对音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过多个音频传输监控特征进行传输参数优化,生成目标参数策略;根据目标参数策略,对初始音频传输模型进行参数优化,得到目标音频传输模型,本发明通过采用音频信号处理模型和参数优化策略,能够实现高质量的音频传输,减小了音质损失,使得接收端能够还原原始音频的更多细节和质量。采用精密时钟协议支持,提供高度同步的时钟管理,有效解决了网络中的时钟同步问题,确保音频数据的同步性和一致性。通过传输参数优化和特征提取,能够自动适应不同网络条件和应用场景,动态调整传输策略,以最大程度地满足不同需求。采用深度学习中的音频信号处理模型,能够更好地捕捉音频数据中的时序信息,提高了音频内容的理解能力。通过传输参数优化和网络延迟计算,能够降低音频传输的延迟,进而提高了音频的实时传输质量。
在一具体实施例中,执行步骤101的过程可以具体包括如下步骤:
(1)通过预置的音频传输设备接收原始音频信号,并通过音频传输设备启用PTP协议;
(2)根据PTP协议配置音频传输设备对应的主从关系,并根据主从关系确定对应的主时钟源;
(3)根据主时钟源,对音频传输设备进行时钟同步,并基于PTP协议对主时钟源和音频传输设备进行时间戳信息交换,得到交换时间戳信息;
(4)根据交换时间戳信息计算音频传输设备的网络延迟和时钟漂移,并根据网络延迟和时钟漂移对原始音频信号进行数据传输,得到第一音频信号。
具体的,服务器音频传输设备通过预置的硬件和软件配置启用了PTP(PrecisionTime Protocol)协议。PTP是一种网络时钟同步协议,旨在确保网络设备具有高精度的时间同步,以满足实时音频传输的要求。音频传输设备通过PTP协议配置了主从关系。在PTP协议中,有一个主时钟源(Master Clock Source),其他设备被配置为从时钟源(Slave ClockSource)。主时钟源是网络中的时间参考点,它向其他设备提供准确的时间信息。音频传输设备的配置确定了其在网络中的角色,即主或从。当配置完主从关系,音频传输设备开始与主时钟源进行时钟同步。这是通过PTP协议的精确时间戳机制实现的。主时钟源会周期性地向从时钟源发送时间戳信息,从时钟源接收到这些时间戳后,可以调整自身的时钟,以与主时钟源保持一致。在这个过程中,音频传输设备与主时钟源之间进行时间戳信息的交换。这些时间戳包含了网络传输的延迟信息,以及在音频传输设备和主时钟源之间的时钟差异(即时钟漂移)。这些信息非常重要,因为它们可以帮助音频传输设备更好地理解网络延迟和时钟同步情况。当音频传输设备获得了足够的时间戳信息,它可以计算出网络延迟和时钟漂移。网络延迟是音频信号从发送到接收所需的时间,而时钟漂移是音频传输设备时钟与主时钟源之间的时间差。根据计算出的网络延迟和时钟漂移,音频传输设备可以对原始音频信号进行数据传输。这意味着音频信号将在特定时间点被发送和接收,以确保实时性和同步性。传输后,接收端将得到第一音频信号,这是经过时钟同步和延迟校正后的高质量音频信号。例如,假设服务器有一个音频会议系统,其中两个远程会议室需要进行实时音频通信。这两个会议室分别配备了音频传输设备,并且它们通过因特网连接。在这种情况下,保证音频信号的同步和实时性非常关键。每个会议室的音频传输设备配置了PTP协议,其中一个设备被配置为主时钟源(Master Clock),另一个设备被配置为从时钟源(SlaveClock)。主时钟源周期性地向从时钟源发送时间戳信息。从时钟源接收到时间戳后,计算出网络延迟和时钟漂移,以便校正本地时钟。假设在某个时刻,一个会议室的说话者说了一句话。这个声音被录制成原始音频信号,并经过编码后发送到另一个会议室。由于经过PTP协议的时钟同步和延迟校正,接收会议室可以在精确的时间点接收并播放这句话,而不会出现延迟或时钟不同步的问题。这就确保了实时音频通信的顺畅性和质量。
在一具体实施例中,执行音频信号处理方法的过程还可以具体包括如下步骤:
(1)获取训练音频信号以及多个音频信号处理器,并对多个音频信号处理器进行处理器权重初始化,得到每个音频信号处理器对应的第一权重数据;
(2)通过多个音频信号处理器,分别对训练音频信号进行音频信号调制,得到每个音频信号处理器对应的第一训练调制信号;
(3)根据第一权重数据,对每个音频信号处理器输出的第一训练调制信号进行信号融合,得到第二训练调制信号;
(4)计算第二训练调制信号的信号评价指标,并根据信号评价指标对第一权重数据进行权重优化,得到每个音频信号处理器对应的第二权重数据;
(5)根据第二权重数据,对多个音频信号处理器进行模型集成,得到音频信号调制模型。
具体的,服务器获取一组用于训练的音频信号。这些音频信号应该包括各种音频特性,以确保模型可以适应不同类型的音频数据。例如,可以包括语音、音乐和环境声音等。音频信号处理器是模型的关键组成部分,负责将原始音频信号转换为适合传输的形式。在开始训练之前,需要对多个音频信号处理器进行权重初始化。这些权重决定了每个处理器如何调制音频信号。服务器使用训练音频信号和初始化的音频信号处理器来进行训练调制。每个音频信号处理器将原始音频信号转化为调制信号。这些调制信号可以采用不同的形式,具体取决于模型的设计。通过信号融合技术,将多个处理器的输出融合成一个单一的训练调制信号。接着,服务器定义一个信号评价指标,用于衡量训练信号的质量和适用性。这个指标可以包括音频质量、信噪比、失真等方面的度量。根据计算得到的信号评价指标,服务器使用优化算法对每个音频信号处理器的权重进行调整。这个过程旨在优化处理器的性能,以提高训练信号的质量。常见的优化算法包括梯度下降、遗传算法等。通过使用优化后的权重数据,服务器对多个音频信号处理器进行模型集成。服务器将它们组合成一个完整的音频信号调制模型,该模型能够将原始音频信号有效地调制为适合传输的形式。例如,假设服务器正在构建一个音频通信系统,需要将语音信号以高质量进行传输。服务器首先收集了不同类型的训练音频信号,包括清晰的人声、音乐和环境噪声。服务器初始化了三个音频信号处理器,每个处理器负责不同方面的音频调制。例如,一个处理器专注于提高语音清晰度,另一个处理器专注于音乐信号的保真度,第三个处理器处理噪声抑制。服务器将训练音频信号传递给这三个处理器,它们分别生成了调制后的信号。服务器使用信号融合技术将这三个信号合并为一个训练调制信号。服务器定义了一个信号评价指标,例如音频清晰度。服务器发现模型的输出与目标音频信号具有很高的清晰度。服务器使用梯度下降算法对每个处理器的权重进行了微调,以优化音频质量。例如,服务器增加了语音处理器的权重,以提高语音信号的清晰度。通过使用优化后的权重数据,服务器将三个处理器集成到一个音频信号调制模型中,该模型能够根据不同类型的音频信号进行有效调制。这个模型可以用于实时音频传输,确保高质量的音频通信。
在一具体实施例中,执行步骤102的过程可以具体包括如下步骤:
(1)、将第一音频信号输入预置的音频信号调制模型,其中,音频信号调制模型包括多个音频信号处理器,每个音频信号处理器包括:卷积和池化层、第一全连接层、长短时记忆网络及第二全连接层;
(2)、分别通过每个音频信号处理器中的卷积和池化层,对第一音频信号进行卷积运算和池化操作,生成第一特征信号;
(3)、分别通过每个音频信号处理器中的第一全连接层,对第一特征信号进行特征映射,得到高维特征空间中的第一特征信号;
(4)、分别通过每个音频信号处理器中的长短时记忆网络,对高维特征空间中的第一特征信号进行时序信息和长距离依赖关系提取,得到第二特征信号;
(5)、分别通过每个音频信号处理器中的第二全连接层,对第二特征信号进行音频信号输出,得到初始输出信号;
(6)、根据第二权重数据,对初始输出信号进行信号融合,得到第二音频信号。
具体的,服务器构建一个包含多个音频信号处理器的模型。每个音频信号处理器包括卷积和池化层、第一全连接层、LSTM层以及第二全连接层。这些层用于对输入音频信号进行不同层次的特征提取和信号调制。服务器将第一音频信号输入到构建好的音频信号调制模型中。第一音频信号通常是原始音频信号或经过一些预处理的信号。在每个音频信号处理器中,第一步是通过卷积和池化层对输入音频信号进行卷积运算和池化操作。这有助于提取音频信号的局部特征。通过第一全连接层对卷积和池化层的输出进行特征映射。这一步将高维的卷积特征转换为更具抽象性的特征表示。LSTM层是音频信号处理器中的关键组成部分。它用于处理高维特征空间中的第一特征信号,以提取时序信息和长距离依赖关系。这对于音频信号的建模非常重要,特别是在涉及到连续的音频数据时。在LSTM层之后,通过第二全连接层对第二特征信号进行处理,以进一步提取音频信号的信息。根据第二权重数据,对每个音频信号处理器的初始输出信号进行信号融合。这一步骤有助于将不同处理器的输出合并为一个单一的第二音频信号。信号融合可以采用加权平均、拼接或其他技术来完成,具体取决于模型的设计和要达到的目标。例如,考虑一个语音识别系统,需要将说话者的语音信号转换为文本。服务器构建了音频信号调制模型,该模型包括卷积和池化层、全连接层、LSTM层和另一个全连接层。服务器输入说话者的语音信号,这是第一音频信号。卷积和池化层对语音信号进行局部特征提取,第一全连接层进行特征映射,LSTM层提取时序信息,第二全连接层进一步处理特征。根据第二权重数据,服务器对每个音频信号处理器的输出信号进行信号融合。这个融合后的信号包含了来自不同处理器的信息,可以用于语音识别任务,将语音信号转换为文本。
在一具体实施例中,执行步骤104的过程可以具体包括如下步骤:
(1)、将音频传输监控参数输入预置的特征聚类模型,通过特征聚类模型计算音频传输监控参数对应的多个特征聚类中心;
(2)、根据多个特征聚类中心对音频传输监控参数进行传输特征聚类,得到多个音频传输监控特征;
(3)、采用K-Bins算法,对多个音频传输监控特征进行特征离散化,得到离散化的多个音频传输监控特征;
(4)、根据离散化的多个音频传输监控特征,对初始音频传输模型进行传输参数优化,生成对应的目标参数策略。
具体的,服务器将音频传输监控参数输入到预置的特征聚类模型中。这个模型旨在将监控参数进行聚类,以便将它们划分为不同的特征聚类中心。这可以通过聚类算法,如K均值聚类或层次聚类来完成。通过特征聚类模型,服务器计算得到音频传输监控参数对应的多个特征聚类中心。这些中心代表了不同的特征簇,每个簇包含了具有相似特性的监控参数。服务器将音频传输监控参数根据多个特征聚类中心进行特征聚类。这一步骤将每个监控参数分配到最接近的特征簇中,以便后续的离散化。特征聚类后,服务器采用K-Bins算法对多个音频传输监控特征进行特征离散化。K-Bins算法旨在将连续的特征值划分为K个不同的离散区间。这有助于将连续特征转化为离散的值,以便更好地理解和处理。根据离散化的多个音频传输监控特征,服务器对初始音频传输模型进行传输参数优化。这可以涉及调整模型的超参数、权重或结构,以适应不同特征值的情况。通过这个优化过程,服务器生成了对应于不同特征值情况的目标参数策略,以最大程度地提高音频传输的质量和实时性。例如,假设服务器正在构建一个音频会议系统,需要在不同网络条件下实现高质量音频传输。服务器收集了各种音频传输监控参数,如网络带宽、延迟、丢包率等。这些参数的值在不同的网络环境下变化,因此服务器希望根据这些参数的特性来优化音频传输。服务器将这些监控参数输入特征聚类模型,例如K均值聚类。模型计算得到多个特征聚类中心,代表不同网络条件的特性。服务器对每个监控参数进行特征聚类,将它们分配到最接近的特征簇中。例如,某个网络环境下的延迟参数被分配到表示高延迟特性的簇中。服务器使用K-Bins算法对每个特征簇中的监控参数进行特征离散化。这将生成一组离散的特征值,以表示不同网络条件下的音频传输特性。根据离散化的特征值,服务器对初始音频传输模型进行参数优化。例如,服务器调整音频编码器的比特率、网络丢包纠正策略或音频质量控制算法,以适应不同的网络特性。这样,服务器生成了目标参数策略,可以在实时音频传输中根据网络条件进行自适应调整,以提供高质量音频体验。
在一具体实施例中,执行步骤采用K-Bins算法,对多个音频传输监控特征进行特征离散化,得到离散化的多个音频传输监控特征的过程可以具体包括如下步骤:
(1)、根据多个音频传输监控特征确定对应的目标K值,同时,获取多个音频传输监控特征的最大特征值和最小特征值;
(2)、根据目标K值、最大特征值和最小特征值,计算每个区间的宽度,并根据每个区间的宽度,创建目标K值对应的K个区间;
(3)、根据K个区间,对多个音频传输监控特征进行离散化,得到离散化的多个音频传输监控特征。
具体的,服务器确定目标K值,服务器希望将特征值分成的离散区间数量。同时,服务器获取多个音频传输监控特征的最大特征值和最小特征值。根据目标K值、最大特征值和最小特征值,计算每个区间的宽度。这可以通过以下公式来计算:区间宽度=(最大特征值-最小特征值)/K。这将确定了如何将特征值的范围划分为K个均匀的区间。根据计算得到的区间宽度,服务器创建K个区间。这些区间将覆盖特征值的整个范围,确保每个值都可以映射到一个特定的区间。服务器对多个音频传输监控特征进行特征离散化。对于每个特征,服务器将其值映射到对应的区间。具体的映射方式是将特征值减去最小特征值,然后除以区间宽度,以确定特征值所在的区间。这将生成一组离散化的特征值,每个值对应一个区间。例如,假设服务器有三个不同的音频传输监控特征:带宽、延迟和丢包率。服务器希望将这些特征离散化为5个区间,以便更好地理解它们的影响。服务器确定目标K值为5,并获取带宽、延迟和丢包率的最大特征值和最小特征值。计算区间宽度,例如:带宽区间宽度=(最大带宽值-最小带宽值)/5、延迟区间宽度=(最大延迟值-最小延迟值)/5、丢包率区间宽度=(最大丢包率值-最小丢包率值)/5。服务器创建5个区间,每个区间覆盖了对应特征的范围。例如,带宽区间可以是:0-2Mbps、2-4Mbps、4-6Mbps、6-8Mbps、8-10Mbps。对于每个特征,服务器将其实际值映射到对应的区间。例如,如果某个音频传输监控特征的延迟值为3ms,那么它将被映射到延迟区间“2-4ms”。
在一具体实施例中,执行步骤根据离散化的多个音频传输监控特征,对初始音频传输模型进行传输参数优化,生成对应的目标参数策略的过程可以具体包括如下步骤:
(1)根据离散化的多个音频传输监控特征,并通过预置的遗传算法对初始音频传输模型进行传输参数策略群体初始化,生成初始化传输参数策略群体,其中,初始化传输参数策略群体包括多个第一候选参数策略;
(2)分别计算每个第一候选参数策略的策略适应度值C,并对策略适应度值C与第一适应度阈值S1和第二适应度阈值S2进行比较,其中,第一适应度阈值S1<第二适应度阈值S2;
(3)若策略适应度值C<第一适应度阈值S1,则将对应的第一候选参数策略划分至第一参数策略群体,若第一适应度阈值S1<策略适应度值C<第二适应度阈值S2,则将对应的第一候选参数策略划分至第二参数策略群体,若第二适应度阈值S2<策略适应度值C,则将对应的第一候选参数策略划分至第三参数策略群体;
(4)对第一参数策略群体和第二参数策略群体进行繁殖、交叉和变异,并对第三参数策略群体进行交叉和变异,得到多个第二候选参数策略;
(5)对多个第二候选参数策略进行策略适应度计算和最优化分析,生成对应的目标参数策略。
具体的,使用预置的遗传算法进行传输参数策略的初始化。这包括创建一个初始的参数策略群体,其中包含多个第一候选参数策略。每个第一候选参数策略代表了一组音频传输参数的初始设定。针对每个第一候选参数策略,需要计算其策略适应度值C。策略适应度值可以根据特定的评价标准和性能指标来计算,这些指标包括音频传输质量、网络带宽利用率、延迟等等。适应度值的计算应该与目标参数策略的要求和应用场景相匹配。根据计算得到的策略适应度值C,将第一候选参数策略划分到不同的参数策略群体中。通常,会设定两个适应度阈值:第一适应度阈值S1和第二适应度阈值S2,其中S1<S2。划分规则如下:若策略适应度值C<第一适应度阈值S1,则将该策略划分至第一参数策略群体;若第一适应度阈值S1<策略适应度值C<第二适应度阈值S2,则将该策略划分至第二参数策略群体;若第二适应度阈值S2<策略适应度值C,则将该策略划分至第三参数策略群体。这个划分过程根据策略的性能,将策略归入不同的群体,以便后续进行繁殖、交叉和变异操作。对于第一参数策略群体和第二参数策略群体,执行遗传算法的繁殖、交叉和变异操作,以生成多个第二候选参数策略。这些操作有助于引入多样性和逐步优化策略。对于每个第二候选参数策略,计算其策略适应度值,并与原始策略进行比较。根据特定的遗传算法策略(如选择最佳适应度策略或者根据概率选择策略)来选择下一代的参数策略。通过多代遗传算法迭代,最终可以得到一组优化的目标参数策略,这些策略在所设定的适应度指标下具有较好的性能。例如,假设服务器要优化音频传输系统的参数策略,以最小化音频丢失率。服务器有三个第一候选参数策略,每个策略包含不同的音频传输参数设置。服务器设置第一适应度阈值S1为0.1,第二适应度阈值S2为0.3。第一个策略的音频丢失率为0.05,适应度值C=0.05;第二个策略的音频丢失率为0.15,适应度值C=0.15;第三个策略的音频丢失率为0.25,适应度值C=0.25。根据阈值设定,第一个策略将被划分至第一参数策略群体,第二策略将被划分至第二参数策略群体,第三策略将被划分至第三参数策略群体。对第一参数策略群体和第二参数策略群体执行遗传算法的繁殖、交叉和变异操作,以生成第二候选参数策略。对每个第二候选参数策略计算音频丢失率,并选择最佳策略或者根据适应度值概率选择策略,以形成下一代的参数策略。通过多次迭代,最终可以找到一组音频传输参数策略,这些策略在音频丢失率方面优化,从而提高了音频传输的质量。
上面对本发明实施例中音频信号处理方法进行了描述,下面对本发明实施例中音频信号处理方系统进行描述,请参阅图2,本发明实施例中音频信号处理方系统一个实施例包括:
接收模块201,用于通过预置的音频传输设备接收原始音频信号,并对所述原始音频信号进行时钟同步和数据传输,得到第一音频信号;
调制模块202,用于将所述第一音频信号输入预置的音频信号调制模型,并通过所述音频信号调制模型中的多个音频信号处理器进行音频信号调制,得到第二音频信号;
传输模块203,用于对预置的初始音频传输模型进行初始化,并通过预置的初始音频传输模型对所述第二音频信号进行音频信号传输,获取对应的音频传输监控参数;
提取模块204,用于对所述音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过所述多个音频传输监控特征进行传输参数优化,生成目标参数策略;
优化模块205,用于根据所述目标参数策略,对所述初始音频传输模型进行参数优化,得到目标音频传输模型。
通过上述各个组成部分的协同合作,通过音频传输设备接收原始音频信号,并对原始音频信号进行时钟同步和数据传输,得到第一音频信号;将第一音频信号输入音频信号调制模型进行音频信号调制,得到第二音频信号;对预置的初始音频传输模型进行初始化,并通过初始音频传输模型对第二音频信号进行音频信号传输,获取音频传输监控参数;对音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过多个音频传输监控特征进行传输参数优化,生成目标参数策略;根据目标参数策略,对初始音频传输模型进行参数优化,得到目标音频传输模型,本发明通过采用音频信号处理模型和参数优化策略,能够实现高质量的音频传输,减小了音质损失,使得接收端能够还原原始音频的更多细节和质量。采用精密时钟协议支持,提供高度同步的时钟管理,有效解决了网络中的时钟同步问题,确保音频数据的同步性和一致性。通过传输参数优化和特征提取,能够自动适应不同网络条件和应用场景,动态调整传输策略,以最大程度地满足不同需求。采用深度学习中的音频信号处理模型,能够更好地捕捉音频数据中的时序信息,提高了音频内容的理解能力。通过传输参数优化和网络延迟计算,能够降低音频传输的延迟,进而提高了音频的实时传输质量。
本发明还提供一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述音频信号处理方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述音频信号处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种音频信号处理方法,其特征在于,所述音频信号处理方法包括:
通过预置的音频传输设备接收原始音频信号,并对所述原始音频信号进行时钟同步和数据传输,得到第一音频信号;
将所述第一音频信号输入预置的音频信号调制模型,并通过所述音频信号调制模型中的多个音频信号处理器进行音频信号调制,得到第二音频信号;
对预置的初始音频传输模型进行初始化,并通过预置的初始音频传输模型对所述第二音频信号进行音频信号传输,获取对应的音频传输监控参数;
对所述音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过所述多个音频传输监控特征进行传输参数优化,生成目标参数策略;具体包括:将所述音频传输监控参数输入预置的特征聚类模型,通过所述特征聚类模型计算所述音频传输监控参数对应的多个特征聚类中心;根据所述多个特征聚类中心对所述音频传输监控参数进行传输特征聚类,得到多个音频传输监控特征;采用K-Bins算法,对所述多个音频传输监控特征进行特征离散化,得到离散化的多个音频传输监控特征;根据所述离散化的多个音频传输监控特征,对所述初始音频传输模型进行传输参数优化,生成对应的目标参数策略;其中,生成对应的目标参数策略,包括:根据所述离散化的多个音频传输监控特征,并通过预置的遗传算法对所述初始音频传输模型进行传输参数策略群体初始化,生成初始化传输参数策略群体,其中,所述初始化传输参数策略群体包括多个第一候选参数策略;分别计算每个第一候选参数策略的策略适应度值C,并对所述策略适应度值C与第一适应度阈值S1和第二适应度阈值S2进行比较,其中,第一适应度阈值S1<第二适应度阈值S2;若策略适应度值C<第一适应度阈值S1,则将对应的第一候选参数策略划分至第一参数策略群体,若第一适应度阈值S1<策略适应度值C<第二适应度阈值S2,则将对应的第一候选参数策略划分至第二参数策略群体,若第二适应度阈值S2<策略适应度值C,则将对应的第一候选参数策略划分至第三参数策略群体;对所述第一参数策略群体和所述第二参数策略群体进行繁殖、交叉和变异,并对所述第三参数策略群体进行交叉和变异,得到多个第二候选参数策略;对所述多个第二候选参数策略进行策略适应度计算和最优化分析,生成对应的目标参数策略;
根据所述目标参数策略,对所述初始音频传输模型进行参数优化,得到目标音频传输模型。
2.根据权利要求1所述的音频信号处理方法,其特征在于,所述通过预置的音频传输设备接收原始音频信号,并对所述原始音频信号进行时钟同步和数据传输,得到第一音频信号,包括:
通过预置的音频传输设备接收原始音频信号,并通过所述音频传输设备启用PTP协议;
根据所述PTP协议配置所述音频传输设备对应的主从关系,并根据所述主从关系确定对应的主时钟源;
根据所述主时钟源,对所述音频传输设备进行时钟同步,并基于所述PTP协议对所述主时钟源和所述音频传输设备进行时间戳信息交换,得到交换时间戳信息;
根据所述交换时间戳信息计算所述音频传输设备的网络延迟和时钟漂移,并根据所述网络延迟和所述时钟漂移对所述原始音频信号进行数据传输,得到第一音频信号。
3.根据权利要求1所述的音频信号处理方法,其特征在于,所述音频信号处理方法还包括:
获取训练音频信号以及多个音频信号处理器,并对所述多个音频信号处理器进行处理器权重初始化,得到每个音频信号处理器对应的第一权重数据;
通过所述多个音频信号处理器,分别对所述训练音频信号进行音频信号调制,得到每个音频信号处理器对应的第一训练调制信号;
根据所述第一权重数据,对每个音频信号处理器输出的第一训练调制信号进行信号融合,得到第二训练调制信号;
计算所述第二训练调制信号的信号评价指标,并根据所述信号评价指标对所述第一权重数据进行权重优化,得到每个音频信号处理器对应的第二权重数据;
根据所述第二权重数据,对所述多个音频信号处理器进行模型集成,得到音频信号调制模型。
4.根据权利要求3所述的音频信号处理方法,其特征在于,所述将所述第一音频信号输入预置的音频信号调制模型,并通过所述音频信号调制模型中的多个音频信号处理器进行音频信号调制,得到第二音频信号,包括:
将所述第一音频信号输入预置的音频信号调制模型,其中,所述音频信号调制模型包括多个音频信号处理器,每个音频信号处理器包括:卷积和池化层、第一全连接层、长短时记忆网络及第二全连接层;
分别通过每个音频信号处理器中的卷积和池化层,对所述第一音频信号进行卷积运算和池化操作,生成第一特征信号;
分别通过每个音频信号处理器中的第一全连接层,对所述第一特征信号进行特征映射,得到高维特征空间中的第一特征信号;
分别通过每个音频信号处理器中的长短时记忆网络,对所述高维特征空间中的第一特征信号进行时序信息和长距离依赖关系提取,得到第二特征信号;
分别通过每个音频信号处理器中的第二全连接层,对所述第二特征信号进行音频信号输出,得到初始输出信号;
根据所述第二权重数据,对所述初始输出信号进行信号融合,得到第二音频信号。
5.根据权利要求1所述的音频信号处理方法,其特征在于,所述采用K-Bins算法,对所述多个音频传输监控特征进行特征离散化,得到离散化的多个音频传输监控特征,包括:
根据所述多个音频传输监控特征确定对应的目标K值,同时,获取所述多个音频传输监控特征的最大特征值和最小特征值;
根据所述目标K值、所述最大特征值和所述最小特征值,计算每个区间的宽度,并根据每个区间的宽度,创建所述目标K值对应的K个区间;
根据所述K个区间,对所述多个音频传输监控特征进行离散化,得到离散化的多个音频传输监控特征。
6.一种音频信号处理系统,其特征在于,所述音频信号处理系统包括:
接收模块,用于通过预置的音频传输设备接收原始音频信号,并对所述原始音频信号进行时钟同步和数据传输,得到第一音频信号;
调制模块,用于将所述第一音频信号输入预置的音频信号调制模型,并通过所述音频信号调制模型中的多个音频信号处理器进行音频信号调制,得到第二音频信号;
传输模块,用于对预置的初始音频传输模型进行初始化,并通过预置的初始音频传输模型对所述第二音频信号进行音频信号传输,获取对应的音频传输监控参数;
提取模块,用于对所述音频传输监控参数进行传输特征提取,得到多个音频传输监控特征,并通过所述多个音频传输监控特征进行传输参数优化,生成目标参数策略;具体包括:将所述音频传输监控参数输入预置的特征聚类模型,通过所述特征聚类模型计算所述音频传输监控参数对应的多个特征聚类中心;根据所述多个特征聚类中心对所述音频传输监控参数进行传输特征聚类,得到多个音频传输监控特征;采用K-Bins算法,对所述多个音频传输监控特征进行特征离散化,得到离散化的多个音频传输监控特征;根据所述离散化的多个音频传输监控特征,对所述初始音频传输模型进行传输参数优化,生成对应的目标参数策略;其中,生成对应的目标参数策略,包括:根据所述离散化的多个音频传输监控特征,并通过预置的遗传算法对所述初始音频传输模型进行传输参数策略群体初始化,生成初始化传输参数策略群体,其中,所述初始化传输参数策略群体包括多个第一候选参数策略;分别计算每个第一候选参数策略的策略适应度值C,并对所述策略适应度值C与第一适应度阈值S1和第二适应度阈值S2进行比较,其中,第一适应度阈值S1<第二适应度阈值S2;若策略适应度值C<第一适应度阈值S1,则将对应的第一候选参数策略划分至第一参数策略群体,若第一适应度阈值S1<策略适应度值C<第二适应度阈值S2,则将对应的第一候选参数策略划分至第二参数策略群体,若第二适应度阈值S2<策略适应度值C,则将对应的第一候选参数策略划分至第三参数策略群体;对所述第一参数策略群体和所述第二参数策略群体进行繁殖、交叉和变异,并对所述第三参数策略群体进行交叉和变异,得到多个第二候选参数策略;对所述多个第二候选参数策略进行策略适应度计算和最优化分析,生成对应的目标参数策略;
优化模块,用于根据所述目标参数策略,对所述初始音频传输模型进行参数优化,得到目标音频传输模型。
7.一种计算机设备,其特征在于,所述计算机设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行如权利要求1-5中任一项所述的音频信号处理方法。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-5中任一项所述的音频信号处理方法。
CN202311708910.0A 2023-12-13 2023-12-13 音频信号处理方法、系统、计算机设备及存储介质 Active CN117409794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311708910.0A CN117409794B (zh) 2023-12-13 2023-12-13 音频信号处理方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311708910.0A CN117409794B (zh) 2023-12-13 2023-12-13 音频信号处理方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN117409794A CN117409794A (zh) 2024-01-16
CN117409794B true CN117409794B (zh) 2024-03-15

Family

ID=89494741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311708910.0A Active CN117409794B (zh) 2023-12-13 2023-12-13 音频信号处理方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117409794B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117793078B (zh) * 2024-02-27 2024-05-07 腾讯科技(深圳)有限公司 一种音频数据的处理方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
CN108495182A (zh) * 2018-03-23 2018-09-04 山西大学 一种音频质量自调整控制方法
CN113555031A (zh) * 2021-07-30 2021-10-26 北京达佳互联信息技术有限公司 语音增强模型的训练方法及装置、语音增强方法及装置
CN116112720A (zh) * 2023-02-09 2023-05-12 伟乐视讯科技股份有限公司 一种基于ptp网络同步的超高清音视频同步系统
CN116741155A (zh) * 2023-05-23 2023-09-12 北京达佳互联信息技术有限公司 语音识别方法、语音识别模型的训练方法、装置及设备
CN116959469A (zh) * 2023-08-17 2023-10-27 腾讯科技(北京)有限公司 语音增强模型的训练方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100629997B1 (ko) * 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
TWI390503B (zh) * 2009-11-19 2013-03-21 Gemtek Technolog Co Ltd Dual channel voice transmission system, broadcast scheduling design module, packet coding and missing sound quality damage estimation algorithm

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
CN108495182A (zh) * 2018-03-23 2018-09-04 山西大学 一种音频质量自调整控制方法
CN113555031A (zh) * 2021-07-30 2021-10-26 北京达佳互联信息技术有限公司 语音增强模型的训练方法及装置、语音增强方法及装置
CN116112720A (zh) * 2023-02-09 2023-05-12 伟乐视讯科技股份有限公司 一种基于ptp网络同步的超高清音视频同步系统
CN116741155A (zh) * 2023-05-23 2023-09-12 北京达佳互联信息技术有限公司 语音识别方法、语音识别模型的训练方法、装置及设备
CN116959469A (zh) * 2023-08-17 2023-10-27 腾讯科技(北京)有限公司 语音增强模型的训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN117409794A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN117409794B (zh) 音频信号处理方法、系统、计算机设备及存储介质
WO2021143327A1 (zh) 语音识别方法、装置和计算机可读存储介质
US9818431B2 (en) Multi-speaker speech separation
Charonyktakis et al. On user-centric modular QoE prediction for VoIP based on machine-learning algorithms
CN106782497B (zh) 一种基于便携式智能终端的智能语音降噪算法
WO2022213787A1 (zh) 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品
CN114338623B (zh) 音频的处理方法、装置、设备及介质
CN117440440B (zh) 一种蓝牙耳机低延迟传输方法
US20240267682A1 (en) Method of operating a hearing aid system and a hearing aid system
CN114500561A (zh) 电力物联网网络资源分配决策方法、系统、设备及介质
CN113035207A (zh) 音频处理方法及装置
CN111142066A (zh) 波达方向估计方法、服务器以及计算机可读存储介质
CN117009053A (zh) 边缘计算系统的任务处理方法及相关设备
CN116647780A (zh) 一种用于蓝牙耳机的降噪控制系统及方法
El Hajal et al. Efficient speech quality assessment using self-supervised framewise embeddings
Wu et al. FedProf: Optimizing federated learning with dynamic data profiling
de la Hucha Arce et al. Adaptive Quantization for Multichannel Wiener Filter‐Based Speech Enhancement in Wireless Acoustic Sensor Networks
CN108417198A (zh) 一种基于频谱包络和基音周期的男女语音转换方法
CN111951821A (zh) 通话方法和装置
CN116798434A (zh) 一种基于人声特质的通信增强方法、系统及存储介质
Venayagamoorthy et al. Comparison of nonuniform optimal quantizer designs for speech coding with adaptive critics and particle swarm
CN114286274A (zh) 音频处理方法、装置、设备和存储介质
CN114333846A (zh) 发声者识别方法、装置、电子设备和存储介质
CN116866321B (zh) 一种无中心多路声音一致性选择方法及系统
Aleksić et al. Analysis and design of robust quasilogarithmic quantizer for the purpose of traffic optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant