CN114863940B - 音质转换的模型训练方法、提升音质的方法、装置及介质 - Google Patents

音质转换的模型训练方法、提升音质的方法、装置及介质 Download PDF

Info

Publication number
CN114863940B
CN114863940B CN202210781647.7A CN202210781647A CN114863940B CN 114863940 B CN114863940 B CN 114863940B CN 202210781647 A CN202210781647 A CN 202210781647A CN 114863940 B CN114863940 B CN 114863940B
Authority
CN
China
Prior art keywords
tone
quality
training
mass spectrum
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210781647.7A
Other languages
English (en)
Other versions
CN114863940A (zh
Inventor
李强
王尧
叶东翔
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202210781647.7A priority Critical patent/CN114863940B/zh
Publication of CN114863940A publication Critical patent/CN114863940A/zh
Application granted granted Critical
Publication of CN114863940B publication Critical patent/CN114863940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音质转换的模型训练方法、提升音质的方法、装置及介质,属于音频编解码技术领域。该方法主要包括:根据高码率与低码率分别对高音质音频进行特征提取获取训练高音质谱系数与训练低音质谱系数;将训练低音质谱系数输入预设的神经网络模型输出转换高音质谱系数,计算高音质谱系数与转换高音质谱系数的差值;根据差值训练神经网络模型获得音质转换模型。通过提供音质转换模型无需对低音质音频进行额外的编解码,在蓝牙无线设备装置自身的解码装置中加入音质转换模型,将质量不佳的低音质音频转换为高音质音频输出,使得即使在地铁、飞机场等干扰较多的场合,无线链路质量不佳的状况下,也能获取音质较高的音频,提高用户体验感。

Description

音质转换的模型训练方法、提升音质的方法、装置及介质
技术领域
本申请涉及音频编解码技术领域,特别涉及一种音质转换的模型训练方法、提升音质的方法、装置及介质。
背景技术
由于在音频播放前,手机、平板电脑、蓝牙发射器等蓝牙发射端与蓝牙耳机等蓝牙接收端之间通信的相关参数,根据该蓝牙发射端与该蓝牙接收端所在环境得无线链路的质量确定,其中相关参数包括但不限于音频压缩的码率;无线链路的质量与相关参数的大小呈正相关,即无线链路的质量高,则为音频压缩设置较高的码率,无线链路的质量低,则为音频压缩设置较低的码率;较高的码率则意味着该蓝牙发射端与该蓝牙接收端在传输音频的过程中,音质的损失较小。
然而,由于所述的环境不同,对应的无限链路质量的高低不同;其中,在蓝牙通信设备较多的环境中,例如地铁、飞机场、火车站等人员密集、蓝牙设备较多的场所,无线链路的质量较低,导致蓝牙接收端播放的音频的音质降低,影响用户体验。
在相关技术中涉及音质受损的场景多为在不同声道中转换音频时,使得音频的音质受损,或多个蓝牙设备同时与同一辆车辆进行蓝牙传输时导致的音质受损的情况,因此其解决的技术问题也是针对于上述的特定场景而言的音质提升,而对上述场景所适用的音质提升的方法并不适用与本方案所在的场景,直接套用在本方案所使用的场景中,并不能有效的实现音质提升的效果。因此,需要一种适用于本方案的音质提升的方法。
发明内容
针对现有技术存在的在蓝牙通信设备较多的环境中,无线链路的质量较低,导致蓝牙接收端播放的音频的音质降低,影响用户体验的问题,本申请主要提供一种音质转换的模型训练方法、提升音质的方法、装置及介质。
为了实现上述目的,本申请采用的一个技术方案是:提供一种音质转换的模型训练方法,其包括:根据预设的高码率与预设的低码率分别对预设的高音质音频进行特征提取,获取高音质音频分别对应的训练高音质谱系数与训练低音质谱系数;将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值;以及根据差值对神经网络模型进行训练,获得音质转换模型。
本申请采用的另一个技术方案是:提供一种提升音质的方法,其包括:利用标准的LC3解码器对蓝牙接收器接收到的低音质码流进行解码,直至变换域噪声整形模块输出低音质码流对应的低音质谱系数,其中低音质码流为码率小于预设码率的码流;将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,根据预设的高码率与预设的低码率分别对预设的高音质音频进行特征提取,获取预设的高音质音频分别对应的训练高音质谱系数与训练低音质谱系数;将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值,以及根据差值对神经网络模型进行训练,获得音质转换模型;以及利用标准的LC3解码器对高音质谱系数对应的高音质码流进行剩余的解码步骤,获取低音质码流对应的高音质音频。
本申请采用的另一个技术方案是:提供一种提升音质的装置,其包括:低音质谱系数获取模块,其用于利用标准的LC3解码器,对蓝牙接收器接收到的低音质码流进行解码,直至变换域噪声整形模块输出低音质码流对应的低音质谱系数,其中低音质码流为码率小于预设码率的码流;音质提升模块,其用于将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,特征提取模块,根据预设的高码率与预设的低码率分别对预设的高音质音频进行特征提取,获取预设的高音质音频分别对应的训练高音质谱系数与训练低音质谱系数; 神经网络模块,其用于将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数;差值计算模块,其用于计算训练高音质谱系数与转换高音质谱系数之间的差值,以及模型获取模块,根据差值对神经网络模型进行训练,获得音质转换模型;以及高音质音频获取模块,其用于利用标准的LC3解码器,对高音质谱系数进行剩余的解码步骤,获取低音质码流对应的高音质音频。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的音质转换的模型训练方法或方案三种的提升音质的方法。
本申请采用的另一个技术方案是:提供一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行方案一中的音质转换的模型训练方法或方案三种的提升音质的方法。
本申请的技术方案可以达到的有益效果是:通过提供一种音质转换模型,无需对低音质音频进行额外的编解码,通过在蓝牙无线设备装置自身的解码装置中加入上述音质转换模型,将质量不佳的低音质音频转换为高音质音频输出,以低复杂度实现即使在地铁、飞机场、火车站等蓝牙设备较多,导致干扰较多的场合,无线链路质量不佳的状况下,也能获取音质较高的音频,提高用户体验感。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种音质转换的模型训练方法的一个可选实施方式的示意图;
图2是本申请一种提升音质的方法的一个可选实施方式的示意图;
图3是本申请一种提升音质的装置的一个可选实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由于在音频播放前,手机、平板电脑、蓝牙发射器等蓝牙发射端与蓝牙耳机等蓝牙接收端之间通信的相关参数,根据该蓝牙发射端与该蓝牙接收端所在环境得无线链路的质量确定,其中相关参数包括但不限于音频压缩的码率;无线链路的质量与相关参数的大小呈正相关,即无线链路的质量高,则为音频压缩设置较高的码率,无线链路的质量低,则为音频压缩设置较低的码率;较高的码率则意味着该蓝牙发射端与该蓝牙接收端在传输音频的过程中,音质的损失较小。
然而,由于所述的环境不同,对应的无限链路质量的高低不同;其中,在蓝牙通信设备较多的环境中,例如地铁、飞机场、火车站等人员密集、蓝牙设备较多的场所,无线链路的质量较低,导致蓝牙接收端播放的音频的音质降低,影响用户体验。
在相关技术中涉及音质受损的场景多为在不同声道中转换音频时,使得音频的音质受损,或多个蓝牙设备同时与同一辆车辆进行蓝牙传输时导致的音质受损的情况,因此其解决的技术问题也是针对于上述的特定场景而言的音质提升,而对上述场景所适用的音质提升的方法并不适用与本方案所在的场景,直接套用在本方案所使用的场景中,并不能有效的实现音质提升的效果。因此,需要一种适用于本方案的音质提升的方法。
针对现有技术存在的在蓝牙通信设备较多的环境中,无线链路的质量较低,导致蓝牙接收端播放的音频的音质降低,影响用户体验的问题,本申请主要提供一种音质转换的模型训练方法、提升音质的方法、装置及介质。该音质转换的模型训练方法包括:根据预设的高码率与预设的低码率分别对预设的高音质音频进行特征提取,获取高音质音频分别对应的训练高音质谱系数与训练低音质谱系数;将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值;以及根据差值对神经网络模型进行训练,获得音质转换模型。
通过提供一种音质转换模型,无需对低音质音频进行额外的编解码,通过在蓝牙无线设备装置自身的解码装置中加入上述音质转换模型,将质量不佳的低音质音频转换为高音质音频输出,使得即使在地铁、飞机场、火车站等蓝牙设备较多,导致干扰较多的场合,无线链路质量不佳的状况下,也能获取音质较高的音频,提高用户体验感。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种音质转换的模型训练方法的一个可选实施方式。
在图1所示的可选实施方式中,音质转换的模型训练方法主要包括步骤S101,根据预设的高码率与预设的低码率分别对预设的高音质音频进行特征提取,获取高音质音频分别对应的训练高音质谱系数与训练低音质谱系数。本方案利用高音质音频分别获取该高音质音频对应的训练高音质谱系数与训练低音质谱系数,其中将训练高音质谱系数作为本方案中音质转换的目标音质对应的音频的谱系数,将训练低音质谱系数作为蓝牙设备较多,导致干扰较多的状况造成的音质降低后的音频的谱系数。为后续的步骤提供基础。
在该可选实施方式中,将预设的高音质音频作为标准的高音质音频,其中预设的高音质音频为在音频传输过程中音质损失在预设范围内的音频。预设的高音质音频可以基于公开的音频数据集或用户自身录制,本方案对高音质音频的信息内容以及来源不做限制,只需保证高音质音频的音质符合本方案所述的高音质的标准即可。
优选地,以48kHz采样率的音频为例,在该采样率下的音频可将带宽为24kHz的音频作为上述的高音质音频。
在本申请的一个可选实施例中,对预设的高音质音频进行特征提取,获取高音质音频分别对应的训练高音质谱系数与训练低音质谱系数,进一步包括:根据高码率与低码率分别对高音质音频进行编码,获取高音质音频分别对应的训练高音质码流与训练低音质码流,其中,低码率小于高码率;利用标准的LC3解码器对训练高音质码流与训练低音质码流分别进行解码,直至变换域噪声整形模块输出训练高音质谱系数与训练低音质谱系数。
在该可选实施例中,预设的高码率,即与上述所述的在音频传输过程中音质损失在预设范围内的音频对应的传输码率;以高码率利用标准的LC3编码器对该高音质音频进行编码,获取训练高音质码流,再利用标准的LC3解码器对该训练高音质码流进行部分解码,解码至变换域噪声整形模块获取该高音质码流对应的训练高音质谱系数。本方案基于高码率对该高音质音频进行编解码,以将对该高音质音频编解码获取的训练高音质谱系数作为目标音质的音频对应的谱系数,为后续的对比等步骤提供基础。
在该可选实施例中,预设的低码率,即与上述在音频传输过程中音质损失超出预设范围的音频对应的传输码率;以低码率利用标准的LC3编码器对该高音质音频进行编码,获取训练低音质码流,再利用标准的LC3解码器对该训练低音质码流进行部分解码,解码至变换域噪声整形模块获取该训练低音质码流对应的训练低音质谱系数。本方案基于低码率对该高音质音频进行编解码,以将对该高音质音频编解码获取的训练低音质谱系数模拟为受干扰使得音质降低后的音频对应的谱系数,为后续的神经网络模型训练步骤提供基础。
在图1所示的可选实施方式中,音质转换的模型训练方法,还包括步骤S102,将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值。本方案基于频域的训练高音质谱系数与转换高音质谱系数,通过计算差值使得后续通过调整神经网络模型中参数的方式将该训练低音质谱系数转换为高音质谱系数。
在该可选实施方式中,对训练高音质谱系数与转换高音质谱系数中对应的谱系数进行计算,获取每一对应谱系数的差值,由于训练高音质谱系数为本方案的目标音频对应的谱系数,训练低音质谱系数为模拟的音质降低后的音频对应的谱系数,本方案的目标是,将音质降低后的音频转换为目标音频,因此,通过计算该目标音频对应的训练高音质谱系数与转换高音质谱系数之间的差值,以调节神经网络模型的偏置与权重使得音质降低后的音频对应的训练低音质谱系数转换为目标音频对应的训练高音质谱系数。
在本申请的一个可选实施例中,将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值,进一步包括:神经网络模型将训练低音质谱系数转换为第N转换高音质谱系数,其中转换高音质谱系数包括第N转换高音质谱系数,所述N为大于0的自然数;计算第N转换高音质谱系数与训练高音质谱系数的第N差值,其中差值包括第N差值。
在该可选实施例中,由于在神经网络模型的训练过程中,需要神经网络模型进行学习,不断的进行调整以获取目标的音质转换模型;例如在进行第一次训练之前,对原始的神经网络模型中的相关参数随机化并对训练低音质谱系数进行音质转换,获取第一转换高音质谱系数,并计算第一转换高音质谱系数与训练高音质谱系数之间的第一差值,为第一次训练提供基础;以此类推,在训练N-1次以后,利用获取的第N-1更新神经网络模型对训练低音质谱系数进行音质转换,获取第N转换高音质谱系数,并计算第N转换高音质谱系数与训练高音质谱系数之间的第N差值,为第N次训练提供基础。
需要说明的是,在上述的差值计算的过程中,若前述的高音质音频为单帧音频,则将该单帧的高音质音频获取的单帧的训练低音质谱系数一次性输入神经网络模型,以计算单帧的转换高音质谱系数与单帧的训练高音质谱系数之间的差值;若前述的高音质音频为多帧音频,即前述的高音质音频为一个数据包,则将该多帧的高音质音频获取的多帧的训练低音质谱系数一次性输入神经网络模型,以计算多帧的转换高音质谱系数与多帧的训练高音质谱系数之间的平均差值;若前述的高音质音频为多个数据包,即前述的高音质音频为批量的音频数据文件,则将该多个数据包的高音质音频获取的多个数据包的训练低音质谱系数一次性输入神经网络模型,以计算多个数据包的转换高音质谱系数与多个数据包的训练高音质谱系数之间的平均差值。
在图1所示的可选实施方式中,音质转换的模型训练方法,还包括步骤S103,根据差值对神经网络模型进行训练,获得音质转换模型。本方案通过减小差值的方式对神经网络模型进行训练,训练后的神经网络模型能够在输入低音频谱系数时,输出对应的训练高音质谱系数,完成音质转换的目的。
在该可选实施方式中,将上述的训练高音质谱系数与训练低音质谱系数输入神经网络模型对神经网络模型进行训练,根据训练高音质谱系数与转换高音质谱系数的差值对该神经网络模型的相关参数进行调整,使得该神经网络模型能够输出高音质谱系数,进而获取音质转换模型。其中本方案的神经网络模型包括但不限于深度神经网络、CNN、RNN、CRNN、LSTM。本方案对于神经网络模型的类型不做具体限制,只要能够实现音质转换的功能即可。
在本申请的一个可选实施例中,根据差值对神经网络模型进行训练,获得音质转换模型,进一步包括:将第N差值与预设差值进行对比;若第N差值大于预设差值,则对神经网络模型中的相关参数进行调整,获取音质转换模型;若第N差值小于或等于预设差值,则将神经网络模型确定为音质转换模型。在该可选实施例中,预先设置预设差值,使得小于或等于预设差值的第N差值对应的神经网络模型输出的第N转换高音质谱系数进行解码后输出的音频符合目标音频的标准,以达到音频转换的目的,提高用户体验感。例如,当第一差值小于或等于预设差值时,表示利用当前该神经网络模型输出的第一转换高音质谱系数进行解码后输出的音频符合目标音频的标准,因此将当前的神经网络模型确定为音质转换模型;当第一差值大于预设差值时,表示利用当前该神经网络模型输出的第一转换高音质谱系数进行解码后输出的音频不符合目标音频的标准,因此对神经网络模型中的相关参数进行调整,以使得神经网络模型输出音频的转换高音质谱系数进行解码后输出的音频符合目标音频的标准。
优选地,预设差值可以无限趋近于0,即当将训练低音质谱系数输入神经网络模型时,输出上述的训练高音质谱系数,则表示该神经网络模型输出音频的第一转换高音质谱系数进行解码后输出的音频符合目标音频的标准,将此时的神经网络模型确定为音质转换模型。
在本申请的一个可选实施例中,对神经网络模型中的相关参数进行调整,获取神经网络模型,进一步包括:根据第N差值对相关参数进行调整,获取第N更新神经网络模型;将训练低高音质谱系输入第N更新神经网络模型,获取训练低音质谱系数对应的第N+1转换高音质谱系数;计算训练高音质谱系数与第N+1转换高音质谱系数之间的第N+1差值;若第N+1差值小于或等于预设差值,则将更新神经网络模型确定为音质转换模型。
在该可选实施例中,在更新神经网络模型后,确定该第N更新神经网络模型是否能够成为音质转换模型,即将训练低音质谱系数输入该第N更新神经网络模型,由该第N更新神经网络模型对该低音质谱系数进行转换,输出第N+1转换高音质谱系数,通过计算该第N+1转换高音质谱系数与高音质谱系数之间的第N+1差值,当第N+1差值小于或等于预设差值,则表示该第N+1更新神经网络模型能够将原本的训练低音质谱系数转换的第N+1转换高音质谱系数符合目标音频的标准,将此时的更新神经网络模型确定为音质转换模型;当第N+1差值大于预设差值,则表示该更新神经网络模型将原本的训练低音质谱系数转化的第N+1转换高音质谱系数不符合目标音频的标准,继续对该第N更新神经网络模型的相关参数进行调整,直至该第N更新神经网络模型能够将原本的训练低音质谱系数转换的转换高音质谱系数符合目标音频的标准为止。
在本申请的一个可选实例中,以44.1kHz和48kHz采样率、10ms帧长的音频为例,当使用深度神经网络作为本方案的预设的神经网络模型时,该深度神经网络的配置的相关参数可以是:输入层大小400,三个隐藏层大小分别为1024、1024、1024;输出层大小400;此时向该深度神经网络输入训练低音质谱系数时,输出的即为目标的训练高音质谱系数;其中,该神经网络模型中的音质转换的函数转换公式为:
Figure 145097DEST_PATH_IMAGE001
上述公式中的
Figure 730799DEST_PATH_IMAGE002
为训练低音质谱系数,
Figure 363905DEST_PATH_IMAGE003
为输出的转换高音质谱系数,
Figure 605531DEST_PATH_IMAGE004
为激活函数;其中,可以将ReLU函数作为激活函数,ReLU函数表达式为:
Figure 802026DEST_PATH_IMAGE005
可基于反向传播以更新深度神经网络隐藏层的权重Weights与偏移bias,其具体的更新公式如下:
Figure 507814DEST_PATH_IMAGE006
其中上述公式中的
Figure 842980DEST_PATH_IMAGE007
为学习率,其影响收敛的速度,E是损失函数,用于计算深度神经网络输出层与训练高音质谱系数之间的差别,其具体计算公式如下:
Figure 775164DEST_PATH_IMAGE008
其中上述公式中的k为输出谱系数的数量,k=400;
Figure 853978DEST_PATH_IMAGE009
为训练高音质谱系数,
Figure 273327DEST_PATH_IMAGE010
为输出的转换高音质谱系数。
在本申请的一个可选实施例中,根据若第N差值大于预设差值,还包括:记录神经网络模型的训练次数N;若N小于或等于预设的训练次数阈值,则对第N更新神经网络模型继续进行训练;若N大于所述训练次数阈值,则将第N更新神经网络模型确定为音质转换模型。
在该可选实施例中,在获得第一更新神经网络模型时,即记录神经网络模型的训练次数为1,以此类推,获得第N更新神经网络模型时,即记录神经网络模型的训练次数为N;当第N差值大于预设差值时,对比训练次数N与训练次数阈值的大小,当训练次数N大于或等于训练次数阈值时,即不再对该第N更新神经网络模型进行训练,将该第N更新神经网络模型确定为音质转换模型即可;当训练次数N小于训练次数阈值时,对该第N更新神经网络模型进行训练,即将该第N更新神经网络模型的相关参数进行调整获取第N+1更新神经网络模型,以为下一次循环、训练提供基础。
在本申请的一个可选实施例中,音质转换的模型训练方法,还包括:对相关参数或经调整的相关参数的数据类型进行量化,获取量化的音质转换模型。
在该可选实施例中,在进行模型训练时,模型中的相关参数通常为基于浮点型的方式,而在嵌入式系统中确未必存在浮点单元,使得数据类型不一致,而影响音质转换模型的精度,因此为了能够在嵌入式系统中保证音质转换模型的精度,通过量化将相关参数的数据类型转换为定点型,以节省系统的计算资源、减少内存的消耗。例如,将32位的浮点权重与偏移系数转换成8位定点数。
本方案提供的音质转换的模型训练方法适用于帧长10 ms的配置和/或帧长7.5ms的配置;需要说明的是,由于10 ms的帧长与7.5ms的帧长不同,因此在具体的使用过程中神经网络模型中的相关参数不同,在实际的使用过程中根据需求适应性进行相应的改变,以达到音质转换目的。
图2示出了本申请一种提升音质的方法的可选实施方式。
在图2所示的可选实施方式中,提升音质的方法主要包括:步骤S201,利用标准的LC3解码器对蓝牙接收器接收到的低音质码流进行解码,直至变换域噪声整形模块输出低音质码流对应的低音质谱系数,其中低音质码流为码率小于预设码率的码流;步骤S202,将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,步骤S2021,对预设的高音质音频进行特征提取,获取预设的高音质音频分别对应的训练高音质谱系数与训练低音质谱系数;步骤S2022,将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算训练高音质谱系数与转换低音质谱系数之间的差值,以及步骤S2023,根据差值对神经网络模型进行训练,获得音质转换模型;以及步骤S203,利用标准的LC3解码器对高音质谱系数对应的高音质码流进行剩余的解码步骤,获取低音质码流对应的高音质音频。
在该可选实施方式中,由于蓝牙发送端与蓝牙接收端所处环境无线链路质量下降,使得传输的音频为低音质音频,因此对蓝牙接收端接收到的低音质音频解码至变换域噪声整形模块,输出低音质音频对应的低音质谱系数,再根据上述实施例中训练的音质转换模型,对该低音质谱系数进行音质转换,获取低音质谱系数对应的高音质谱系数,并对高音质谱系数进行剩余的解码步骤,直至输出该高音质谱系数对应的高音质音频;本方案通过在蓝牙接收端的解码过程中对频域的低音质谱系数进行音质转换,无需进行额外的编解码步骤即可达到提升音质的目的,减小系统的运算量,加快系统的运行效率,提升用户的体验。
需要说明的是,在本申请提供的提升音质的方法中,蓝牙设备之间建立的蓝牙连接启动时,首先判断蓝牙设备的工作模式,并根据工作模式在蓝牙接收端设置相应的解码模式。例如,当前工作模式为音频播放模式时,蓝牙接收端设置的解码模式为利用支持音质转换功能的LC3解码器进行解码,其中支持音质转换功能的LC3解码器即为在标准解码过程中插入前述音质转换模型后的解码器,其中,音频播放模式包括但不限于音乐播放模式、广播收听模式、以及听书模式;当前工作模式其他模式时,蓝牙接收端设置的解码模式为利用标准的LC3解码器进行解码,其中其他工作模式包括但不限于语音通话模式。
本申请提供的提升音质的方法,可用于执行上述任一实施例描述的音质转换的模型训练方法,其实现原理和技术效果类似,在此不再赘述。
图3示出了本申请一种提升音质的装置的可选实施方式。
在图3所示的可选实施方式中,提升音质的装置主要包括:低音质谱系数获取模块301,其用于利用标准的LC3解码器,对蓝牙接收器接收到的低音质码流进行解码,直至变换域噪声整形模块输出低音质码流对应的低音质谱系数,其中低音质码流为码率小于预设码率的码流;音质提升模块302,其用于将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,特征提取模块3021,对预设的高音质音频进行特征提取,获取预设的高音质音频分别对应的训练高音质谱系数与训练低音质谱系数; 神经网络模块3022,其用于将训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,差值计算模块3023,其用于计算训练高音质谱系数与转换高音质谱系数之间的差值,以及模型获取模块3024,根据差值对神经网络模型进行训练,获得音质转换模型;以及高音质音频获取模块303,其用于利用标准的LC3解码器,对高音质谱系数进行剩余的解码步骤,获取低音质码流对应的高音质音频。
在本申请的一个可选实施例中,本申请一种提升音质的装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
本申请提供的提升音质的装置,可用于执行上述任一实施例描述的音质转换的模型训练方法或提升音质的方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的另一个可选实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述实施例中描述的音质转换的模型训练方法或提升音质的方法。
在本申请的一个可选实施方式中,一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行上述实施例中描述的音质转换的模型训练方法或提升音质的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种音质转换的模型训练方法,其特征在于,包括:
分别根据预设的高码率与预设的低码率对预设的高音质音频进行特征提取,获取所述高码率对应的训练高音质谱系数与所述低码率对应的训练低音质谱系数;
将所述训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值;以及
根据所述差值对所述神经网络模型进行训练,获得音质转换模型;
所述根据预设的高码率与预设的低码率分别对预设的高音质音频进行特征提取,获取所述高码率对应的训练高音质谱系数与所述低码率对应的训练低音质谱系数,进一步包括:
分别根据所述高码率与所述低码率对所述高音质音频进行编码,获取所述高码率对应的训练高音质码流与所述低音质对应的训练低音质码流,其中,所述低码率小于所述高码率;
利用标准的LC3解码器分别对所述训练高音质码流与所述训练低音质码流解码至变换域噪声整形模块输出所述训练高音质谱系数与所述训练低音质谱系数。
2.根据权利要求1所述的音质转换的模型训练方法,其特征在于,所述将所述训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值,进一步包括:
所述神经网络模型将所述训练低音质谱系数转换为第N转换高音质谱系数,其中所述转换高音质谱系数包括所述第N转换高音质谱系数,所述N为大于0的自然数;
计算所述第N转换高音质谱系数与所述训练高音质谱系数的第N差值,其中所述差值包括所述第N差值。
3.根据权利要求2所述的音质转换的模型训练方法,其特征在于,所述根据所述差值对所述神经网络模型进行训练,获得音质转换模型,进一步包括:
将所述第N差值与预设差值进行对比;
若所述第N差值大于所述预设差值,则对所述神经网络模型中的相关参数进行调整,获取所述音质转换模型;
若所述第N差值小于或等于所述预设差值,则将所述神经网络模型确定为所述音质转换模型。
4.根据权利要求3所述的音质转换的模型训练方法,其特征在于,所述对所述神经网络模型中的相关参数进行调整,获取所述神经网络模型,进一步包括:
根据所述第N差值对所述相关参数进行调整,获取第N更新神经网络模型;
将所述训练低音质谱系输入所述第N更新神经网络模型,获取所述训练低音质谱系数对应的第N+1转换高音质谱系数;
计算所述训练高音质谱系数与所述第N+1转换高音质谱系数之间的第N+1差值;
所述第N+1差值小于或等于所述预设差值,则将所述N+1更新神经网络模型确定为所述音质转换模型。
5.根据权利要求4所述的音质转换的模型训练方法,其特征在于,根据若所述第N差值大于所述预设差值,还包括:
记录所述神经网络模型的训练次数N;
若所述N小于或等于预设的训练次数阈值,则对所述第N更新神经网络模型继续进行训练;
若所述N大于所述训练次数阈值,则将所述第N更新神经网络模型确定为所述音质转换模型。
6.根据权利要求3-5任一项所述的音质转换的模型训练方法,其特征在于,还包括:
对所述相关参数或经调整的所述相关参数的数据类型进行量化,获取量化的所述音质转换模型。
7.一种提升音质的方法,其特征在于,包括:
利用标准的LC3解码器对蓝牙接收器接收到的低音质码流进行解码,直至变换域噪声整形模块输出所述低音质码流对应的低音质谱系数,其中所述低音质码流为码率小于预设码率的码流;
将所述低音质谱系数输入预训练的音质转换模型中,输出所述低音质谱系数对应的高音质谱系数,其中所述音质转换模型的预训练过程包括,
分别根据预设的高码率与预设的低码率对预设的高音质音频进行特征提取,获取所述高码率对应的训练高音质谱系数与所述低音质对应的训练低音质谱系数;
将所述训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值,以及
根据所述差值对所述神经网络模型进行训练,获得所述音质转换模型;以及
利用所述标准的LC3解码器对所述高音质谱系数对应的高音质码流进行剩余的解码步骤,获取所述低音质码流对应的高音质音频;
所述根据预设的高码率与预设的低码率分别对预设的高音质音频进行特征提取,获取所述高码率对应的训练高音质谱系数与所述低码率对应的训练低音质谱系数,进一步包括:
分别根据所述高码率与所述低码率对所述高音质音频进行编码,获取所述高码率对应的训练高音质码流与所述低音质对应的训练低音质码流,其中,所述低码率小于所述高码率;
利用标准的LC3解码器分别对所述训练高音质码流与所述训练低音质码流解码至变换域噪声整形模块输出所述训练高音质谱系数与所述训练低音质谱系数。
8.一种提升音频音质的装置,其特征在于,包括:
低音质谱系数获取模块,其用于利用标准的LC3解码器,对蓝牙接收器接收到的低音质码流进行解码,直至变换域噪声整形模块输出所述低音质码流对应的低音质谱系数,其中所述低音质码流为码率小于预设码率的码流;
音质提升模块,其用于将所述低音质谱系数输入预训练的音质转换模型中,输出所述低音质谱系数对应的高音质谱系数,其中所述音质转换模型的预训练过程包括,
特征提取模块,分别根据预设的高码率与预设的低码率对预设的高音质音频进行特征提取,获取所述高码率对应的训练高音质谱系数与所述低码率对应的训练低音质谱系数;
神经网络模块,其用于将所述训练低音质谱系数输入预设的神经网络模型获取转换高音质谱系数;
差值计算模块,其用于计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值,以及
模型获取模块,根据所述差值对所述神经网络模型进行训练,获得所述音质转换模型;以及
高音质音频获取模块,其用于利用所述标准的LC3解码器,对所述高音质谱系数进行剩余的解码步骤,获取所述低音质码流对应的高音质音频;
所述特征提取模块,进一步包括:
用于分别根据所述高码率与所述低码率对所述高音质音频进行编码,获取所述高码率对应的训练高音质码流与所述低音质对应的训练低音质码流的模块,其中,所述低码率小于所述高码率;
用于利用标准的LC3解码器分别对所述训练高音质码流与所述训练低音质码流解码至变换域噪声整形模块输出所述训练高音质谱系数与所述训练低音质谱系数的模块。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-6中任一项所述的音质转换的模型训练方法或权利要求7所述的提升音质的方法。
CN202210781647.7A 2022-07-05 2022-07-05 音质转换的模型训练方法、提升音质的方法、装置及介质 Active CN114863940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210781647.7A CN114863940B (zh) 2022-07-05 2022-07-05 音质转换的模型训练方法、提升音质的方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210781647.7A CN114863940B (zh) 2022-07-05 2022-07-05 音质转换的模型训练方法、提升音质的方法、装置及介质

Publications (2)

Publication Number Publication Date
CN114863940A CN114863940A (zh) 2022-08-05
CN114863940B true CN114863940B (zh) 2022-09-30

Family

ID=82626540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210781647.7A Active CN114863940B (zh) 2022-07-05 2022-07-05 音质转换的模型训练方法、提升音质的方法、装置及介质

Country Status (1)

Country Link
CN (1) CN114863940B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169934A (zh) * 2006-10-24 2008-04-30 华为技术有限公司 时域听觉阈值加权滤波器的构造方法和设备、编解码器
CN102436819A (zh) * 2011-10-25 2012-05-02 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
CN108682418A (zh) * 2018-06-26 2018-10-19 北京理工大学 一种基于预训练和双向lstm的语音识别方法
CN110379412A (zh) * 2019-09-05 2019-10-25 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
WO2019233362A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
WO2021000597A1 (zh) * 2019-07-03 2021-01-07 南方科技大学 语音信号的处理方法以及装置、终端及存储介质
CN112530444A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 音频编码方法和装置
CN112669860A (zh) * 2020-12-29 2021-04-16 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置
CN114420140A (zh) * 2022-03-30 2022-04-29 北京百瑞互联技术有限公司 基于生成对抗网络的频带扩展方法、编解码方法及系统
CN114582361A (zh) * 2022-04-29 2022-06-03 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169934A (zh) * 2006-10-24 2008-04-30 华为技术有限公司 时域听觉阈值加权滤波器的构造方法和设备、编解码器
CN102436819A (zh) * 2011-10-25 2012-05-02 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
WO2019233362A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN108682418A (zh) * 2018-06-26 2018-10-19 北京理工大学 一种基于预训练和双向lstm的语音识别方法
WO2021000597A1 (zh) * 2019-07-03 2021-01-07 南方科技大学 语音信号的处理方法以及装置、终端及存储介质
CN110379412A (zh) * 2019-09-05 2019-10-25 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
CN112530444A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 音频编码方法和装置
CN112669860A (zh) * 2020-12-29 2021-04-16 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置
CN114420140A (zh) * 2022-03-30 2022-04-29 北京百瑞互联技术有限公司 基于生成对抗网络的频带扩展方法、编解码方法及系统
CN114582361A (zh) * 2022-04-29 2022-06-03 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统

Also Published As

Publication number Publication date
CN114863940A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
JP5281169B2 (ja) 過渡信号符号化方法及び装置、復号化方法及び装置、並びに処理システム
CN114863942B (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
CN103915098A (zh) 音频信号编码器
CN104364842A (zh) 立体声音频信号编码器
WO2010072115A1 (zh) 信号分类处理方法、分类处理装置及编码系统
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
JP2022548299A (ja) オーディオ符号化方法および装置
JP2024059711A (ja) チャネル間位相差パラメータ符号化方法および装置
CN104509130A (zh) 立体声音频信号编码器
WO2024051412A1 (zh) 语音编码、解码方法、装置、计算机设备和存储介质
US11526734B2 (en) Method and apparatus for recurrent auto-encoding
CN110556119B (zh) 一种下混信号的计算方法及装置
JPH0946233A (ja) 音声符号化方法とその装置、音声復号方法とその装置
CN112992159B (zh) 一种lc3音频编解码方法、装置、设备及存储介质
CN115083429A (zh) 语音降噪的模型训练方法、语音降噪方法、装置及介质
CN112331204B (zh) 智能语音识别方法及设备、装置和存储介质
CN113259827A (zh) 基于音频编解码的助听方法、系统、耳机、介质及设备
CN114863940B (zh) 音质转换的模型训练方法、提升音质的方法、装置及介质
EP3903309B1 (en) High resolution audio coding
Vicente-Peña et al. Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition
EP4362012A1 (en) Encoding and decoding methods and apparatuses for multi-channel signals
WO2024179056A1 (zh) 音频信号的处理方法及相关装置
CN115188394B (zh) 混音方法、装置、电子设备和存储介质
US12057130B2 (en) Audio signal encoding method and apparatus, and audio signal decoding method and apparatus
US20240355342A1 (en) Inter-channel phase difference parameter encoding method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee after: Beijing Bairui Internet Technology Co.,Ltd.

Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee before: BARROT WIRELESS Co.,Ltd.

CP01 Change in the name or title of a patent holder