CN114863942A - 音质转换的模型训练方法、提升语音音质的方法及装置 - Google Patents

音质转换的模型训练方法、提升语音音质的方法及装置 Download PDF

Info

Publication number
CN114863942A
CN114863942A CN202210781662.1A CN202210781662A CN114863942A CN 114863942 A CN114863942 A CN 114863942A CN 202210781662 A CN202210781662 A CN 202210781662A CN 114863942 A CN114863942 A CN 114863942A
Authority
CN
China
Prior art keywords
voice
training
quality
tone
mass spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210781662.1A
Other languages
English (en)
Other versions
CN114863942B (zh
Inventor
李强
王尧
叶东翔
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202210781662.1A priority Critical patent/CN114863942B/zh
Publication of CN114863942A publication Critical patent/CN114863942A/zh
Application granted granted Critical
Publication of CN114863942B publication Critical patent/CN114863942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种音质转换的模型训练方法、提升语音音质的方法及装置,属于语音编解码技术领域。该方法主要包括:对高音质语音进行加窗与低延迟改进型离散余弦变换获取训练高音质谱系数;根据预设高压缩率的语音编解码器对高音质语音进行特征提取获取训练低音质谱系数;将训练低音质谱系数输入神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数的差值;根据差值对神经网络模型进行训练,获得音质转换模型。通过在进行语音通话的蓝牙设备的编解码装置中加入上述音质转换模型,将低音质语音转换为高音质语音,使得蓝牙设备接收的经高压缩率压缩导致受损的语音也能转换为音质较高的语音,提高用户体验感。

Description

音质转换的模型训练方法、提升语音音质的方法及装置
技术领域
本申请涉及语音编解码技术领域,特别涉及一种音质转换的模型训练方法、提升语音音质的方法及装置。
背景技术
目前世界上很多地区仍然在使用第二代移动通信网络(简称2G)和第三代移动通信网络(简称3G),伴随着2G与3G网络的是窄带语音信号的广泛使用;在相关的技术中,广泛使用的语音编解码的型号包括:(1)GSM-HR,该型号的语音编解码器的采样率为8kHz,码率为6.5kbps;GSM-FR,该型号的语音编解码器的采样率为8kHz,码率为13kHz;GSM-EFR,该型号的语音编解码器的采样率为8kHz,码率为13kHz;AMR,该型号的语音编解码器的采样率为8kHz,码率为4.75~12.2kbps;EVRC-A,该型号的语音编解码器的采样率为8kHz,平均码率约为5kbps;EVRC-B,该型号的语音编解码器的采样率为8kHz,平均码率约为4kbps。
相对于蓝牙通信中使用的型号为CVSD和mSBC的码率为64kbps的编解码器,以及LC3要求的最低码率16kbps;上述的2G与3G网络中使用的语音编解码器的压缩率较高,然而较高的压缩率虽然提高了移动通信的网络容量,但是压缩的过程损失了语音信息,导致语音的音质受损,尤其造成人声辨识度的损失。
例如,在2G与3G网络的通信过程中,当近端手机使用蓝牙通话时,若与该近端手机进行通信的远端手机处于2G或3G网络,则该远端手机的上行链路发送的语音信号的码流是经语音编解码器进行压缩而成的,该状况导致近端手机下行链路接收到的码流,音质已经受到损失;即使近端手机使用音质较好的LC3编解码器,最终发送到蓝牙耳机的语音也并不能恢复较好的音质,因此使得用户的体验感降低。
在相关技术中涉及音质受损的场景多为在不同声道中转换语音时,使得语音的音质受损的情况,因此其解决的技术问题也是针对于上述的特定场景而言的音质提升,而对上述场景所适用的音质提升的方法并不适用与本方案所在的场景,直接套用在本方案所使用的场景中,并不能有效的实现音质提升的效果。即使存在因高压缩率导致的音质受损的状况,其解决的方式为通过特定函数补全低码率语音中缺失的高频信号;其造成运算量大,并且无论压缩后的低码率语音是什么,均为其补全固定的高频信号,因此,会造成与原先的低码率语音的连贯性低,不能有效的提升音质。
发明内容
针对现有技术存在的压缩的过程损失了语音信息,导致语音的音质受损,尤其造成人声辨识度的损失的问题,本申请主要提供一种音质转换的模型训练方法、提升语音音质的方法、装置、介质及设备。
为了实现上述目的,本申请采用的一个技术方案是:提供一种音质转换的模型训练方法,其包括:对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数;根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数;将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值;以及根据差值对神经网络模型进行训练,获得音质转换模型。
本申请采用的另一个技术方案是:提供一种提升语音音质的方法,其包括:利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取低音质语音对应的低音质谱系数,其中低音质语音为经预设高压缩率的语音编解码器压缩的语音;将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数,根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数,将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值,以及根据差值对神经网络模型进行训练,获得音质转换模型;以及利用LC3编解码器对高音质谱系数进行剩余的编解码步骤,获取低音质码流对应的高音质语音。
本申请采用的另一个技术方案是:提供一种提升语音音质的装置,其包括:低音质谱系数获取模块,其用于利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取低音质语音对应的低音质谱系数,其中低音质语音为经预设高压缩率的语音编解码器压缩的语音;音质提升模块,其用于将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,高音质特征提取模块,其用于对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数,低音质特征提取模块,其用于根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数,神经网络模块,其用于将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,差值计算模块,其用于计算训练高音质谱系数与转换高音质谱系数之间的差值,以及模型获取模块,根据差值对神经网络模型进行训练,获得音质转换模型;以及高音质语音获取模块,其用于利用LC3编解码器对高音质谱系数进行剩余的编解码步骤,获取低音质码流对应的高音质语音。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的音质转换的模型训练方法或方案二中的提升语音音质的方法。
本申请采用的另一个技术方案是:提供一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行方案一中的音质转换的模型训练方法或方案二中的提升语音音质的方法。
本申请的技术方案可以达到的有益效果是:通过提供一种音质转换模型,无需低音质语音进行额外的编解码,通过在进行语音通话的蓝牙设备自身的编解码装置中加入上述音质转换模型,将质量不佳的低音质语音转换为高音质语音输出,使得即使蓝牙设备接收的经高压缩率压缩导致受损的语音与远端手机进行蓝牙连接的蓝牙设备,也能转换为音质较高的语音,提高用户体验感。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种音质转换的模型训练方法的一个可选实施方式的示意图;
图2是本申请一种提升语音音质的方法的一个可选实施方式的示意图;
图3是本申请一种提升语音音质的装置的一个可选实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前世界上很多地区仍然在使用第二代移动通信网络(简称2G)和第三代移动通信网络(简称3G),伴随着2G与3G网络的是窄带语音音号的广泛使用;在相关的技术中,广泛使用的语音编解码的型号包括:(1)GSM-HR,该型号的语音编解码器的采样率为8kHz,码率为6.5kbps;GSM-FR,该型号的语音编解码器的采样率为8kHz,码率为13kHz;GSM-EFR,该型号的语音编解码器的采样率为8kHz,码率为13kHz;AMR,该型号的语音编解码器的采样率为8kHz,码率为4.75~12.2kbps;EVRC-A,该型号的语音编解码器的采样率为8kHz,平均码率约为5kbps;EVRC-B,该型号的语音编解码器的采样率为8kHz,平均码率约为4kbps。
相对于蓝牙通信中使用的型号为CVSD和mSBC的码率为64kbps的编解码器,以及LC3要求的最低码率16kbps;上述的2G与3G网络中使用的语音编解码器的压缩率较高,然而较高的压缩率虽然提高了移动通信的网络容量,但是压缩的过程损失了语音信息,导致语音的音质受损,尤其造成人声辨识度的损失。
例如,在2G与3G网络的通信过程中,当近端手机使用蓝牙通话时,若与该近端手机进行通信的远端手机处于2G或3G网络,则该远端手机的上行链路发送的语音信号的码流是经语音编解码器进行压缩而成的,该状况导致近端手机下行链路接收到的码流,音质已经受到损失;即使近端手机使用音质较好的LC3编解码器,最终发送到蓝牙耳机的语音也并不能恢复较好的音质,因此使得用户的体验感降低。
在相关技术中涉及音质受损的场景多为在不同声道中转换语音时,使得语音的音质受损的情况,因此其解决的技术问题也是针对于上述的特定场景而言的音质提升,而对上述场景所适用的音质提升的方法并不适用与本方案所在的场景,直接套用在本方案所使用的场景中,并不能有效的实现音质提升的效果。即使存在因高压缩率导致的音质受损的状况,其解决的方式为通过特定函数补全低码率语音中缺失的高频信号;其造成运算量大,并且无论压缩后的低码率语音是什么,均为其补全固定的高频信号,因此,会造成与原先的低码率语音的连贯性低,不能有效的提升音质。
针对现有技术存在的压缩的过程损失了语音信息,导致语音的音质受损,尤其造成人声辨识度的损失的问题,本申请主要提供一种音质转换的模型训练方法、提升语音音质的方法及装置。该音质转换的模型训练方法包括:根据预设的高码率对预设的高音质语音进行特征提取,获取高音质语音对应的训练高音质谱系数;根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数;将训练低音质谱系数输入预设的神经网络模型获取第一转换高音质谱系数;计算训练高音质谱系数与第一转换高音质谱系数之间的第一差值;以及根据第一差值对神经网络模型进行训练,获得音质转换模型。
通过提供一种音质转换模型,无需低音质语音进行额外的编解码,通过在进行语音通话的蓝牙设备自身的编解码装置中加入上述音质转换模型,将质量不佳的低音质语音转换为高音质语音输出,使得即使蓝牙设备接收的经高压缩率压缩导致受损的语音与远端手机进行蓝牙连接的蓝牙设备,也能转换为音质较高的语音,提高用户体验感。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种音质转换的模型训练方法的一个可选实施方式。
在图1所示的可选实施方式中,音质转换的模型训练方法主要包括步骤S101,对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数。
在该可选实施方式中,将预设的高音质语音作为标准的高音质语音,其中预设的高音质语音为在语音传输过程中音质损失在预设范围内的语音。预设的高音质语音可以基于公开的语音数据集或用户自身录制,本方案对高音质语音的信息内容以及来源不做限制,只需保证高音质语音的音质符合本方案所述的高音质的标准即可。本方案利用高音质语音获取该高音质语音对应的训练高音质谱系数,将该训练高音质谱系数作为本方案中音质转换的目标音质对应的语音的谱系数,为后续的步骤提供基础。
优选地,以8kHz采样率的语音为例,在该采样率下的语音可将带宽为4kHz的语音作为上述的高音质语音。
在图1所示的可选实施方式中,音质转换的模型训练方法,还包括步骤S102,根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数。
在该可选实施方式中,预设的高压缩率,即为在经压缩后允许在2G和/或3G网络中进行语音传输的压缩比率,将预设的高压缩率模拟为与远端手机进行蓝牙连接的蓝牙设备的语音编解码器对该高音质语音的压缩率,以该压缩率对高音质语音进行压缩获取的训练低音质谱系数,即为经压缩后音质受损的语音对应的谱系数。本方案利用高音质语音获取该高音质语音对应的训练低音质谱系数,将该训练低音质谱系数作为在与远端手机进行蓝牙连接的蓝牙设备经语音编解码器进行高压缩率压缩的状况造成的音质降低后的语音的谱系数,为后续的步骤提供基础。
在本申请的一个可选实例中,根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数,进一步包括:利用语音编解码器对高音质语音进行编解码,获取高音质语音对应的训练低音质语音;对训练低音质语音进行加窗与低延迟改进型离散余弦变换,获取训练低音质语音对应的训练高音质谱系数。
在该可选实施例中,由于2G与3G网络中语音音质受损的主要原因是,2G与3G网络使用高压缩率的语音编解码器对模拟信号进行采样以及编解码;因此在本方案的音质转换的模型训练过程中利用预设高压缩率的语音编解码器对高音质语音进行编解码,获得训练低音质语音,其中训练低音质语音即为模拟2G与3G网络中音质受损的语音;再对该训练低音质语音进行加窗与低延迟改进型离散余弦变换,将该训练低音质语音转换为频域的训练高音质谱系数,为后续利用频域的谱系数对神经网络模型进行训练以及计算差值等步骤提供基础。
在本申请的一个可选实施例中,利用语音编解码器对高音质语音进行编解码,获取高音质语音对应的训练低音质语音之前,还包括:根据预设带宽的滤波器,对高音质语音进行窄带滤波。
在该可选实施例中,基于2G与3G网络中特有的窄带语音传输的特性,在对该高音质语音进行压缩之前首先对其进行窄带滤波,以使得后续获取的训练低音质语音更加的贴近经由2G与3G网络进行采集、编解码而导致的音质受损的状态,为后续的训练的音质转换模型的准确性提供重要基础。
在本申请的一个可选实施例中,对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数之前,还包括:对高音质语音进行分帧,获取高音质语音对应的每一帧语音;利用每一帧语音分别获取训练高音质谱系数与训练低音质谱系数。
在该可选实施例中,在上述的特征提取的步骤中,无论是提取训练高音质谱系数,或是提取训练低音质谱系数,均可采用对预设的高音质语音进行分帧的方式,对每一帧语音分别进行特征提取,以保证获取的训练高音质谱系数与训练低音质谱系数的准确度,为保证后续音质转换的精度提供基础。
在本申请的一个可选实例中,对以采样率8kHz、帧长10ms的语音为例,当每帧长度为80个采样点,且在编码过程中进行语音转换时,根据LC3标准对输入的每一帧语音数据完成加窗和LD-MDCT,其中计算公式如下:
Figure 147823DEST_PATH_IMAGE001
上述公式中,
Figure 53462DEST_PATH_IMAGE002
为当前帧的语音数据,n = 0,1,2,…,
Figure 149594DEST_PATH_IMAGE003
Figure 48148DEST_PATH_IMAGE003
的值为80,Z的值为30,
Figure 851019DEST_PATH_IMAGE004
为窗函数系数,X(k)为当前帧时域语音数据
Figure 989877DEST_PATH_IMAGE005
对应的频域谱系数。
在图1所示的可选实施方式中,音质转换的模型训练方法,还包括步骤S103,将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值。
在该可选实施方式中,通过预设的神经网络模型对训练低音质谱系数进行转换,输出训练低音质谱系数对应的转换高音质谱系数,通过计算差值使得后续通过调整神经网络模型中参数的方式将该训练低音质谱系数转换为转换高音质谱系数。对训练高音质谱系数与转换高音质谱系数中对应的谱系数进行计算,获取每一对应谱系数的差值,由于训练高音质谱系数为本方案的目标语音对应的谱系数,训练低音质谱系数为模拟的音质降低后的语音对应的谱系数,本方案的目标是,将音质降低后的语音转换为目标语音,因此,通过计算该目标语音对应的训练高音质谱系数与音质降低后的语音对应的训练低音质谱系数之间的差值,以调整神经网络模型的偏置与权重使得音质降低后的语音对应的训练低音质谱系数转换为目标语音对应的训练高音质谱系数。
在本申请的一个可选实施例中,将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值,进一步包括:神经网络模型将训练低音质谱系数转换为第N转换高音质谱系数,其中转换高音质谱系数包括第N转换高音质谱系数,N为大于0的自然数;计算第N转换高音质谱系数与训练高音质谱系数的第N差值,其中差值包括第N差值。
在该可选实施例中,由于在神经网络模型的训练过程中,需要神经网络模型进行学习,不断的进行调整以获取目标的音质转换模型;例如在进行第一次训练之前,对原始的神经网络模型中的相关参数随机化并对训练低音质谱系数进行音质转换,获取第一转换高音质谱系数,并计算第一转换高音质谱系数与训练高音质谱系数之间的第一差值,为第一次训练提供基础;以此类推,在训练N-1次以后,利用获取的第N-1更新神经网络模型对训练低音质谱系数进行音质转换,获取第N转换高音质谱系数,并计算第N转换高音质谱系数与训练高音质谱系数之间的第N差值,为第N次训练提供基础。
在图1所示的可选实施方式中,音质转换的模型训练方法,还包括步骤S104,根据差值对神经网络模型进行训练,获得音质转换模型。
在该可选实施方式中,本方案通过减小差值的方式对神经网络模型进行训练,训练后的神经网络模型能够在输入训练低语音谱系数时,输出对应的训练高音质谱系数,完成音质转换的目的。将上述的训练高音质谱系数与训练低音质谱系数输入神经网络模型对神经网络模型进行训练,根据训练高音质谱系数与转换高音质谱系数的差值对该神经网络模型的相关参数进行调整,使得该神经网络模型能够输出训练高音质谱系数,进而获取音质转换模型。其中本方案的神经网络模型包括但不限于深度神经网络、CNN、RNN、CRNN、LSTM。本方案对于神经网络模型的类型不做具体限制,只要能够实现音质转换的功能即可。
在本申请的一个可选实施例中,根据差值对神经网络模型进行训练,获得音质转换模型,进一步包括:将第N差值与预设差值进行对比;若第N差值大于预设差值,则对神经网络模型中的相关参数进行调整,获取音质转换模型;若第N差值小于或等于预设差值,则将神经网络模型确定为音质转换模型。
在该可选实施例中,预先设置预设差值,使得小于或等于预设差值的第N差值对应的神经网络模型输出的第N转换高音质谱系数进行解码后输出的音频符合目标音频的标准,以达到音频转换的目的,提高用户体验感。例如,当第一差值小于或等于预设差值时,表示利用当前该神经网络模型输出的第一转换高音质谱系数进行解码后输出的音频符合目标音频的标准,因此将当前的神经网络模型确定为音质转换模型;当第一差值大于预设差值时,表示利用当前该神经网络模型输出的第一转换高音质谱系数进行解码后输出的音频不符合目标音频的标准,因此对神经网络模型中的相关参数进行调整,以使得神经网络模型输出音频的转换高音质谱系数进行解码后输出的音频符合目标音频的标准。
优选地,预设差值可以无限趋近于0,即当将训练低音质谱系数输入神经网络模型时,输出上述的训练高音质谱系数,则表示该神经网络模型输出音频的第一转换高音质谱系数进行解码后输出的音频符合目标音频的标准,将此时的神经网络模型确定为音质转换模型。
在本申请的一个可选实施例中,对神经网络模型中的相关参数进行调整,获取神经网络模型,进一步包括:根据第N差值对相关参数进行调整,获取第N更新神经网络模型;将训练低高音质谱系输入第N更新神经网络模型,获取训练低音质谱系数对应的第N+1转换高音质谱系数;计算训练高音质谱系数与第N+1转换高音质谱系数之间的第N+1差值;若第N+1差值小于或等于预设差值,则将第N更新神经网络模型确定为音质转换模型。
在该可选实施例中,在更新神经网络模型后,确定该第N更新神经网络模型是否能够成为音质转换模型,即将训练低音质谱系数输入该第N更新神经网络模型,由该第N更新神经网络模型对该低音质谱系数进行转换,输出第N+1转换高音质谱系数,通过计算该第N+1转换高音质谱系数与高音质谱系数之间的第N+1差值,当第N+1差值小于或等于预设差值,则表示该第N更新神经网络模型能够将原本的训练低音质谱系数转换的第N+1转换高音质谱系数符合目标音频的标准,将此时的更新神经网络模型确定为音质转换模型;当第N+1差值大于预设差值,则表示该更新神经网络模型将原本的训练低音质谱系数转化的第N+1转换高音质谱系数不符合目标音频的标准,继续对该第N更新神经网络模型的相关参数进行调整,直至该第N更新神经网络模型能够将原本的训练低音质谱系数转换的转换高音质谱系数符合目标音频的标准为止。
在本申请的一个可选实例中,以8kHz和4kHz采样率、10ms帧长的语音为例,当使用深度神经网络作为本方案的预设的神经网络模型时,该深度神经网络的配置的相关参数可以是:输入层大小80,三个隐藏层大小分别为512、512、512;输出层大小80;此时向该深度神经网络输入低音质谱系数时,输出的即为目标的训练高音质谱系数;其中,该神经网络模型中的音质转换的函数转换公式为:
Figure 780763DEST_PATH_IMAGE006
上述公式中的
Figure 968162DEST_PATH_IMAGE007
为低音质谱系数,
Figure 953436DEST_PATH_IMAGE008
为输出的转换高音质谱系数,
Figure 450145DEST_PATH_IMAGE009
为激活函数;其中,可以将ReLU函数作为激活函数,ReLU函数表达式为:
Figure 458552DEST_PATH_IMAGE010
可基于反向传播以更新深度神经网络隐藏层的权重Weights与偏移bias,其具体的更新公式如下:
Figure 511959DEST_PATH_IMAGE011
其中上述公式中的
Figure 538690DEST_PATH_IMAGE012
为学习率,其影响收敛的速度,E是损失函数,用于计算深度神经网络输出层与训练高音质谱系数之间的差别,其具体计算公式如下:
Figure 19349DEST_PATH_IMAGE013
其中上述公式中的k为输出谱系数的数量,k=80;
Figure 249474DEST_PATH_IMAGE014
为训练高音质谱系数,
Figure 293522DEST_PATH_IMAGE015
为输出的转换高音质谱系数。
在本申请的一个可选实施例中,根据若第N差值大于预设差值,还包括:记录神经网络模型的训练次数N;若N小于或等于预设的训练次数阈值,则对第N更新神经网络模型继续进行训练;若N大于所述训练次数阈值,则将第N更新神经网络模型确定为音质转换模型。
在该可选实施例中,在获得第一更新神经网络模型时,即记录神经网络模型的训练次数为1,以此类推,获得第N更新神经网络模型时,即记录神经网络模型的训练次数为N;当第N差值大于预设差值时,对比训练次数N与训练次数阈值的大小,当训练次数N大于或等于训练次数阈值时,即不再对该第N更新神经网络模型进行训练,将该第N更新神经网络模型确定为音质转换模型即可;当训练次数N小于训练次数阈值时,对该第N更新神经网络模型进行训练,即将该第N更新神经网络模型的相关参数进行调整获取第N+1更新神经网络模型,以为下一次循环、训练提供基础。
在本申请的一个可选实施例中,音质转换的模型训练方法,还包括:对相关参数或经调整的相关参数的数据类型进行量化,获取量化的音质转换模型。
在该可选实施例中,在进行模型训练时,模型中的相关参数通常为基于浮点型的方式,而在嵌入式系统中确未必存在浮点单元,使得数据类型不一致,而影响音质转换模型的精度,因此为了能够在嵌入式系统中保证音质转换模型的精度,通过量化将相关参数的数据类型转换为定点型,以节省系统的计算资源、减少内存的消耗。例如,将32位的浮点权重与偏移系数转换成8位定点数。
本方案提供的音质转换的模型训练方法适用于帧长10 ms的配置和/或帧长7.5ms的配置;需要说明的是,由于10 ms的帧长与7.5ms的帧长不同,因此在具体的使用过程中神经网络模型中的相关参数不同,在实际的使用过程中根据需求适应性进行相应的改变,以达到音质转换目的。
图2示出了本申请一种提升语音音质的方法的可选实施方式。
在图2所示的可选实施方式中,提升语音音质的方法主要包括:步骤S201,利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取低音质语音对应的低音质谱系数,其中低音质语音为经预设高压缩率的语音编解码器压缩的语音;步骤S202,将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,步骤S2021,对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数,步骤S2022,根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数,步骤S2023,将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算训练高音质谱系数与转换高音质谱系数之间的差值,步骤S2024,根据差值对神经网络模型进行训练,获得音质转换模型;以及步骤S203,利用LC3编解码器对高音质谱系数进行剩余的编解码步骤,获取低音质码流对应的高音质语音。
在该可选实施方式中,基于与远端手机进行蓝牙连接的蓝牙设备自身的编码器对接收到的远端手机压缩后的进行编码,获取低音质语音对应的低音质谱系数;或基于与远端手机进行蓝牙连接的蓝牙设备自身的编码器对该低音质语音进行编码,获取低音质语音对应的低音质码流,并根据与近端手机进行蓝牙连接的蓝牙设备自身的解码器对该低音质码流进行解码,获取该低音质码流对应的低音质谱系数;再根据上述实施例中训练的音质转换模型,对该低音质谱系数进行音质转换,获取低音质谱系数对应的高音质谱系数,并对高音质谱系数进行剩余的编解码或剩余的解码步骤,直至输出该高音质谱系数对应的高音质语音。其中剩余的编解码步骤包括变换域噪声整形模块、时域噪声整形模块、量化模块、噪声电平估计模块、算术与残差编码模块、码流封装模块、以及标准的解码步骤的所有模块;本方案借助蓝牙设备自身的编解码器对该低音质语音进行编解码,在编解码的过程中在频域进行音质转换,无需额外进行编解码步骤,大大减少了系统的运算量,提高系统的运行效率,提升用户的体验。
需要说明的是,当将本申请提供的提升语音音质的方法应用在LC3编码过程中时,即在与处于2G和/或3G网络的远端手机进行蓝牙连接的蓝牙耳机对采集的模拟信号(语音信号)进行音质转换,在蓝牙设备之间建立的蓝牙连接启动时,首先判断蓝牙设备的工作模式,并根据工作模式在蓝牙发送端设置相应的编码模式,其中蓝牙发送端为与处于2G和/或3G网络的远端手机进行蓝牙连接的蓝牙耳机;在编码过程中进行音质转换之后,与近端手机进行蓝牙连接的蓝牙耳机使用标准的LC3解码器解码即可。例如,当前工作模式为语音通话模式时,蓝牙发送端设置的编码模式为利用支持音质转换功能的LC3编码器进行编码,其中支持音质转换功能的LC3编码器即为在标准编码过程中插入前述音质转换模型后的编码器;当前工作模式其他模式时,蓝牙发送端设置的编码模式为利用标准的LC3编码器进行编码,其中其他工作模式包括但不限于音乐播放模式、广播收听模式、以及听书模式。
当将本申请提供的提升语音音质的方法应用在LC3解码过程中时,即在与处于2G和/或3G网络的远端手机进行蓝牙连接的蓝牙耳机对采集的模拟信号(语音信号),利用标准的LC3编码器进行编码,而在与近端手机进行蓝牙连接的蓝牙耳机中对音质损失的低音质码流对应谱系数进行音质转换;在蓝牙设备之间建立的蓝牙连接启动时,首先判断蓝牙设备的工作模式,并根据工作模式在蓝牙接收端设置相应的解码模式,其中蓝牙接收端为与近端手机进行蓝牙连接的蓝牙耳机。例如,当前工作模式为语音通话模式时,蓝牙接收端设置的解码模式为利用支持音质转换功能的LC3解码器进行解码,其中支持音质转换功能的LC3解码器即为在标准解码过程中插入前述音质转换模型后的解码器;当前工作模式其他模式时,蓝牙接收端设置的解码模式为利用标准的LC3解码器进行解码。
本申请提供的提升语音音质的方法,可用于执行上述任一实施例描述的音质转换的模型训练方法,其实现原理和技术效果类似,在此不再赘述。
图3示出了本申请一种提升音质的装置的可选实施方式。
在图3所示的可选实施方式中,提升音质的装置主要包括:低音质谱系数获取模块301,其用于利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取低音质语音对应的低音质谱系数,其中低音质语音为经预设高压缩率的语音编解码器压缩的语音;音质提升模块302,其用于将低音质谱系数输入预训练的音质转换模型中,输出低音质谱系数对应的高音质谱系数,其中音质转换模型的预训练过程包括,高音质特征提取模块3021,其用于对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取高音质语音对应的训练高音质谱系数,低音质特征提取模块3022,其用于根据预设高压缩率的语音编解码器对高音质语音进行特征提取,获取高音质语音对应的训练低音质谱系数,神经网络模块3023,其用于将训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,差值计算模块3024,其用于计算训练高音质谱系数与转换高音质谱系数之间的差值,以及模型获取模块3025,根据差值对神经网络模型进行训练,获得音质转换模型;以及高音质语音获取模块303,其用于利用LC3编解码器对高音质谱系数进行剩余的编解码步骤,获取低音质码流对应的高音质语音。
在本申请的一个可选实施例中,本申请一种提升音质的装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
本申请提供的提升音质的装置,可用于执行上述任一实施例描述的音质转换的模型训练方法或提升语音音质的方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的另一个可选实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述实施例中描述的音质转换的模型训练方法或提升语音音质的方法。
在本申请的一个可选实施方式中,一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行上述实施例中描述的音质转换的模型训练方法或提升语音音质的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种音质转换的模型训练方法,其特征在于,包括:
对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取所述高音质语音对应的训练高音质谱系数;
根据预设高压缩率的语音编解码器对所述高音质语音进行特征提取,获取所述高音质语音对应的训练低音质谱系数;
将所述训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值;以及
根据所述差值对所述神经网络模型进行训练,获得音质转换模型。
2.根据权利要求1所述的音质转换的模型训练方法,其特征在于,所述根据预设高压缩率的语音编解码器对所述高音质语音进行特征提取,获取所述高音质语音对应的训练低音质谱系数,进一步包括:
利用所述语音编解码器对所述高音质语音进行编解码,获取所述高音质语音对应的训练低音质语音;
对所述训练低音质语音进行所述加窗与所述低延迟改进型离散余弦变换,获取所述训练低音质语音对应的所述训练高音质谱系数。
3.根据权利要求2所述的音质转换的模型训练方法,其特征在于,所述利用所述语音编解码器对所述高音质语音进行编解码,获取所述高音质语音对应的训练低音质语音之前,还包括:
根据预设带宽的滤波器,对所述高音质语音进行窄带滤波。
4.根据权利要求1-3任一项所述的音质转换的模型训练方法,其特征在于,所述对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取所述高音质语音对应的训练高音质谱系数之前,还包括:
对所述高音质语音进行分帧,获取所述高音质语音对应的每一帧语音;
利用所述每一帧语音分别获取所述训练高音质谱系数与所述训练低音质谱系数。
5.根据权利要求1所述的音质转换的模型训练方法,其特征在于,所述将所述训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值,进一步包括:
所述神经网络模型将所述训练低音质谱系数转换为第N转换高音质谱系数,其中所述转换高音质谱系数包括所述第N转换高音质谱系数,所述N为大于0的自然数;
计算所述第N转换高音质谱系数与所述训练高音质谱系数的第N差值,其中所述差值包括所述第N差值。
6.根据权利要求5所述的音质转换的模型训练方法,其特征在于,所述根据所述差值对所述神经网络模型进行训练,获得音质转换模型,进一步包括:
将所述第N差值与预设差值进行对比;
若所述第N差值大于所述预设差值,则对所述神经网络模型中的相关参数进行调整,获取所述音质转换模型;
若所述第N差值小于或等于所述预设差值,则将所述神经网络模型确定为所述音质转换模型。
7.根据权利要求6所述的音质转换的模型训练方法,其特征在于,所述对所述神经网络模型中的相关参数进行调整,获取所述神经网络模型,进一步包括:
根据所述第N差值对所述相关参数进行调整,获取第N更新神经网络模型;
将所述训练低音质谱系输入所述第N更新神经网络模型,获取所述训练低音质谱系数对应的第N+1转化高音质谱系数;
计算所述训练高音质谱系数与所述第N+1转化高音质谱系数之间的第N+1差值;
所述第N+1差值小于或等于所述预设差值,则将所述第N更新神经网络模型确定为所述音质转换模型。
8.根据权利要求7所述的音质转换的模型训练方法,其特征在于,根据若所述第N差值大于所述预设差值,还包括:
记录所述神经网络模型的训练次数N;
若所述N小于或等于预设的训练次数阈值,则对所述第N更新神经网络模型继续进行训练;
若所述N大于所述训练次数阈值,则将所述第N更新神经网络模型确定为所述音质转换模型。
9.一种提升语音音质方法,其特征在于,包括:
利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取所述低音质语音对应的低音质谱系数,其中所述低音质语音为经预设高压缩率的语音编解码器压缩的语音;
将所述低音质谱系数输入预训练的音质转换模型中,输出所述低音质谱系数对应的高音质谱系数,其中所述音质转换模型的预训练过程包括,
对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取所述高音质语音对应的训练高音质谱系数,
根据预设高压缩率的语音编解码器对所述高音质语音进行特征提取,获取所述高音质语音对应的训练低音质谱系数,
将所述训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值,以及
根据所述差值对所述神经网络模型进行训练,获得音质转换模型;以及
利用所述LC3编解码器对所述高音质谱系数进行剩余的编解码步骤,获取所述低音质码流对应的高音质语音。
10.一种提升音质的装置,其特征在于,包括:
低音质谱系数获取模块,其用于利用标准的LC3编解码器对蓝牙设备接收的低音质语音进行编解码,获取所述低音质语音对应的低音质谱系数,其中所述低音质语音为经预设高压缩率的语音编解码器压缩的语音;
音质提升模块,其用于将所述低音质谱系数输入预训练的音质转换模型中,输出所述低音质谱系数对应的高音质谱系数,其中所述音质转换模型的预训练过程包括,
高音质特征提取模块,其用于对预设的高音质语音进行加窗与低延迟改进型离散余弦变换,获取所述高音质语音对应的训练高音质谱系数,
低音质特征提取模块,其用于根据预设高压缩率的语音编解码器对所述高音质语音进行特征提取,获取所述高音质语音对应的训练低音质谱系数,
神经网络模块,其用于将所述训练低音质谱系数输入预设的神经网络模型中获取转换高音质谱系数,
差值计算模块,其用于计算所述训练高音质谱系数与所述转换高音质谱系数之间的差值,以及
模型获取模块,根据所述差值对所述神经网络模型进行训练,获得音质转换模型;以及
高音质语音获取模块,其用于利用所述LC3编解码器对所述高音质谱系数进行剩余的编解码步骤,获取所述低音质码流对应的高音质语音。
CN202210781662.1A 2022-07-05 2022-07-05 音质转换的模型训练方法、提升语音音质的方法及装置 Active CN114863942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210781662.1A CN114863942B (zh) 2022-07-05 2022-07-05 音质转换的模型训练方法、提升语音音质的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210781662.1A CN114863942B (zh) 2022-07-05 2022-07-05 音质转换的模型训练方法、提升语音音质的方法及装置

Publications (2)

Publication Number Publication Date
CN114863942A true CN114863942A (zh) 2022-08-05
CN114863942B CN114863942B (zh) 2022-10-21

Family

ID=82626381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210781662.1A Active CN114863942B (zh) 2022-07-05 2022-07-05 音质转换的模型训练方法、提升语音音质的方法及装置

Country Status (1)

Country Link
CN (1) CN114863942B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222793A (zh) * 2008-01-25 2008-07-16 中兴通讯股份有限公司 一种调节蓝牙立体声音质的方法及系统
CN103236262A (zh) * 2013-05-13 2013-08-07 大连理工大学 一种语音编码器码流的转码方法
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
CN109147805A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 基于深度学习的音频音质增强
WO2019233362A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN112313929A (zh) * 2018-12-27 2021-02-02 华为技术有限公司 一种自动切换蓝牙音频编码方式的方法及电子设备
WO2021221440A1 (ko) * 2020-04-28 2021-11-04 삼성전자 주식회사 음질 향상 방법 및 그 장치
CN113658583A (zh) * 2021-08-17 2021-11-16 安徽大学 一种基于生成对抗网络的耳语音转换方法、系统及其装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101222793A (zh) * 2008-01-25 2008-07-16 中兴通讯股份有限公司 一种调节蓝牙立体声音质的方法及系统
CN103236262A (zh) * 2013-05-13 2013-08-07 大连理工大学 一种语音编码器码流的转码方法
CN107705801A (zh) * 2016-08-05 2018-02-16 中国科学院自动化研究所 语音带宽扩展模型的训练方法及语音带宽扩展方法
CN109147805A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 基于深度学习的音频音质增强
WO2019233362A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN112313929A (zh) * 2018-12-27 2021-02-02 华为技术有限公司 一种自动切换蓝牙音频编码方式的方法及电子设备
WO2021221440A1 (ko) * 2020-04-28 2021-11-04 삼성전자 주식회사 음질 향상 방법 및 그 장치
CN113658583A (zh) * 2021-08-17 2021-11-16 安徽大学 一种基于生成对抗网络的耳语音转换方法、系统及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁凤强等: "基于音调调整的AVS-P10带宽扩展优化方案", 《计算机工程》 *

Also Published As

Publication number Publication date
CN114863942B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
JP6334808B2 (ja) 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善
JP2021502588A (ja) ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
TW200926144A (en) Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
JPH08278799A (ja) 雑音荷重フィルタリング方法
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
CN113140225A (zh) 语音信号处理方法、装置、电子设备及存储介质
CN113470667A (zh) 语音信号的编解码方法、装置、电子设备及存储介质
WO2024051412A1 (zh) 语音编码、解码方法、装置、计算机设备和存储介质
US11526734B2 (en) Method and apparatus for recurrent auto-encoding
US20230206930A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
CN105765653B (zh) 自适应高通后滤波器
Jiang et al. Latent-domain predictive neural speech coding
Gajjar et al. Artificial bandwidth extension of speech & its applications in wireless communication systems: A review
CN114863942B (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
CN113314132B (zh) 交互式音频系统中的音频对象编码方法、解码方法及装置
Vicente-Peña et al. Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition
KR20060067016A (ko) 음성 부호화 장치 및 방법
CN114863940B (zh) 音质转换的模型训练方法、提升音质的方法、装置及介质
Hosoda et al. Speech bandwidth extension using data hiding based on discrete hartley transform domain
CN105632504A (zh) Adpcm编解码器及adpcm解码器丢包隐藏的方法
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
Singh et al. Design of Medium to Low Bitrate Neural Audio Codec
CN115527545A (zh) 一种音频带宽扩展方法、装置、编码方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee after: Beijing Bairui Internet Technology Co.,Ltd.

Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee before: BARROT WIRELESS Co.,Ltd.

CP01 Change in the name or title of a patent holder