CN112767971B - 音频播放方法、模型获取方法、装置、终端及服务器 - Google Patents

音频播放方法、模型获取方法、装置、终端及服务器 Download PDF

Info

Publication number
CN112767971B
CN112767971B CN201911002748.4A CN201911002748A CN112767971B CN 112767971 B CN112767971 B CN 112767971B CN 201911002748 A CN201911002748 A CN 201911002748A CN 112767971 B CN112767971 B CN 112767971B
Authority
CN
China
Prior art keywords
terminal
signal
model
target
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911002748.4A
Other languages
English (en)
Other versions
CN112767971A (zh
Inventor
胡贝贝
谭淞濒
许剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911002748.4A priority Critical patent/CN112767971B/zh
Publication of CN112767971A publication Critical patent/CN112767971A/zh
Application granted granted Critical
Publication of CN112767971B publication Critical patent/CN112767971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10009Improvement or modification of read or write signals
    • G11B20/10018Improvement or modification of read or write signals analog processing for digital recording or reproduction
    • G11B20/10027Improvement or modification of read or write signals analog processing for digital recording or reproduction adjusting the signal strength during recording or reproduction, e.g. variable gain amplifiers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • G11B2020/10555Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本申请公开了一种音频播放方法、模型获取方法、装置、终端及服务器,属于音频处理技术领域。本方法根据第二终端播放出的音频样本信号,得到目标播放效果模型,从而当第一终端使用目标播放效果模型对待播放音频信号进行处理时,可以得到目标音频信号,那么,第一终端播放目标音频信号与第二终端播放待播放音频信号的播放效果相同,因此,第一终端通过目标播放模型可以实现第二终端所播放出的目标播放效果,无需专业人士进行反复调节,从而降低了人力成本和时间成本,提高了音频信号的调节效率。

Description

音频播放方法、模型获取方法、装置、终端及服务器
技术领域
本申请涉及音频处理技术领域,特别涉及一种音频播放方法、模型获取方法、装置、终端、服务器以及计算机可读存储介质。
背景技术
随着音频处理技术的发展,用户对音响播放音频信号时的播放效果要求越来越高,音响可以通过均衡器(equalizer,EQ)对待播放的音频信号进行调节,得到调节后的音频信号,当音响在播放调节后的音频信号时,可以得到与之前不同的播放效果。
目前,音频播放的过程可以是:音响可以为用户提供可调的EQ界面,EQ界面上提供有多个调节节点,每个调节节点可以在一个特定频率的振幅区间内进行滑动,振幅区间的每个位置对应特定频率的一个振幅,用户可以通过滑动调节节点,来选择与调节节点对应的特定频率的振幅,当用户选择完成后,音响根据调节节点在振幅区间中的位置,来确定用户选择的特定频率的振幅,从而音响根据用户选择的特定频率的振幅,调节待播放的音频信号,得到调节后的音频信号,并播放调节后的音频信号。
考虑到EQ界面内的调节节点众多,且每个调节节点又可以有多个调节位置,为了在上述音响上实现其他音响的播放效果,则需要专业人士来进行反复调节,才有可能实现,并且专业人士反复调节的过程,会浪费大量的时间成本,因此,通过上述音频播放的过程,若要在一个音响上实现其他音响的播放效果,人力成本和时间成本均较高,从而导致音频信号的调节效率较低。
发明内容
本申请实施例提供了一种音频播放方法、模型获取方法、装置、终端、服务器以及计算机可读存储介质,能够提高调节音频信号的调节效率。该技术方案如下:
第一方面,提供了一种音频播放方法,应用于第一终端,该方法包括:
获取第二终端播放出的音频样本信号;
根据所述音频样本信号,得到目标播放效果模型;
获取待播放音频信号;
利用所述目标播放效果模型对所述待播放音频信号进行处理,得到目标音频信号;
播放所述目标音频信号,所述第一终端播放所述目标音频信号的播放效果与目标播放效果相同,其中,目标播放效果为所述第二终端播放所述待播放音频信号时所播放出的播放效果。
本方法通过根据第二终端播放出的音频样本信号,得到目标播放效果模型,从而第一终端使用目标播放效果模型对待播放音频信号进行处理时,可以得到目标音频信号,那么,第一终端播放目标音频信号与第二终端播放待播放音频信号的播放效果相同,因此,第一终端通过目标播放模型可以实现第二终端所播放出的目标播放效果,无需专业人士进行反复调节,从而降低了人力成本和时间成本,提高了音频信号的调节效率。
在一种可能实现方式中,当所述第一终端播放未经处理的所述待播放音频信号时,所播放出的播放效果与所述目标播放效果不同。
在一种可能实现方式中,所述根据所述音频样本信号,得到目标播放效果模型包括:
向服务器发送携带所述音频样本信号的模型获取请求,由服务器基于所述音频样本信号以及第一终端模型,得到所述目标播放效果模型,所述第一终端模型是对所述第一终端建立的模型;
接收所述服务器训练出的所述目标播放效果模型。
在一种可能实现方式中,所述根据所述音频样本信号,得到目标播放效果模型包括:
基于所述音频样本信号以及第一终端模型,得到所述目标播放效果模型,所述第一终端模型是对所述第一终端建立的模型。
在一种可能实现方式中,所述基于所述音频样本信号以及第一终端模型,得到所述目标播放效果模型包括:
获取第一音频信号的第一频域信号,所述第一音频信号为所述第二终端播放出所述音频样本信号时所播放的音频信号;
获取所述音频样本信号的第二频域信号;
基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型。
在一种可能实现方式中,所述基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型包括:
将所述第一频域信号以及所第二频域信号,输入初始播放效果模型,由所述初始播放效果对模型所述第一频域信号进行调节,得到第一目标频域信号,向所述第一终端模型输出所述第一目标频域信号;
由所述第一终端模型基于输入的所述第一目标频域信号,向所述初始播放效果模型输出第二目标频域信号;
由所述初始播放效果模型基于所述第二目标频域信号以及所述第二频域信号,进行训练,得到所述目标播放效果模型。
在一种可能实现方式中,所述获取所述音频样本信号的第二频域信号包括:
将所述第一频域信号输入第二终端模型,由所述第二终端模型基于输入的所述第一频域信号,输出第三目标频域信号,所述第二终端模型是对所述第二终端建立的模型;
基于所述第三目标频域信号,获取所述音频样本信号的第二频域信号。
在一种可能实现方式中,所述将所述第一频域信号输入第二终端模型之前,所述方法还包括:
获取多个第一样本频域信号以及多个第一标签频域信号,每个第一样本频域信号对应一个第一音频样本信号,每个第一标签频域信号对应一个第一标签音频信号,所述每个第一标签音频信号为对所述第二终端所播放的一个第一音频样本信号进行录制得到的信号;
将所述多个第一样本频域信号以及多个第一标签频域信号输入第二终端初始模型,由所述第二终端初始模型基于所述多个第一样本频域信号以及多个第一标签频域信号,进行训练,得到所述第二终端模型。
在一种可能实现方式中,基于所述音频样本信号以及第一终端模型,对初始播放效果模型进行训练,得到所述目标播放效果模型之前,所述方法还包括:
获取多个第二样本频域信号以及多个第二标签频域信号,每个第二样本频域信号对应一个第二音频样本信号,每个第二标签频域信号对应一个第二标签音频信号,所述每个第二标签音频信号为对所述第一终端所播放的一个第二音频样本信号进行录制得到的信号;
将所述多个第二样本频域信号以及多个第二标签频域信号输入第一终端初始模型,由所述第一终端初始模型基于所述多个第二样本频域信号以及多个第二标签频域信号,进行训练,得到所述第一终端模型。
第二方面,提供了一种模型获取方法,应用于服务器,该方法包括:
接收模型获取请求,所述模型获取请求携带第二终端播放出的音频样本信号;
基于所述音频样本信号以及第一终端模型,得到目标播放效果模型,所述第一终端模型是对第一终端建立的模型,所述第一终端的播放效果和所述第二终端的播放效果不同;
向所述第一终端发送所述目标播放效果模型。
在一种可能实现方式中,所述基于所述音频样本信号以及第一终端模型,得到所述目标播放效果模型包括:
获取第一音频信号的第一频域信号,所述第一音频信号为所述第二终端播放出所述音频样本信号时所播放的音频信号;
获取所述音频样本信号的第二频域信号;
基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型。
在一种可能实现方式中,所述基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型包括:
将所述第一频域信号以及所第二频域信号,输入初始播放效果模型,由所述初始播放效果模型对所述第一频域信号进行调节,得到第一目标频域信号,向所述第一终端模型输出所述第一目标频域信号;
由所述第一终端模型基于输入的所述第一目标频域信号,向所述初始播放效果模型输出第二目标频域信号;
由所述初始播放效果模型基于所述第二目标频域信号以及所述第二频域信号,进行训练,得到所述目标播放效果模型。
在一种可能实现方式中,所述获取所述音频样本信号的第二频域信号包括:
将所述第一频域信号输入第二终端模型,由所述第二终端模型基于输入的所述第一频域信号,输出第三目标频域信号,所述第二终端模型是对所述第二终端建立的模型;
基于所述第三目标频域信号,获取所述音频样本信号的第二频域信号。
基于上述可能的实现方式,直接通过第二终端模型,获取第三目标频域信号,再对第三目标频域信号进行处理,得到第四频域信号作为目标音频信号的标签信号,从而可以避免对目标音频信号进行录制的过程,从而减少了标签信号的生成时间,提高了标签信号生成效率。
在一种可能实现方式中,所述将所述第一频域信号输入第二终端模型之前,所述方法还包括:
获取多个第一样本频域信号以及多个第一标签频域信号,每个第一样本频域信号对应一个第一音频样本信号,每个第一标签频域信号对应一个第一标签音频信号,所述每个第一标签音频信号为对所述第二终端所播放的一个第一音频样本信号进行录制得到的信号;
将所述多个第一样本频域信号以及多个第一标签频域信号输入第二终端初始模型,由所述第二终端初始模型基于所述多个第一样本频域信号以及多个第一标签频域信号,进行训练,得到所述第二终端模型。
在一种可能实现方式中,基于所述音频样本信号以及第一终端模型,对初始播放效果模型进行训练,得到所述目标播放效果模型之前,所述方法还包括:
获取多个第二样本频域信号以及多个第二标签频域信号,每个第二样本频域信号对应一个第二音频样本信号,每个第二标签频域信号对应一个第二标签音频信号,所述每个第二标签音频信号为对所述第一终端所播放的一个第二音频样本信号进行录制得到的信号;
将所述多个第二样本频域信号以及多个第二标签频域信号输入第一终端初始模型,由所述第一终端初始模型基于所述多个第二样本频域信号以及多个第二标签频域信号,进行训练,得到所述第一终端模型。
第三方面,提供了一种音频播放装置,用于执行上述音频播放方法。具体地,该音频播放装置包括用于执行上述第一方面以及第一方面的任一种可选方式提供的音频播放方法的功能模块。
第四方面,提供了一种模型获取装置,用于执行上述模型获取方法。具体地,该模型获取装置包括用于执行上述第二方面以及第二方面任一种可选方式提供的模型获取方法的功能模块。
第五方面,提供一种终端,该终端包括处理器和存储器,该存储器中存储有至少一条指令,该指令由该处理器加载并执行以实现如上述音频播放方法所执行的操作。
第六方面,提供一种服务器,该服务器包括处理器和存储器,该存储器中存储有至少一条指令,该指令由该处理器加载并执行以实现如上述模型获取方法所执行的操作。
第七方面,提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,该指令由处理器加载并执行以实现如上述音频播放方法所执行的操作。
第八方面,提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,该指令由处理器加载并执行以实现如上述模型获取方法所执行的操作。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频播放系统的示意图;
图2是本申请实施例提供的一种计算机设备的结构示意图;
图3是本申请实施例提供的一种音频播放方法的流程图;
图4是本申请实施例提供的一种建立第二终端模型的示意图;
图5是本申请实施例提供的一种建立第一终端模型的示意图;
图6是本申请实施例提供的一种标签信号生成的流程图;
图7是本申请实施例提供的一种目标播放效果模型训练的示意图;
图8是本申请实施例提供的一种音频播放过程的示意图;
图9是本申请实施例提供的一种音频播放方法的流程图;
图10是本申请实施例提供的一种音频播放方法的流程图;
图11是本申请实施例提供的一种目标播放效果模型训练过程的示意图;
图12是本申请实施例提供的一种音频播放装置的结构示意图;
图13是本申请实施例提供的一种模型获取装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种音频播放系统的示意图,参见图1,音频播放系统100包括服务器101、第一终端102以及第二终端103,其中,服务器101用于生成第一终端模型、第二终端模型以及目标播放效果模型,并向第一终端发送目标播放效果模型,第一终端模型是对第一终端102建立的模型,第二终端模型是对第二终端103建立的模型,目标播放效果模型用于处理第一终端102待播放的音频信号,以便第一终端102在播放目标播放效果模型处理后的音频信号时,可以达到第二终端103的播放待播放的音频信号时的播放效果。该服务器101可以是云端服务器,还可以是非云端服务器,本申请实施例对该服务器不做具体限定。
第一终端102可以播放音频信号,还可以用于接收服务器101发送的目标播放效果模型,并使用目标播放效果模型处理待播放音频信号,播放处理后的音频信号,以便可以达到第二终端103的播放待播放音频信号时的播放效果。在一些实施例中,该第一终端102也可以生成第一终端模型、第二终端模型以及目标播放效果模型,该第一终端102可以是音响、手机、平板电脑以及电视等,本申请实施例对第一终端不做具体限定。
第二终端103可以播放音频信号,并通过播放音频信号为服务器101提供样本信号,以便服务器101或者第一终端102可以基于样本信号,建立第二终端模型。该第二终端103可以是音响、手机、平板电脑以及电视等,当第二终端为音响时,可以是高保真音响以及其他高端音响等,本申请实施例对第二终端不做具体限定。
上述的服务器101、第一终端102以及第二终端103均可以计算机设备,图2是本申请实施例提供的一种计算机设备的结构示意图,计算机设备200包括可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)201和一个或一个以上的存储器202,其中,该存储器202中存储有至少一条指令,该至少一条指令由该处理器201加载并执行以实现下述各个方法实施例提供的方法。当然,该计算机设备200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备200还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成下述实施例中的音频播放方法。例如,该计算机可读存储介质可以是只读存储器(read-only memory,ROM)、随机存取存储器(randomaccess memory,RAM)、只读光盘(compact disc read-only memory,CD-ROM)、磁带、软盘和光数据存储设备等。
需要说明的是,本申请中的播放效果为终端在播放音频信号时,用户所听到的终端播放出的声音,是一种听觉效果,例如,第一终端在对歌曲1的音频信号进行播放时,可以播放出声音1,用户也就可以听到声音1,声音1也即是第一终端播放出的歌曲1,同时也是第一终端播放歌曲1时所播放出的播放效果1。再例如,第二终端在对歌曲1的音频信号进行播放时,可以播放出声音2,用户业就可以听到声音2,声音2也即是第二终端播放出的歌曲1,同时也是第二终端播放歌曲1时所播放出的播放效果1。由于第一终端与第二终端的硬件结构或材料可能有所不同,且第一终端和第二终端在对歌曲1的音频信号进行播放时,对歌曲1的音频信号的处理过程可能不同,也就会导致用户听到的声音1与声音2有所不同,或者说声音1和声音2可以为用户带来不同听觉感受,也即是播放效果1和播放效果2不同,因此,第一终端和第二终端播放音频信号时所播放出的播放效果不同。
需要说明的是,第一终端若不经过反复的调节,第一终端播放音频信号时所播放出的播放效果与第二终端播放相同的音频信号时所播放出的播放效果不同,若对第一终端进行反复调节后,第一终端播放音频信号时所播放出的播放效果可能与第二终端播放相同的音频信号时所播放出的播放效果相同,总之,第一终端根据当前的硬件结构以及当前用于对待播放音频信号进行处理的参数,对待处理音频信号进行播放时所播放出的播放效果与第二终端播放相同的音频信号时所播放出的播放效果不同,因此,第一终端当前不具备基于第二终端播放出的播放效果的播放能力。
但是在一些应用场景中,用户又希望无需通过第一终端进行调节,第一终端仍可以达到第二终端播放出的播放效果,例如,用户当前仅有第一终端,没有第二终端,则用户就会希望仅使用第一终端来达到第二终端播放出的播放效果。
在一些实施例中,第一终端可以先获取根据第二终端播放出的音频样本信号所训练出的目标播放效果模型,再通过目标播放效果模型,对待播放音频信号进行处理,最后播放处理后的音频信号,从而使得第一终端播放待播放音频信号时所播放出的播放效果与第二终端播放待播放音频信号时所播放出的播放效果相同,以满足用户的需求。
在一些实施例中,第一终端还可以自己训练目标播放效果模型,并根据训练好的目标播放效果模型处理待播放音频信号,并对处理后的音频信号进行播放,为了进一步体现这个的过程,参见如图3所示的本申请实施例提供的一种音频播放方法的流程图,该方法具体包括下述步骤301-305。
301、第一终端获取第二终端播放出的音频样本信号。
该第二终端为除该第一终端以外的任一种终端,该音频样本信号为第二终端播放第一音频信号时所播放出的音频信号,音频样本信号可以表示第二终端的播放效果。该第一音频信号可以是任一可播放的音频信号,例如流行音乐、爵士音乐以及蓝调风格的音乐,再或者是一些特殊的音频信号,例如,扫频信号、粉红噪声等。
本步骤301可以通过下述方式1和方式2中的任一种方式来实现。
方式1、第一终端以录制的方式,获取该音频样本信号。
用户可以使用第二终端播放第一音频信号,当第二终端在播放第一音频信号时,第一终端对第二终端播放的第一音频信号进行录音,得到音频样本信号。第二终端所播放的第一音频信号可以是第二终端本地存储的音频信号,当然也可以是第二终端基于网络进行在线播放的音频信号。该第一音频信号可以是一个或多个音频信号,本申请实施例对第一音频信号的个数以及第二终端获取该第一音频信号不做具体限定。
方式2、第一终端根据第二终端模型以及第一音频信号,获取该音频样本信号,第二终端模型。
当第一终端在通过方式2获取该音频样本信号时,第一终端可以先建立第二终端模型,再根据建立的终端获取该音频样本信号。其中,建立第二终端模型的过程可以包括下述步骤1A-1B。
步骤1A、第一终端获取多个第一样本频域信号以及多个第一标签频域信号,每个第一样本频域信号对应一个第一音频样本信号,每个第一标签频域信号对应一个第一标签音频信号,每个第一标签音频信号为对第二终端所播放的一个第一音频样本信号进行录制得到的信号。
其中,每个第一音频样本信号可以是任一可播放的音频信号,例如流行音乐、爵士音乐以及蓝调风格的音乐,再或者是一些特殊的音频信号,例如,扫频信号、粉红噪声等。一个第一样本频域信号用于反映一个第一音频样本信号的频率特性,一个第一标签频域信号用于反映一个第一标签音频信号的频率特性。本申请实施例对该第一音频样本信号不做具体限定。
第一终端可以先获取多个第一音频样本信号,再获取每个第一音频样本信号对应的第一标签音频信号,再获取每个第一音频样本信号对应的第一样本频域信号以及每个第一标签音频信号对应的第一标签频域信号。
其中,第一终端获取多个第一音频样本信号的过程可以是:第一终端可以基于用户的指令,从本地存储的音频信号中获取多个第一音频样本信号,也可以基于用户的指令,实时在线下载多个第一音频样本信号,从而该第一终端可以获取到多个第一音频样本信号。
一个第一标签音频信号为对第二终端所播放的一个第一音频样本信号进行录制得到的信号,也即是第二终端播放的一个第一音频样本信号的录音信号,那么,每个第一标签音频信号均可以用于表示第二终端的播放效果。
第一终端获取每个第一音频样本信号对应的第一标签音频信号的过程可以是:第一终端将获取的多个第一音频信号发送至第二终端,第二终端对接收的多个第一音频信号进行播放,当该第二终端每播放一个第一音频样本信号时,录音设备对第二终端当前播放的第一音频样本信号进行录音,得到与当前播放的第一音频样本信号对应的第一标签音频信号。当录音设备对多个第一音频样本信号均进行录制后,得到多个第一标签音频信号,该录音设备可以将获取的多个第一标签音频信号发送给第一终端,第一终端接收多个第一标签音频信号。
需要说明的是,录音设备可以是第一终端或第二终端,还可以是第一终端以及第二终端以外的设备,例如具有录音功能的标准麦克风。当录音设备是第一终端时,则不需要向第一终端发送多个第一标签频域信号。本申请实施例对录音设备不做具体限定。
在一些实施例中,第一设备也可以不将多个第一音频样本信号发送至第二终端,第二终端可以基于用户的指令,在本地存储的音频信号中选择出多个第一音频样本信号,还可以基于用户的指令选择从在线的音频信号中,选择出多个第一音频样本信号,当第二终端选择出多个第一音频样本信号后,播放选择出的多个第一音频样本信号。
第一终端获取每个第一音频样本信号对应的第一样本频域信号以及每个第一标签音频信号对应的第一标签频域信号的过程可以是:第一终端可以基于多个第一音频样本信号以及每个第一音频样本信号对应的第一标签音频信号,获取多个第一样本频域信号以及多个第一标签频域信号,其中,一个第一样本频域信号为一个第一音频样本信号的频域信号,从而使得一个第一样本频域信号与一个第一音频样本信号对应,一个第一标签频域信号为一个第一标签音频信号的频域信号,从而使得一个第一标签频域信号与一个第一标签音频信号对应。
第一终端基于多个第一音频样本信号以及每个第一音频样本信号对应的第一标签音频信号,获取多个第一样本频域信号以及多个第一标签频域信号的过程可以是:对于多个第一音频样本信号中的任一第一音频样本信号以及任一第一音频样本信号对应的第一标签音频信号,第一终端以该第一音频样本信号的起始时间为基础,对第一标签音频信号进行时延对齐处理,得到第一目标标签音频信号,其中,第一目标标签音频信号与第一音频样本信号的初始时间和结束时间均相同;第一终端对第一音频样本信号进行时频变换,得到第一样本频域信号,对第一目标标签音频信号进行时频变换,得到第一标签频域信号,当第一终端对多个第一音频样本信号中的每个第一音频样本信号均执行上述过程后,可以获取到多个第一样本频域信号以及多个第一标签频域信号。
需要说明的是,在本申请的音频信号都是基于时间的信号,也即是时域信号,由于从第二终端开始播放第一音频样本信号,到第一终端开始录制到第一标签音频信号之间存在时延,因此,第一终端可以以该第一音频样本信号的起始时间为基础,对第一标签音频信号进行时延对齐处理,得到第一目标标签音频信号,或者,以第一标签音频信号的起始时间为基础,对第一音频样本信号进行时延对齐处理,得到第一目标音频样本信号。
在一种可能的实现方式中,该第一终端获取该第一音频样本信号的起始时间与第一标签音频信号的起始时间之间的第一时间差,该第一时间差也即是第一音频样本信号与第一标签音频信号之间的时延;将第一标签音频信号的时间减去第一时间差,得到第一目标标签音频信号,该第一目标标签音频信号的起始时间和终止时间分别与第一音频样本信号的起始时间以及终止时间相同,起始时间以及终止时间之间的时间均是对应相同,从而第一终端可以将第一目标标签音频信号作为第一音频样本信号的标签信号,也即是期望信号。或者是,该第一终端将第一音频样本信号时间加上第一时间差,得到第一目标音频样本信号,该第一目标音频样本信号的起始时间和终止时间分别与第一标签音频信号的起始时间以及终止时间相同,起始时间以及终止时间之间的时间均是对应相同,第一终端直接将第一标签音频信号作为第一音频样本信号的标签信号,也即是期望信号。需要说明的是,本申请实施例以第一目标标签音频信号为标签信号为例进行说明。
第一终端可以对第一音频样本信号以及第一目标标签音频信号进行傅里叶变换(fast fourier transform,FFT),分别得到第一样本频域信号以及第一标签频域信号,以实现时频变换。本申请实施例对该时频变换的方式不做具体限定。当第一终端对多个第一标签音频信号中的每个第一标签音频信号均执行上述的时延对齐处理过程以及时频变换过程后,可以获取多个第一标签频域信号,当第一终端对多个第一音频样本信号均执行时频变换后,可以获取多个第一样本频域信号。
步骤1B、第一终端将多个第一样本频域信号以及多个第一标签频域信号输入第二终端初始模型,由第二终端初始模型基于多个第一样本频域信号以及多个第一标签频域信号,进行训练,得到第二终端模型。
该第二终端初始模型可以是深度神经网络(deep neural network,DDN)、递归神经网络(recurrent neural network,RNN)以及卷积神经网络(convolutional neuralnetwork,CNN)中的任一种,本申请实施例对第二终端初始模型不做具体限定。
第一终端可以将多个第一样本频域信号作为第二终端初始模型的输入信号,输入至第二终端初始模型中,将一个第一标签频域信号作为其对应的第一样本频域信号的期望信号,也即是标签信号,并将每个第一标签频域信号输入第二终端初始模型。在一种可能的实现方式中,该第一终端可以先对每个第一标签频域信号进行标签标记,以指明每个第一标签频域信号为哪个第一样本频域信号的标签信号,当标签标记完成后,将标记后的第一标签频域信号输入第二终端初始模型。
当第二终端初始模型接收到多个第一样本频域信号以及多个第一标签频域信号后,该第二终端初始模型进行第一预设次数的训练,对于第i次训练,该第一终端将第i-1次输出的频域信号(也即是第i-1次的频域信号)作为第i次训练输入的频域信号,并基于第i-1次的频域信号以及多个第一标签频域信号,计算第一损失,该第一损失用于表示第i-1次的频域信号与多个第一标签频域信号之间的相似度,第一损失越小,相似度越高,说明第二终端初始模型基于当前的模型参数,模拟第二终端的效果越好,反之,相似度越低,说明第二终端初始模型基于当前的模型参数,模拟第二终端的效果越差。当计算出的第一损失未达到第一预设损失时或i小于第一预设次数时,第二终端初始模型基于第i-1次的频域信号以及第一损失,进行反向传播计算,得到第i次的模型参数,第二终端初始模型将当前的模型参数更新为第i次的模型参数,并基于更新后的第i次的模型参数,对第i-1的频域信号进行正向传播计算,输出第i次的频域信号(也即是第i次输出的频域信号),具体地,将第i次的频域信号输出至第二终端初始模型的输入层,以便该第二终端初始模型基于第i次的频域信号进行第i+1次训练。当计算出的第一损失达到第一预设损失时或训练次数等于第一预设次数时,结束训练,得到第二终端模型。其中i为大于0且小于等于第一预设次数的正整数,本申请实施例对该第一预设次数以及第一预设损失不做具体限定。需要说明的是,当i=1时,第二终端初始模型直接将第一终端输入的多个第一样本频域信号作为第1次训练输入的信号,并初始化第二终端初始模型的模型参数,基于初始的模型参数以及多个第一样本频域信号,进行第一次训练。
为了进一步说明上述步骤1A-1B所示的过程,参见图4所示的本申请实施例提供的一种建立第二终端模型的示意图。
第一终端获取录音信号1以及原始信号1,其中,录音信号1也即是第一标签音频信号,原始信号1也即是第一音频样本信号,第一终端对录音信号1进行时延对齐处理,得到第一目标标签信号,对第一目标签信号进行时频变换,得到第一标签频域信号,第一终端对原始信号1进行时频变换,得到第一样本频域信号,第一终端将第一标签频域信号以及第一样本频域信号输入第二终端初始模型,进行步骤1B所示的模型训练过程,得到第二终端模型。
由于音频样本信号可以是为第二终端播放第一音频信号时所录制出的信号,可以作为后续训练目标播放效果模型时的一个待播放音频信号的期望信号。为了避免录制步骤,当第一终端建立完第二终端后,可以根据建立的第二终端模型,获取该音频样本信号,在一种可能的实现方式中,第一终端根据建立的第二终端模型,获取该音频样本信号的过程可以包括下述步骤11-13。
步骤11、第一终端获取第一音频信号的第一频域信号,该第一音频信号为该第二终端播放出该音频样本信号时所播放的音频信号。
第一终端可以先获取第一音频信号,再对第一音频信号进行时频变换,得到第一音频信号的频域信号,也即是第一频域信号。
步骤12、第一终端将第一频域信号输入第二终端模型,由第二终端模型基于输入的第一频域信号,输出第三目标频域信号。
由于第二终端模型是对第二终端建立的模型,则第一终端可以直接将第一频域信号输入第二终端模型,第二终端模型可以基于当前的模型参数对输入的第一频域信号进行前向计算,得到第三目标频域信号,并输出第三目标频域信号,输出的第三目标频域信号对应第一音频信号,也即是对第二终端播放的第一音频信号进行录制的音频信号的频域信号。
步骤13、第一终端基于第三目标频域信号,获取该音频样本信号。
该第一终端可以先对第三目标频域信号进行频时变换,得到音频样本信号。
需要说明的是,第一终端内可以存储有至少一种播放效果模型,每一种播放效果模型对应一种第二终端,也即是当第一终端播放任一种播放效果模型处理后的音频信号时,可以达到该任一种播放效果模型对应的第二终端所播放出的播放效果。
该第一终端内可以存储有模型推荐表,该模型推荐表用于直观表示第一终端内存储的至少一种播放效果模型,包括第一终端内存储的每一种播放效果模型的模型标识以及每一种播放效果模型所对应的第二终端的终端标识。该模型标识可以是播放效果模型的编号,也可以是用于表示播放效果模型的图形,不同的播放效果模型的模型标识不同,该模型标识可以由服务器来进行分配。终端标识可以是第二终端的名称或者产品型号等,不同种类第二终端的终端标识不同。本申请实施例对该模型标识以及终端标识不做具体限定。
例如表1所示的模型推荐表,第一终端内当前存储有播放效果模型1-3,当第一终端播放效果模型1对音乐1的音频信号进行调节后的音频信号时,其播放出的播放效果与第二终端xxx播放音乐1的音频信号时所播放出的播放效果相同。
表1
模型标识 终端标识 是否已存储
播放效果模型1 第二终端xxx
播放效果模型2 第二终端yyy
播放效果模型3 第二终端zzz
播放效果模型4 第二终端kkk
当第一终端内未存储有目标效果模型时,第一终端可以先获取该目标效果模型对应的第二终端播放出的音频样本信号,也即是执行本步骤301,再根据获取的音频样本信号,获取目标播放效果模型,也即是步骤302。例如,表1中的播放效果模型4可以是目标播放效果模型,当用户希望听到第二终端kkk所播放出的声音时,但是该用户仅有第一终端,则该用户可以利用第一终端执行步骤302,获取目标播放效果模型,后续第一终端再根据获取的目标播放效果模型,进行音频播放,以实现第二终端kkk的播放效果。
302、第一终端基于该音频样本信号以及第一终端模型,对初始播放效果模型进行训练,得到该目标播放效果模型,该第一终端模型是对该第一终端建立的模型。
第一终端可以显示模型获取界面,该模型获取界面上可以显示有模型推荐表,用户可以通过点击选中模型推荐表中未存储的目标播放效果模型的模型标识或者未存储的目标播放效果模型所对应的第二终端的标识,来选择待存储的目标播放效果模型,当第一终端检测到用户对任一未存储的播放效果模型的点击操作时,第一终端在模型获取界面弹出模型获取窗口,该模型获取窗口可以包括音频信号添加区、第一训练模式选择按钮、第一训练模式选择按钮以及确定按钮,音频信号添加区用于添加音频样本信号,第一训练模式选择按钮用于确定第一终端训练目标播放效果模型,第二训练模式选择按钮用于确定通过云端训练目标播放效果模型。用户可以在音频信号添加区中添加音频样本信号,并点击第一训练模式选择按钮以及确定按钮,当第一终端检测音频信号添加区中添加有音频样本信号,且用户对第一训练模式选择按钮以及确定按钮进行了点击动作时,则触发第一终端执行本步骤302。
当用户希望的目标播放效果模型标识未在模型推荐表中显示时,该用户可以通过点击模型获取界面中的添加按钮,使得第一终端弹出模型获取窗口,在模型获取窗口中进行操作,以触发第一终端执行本步骤302。
第一终端在执行本步骤302之前,可以先获取第一终端模型,其中,第一终端获取第一终端模型的方式可以是第一终端建立第一终端模型,还可以是服务器建立第一终端模型,第一终端向服务器发起请求,获取服务器建立的第一终端模型。
第一终端可以基于第二样本音频信号以及第二样本音频信号的录音信号,对第二终端初始模型进行训练,得到第二终端模型。在一种可能的实现方式中,第一终端建立第一终端模型的过程可以通过下述步骤2A至步骤2B所示的过程来实现。
步骤2A、第一终端获取多个第二样本频域信号以及多个第二标签频域信号,每个第二样本频域信号对应一个第二样本音频信号,每个第二标签频域信号对应一个第二标签音频信号,一个第二标签音频信号为对第一终端所播放的一个第二样本音频信号进行录制得到的信号。
其中,每个第二样本音频信号可以是任一可播放的音频信号,例如流行音乐、爵士音乐以及蓝调风格的音乐,再或者是一些特殊的音频信号,例如,扫频信号、粉红噪声等。一个第二样本频域信号用于反映一个第二样本音频信号的频率特性,一个第二标签频域信号用于反映一个第二标签音频信号的频率特性。本申请实施例对该第二样本音频信号不做具体限定。
该第一终端可以从自带的音频库中随机选取出多个第二样本音频信号,还可以通过网络在音频播放软件中下载多个第二样本音频信号。本申请实施例对获取多个第二样本音频信号的方式不做具体限定。
一个第二标签音频信号为对第一终端所播放的一个第二样本音频信号进行录制得到的信号,也即是第一终端播放的一个第二样本音频信号的录音信号。当该第一终端每播放一个第二样本音频信号时,录音设备对第二第一终端播放的第二样本音频信号进行录音,得到与当前播放的第二样本音频信号对应的第二标签音频信号。当录音设备对多个第二样本音频信号均进行录制后,得到多个第二标签音频信号,并向第一终端发送多个第二标签音频信号,从而第一终端可以接收多个第二标签音频信号,也即是获取到多个第二标签音频信号。
当获取到多个第二样本音频信号以及每个第二样本音频信号对应的第二标签音频信号后,第一终端可以基于多个第二样本音频信号以及每个第二样本音频信号对应的第二标签音频信号,获取多个第二样本频域信号以及多个第二标签频域信号,其中,一个第二样本频域信号为一个第二样本音频信号的频域信号,从而使得一个第二样本频域信号与一个第二样本音频信号对应,一个第二标签频域信号为一个第二标签音频信号的频域信号,从而使得一个第二标签频域信号与一个第二标签音频信号对应。
其中,基于多个第二样本音频信号以及每个第二样本音频信号对应的第二标签音频信号,获取多个第二样本频域信号以及多个第二标签频域信号的过程可以是:对于多个第二样本音频信号中的任一第二样本音频信号以及任一第二样本音频信号对应的第二标签音频信号,第一终端以该第二样本音频信号的起始时间为基础,对第二标签音频信号进行时延对齐处理,得到第二目标标签音频信号,其中,第二目标标签音频信号与第二样本音频信号的初始时间和结束时间均相同;第一终端对第二样本音频信号进行时频变换,得到第二样本频域信号,对第二目标标签音频信号进行时频变换,得到第二标签频域信号,当第一终端对多个第二样本音频信号中的每个第二样本音频信号均执行上述过程后,可以获取到多个第二样本频域信号以及多个第二标签频域信号。
需要说明的是,由于从第一终端开始播放第二样本音频信号,到录音设备开始录制到第二标签音频信号之间存在时延,因此,第一终端可以以该第二样本音频信号的起始时间为基础,对第二标签音频信号进行时延对齐处理,得到第二目标标签音频信号,或者,以第二标签音频信号的起始时间为基础,对第二样本音频信号进行时延对齐处理,得到第一目标样本音频信号。
在一种可能的实现方式中,该第一终端获取该第二样本音频信号的起始时间与第二标签音频信号的起始时间之间的第二时间差,该第二时间差也即是第二样本音频信号与第二标签音频信号之间的时延;将第二标签音频信号的时间减去第二时间差,得到第二目标标签音频信号,该第二目标标签音频信号的起始时间和终止时间分别与第二样本音频信号的起始时间以及终止时间相同,起始时间以及终止时间之间的时间点均是对应相同,从而第一终端可以将第二目标标签音频信号作为第二样本音频信号的标签信号,也即是期望信号。或者是,该第一终端将第二样本音频信号的时间加上第二时间差,得到第二目标样本音频信号,该第二目标样本音频信号的起始时间和终止时间分别与第二标签音频信号的起始时间以及终止时间相同,起始时间以及终止时间之间的时间点均是对应相同,第一终端直接将第二标签音频信号作为第二样本音频信号的标签信号,也即是期望信号。需要说明的是,本申请实施例以第二目标标签音频信号为标签信号为例进行说明。
第一终端可以对第二样本音频信号以及第二目标标签音频信号进行FFT变换,分别得到第二样本频域信号以及第二标签频域信号,以实现时频变换。本申请实施例对该时频变换的方式不做具体限定。当第一终端对多个第二标签音频信号中的每个第二标签音频信号均执行上述的时延对齐处理过程以及时频变换过程后,可以获取多个第二标签频域信号,当第一终端对多个第二样本音频信号均执行时频变换后,可以获取多个第二样本频域信号。
步骤2B、第一终端将多个第二样本频域信号以及多个第二标签频域信号输入第一终端初始模型,由第一终端初始模型基于多个第二样本频域信号以及多个第二标签频域信号,进行训练,得到第一终端模型。
该第一终端初始模型可以是DDN、RNN以及CNN中的任一种,本申请实施例对第一终端初始模型不做具体限定。
第一终端可以将多个第二样本频域信号作为第一终端初始模型的输入信号,输入至第一终端初始模型中,将一个第二标签频域信号作为其对应的第二样本频域信号的期望信号,也即是标签信号,并将每个第二标签频域信号输入第一终端初始模型。在一种可能的实现方式中,该第一终端可以先对每个第二标签频域信号进行标签标记,以指明每个第二标签频域信号为哪个第二样本频域信号的标签信号,当标签标记完成后,将标记后的第二标签频域信号输入第一终端初始模型。
当第一终端初始模型接收到多个第二样本频域信号以及多个第二标签频域信号后,该第一终端初始模型进行第二预设次数的训练,对于第j次训练,该第一终端将第j-1次输出的频域信号(也即是第j-1次的频域信号)作为第j次训练输入的频域信号,并基于第j-1次的频域信号以及多个第二标签频域信号,计算第二损失,该第二损失用于表示第j-1次的频域信号与多个第二标签频域信号之间的相似度,第二损失越小,相似度越高,说明第一终端初始模型基于当前的模型参数,模拟第一终端的效果越好,反之,相似度越低,说明第一终端初始模型基于当前的模型参数,模拟第一终端的效果越差。当计算出的第二损失未达到第二预设损失时或j小于第二预设次数时,第一终端初始模型基于第j-1次的频域信号以及第二损失,进行反向传播计算,得到第j次的模型参数,第一终端初始模型将当前的模型参数更新为第j次的模型参数,并基于更新后的第j次的模型参数,对第j-1的频域信号进行正向传播计算,输出第j次的频域信号(也即是第j次输出的频域信号),具体地,将第j次的频域信号输出至第一终端初始模型的输入层,以便该第一终端初始模型基于第j次的频域信号进行第j+1次训练。当计算出的第二损失达到第二预设损失时或训练次数等于第二预设次数时,结束训练,得到第一终端模型。其中j为大于0且小于等于第二预设次数的正整数,本申请实施例对该第二预设次数以及第二预设损失不做具体限定。需要说明的是,当j=1时,第一终端初始模型直接将第一终端输入的多个第二样本频域信号作为第1次训练输入的信号,并初始化第一终端初始模型的模型参数,基于初始的模型参数以及多个第二样本频域信号,进行第二次训练。
为了进一步说明上述步骤2A-2B所示的过程,参见图5所示的本申请实施例提供的一种建立第一终端模型的示意图。
第一终端获取录音信号2以及原始信号2,其中,录音信号2也即是第二标签音频信号,原始信号2也即是第二样本音频信号,第一终端对录音信号2进行时延对齐处理,得到第二目标标签信号,对第二目标签信号进行时频变换,得到第二标签频域信号,第一终端对原始信号2进行时频变换,得到第二样本频域信号,第一终端将第二标签频域信号以及第二样本频域信号输入第一终端初始模型,进行步骤2B所示的模型训练过程,得到第一终端模型。
需要说明的是,服务器建立第一终端模型的过程与第一终端建立第一终端模型的过程同理,在此,本申请实施例对服务器建立第一终端模型的过程不做赘述。
当第一终端获取到第一终端模型后,该第一终端模型可以执行本步骤302,第一终端可以基于第二终端播放出该音频样本信号时所播放的音频信号以及音频样本信号的频域信号,获取目标播放效果模型。在一种可能的实现方式中,本步骤302可以通过下述步骤21-23该的过程来实现。
步骤21、第一终端获取第一音频信号的第一频域信号,第一音频信号为该第二终端播放出该音频样本信号时所播放的音频信号。
第一终端可以先获取第一音频信号,再获取第一音频信号的频域信号,也即是第一频域信号,其中,第一终端获取第一音频信号的过程与获取第一音频样本信号的过程同理,获取第一频域信号的过程与获取第一标签频域信号的过程同理,在此,本申请实施例对第一终端获取第一频域信号的过程不做赘述。
步骤22、第一终端获取音频样本信号的第二频域信号。
第一终端可以先基于第二终端模型先获取音频样本信号,在对音频样本信号进行处理,得到第二频域信号。在一种可能的实现方式中,本步骤22可以通过下述步骤221-223所示的过程来实现。
步骤221、第一终端将第一频域信号输入第二终端模型,由第二终端模型基于输入的第一频域信号,输出第三目标频域信号。
本步骤221与步骤12所示的过程同理,在此,本申请实施例不对本步骤221进行赘述。
步骤222、第一终端基于第三目标频域信号,获取第二频域信号。
该第一终端可以先对第三目标频域信号进行频时变换,得到第一目标时域信号,再对第一目标时域信号进行时延对齐处理,得到处理后的一个或多个第二目标时域信号,处理后的一个第二目标时域信号与一个第一音频信号的时间均相同。其中,第一终端可以对每个第三目标频域信号进行逆傅里叶变换(inverse fast fourier transform,IFFT),得到第二目标时域信号,以实现频时变换。本申请实施例对频时变换的具体过程不做限定。
对第一目标时域信号进行时延对齐处理,得到处理后的一个或多个第二目标时域信号的过程与对第一标签音频信号进行时延对齐处理,得到第一目标标签音频信号的过程同理,在此,本申请实施例对第一目标时域信号进行时延对齐处理的过程不做赘述。需要说明的是,第二目标时域信号也即是一个音频样本信号,其中,上述获取第二目标时域信号的过程也即是获取用于承载目标播放效果的一个或多个音频样本信号过程。
当然,在一些实施例中,也可以由录音设备直接对第二终端播放的一个或多个第一音频信号进行录制,得到获取用于承载目标播放效果的一个或多个音频样本信号,然后第一终端再对音频样本信号进行时延对齐处理和时频变换,得到第四目标频域信号。
该第一终端对一个或多个第二目标时域信号分别进行FFT变换得到一个或多个第二频域信号,从而第一终端获取到一个或多个第二频域信号。
例如,图6所示的本申请实施例提供的一种标签信号生成的流程图,第一终端将对原始信号3(第一音频信号)进行时频变换,得到第一频域信号,并将第一频域信号输入第二终端模型,第二终端模型基于输入的第一频域信号,输出第二目标标签信号,第一终端对第二目标标签信号进行IFFT变换、时延对齐处理以及FFT变换,得到第二频域信号也即是标签信号。
由于每个第二目标频域信号为一个音频样本信号的频域信号,可以指示一个音频样本信号,因此,第一终端可以直接通过第二终端模型,获取第三目标频域信号,再对第三目标频域信号进行处理,得到第二频域信号作为第一音频信号的标签信号,也即是步骤22所示的过程。从而可以避免对第一音频信号进行录制的过程,从而减少了标签信号的生成时间,提高了标签信号生成效率。需要说明的是,第一目标时域信号也即是音频样本信号,当第一终端已经获取到音频样本采样信号后,该第一终端也可以不在本步骤22中获取音频样本采样信号后,而是直接基于之前获取的音频样本信号,获取第二频域信号。
步骤23、第一终端基于第一频域信号、第二频域信号以及第一终端模型,对该初始播放效果模型进行训练,得到该目标播放效果模型。
该第一终端可以将第一频域信号、第二频域信号输入初始播放效果模型,初始模型基于当前的模型参数对输入的第一频域信号进行前向计算,并向第一终端模型输出计算的结果,第一终端模型基于计算的结果模拟第一终端进行音频播放,向输出初始播放效果模型输出新的频域信号,初始播放效果模型基于新的频域信号以及第二频域信号进行模型训练。
在一种可能的实现方式中,本步骤23可以通过下述步骤231-233所示的过程来实现。
步骤231、第一终端将第一频域信号以及第二频域信号,输入初始播放效果模型,由初始播放效果对第一频域信号进行调节,得到第一目标频域信号,向第一终端模型输出第一目标频域信号。
该初始模型调节可以是DDN、RNN以及CNN中的任一种,本申请实施例对初始播放效果模型不做具体限定。第一终端可以将每个第一频域信号作为初始播放效果模型的一个输入信号输入至第一终端初始模型中,将一个第二频域信号作为其对应的第一频域信号的期望信号,也即是标签信号,并将每个第二标签频域信号输入第一终端初始模型。在一种可能的实现方式中,该第一终端可以先对每个第二频域信号进行标签标记,以指明每个第二频域信号为哪个第一频域信号的标签信号,当标签标记完成后,将标记后的第二频域信号输入初始播放效果模型。
当该初始播放效果模型接收到第一频域信号以及第二频域信号后,该初始播放效果模型初始化模型参数,并基于初始后的模型参数,对接收到的第一频域信号进行正向传播计算,得到计算出的第一目标频域信号,以实现对第一频域信号进行调节。
步骤232、由第一终端模型基于输入的第一目标频域信号,向初始播放效果模型输出第二目标频域信号。
为了表明本次调节的结果,初始播放效果模型将第一目标频域信号输入第一终端模型,以便第一终端模型基于输入的第一目标频域信号,输出第二目标频域信号,若第二目标频域信号与对应的第二频域信号相同,则说明本次的调节效果良好,若第二目标频域信号与对应的第二频域信号差别过大,则说明本次的调节效果不好,还需要修改初始播放效果模型的模型参数,以对初始播放效果模型进行训练。
步骤233、由该初始播放效果模型基于第二目标频域信号以及第二频域信号,进行训练,得到目标播放效果模型。
当初始播放效果模型接收到第一频域信号以及第二频域信号后,该初始播放效果模型进行第三预设次数的训练,对于第k次训练,该第一终端将第一终端模型输出的第k-1次的第二目标频域信号作为第k次训练时初始播放效果模型输入的频域信号,其中,第k-1次的第二目标频域信号也即是第一终端模型在第k-1次训练时输出的频域信号。初始播放效果模型基于第k-1次的第二目标频域信号以及多个第二频域信号,计算第三损失,该第三损失用于表示第k-1次的第二目标频域信号与多个第二频域信号之间的相似度,第三损失越小,相似度越高,说明第一终端在播放初始播放效果模型所调节出的频域信号时所到达的播放效果与第二终端播放第一音频信号时所达到的播放效果越接近,也即是初始播放效果模型基于当前的模型参数对频域信号进行调节的调节效果越好,反之,调节效果越差。当计算出的第三损失未达到第三预设损失时或k小于第三预设次数时,初始播放效果模型基于第k-1次的第二目标频域信号以及第三损失,进行反向传播计算,得到初始播放效果模型第k次的模型参数,初始播放效果模型将自己当前的模型参数更新为第k次的模型参数,并基于更新后的第k次的模型参数,对第k-1次的第二目标频域信号进行正向传播计算,并向第一终端模型输出第k次的第一目标频域信号,第一终端模型基于输入的第k次的第一目标频域信号,输出第k次的第二目标频域信号,具体地,将第k次的第二目标频域信号输出至初始播放效果模型的输入层,以便该初始播放效果模型基于第k次的第二目标频域信号进行第k+1次训练。当计算出的第三损失达到第三预设损失时或训练次数等于第三预设次数时,结束训练,得到目标播放效果模型。其中k为大于0且小于等于第三预设次数的正整数,本申请实施例对该第三预设次数以及第三预设损失不做具体限定。
为了进一步说明步骤23所示的过程,参见图7所示的本申请实施例提供的一种目标播放效果模型训练的示意图,第一终端将第一音频信号的第一频域信号以及音频样本信号的第二频域信号输入初始播放效果模型,初始播放效果模型基于对输入的第一频域信号进行计算,并向第一终端模型输出计算得到的第一目标频域信号,第一终端模型基于输入的第一目标频域信号,向初始播放效果模型输出第二目标频域信号,使得初始播放效果模型基于输入的第二目标频域信号以及第二频域信号进行模型步骤233所示的训练过程。
需要说明的是,本步骤302所示的过程也即是第一终端根据音频样本信号,得到目标播放效果模型的过程。
当第一终端接收到目标播放效果模型后,可以先将目标播放效果模型与对应的模型标识进行关联存储,当存储完成后,若第一终端显示的模型推荐表中本来就显示有目标播放效果模型的模型标识,则该第一终端则将模型推荐表内与目标播放效果模型的模型标识对应的未存储标识(否)修改为存储标识(是),以指示第一终端中已存储有目标播放效果模型。表1中的播放效果模型4为目标播放效果模型为例,当第一终端获取到播放效果模型4后,将与该播放效果模型4对应的未存储标识(否)修改为存储标识(是),得到表2。
表2
模型标识 终端标识 是否已存储
播放效果模型1 第二终端xxx
播放效果模型2 第二终端yyy
播放效果模型3 第二终端zzz
播放效果模型4 第二终端kkk
若第一终端显示的模型推荐表中未显示有目标播放效果模型的模型标识,则第一终端可以在模型推荐表中添加该目标播放效果模型的模型标识以及第二终端的终端标识。以目标播放效果模型的模型标识为播放效果模型5、第二终端的模型标识为第二终端ddd为例,在表1中添加播放效果模型5以及第二终端ddd,得到表3。
表3
模型标识 终端标识 是否已存储
播放效果模型1 第二终端xxx
播放效果模型2 第二终端yyy
播放效果模型3 第二终端zzz
播放效果模型4 第二终端kkk
播放效果模型5 第二终端ddd
需要说明的是,本步骤302所示的过程也即是基于该音频样本信号以及第一终端模型,得到该目标播放效果模型的过程,也即是根据该音频样本信号,得到目标播放效果模型的过程。
303、第一终端获取待播放音频信号。
第一终端可以显示播放界面,该播放界面内显示有播放列表,该播放列表内有至少一个音频信号的音频标识,该音频标识可以是音频信号的名称,播放列表内的各个音频标识所指示的音频信号可以是第一终端本地存储的音频信号,还可以是在线的音频信号。第一终端可以通过用户的选择指令,获取待播放音频信号。在一种可能的实现方式中,当第一终端检测到用户对播放列表内任一音频标识的点击动作时,则触发第一终端从本地存储的多个音频信号中,获取该任一音频标识对应的音频信号,或者,是触发第一终端从在线的多个音频信号中,获取该任一音频标识对应的音频信号。本申请实施例对该待播放音频信号以及获取待播放音频信号的方式不做具体限定。
需要说明的是,在一些实施例中,第一终端还可以执行上述本步骤303,再执行步骤301-302以及304-305所示的过程。
304、第一终端利用目标播放效果模型对待播放音频信号进行处理,得到目标音频信号。
当模型推荐表中显示目标播放效果模型的模型标识时,用户可以模型推荐表中点击目标播放效果模型的模型标识或该第二终端的终端标识,并在模型获取界面中点击确认按钮,以选中待使用的播放效果模型,当第一终端检测到用户的上述操作后,弹出音频信号选择窗口,当第一终端检测到用户在音频信号选择窗口内选择出待播放音频信号时,则触发第一终端执行本步骤304。
第一终端可以先对待播放音频信号进行时频转换,得到第三频域信号,将第三频域信号输入目标播放效果模型,由目标播放效果模型基于第三频域信号的频率特征,对第三频域信号进行调节,输出符合第二终端的播放效果的目标音频信号。
该目标播放效果模型基于当前的模型参数以及第三频域信号的频率特征,对输入的第三频域信号进行前向计算,得到调节后的目标音频信号,并输出调节后的目标音频信号,以实现对频域信号进行调节。
305、第一终端播放目标音频信号,该第一终端播放该目标音频信号的播放效果与目标播放效果相同,其中,目标播放效果为该第二终端播放该待播放音频信号时所播放出的播放效果。
该第一终端可以先对调节后的频域信号进行频时变换,得到时域信号,例如,IFFT变换,再对时域信号进行数模(digital/analog,D/A)转换,得到模拟信号,第一终端基于模拟信号进行音频播放。
由于目标播放效果模型是基于第二终端播放出的音频样本信号以及第一终端模型训练出来的,则目标播放效果模型所调节出的音频信号可以满足第一终端播放出第二终端的播放效果的需求,目标播放效果模型可以对任一个音频信号进行处理,得到处理后的音频信号,当第一终端对由目标播放模型处理后的音频信号进行播放时,所播放出的音频效果均可以达到第二目标终端播放任一音频信号时的目标播放效果,该目标播放效果是对于第二终端而言的,并非针对一个特定的音频信号,因此,第一终端可以利用目标播放模型达到第二终端的目标播放效果。
为了进一步说明步骤301-305所示的过程,参见图8所示的本申请实施例提供的一种音频播放过程的示意图,在图8中,第一终端对待播放音频信号进行时频变换,得到该音频信号的频域信号,再将频域信号输入目标播放效果模型,由目标播放效果模型对频域信号进行调节,并输出调节后的频域信号,第一终端对调节后的频域信号进行频时转换,得到转换到的时域信号,再对时域信号进行D/A转换,得到模拟信号,第一终端基于模拟信号进行音频播放。
本申请实施例提供的方法,通过根据第二终端播放出的音频样本信号,得到目标播放效果模型,从而第一终端使用目标播放效果模型对待播放音频信号进行处理时,可以得到目标音频信号,那么,第一终端播放目标音频信号与第二终端播放待播放音频信号的播放效果相同,因此,第一终端通过目标播放模型可以实现第二终端所播放出的目标播放效果,无需专业人士进行反复调节,从而降低了人力成本和时间成本,提高了音频信号的调节效率。当第一终端为用户提供多种播放效果模型时,对于同一第二音频信号,第一终端可以使用多种播放效果模型对音频信号进行调节,得到多个不同播放效果的第三音频信号,并基于多个第三音频信号进行音频播放时,可以在第一终端上实现多种播放效果,从而也就实现了百变音效的效果,提高用户体验。并且,当第二终端比第一终端的保真能力强时,通过目标播放效果模型可以使得第一终端达到第二终端的播放效果的同时,也可以提高第一终端的保真能力。并且,第一终端可以直接通过第二终端模型,获取第三目标频域信号,再对第三目标频域信号进行处理,得到第二频域信号作为第一音频信号的标签信号,从而可以避免对第一音频信号进行录制的过程,从而减少了标签信号的生成时间,提高了标签信号生成效率。
在一些实施例中,第一终端也可以不训练目标播放效果模型,而是当第一终端需要时,从服务器可以先提前训练好目标播放效果模型,使得第一终端可以直接使用目标播放效果模型来对音频信号进行调节,为了进一步体现这个的过程,参见如图9所示的本申请实施例提供的一种音频播放方法的流程图,该方法具体包括:
901、第一终端向服务器发送模型获取请求,模型获取请求用于指示获取目标播放效果模型。
模型获取请求包括目标播放效果模型的模型标识。第一终端显示的模型推荐表中未存储的播放效果模型可能已经被服务器训练完成,用户可以通过点击选中模型推荐表中未存储的目标播放效果模型的模型标识,来选择待存储的目标播放效果模型。当第一终端检测到用户对任一未存储的播放效果模型的点击操作时,第一终端在模型获取界面弹出模型获取窗口,用户点击模型获取窗口第二训练模式选择按钮以及确定按钮,当第一终端检测到用户对第二训练模式选择按钮以及确定按钮进行了点击动作时,则触发第一终端执行本步骤301。
902、服务器接收模型获取请求,并查询该模型请求携带的模型标识所指示的目标播放效果模型,得到目标播放效果模型。
服务器中可以存储有至少一个播放效果模型,当模型获取请求包括目标播放效果模型的模型标识时,服务器基于目标播放效果模型的模型标识,从存储的至少一个播放效果模型中,筛选出与模型标识对应的目标播放效果模型。
需要说明的是,该服务器在执行本步骤902之前,可以先获取至少一个播放效果模型,再将获取的至少一个播放效果模型与对应的模型标识进行关联存储,以便服务器可以基于模型标识查询对应的目标播放效果模型。
其中,服务器获取至少一个播放效果模型中任一目标播放效果模型的过程可以由下述步骤921-925所示的过程来实现。
步骤921、服务器建立第二终端模型,第二终端模型是对第二终端建立的模型。
服务器可以基于第一音频样本信号以及第一音频样本信号的录音信号,对第二终端初始模型进行训练,得到第二终端模型。在一种可能的实现方式中,本步骤921可以通过下述步骤921A至步骤921B所示的过程来实现。
步骤921A、服务器获取多个第一样本频域信号以及多个第一标签频域信号,每个第一样本频域信号对应一个第一音频样本信号,每个第一标签频域信号对应一个第一标签音频信号,每个第一标签音频信号为对第二终端所播放的一个第一音频样本信号进行录制得到的信号。
本步骤921A与步骤1A所示的过程同理,在此本申请实施例对本步骤921A不做赘述。需要说明的是,第一音频样本信号以及第一标签音频信号可以由第一终端提供,然后服务器基于第一音频样本信号以及第一标签音频信号,获取第一样本频域信号以及第一标签频域信号。其中,服务器基于第一音频样本信号以及第一标签音频信号,获取第一样本频域信号以及第一标签频域信号的过程与步骤1A中描述的第一终端基于第一音频样本信号以及第一标签音频信号,获取第一样本频域信号以及第一标签频域信号的过程同理。
步骤921B、服务器将多个第一样本频域信号以及多个第一标签频域信号输入第二终端初始模型,由第二终端初始模型基于多个第一样本频域信号以及多个第一标签频域信号,进行训练,得到第二终端模型。
本步骤921B所示的过程与步骤1B所示的过程同理,在此本申请实施例对本步骤921B不做赘述。
步骤923、服务器获取第一音频信号的频域信号,得到第一频域信号。
服务器可以先获取第一音频信号,再对第一音频信号进行时频变换,得到第一音频信号的频域信号,也即是第一频域信号。
步骤924、服务器基于第二终端模型,获取音频样本信号的频域信号,得到第二频域信号。
该服务器可以将第一频域信号输入第二终端模型,第二终端模型输出频域信号,从而服务器再基于第二终端模型输出的频域信号获取第二频域信号。在一种可能的实现方式中,本步骤924可以通过下述步骤9241-9242所示的过程进行来实现。
步骤9241、服务器将第一频域信号输入第二终端模型,由第二终端模型基于输入的第一频域信号,输出第三目标频域信号。
本步骤9241所示的过程与步骤221所示的过程同理,在此本申请实施例对本步骤9241不做赘述。
步骤9242、服务器基于第三目标频域信号,获取第二频域信号。
本步骤9242所示的过程与步骤222所示的过程同理,在此本申请实施例对本步骤9242不做赘述。
由于每个第二目标频域信号为一个音频样本信号的频域信号,可以指示一个音频样本信号,因此,服务器可以直接通过第二终端模型,获取第三目标频域信号,再对第三目标频域信号进行处理,得到第二频域信号作为第一音频信号的标签信号,,从而可以避免对第一音频信号进行录制的过程,从而减少了标签信号的生成时间,提高了标签信号生成效率。
需要说明的是,本步骤924所示的过程也即是服务器获取第二频信号的频域信号,得到一个或多个第二频域信号的过程。
步骤925、服务器基于第一频域信号、第二频域信号以及第一终端模型,对初始播放效果模型进行训练,得到目标播放效果模型。
该服务器可以将一个或多个第一频域信号、一个或多个第二频域信号输入初始播放效果模型,初始模型基于当前的模型参数对输入的第一频域信号进行前向计算,并向第一终端模型输出计算的结果,第一终端模型基于计算的结果模拟第一终端进行音频播放,向输出初始播放效果模型输出新的频域信号,初始播放效果模型基于新的频域信号以及第二频域信号进行模型训练。
在一种可能的实现方式中,本步骤925可以通过下述步骤925A-925C所示的过程来实现。
步骤925A、服务器将第一频域信号以及第二频域信号,输入初始播放效果模型,由初始播放效果模型对第一频域信号进行调节,得到第一目标频域信号,向第一终端模型输出第一目标频域信号。
本步骤925A所示的过程与步骤231所示的过程同理,在此本申请实施例对本步骤925A不做赘述。
步骤925B、由第一终端模型基于输入的第一目标频域信号,向初始播放效果模型输出第二目标频域信号。
本步骤925B所示的过程与步骤232所示的过程同理,在此本申请实施例对本步骤925B不做赘述。
步骤925C、由初始播放效果模型基于一个或多个第二目标频域信号以及一个或多个第二频域信号,进行训练,得到目标播放效果模型。
本步骤925C所示的过程与步骤233所示的过程同理,在此本申请实施例对本步骤925C不做赘述。步骤923-925所示的过程也即是服务器根据音频样本信号,获取目标播放效果模型的过程,也即是服务器基于音频样本信号以及第一终端模型,对初始播放效果模型进行训练,得到该目标播放效果模型的过程。
当该服务器得到目标播放效果模型后,可以将该目标播放效果模型与对应的模型标识进行关联存储,以便当第一终端或其他终端向服务器索要该目标播放效果模型时,可以直接根据模型标识,将目标播放效果模型发送给第一终端或其他终端。
需要说明的是,在执行本步骤902之前,该服务器以先建立第一终端模型,其中,服务器建立第一终端模型的过程与第一终端建立第一终端模型的过程同理,在此本,申请实施例对服务器建立第一终端模型的过程不做赘述。
903、服务器向第一终端发送目标播放效果模型。
904、第一终端接收服务器基于模型获取请求返回的目标播放效果模型。
当该第一终端获取到该目标播放效果模型后,该第一终端将该目标播放效果模型与对应的模型标识进行关联存储,并更新模型推荐表。其中,更新模型推荐表的过程在步骤223中有相关描述,在此,本申请实施例对更新模型推荐表的过程不做赘述。
需要说明的是,步骤901-904所示的过程也即是第一终端根据音频样本信号,得到目标播放效果模型的过程。
905、第一终端获取待播放音频信号。
本步骤905所示的过程与步骤303所示的过程同理,在此本申请实施例对本步骤905不做赘述。
906、第一终端利用目标播放效果模型对待播放音频信号进行处理,得到目标音频信号。
本步骤906所示的过程与步骤304所示的过程同理,在此本申请实施例对本步骤906不做赘述。
907第一终端播放目标音频信号,该第一终端播放该目标音频信号的播放效果与目标播放效果相同,其中,目标播放效果为该第二终端播放该待播放音频信号时所播放出的播放效果。
本步骤907所示的过程与步骤305所示的过程同理,在此本申请实施例对本步骤907不做赘述。
由于目标播放效果模型是基于第二终端播放出的音频样本信号以及第一终端模型训练出来的,则目标播放效果模型所调节出的音频信号可以满足第一终端播放出第二终端的播放效果的需求,从而第一终端基于目标音频信号,进行音频所播放出的播放效果和第二终端播放待播放音频信号的播放效果相同。
本申请实施例提供的方法,通过根据第二终端播放出的音频样本信号,得到目标播放效果模型,从而第一终端使用目标播放效果模型对待播放音频信号进行处理时,可以得到目标音频信号,那么,第一终端播放目标音频信号与第二终端播放待播放音频信号的播放效果相同,因此,第一终端通过目标播放模型可以实现第二终端所播放出的目标播放效果,无需专业人士进行反复调节,从而降低了人力成本和时间成本,提高了音频信号的调节效率。当服务器为第一终端提供多种播放效果模型时,对于同一第二音频信号,第一终端可以使用多种播放效果模型对音频信号进行调节,得到多个不同播放效果的第三音频信号,并基于多个第三音频信号进行音频播放时,可以在第一终端上实现多种播放效果,从而也就实现了百变音效的效果,提高用户体验。并且,当第二终端比第一终端的保真能力强时,通过目标播放效果模型可以使得第一终端达到第二终端的播放效果的同时,也可以提高第一终端的保真能力。并且,服务器可以直接通过第二终端模型,获取第三目标频域信号,再对第三目标频域信号进行处理,得到第二频域信号作为第一音频信号的标签信号,从而可以避免对第一音频信号进行录制的过程,从而减少了标签信号的生成时间,提高了标签信号生成效率。
在一些实施例中,服务器内可能未存储有第一终端请求的目标播放效果模型,则服务器可以基于第一终端的请求,对目标播放效果模型进行在线训练,并向第一终端返回在线训练得到的目标播放效果模型,由第一终端基于目标播放效果模型进行音频播放。为了说明这一过程,参见图10所示的本申请实施例提供的一种音频播放方法的流程图,该方法的流程包括下述步骤1001-1007。
1001、第一终端获取第二终端播放出的音频样本信号。
本步骤1001所示的过程与步骤301所示的过程同理,在此,本申请实施例对本步骤1001不做赘述。
1002、第一终端向服务器发送携带音频样本信号的模型获取请求。
当目标播放效果模型的模型标识未在模型推荐表中显示时,该用户可以通过点击模型获取界面中的添加按钮,使得第一终端弹出模型获取窗口,用户可以在模型获取窗口内的音频信号添加区中添加音频样本信号,并点击第二训练模式选择按钮以及确定按钮,当第一终端检测音频信号添加区中添加有音频样本信号,且用户对第二训练模式选择按钮以及确定按钮进行了点击动作时,则触发第一终端执行本步骤1002。
当目标播放效果模型的模型标识未在模型推荐表中有显示,且服务器中未存储有目标播放效果模型时,用户可以在模型推荐表中点击目标播放效果模型的模型标识或目标播放效果模型的模型标识所对应的第二终端的终端标识,当第一终端检测到用户对目标播放效果模型的模型标识或目标播放效果模型的模型标识进行点击动作时,第一终端在模型获取界面弹出模型获取窗口,用户可以在模型获取窗口内的音频信号添加区中添加音频样本信号,并点击第二训练模式选择按钮以及确定按钮,当第一终端检测音频信号添加区中添加有音频样本信号,且用户对第二训练模式选择按钮以及确定按钮进行了点击动作时,则触发第一终端执行本步骤1002。
1003、服务器基于音频样本信号以及第一终端模型,对初始播放效果模型进行训练,得到目标播放效果模型,第一终端模型是对第一终端建立的模型。
本步骤1003所示的过程与步骤923-925所示的过程同理,在此本申请实施例对本步骤1003不做赘述。需要说明的是,在本步骤1003之前,服务器还可以先建立第一终端模型,以便服务器在执行本步骤1003。
为了进一步说明步骤1001-1003所示的过程,参见图11所示的本申请实施例提供的一种目标播放效果模型训练过程的示意图。音响B(第二终端)对原始信号3(第一音频信号)进行播放,音响A(第一终端)对音响B播放的原始信号3进行录制,得到录音信号3(音频样本信号),将原始信号3和录音信号3发送至服务器,服务器对录音信号3以及原始信号3进行时延对齐处理,得到原始信号3以及处理后的录音信号3,对原始信号3以及处理后的录音信号3分别进行时频转换,得到第一频域信号以及第二频域信号,并将第一频域信号以及第二频域信号出入初始播放效果模型,初始播放效果模型基于第一频域信号、第二频域信号以及A音响模型进行训练,得到目标播放效果模型,其中,A音响模型也即是第一终端模型。
1004、服务器向第一终端发送目标播放效果模型。
1005、第一终端接收服务器训练出的该目标播放效果模型。
当该第一终端接收到该目标播放效果模型后,该第一终端将该目标播放效果模型与对应的模型标识进行关联存储,并更新模型推荐表。其中,更新模型推荐表的过程在步骤223中有相关描述,在此本申请实施例对更新模型推荐表的过程不做赘述。
需要说明的是,上述步骤1002-1005所示的过程也即是第一终端根据音频样本信号,得到目标播放效果模型的过程。
1006、第一终端获取待播放音频信号。
本步骤1006所示的过程与步骤303所示的过程同理,在此,本申请实施例对本步骤1006不做赘述。
1007、第一终端利用目标播放效果模型对待播放音频信号进行处理,得到目标音频信号。
本步骤1007所示的过程与步骤304所示的过程同理,在此,本申请实施例对本步骤1007不做赘述。
1008、第一终端播放目标音频信号,该第一终端播放该目标音频信号的播放效果与目标播放效果相同,其中,目标播放效果为该第二终端播放该待播放音频信号时所播放出的播放效果。
本步骤1008所示的过程与步骤305所示的过程同理,在此,本申请实施例对本步骤1008不做赘述。
本申请实施例提供的方法,通过根据第二终端播放出的音频样本信号,得到目标播放效果模型,从而第一终端使用目标播放效果模型对待播放音频信号进行处理时,可以得到目标音频信号,那么,第一终端播放目标音频信号与第二终端播放待播放音频信号的播放效果相同,因此,第一终端通过目标播放模型可以实现第二终端所播放出的目标播放效果,无需专业人士进行反复调节,从而降低了人力成本和时间成本,提高了音频信号的调节效率。当服务器为第一终端提供多种播放效果模型时,对于同一第二音频信号,第一终端可以使用多种播放效果模型对音频信号进行调节,得到多个不同播放效果的第三音频信号,并基于多个第三音频信号进行音频播放时,可以在第一终端上实现多种播放效果,从而也就实现了百变音效的效果,提高用户体验。并且,当第二终端比第一终端的保真能力强时,通过目标播放效果模型可以使得第一终端达到第二终端的播放效果的同时,也可以提高第一终端的保真能力。并且,服务器可以直接通过第二终端模型,获取第三目标频域信号,再对第三目标频域信号进行处理,得到第二频域信号作为第一音频信号的标签信号,从而可以避免对第一音频信号进行录制的过程,从而减少了标签信号的生成时间,提高了标签信号生成效率。
图12是本申请实施例提供的一种音频播放装置的结构示意图,该装置包括:
获取模块1201,用于执行上述步骤301;
第一得到模块1202,用于根据所述音频样本信号,得到目标播放效果模型;
所述获取模块1201,还用于执行上述步骤303;
第二得到模块1203,用于执行上述步骤304;
播放模块1204,用于执行上述步骤305。
可选地,当所述第一终端播放未经处理的所述待播放音频信号时,所播放出的播放效果与所述目标播放效果不同。
可选地,所述第一得到模块1202,用于执行上述步骤1002和1005。
可选地,所述第一得到模块1202,用于执行上述步骤302。
可选地,所述第一得到模块1202包括:
获取单元,用于执行上述步骤21;
所述获取单元,还用于执行上述步骤22;
训练单元,用于执行上述步骤23。
可选地,所述训练单元用于执行上述步骤231-233。
可选地,所述获取单元,用于执行步骤221-222。
可选地,获取模块,还用于执行上述步骤1A;
所述第一得到模块,还用于执行上述步骤1B。
可选地,所述获取模块,还用于执行上述步骤2A;
所述第一得到模块,还用于执行上述步骤2B。
需要说明的是:上述实施例提供的音频播放装置在进行音频播放时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频播放方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13是本申请实施例提供的一种模型获取装置的结构示意图,该装置包括:
接收模块1301,用于接收模型获取请求,所述模型获取请求携带第二终端播放出的音频样本信号;
得到模块1302,用于执行上述步骤1003;
发送模块1303,用于执行上述步骤1004。
可选地,所述得到模块1002包括:
获取单元,用于执行上述步骤923;
所述获取单元,还用于执行上述步骤924;
训练单元,用于执行上述步骤925。
可选地,训练单元用于执行上述步骤925A-925C。
可选地,所述获取单元用于执行上述步骤9241-9242。
可选地,所述装置还包括:
第一获取模块,用于执行上述步骤921A;
所述得到模块1302,还用于执行上述步骤921B。
可选地,所述装置还包括:
第二获取模块,用于执行上述步骤2A;
所述得到模块1302,还用于执行上述步骤2B。
需要说明的是:上述实施例提供的型获取装置在获取目标播放效果模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的模型获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (16)

1.一种音频播放方法,其特征在于,应用于第一终端,所述方法包括:
获取第二终端播放出的音频样本信号;
基于所述音频样本信号以及第一终端模型,得到- 目标播放效果模型,所述第一终端模型是对所述第一终端建立的模型;
获取待播放音频信号;
利用所述目标播放效果模型对所述待播放音频信号进行处理,得到目标音频信号;
播放所述目标音频信号,所述第一终端播放所述目标音频信号的播放效果与目标播放效果相同,其中,目标播放效果为所述第二终端播放所述待播放音频信号时所播放出的播放效果。
2.根据权利要求1所述的方法,其特征在于,当所述第一终端播放未经处理的所述待播放音频信号时,所播放出的播放效果与所述目标播放效果不同。
3.根据权利要求1所述的方法,其特征在于,所述基于所述音频样本信号以及第一终端模型,得到所述目标播放效果模型包括:
向服务器发送携带所述音频样本信号的模型获取请求,由所述服务器基于所述音频样本信号以及所述第一终端模型,得到所述目标播放效果模型;
接收所述服务器训练出的所述目标播放效果模型。
4.根据权利要求1或3所述的方法,其特征在于,所述基于所述音频样本信号以及第一终端模型,得到所述目标播放效果模型包括:
获取第一音频信号的第一频域信号,所述第一音频信号为所述第二终端播放出所述音频样本信号时所播放的音频信号;
获取所述音频样本信号的第二频域信号;
基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型包括:
将所述第一频域信号以及所述 第二频域信号,输入初始播放效果模型,由所述初始播放效果模型对所述第一频域信号进行调节,得到第一目标频域信号,向所述第一终端模型输出所述第一目标频域信号;
由所述第一终端模型基于输入的所述第一目标频域信号,向所述初始播放效果模型输出第二目标频域信号;
由所述初始播放效果模型基于所述第二目标频域信号以及所述第二频域信号,进行训练,得到所述目标播放效果模型。
6.一种模型获取方法,其特征在于,应用于服务器,所述方法包括:
接收模型获取请求,所述模型获取请求携带第二终端播放出的音频样本信号;
基于所述音频样本信号以及第一终端模型,得到目标播放效果模型,所述第一终端模型是对第一终端建立的模型,所述第一终端的播放效果和所述第二终端的播放效果不同;
向所述第一终端发送所述目标播放效果模型,由所述第一终端利用所述目标播放效果模型对待播放音频信号进行处理,得到目标音频信号,所述第一终端播放所述目标音频信号的播放效果与目标播放效果相同,其中,所述目标播放效果为所述第二终端播放所述待播放音频信号时所播放出的播放效果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述音频样本信号以及第一终端模型,得到所述目标播放效果模型包括:
获取第一音频信号的第一频域信号,所述第一音频信号为所述第二终端播放出所述音频样本信号时所播放的音频信号;
获取所述音频样本信号的第二频域信号;
基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型包括:
将所述第一频域信号以及所述 第二频域信号,输入初始播放效果模型,由所述初始播放效果模型对所述第一频域信号进行调节,得到第一目标频域信号,向所述第一终端模型输出所述第一目标频域信号;
由所述第一终端模型基于输入的所述第一目标频域信号,向所述初始播放效果模型输出第二目标频域信号;
由所述初始播放效果模型基于所述第二目标频域信号以及所述第二频域信号,进行训练,得到所述目标播放效果模型。
9.一种音频播放装置,其特征在于,所述装置包括:
获取模块,用于获取第二终端播放出的音频样本信号;
第一得到模块,用于基于所述音频样本信号以及第一终端模型,得到- 目标播放效果模型,所述第一终端模型是对- 第一终端建立的模型;
所述获取模块,还用于获取待播放音频信号;
第二得到模块,用于利用所述目标播放效果模型对所述待播放音频信号进行处理,得到目标音频信号;
播放模块,用于播放所述目标音频信号,第一终端播放所述目标音频信号的播放效果与目标播放效果相同,其中,目标播放效果为所述第二终端播放所述待播放音频信号时所播放出的播放效果。
10.根据权利要求9所述的装置,其特征在于,当所述第一终端播放未经处理的所述待播放音频信号时,所播放出的播放效果与所述目标播放效果不同。
11.根据权利要求9所述的装置,其特征在于,所述第一得到模块用于:
向服务器发送携带所述音频样本信号的模型获取请求,由所述服务器基于所述音频样本信号以及所述第一终端模型,得到所述目标播放效果模型;
接收所述服务器训练出的所述目标播放效果模型。
12.根据权利要求9所述的装置,其特征在于,所述第一得到模块包括:
获取单元,用于获取第一音频信号的第一频域信号,所述第一音频信号为所述第二终端播放出所述音频样本信号时所播放的音频信号;
所述获取单元,还用于获取所述音频样本信号的第二频域信号;
训练单元,用于基于所述第一频域信号、所述第二频域信号以及所述第一终端模型,得到所述目标播放效果模型。
13.一种模型获取装置,其特征在于,所述装置包括:
接收模块,用于接收模型获取请求,所述模型获取请求携带第二终端播放出的音频样本信号;
得到模块,用于基于所述音频样本信号以及第一终端模型,得到目标播放效果模型,所述第一终端模型是对第一终端建立的模型,所述第一终端的播放效果和所述第二终端的播放效果不同;
发送模块,用于向所述第一终端发送所述目标播放效果模型;
由所述第一终端利用所述目标播放效果模型对待播放音频信号进行处理,得到目标音频信号,所述第一终端播放所述目标音频信号的播放效果与目标播放效果相同,其中,所述目标播放效果为所述第二终端播放所述待播放音频信号时所播放出的播放效果。
14.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求5任一项所述音频播放方法所执行的操作。
15.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求6至权利要求8任一项所述的模型获取方法所执行的操作。
16.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的方法所执行的操作。
CN201911002748.4A 2019-10-21 2019-10-21 音频播放方法、模型获取方法、装置、终端及服务器 Active CN112767971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911002748.4A CN112767971B (zh) 2019-10-21 2019-10-21 音频播放方法、模型获取方法、装置、终端及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911002748.4A CN112767971B (zh) 2019-10-21 2019-10-21 音频播放方法、模型获取方法、装置、终端及服务器

Publications (2)

Publication Number Publication Date
CN112767971A CN112767971A (zh) 2021-05-07
CN112767971B true CN112767971B (zh) 2022-02-01

Family

ID=75691809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911002748.4A Active CN112767971B (zh) 2019-10-21 2019-10-21 音频播放方法、模型获取方法、装置、终端及服务器

Country Status (1)

Country Link
CN (1) CN112767971B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201420A (zh) * 2016-06-28 2016-12-07 乐视控股(北京)有限公司 音频处理方法及装置
CN109361996A (zh) * 2018-09-21 2019-02-19 广州小鹏汽车科技有限公司 一种音效自动调节方法、装置及系统
CN110191396A (zh) * 2019-05-24 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、终端及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201420A (zh) * 2016-06-28 2016-12-07 乐视控股(北京)有限公司 音频处理方法及装置
CN109361996A (zh) * 2018-09-21 2019-02-19 广州小鹏汽车科技有限公司 一种音效自动调节方法、装置及系统
CN110191396A (zh) * 2019-05-24 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN112767971A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
US9918174B2 (en) Wireless exchange of data between devices in live events
JP2023550405A (ja) 人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム
CN108269578B (zh) 用于处理信息的方法和装置
CN111916039B (zh) 音乐文件的处理方法、装置、终端及存储介质
CN109658935B (zh) 多通道带噪语音的生成方法及系统
CN100585663C (zh) 语言学习系统
CN110062309B (zh) 用于控制智能音箱的方法和装置
CN110928518B (zh) 音频数据处理方法、装置、电子设备和存储介质
CN105390144A (zh) 一种音频处理方法和音频处理装置
CN107948623A (zh) 投影仪及其音乐关联信息显示方法
CN112165647B (zh) 音频数据的处理方法、装置、设备及存储介质
Stasis et al. Audio processing chain recommendation
US20190377540A1 (en) Calibrating audio output device with playback of adjusted audio
CN113031907B (zh) 音效参数生成方法及装置、存储介质、电子设备
CN107562745A (zh) 一种音频播放列表的生成方法、系统及一种音频播放系统
CN112767971B (zh) 音频播放方法、模型获取方法、装置、终端及服务器
EP3627495B1 (en) Information processing device and information processing method
CN110970032A (zh) 一种音箱语音交互控制的方法及装置
CN109584892A (zh) 音效模拟方法、装置、介质及电子设备
CN112307161B (zh) 用于播放音频的方法和装置
CN105869614A (zh) 音频文件导出方法和装置
CN113395577A (zh) 变声播放方法和装置、存储介质及电子设备
CN110096250B (zh) 一种音频数据处理方法、装置、电子设备及存储介质
CN111131860A (zh) 一种音视频播放方法、装置、设备及介质
KR102113542B1 (ko) 심층신경망을 이용하여 음향 신호를 정규화하는 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant