CN114786117A - 一种音频播放方法以及相关设备 - Google Patents

一种音频播放方法以及相关设备 Download PDF

Info

Publication number
CN114786117A
CN114786117A CN202210326486.2A CN202210326486A CN114786117A CN 114786117 A CN114786117 A CN 114786117A CN 202210326486 A CN202210326486 A CN 202210326486A CN 114786117 A CN114786117 A CN 114786117A
Authority
CN
China
Prior art keywords
audio
component
instrument
frequency component
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210326486.2A
Other languages
English (en)
Inventor
胡贝贝
陈华明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Honor Device Co Ltd
Original Assignee
Beijing Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Honor Device Co Ltd filed Critical Beijing Honor Device Co Ltd
Priority to CN202210326486.2A priority Critical patent/CN114786117A/zh
Publication of CN114786117A publication Critical patent/CN114786117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种音频播放方法,具体地,电子设备获取待播放的音频,然后从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量,将至少一种乐器的至少一个音频分量中的高频分量进行串扰消除,将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与串扰消除后的高频分量进行延迟对齐,最后通过张角较小的第一扬声器对播放高频分量和人声的音频分量,通过第二扬声器对播放低频分量。如此,提高音频播放的鲁棒性。

Description

一种音频播放方法以及相关设备
技术领域
本申请涉及多媒体技术领域,尤其涉及一种音频播放方法、音频播放装置、音响、电子设备、计算机存储介质以及计算机程序产品。
背景技术
随着用户对于声音重放要求的不断提高,例如用户希望重放声可以还原自然界中声音的立体感,音响技术中的立体声可以在一定程度上恢复声音的立体感,由此可以提供一定程度的具有方位层次感等空间分布特性的重放声。
在立体声的播放中,可能存在同侧传输的信号与异侧传输的信号互相干扰,破坏立体声信号所包含的空间信息。
通常情况下,可以采用串扰消除以消除异侧信号,从而避免异侧信号对同侧信号传输的干扰,使人耳可以获得具有立体感的声音。但是,传统的串扰消除存在鲁棒性差、可能导致谐波失真和色染问题等缺陷,效果较差,影响用户的使用体验。
发明内容
本申请提供一种混合音频处理方法,该方法能够对于混合音频进行分频带处理,提高混合音频处理的鲁棒性,提高用户的使用体验。本申请还提供了上述方法对应的装置、音响、电子设备、计算机可读存储介质以及计算机程序产品。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供了一种音频播放方法,应用于电子设备。具体地,电子设备获取待播放的音频,然后从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量,将至少一种乐器的至少一个音频分量中的高频分量进行串扰消除,将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与串扰消除后的高频分量进行延迟对齐,最后通过张角较小的第一扬声器对播放高频分量和人声的音频分量,通过第二扬声器对播放低频分量。如此,电子设备根据频率对低频分量和高频分量以及人声进行不同处理,避免头相关传输函数作为串扰消除的传输矩阵在低频所计算的增益较大,因此对于低频分量不进行串扰消除,从而降低了音频播放的计算量,提高了系统的鲁棒性。并且,电子设备通过大张角扬声器对对低频信号,通过小张角扬声器对对高频信号与人声信号进行重放,提高音频播放的稳定性,进一步提高音频处理的鲁棒性。
在一些可能的实现方式中,所述从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量包括:
根据所述至少一种乐器的乐器类型,从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。
如此,可以根据乐器类型实现对于音频基于频率的分离,利用不同乐器的频率特性,简化音频分离的过程,提高处理速度。
在一些可能的实现方式中,当所述乐器的乐器类型为低频乐器时,所述方法还包括:
将所述低频乐器的音频分量确定为低频分量。
如此,可以将低频乐器的音频分量直接确定为低频分量,提高音频分离的速度。
在一些可能的实现方式中,当所述乐器的乐器类型为宽频乐器时,所述方法还包括:
从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
如此,可以将从宽频乐器的音频分量中进一步确定高频分量和低频分量,提高音频分离的精确度,提高用户的使用体验。
在一些可能的实现方式中,所述从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量,包括:
通过滤波器组,从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
如此,电子设备可以通过滤波器组实现对于宽频乐器的音频分量中高频分量和低频分量的划分,提高了音频分量的准确性,提高了音频播放的效果。
在一些可能的实现方式中,当所述乐器的乐器类型不为预设类型的任意一种时,所述方法还包括:
通过频谱能量分布,将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
如此,对于无法根据乐器类型进行频率划分的音频,电子设备可以通过频谱能量分布确定该乐器的音频主要的频率属于何种频率分量,从而能够根据划分后的音频分量执行对应的音频处理,以及选择对应的扬声器对进行播放。
在一些可能的实现方式中,该方法还包括:
将所述至少一种乐器的至少一个音频分量中的中频分量进行串扰消除;
所述将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量进行延迟对齐,包括:
将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量和中频分量进行延迟对齐。
如此,电子设备还可以对于音频分量中的中频分量进行串扰消除处理,以使该方法可以播放多种频率范围的音频。
在一些可能的实现方式中,该方法还包括:
通过第三扬声器对播放所述中频分量,所述第三扬声器对的张角大于所述第一扬声器对的张角,所述第三扬声器对的张角小于所述第二扬声器的张角。
如此,电子设备可以利用更多的扬声器对类型,以使播放方法满足多种不同的需求。
在一些可能的实现方式中,所述通过频谱能量分布,将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种,包括:
将所述至少一种乐器的至少一个音频分量由时域信号转换为频域信号;
根据所述至少一种乐器的至少一个音频分量的频域信号的频带范围将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
如此,电子设备可以通过频域信号的频带范围估算每个频带范围内的能量大小,根据能量大小确定音频分量的类型,以对各种类型的音频分量进行对应的处理。
在一些可能的实现方式中,所述将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除,包括:
基于最小二乘法将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。
如此,电子设备可以对音频分量中的高频分量进行串扰消除,使音频分量能够符合双耳效应,提高用户使用体验。
第二方面,本申请提供了一种音频播放装置,包括:
获取模块,用于获取待播放的音频;
分离模块,用于从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量;
第一处理模块,用于将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除;
第二处理模块,用于将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量进行延迟对齐;
播放模块,用于通过第一扬声器对播放所述高频分量和所述人声的音频分量,通过第二扬声器对播放所述低频分量,所述第一扬声器对的张角小于所述第二扬声器对的张角。
在一些可能的实现方式中,分离模块可以用于:
根据所述至少一种乐器的乐器类型,从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。
在一些可能的实现方式中,当所述乐器的乐器类型为低频乐器时,分离模块还用于:
将所述低频乐器的音频分量确定为低频分量。
在一些可能的实现方式中,当所述乐器的乐器类型为宽频乐器时,分离模块还用于:
从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
在一些可能的实现方式中,分离模块可以用于:
通过滤波器组,从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
在一些可能的实现方式中,当所述乐器的乐器类型不为预设类型的任意一种时,分离模块还用于:
通过频谱能量分布,将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
在一些可能的实现方式中,第一处理模块还用于:
将所述至少一种乐器的至少一个音频分量中的中频分量进行串扰消除;
第二处理模块还用于:
将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量和中频分量进行延迟对齐。
在一些可能的实现方式中,播放模块还用于:
通过第三扬声器对播放所述中频分量,所述第三扬声器对的张角大于所述第一扬声器对的张角,所述第三扬声器对的张角小于所述第二扬声器对的张角。
在一些可能的实现方式中,分离模块可以用于:
将所述至少一种乐器的至少一个音频分量由时域信号转换为频域信号;
根据所述至少一个种乐器的至少一个音频分量的频域信号的频带范围将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
在一些可能的实现方式中,分离模块可以用于:
基于最小二乘法将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。
第三方面,本申请提供了一种音响,该音响包括处理器和存储器;
在所述存储器中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令;当所述指令被所述处理器执行时,使得所述音响执如上述第一方面中任一种可能的实现方式中所述的音频播放方法。
第四方面,本申请提供了一种电子设备,该电子设备包括一个或多个处理器和存储器;
其中,在所述存储器中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令;当所述指令被所述处理器执行时,使得所述电子设备执如上述第一方面中任一种可能的实现方式中所述的音频播放方法。
第五方面,本申请提供了一种计算机存储介质,该计算机存储介质包括计算机指令,当所述计算机指令在电子设备上运行时,所述终端执行如上述第一方面中任一种可能的设计中所述的音频播放方法。
第六方面,本申请提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,所述计算机执行上述第一方面中任一种可能的设计中所述的音频播放方法。
应当理解的是,本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反,可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此,本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而,还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解,无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中,还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。
附图说明
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种音频播放方法的流程示意图;
图3为本申请实施例提供的一种扬声器对张角大小的示意图;
图4为本申请实施例提供的一种四扬声器对音频播放的示意图;
图5为本申请实施例提供的一种六扬声器对音频播放的示意图;
图6为本申请实施例提供的一种音响的结构示意图;
图7为本申请实施例提供的一种音频播放装置的结构示意图。
具体实施方式
本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于限定特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍:
立体声是指具有立体感的声音。自然界发出的声音是立体声,而这些立体声经过记录、放大等处理后重放时,所有的声音会从扬声器中播放。当声波到达人耳时,由于左、右耳位置的差异,到达左、右耳的时间存在微小差异,并且,由于头部的遮挡,导致声波到达左右耳的声波的声压也存在微小差异,人脑可以通过这种微小差异确定声源的位置。
通过同一个扬声器播放的声源,由于各种声音都从同一个扬声器发出,因此会导致声音失去原有的立体感,影响用户的使用体验。例如,音乐会中,用户可以听到由不同位置所发出的不同乐器的声音,而通过扬声器对于音乐会的录音进行播放时,会丧失音乐会现场的空间感,影响用户使用体验。
双耳效应是用户依靠双耳间的音量差、时间差和音色差判别声音方位的效应。音响技术可以利用双耳效应,在一定程度上恢复声音的立体感。具体地,可以通过头相关传输函数(Head Related Transfer Functions,HRTF)技术产生立体音效,使声音传递至人耳内的耳廓,耳道和鼓膜时,聆听者会有环绕音效之感觉。
但是,在立体声的播放中,可能存在同侧传输的信号与异侧传输的信号互相干扰,破坏立体声信号中原本包含的空间信息。通常情况下,可以采用串扰消除的方法消除异侧信号,从而避免异侧信号对同侧信号传输的干扰。具体地,可以使用HRTF作为传输矩阵,对于立体声信号进行串扰消除。经发明人研究发现,以HRTF作为传输矩阵,对于立体声信号估计所得的串扰消除矩阵中的增益存在问题,在对于低频进行处理时所估算得到的增益较大,影响处理的鲁棒性,影响音频的播放效果,难以满足用户的体验要求。
有鉴于此,本申请提供了一种音频播放方法,该方法可以由电子设备执行。其中,电子设备可以为音响,也可以为具有音响功能的其他电子设备。具体地,电子设备获取待播放的音频,然后从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量,将至少一种乐器的至少一个音频分量中的高频分量进行串扰消除,将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与经过串扰消除后的高频分量进行延迟对齐,然后通过张角较小的第一扬声器对播放高频分量和人声的音频分量,通过张角较大的第二扬声器对播放低频分量,从而实现对于音频的播放。
一方面,电子设备根据频率对低频分量和高频分量以及人声进行不同处理,避免头相关传输函数作为串扰消除的传输矩阵在低频所计算的增益较大,因此对于低频分量不进行串扰消除,从而降低了音频播放的计算量,提高了系统的鲁棒性。
另一方面,电子设备通过大张角扬声器对对低频信号,通过小张角扬声器对对高频信号与人声信号进行重放,提高音频播放的稳定性,进一步提高音频处理的鲁棒性。
其中,电子设备可以是终端。终端包括但不限于智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,PDA)、智能家居设备或者智能穿戴设备等。
下面以电子设备为终端为例,对于本实施例中的电子设备进行介绍,终端的结构可以如图1所示,图1为本申请实施例提供的一种终端的结构示意图。
如图1所示,该终端100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
在本申请实施例中,处理器110可以获取待播放的音频,然后从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量,将至少一种乐器的至少一个音频分量中的高频分量进行串扰,将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与串扰消除后的高频分量进行延迟对齐,最后通过张角较小的第一扬声器对播放高频分量和人声的音频分量,通过第二扬声器对播放低频分量。外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展终端的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
内部存储器121可以包括一个或多个随机存取存储器(random access memory,RAM)和一个或多个非易失性存储器(non-volatile memory,NVM)。随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
随机存取存储器可以包括静态随机存储器(static random-access memory,SRAM)、动态随机存储器(dynamic random access memory,DRAM)、同步动态随机存储器(synchronous dynamic random access memory,SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,DDR SDRAM,例如第五代DDR SDRAM一般称为DDR5 SDRAM)等。
非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等,按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell,SLC)、多阶存储单元(multi-level cell,MLC)、三阶储存单元(triple-level cell,TLC)、四阶储存单元(quad-levelcell,QLC)等,按照存储规范划分可以包括通用闪存存储(universal flash storage,UFS)、嵌入式多媒体存储卡(embedded multimedia Card,eMMC)等。
在本申请实施例中,内部存储器121可以存储有待播放的音频。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在本申请实施例中,终端可以控制音频模块170通过第一扬声器对播放高频分量和人声的音频分量,通过第二扬声器对播放低频分量。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端可以通过扬声器170A播放处理后的高频分量、中频分量、低频分量以及人声。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端可以设置至少一个麦克风170C。在另一些实施例中,终端可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。终端可以通过麦克风170C获取待处理的音频信号。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。终端根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,终端根据压力传感器180A检测所述触摸操作强度。终端也可以根据压力传感器180A的检测信号计算触摸的位置。
陀螺仪传感器180B可以用于确定终端的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测终端抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,终端通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。终端可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当终端是翻盖机时,终端可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测终端在各个方向上(一般为三轴)加速度的大小。当终端静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。终端可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端通过发光二极管向外发射红外光。终端使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端附近有物体。当检测到不充分的反射光时,终端可以确定终端附近没有物体。终端可以利用接近光传感器180G检测用户手持终端贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。终端可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测终端是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。终端可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,终端利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,终端执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端对电池142加热,以避免低温导致终端异常关机。在其他一些实施例中,当温度低于又一阈值时,终端对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端可以接收按键输入,产生与终端的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息、未接来电、通知等。
终端可以通过摄像头193,ISP,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于采集图像。具体的,物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端可以支持一种或多种视频编解码器。这样,终端可以播放或录制多种编码格式的视频,例如:动态图像专家组(movingpicture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
终端通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏194(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端的接触和分离。终端可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端中,不能和终端分离。
以上对于电子设备的结构进行了介绍,下面以电子设备为终端为例,结合图2对本申请实施例的音频播放方法的具体步骤进行介绍。
S202:终端获取待播放的音频。
待播放的音频是指需要通过该终端进行播放的音频。待播放的音频通常包括混合语音,在本实施例中,待播放的音频中包括至少一种乐器的音频和人声音频。在一些可能的实现方式中,待播放的音频中可以包括鼓声、贝斯声、钢琴声以及其他乐器的音频和人声音频。
终端可以通过多种方式获取待播放的音频。例如,终端可以通过通信传输获取待播放的音频,终端也可以通过录音功能录制获取待播放的音频。
S204:终端从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。
终端可以通过音源分离系统从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。音源分离系统可以根据音源的不同,从混合音频中分离出不同音源对应的音频分量。
音源分离系统可以通过基于深度学习实现,在训练过程中,神经网络可以在训练中学习不同音源对的音频特征,然后根据学习到的特征,对于不同的音源进行提取。例如,音源分离系统通过鼓声、贝斯声、钢琴声以及人声训练获得,那么该音源分离系统可以在混合音频中分离获取该混合音频中的鼓声、贝斯声、钢琴声、人声以及其他乐器的音频分量。又例如,音源分离系统通过鼓声、钢琴声以及人声训练获得,那么该音源分离系统可以在混合音频中分离获取该混合音频中的鼓声、钢琴声、人声以及其他乐器的音频分量。本实施例中,以音源分离系统通过鼓声、贝斯声、钢琴声以及人声训练获得,可以在混合音频中分离获取该混合音频中的鼓声、贝斯声、钢琴声、人声以及其他乐器的音频分量为例进行介绍。
通过音源分离系统,终端可以从待播放音频中分离出鼓声的音频分量、贝斯声的音频分量、钢琴声的音频分量、人声的音频分量以及其他乐器的音频分量。
S206:终端将至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。
在一些可能的实现方式中,乐器的音频分量中的高频分量可以通过乐器类型确定。例如,当音源分离系统从待播放的音频中分离获得短笛的音频分量时,由于短笛为高频乐器,对应的频率范围主要集中在高频,则可以将短笛对应的音频分量确定为高频分量,并对该音频分量进行串扰消除。
在另一些可能的实现方式中,乐器的频率范围可能较宽,该乐器对应的音频分量可以为高频分量、中频分量以及低频分量,例如钢琴。基于此,终端可以采用滤波器组对该乐器对应的音频子带进行划分,获取该乐器的低频分量和高频分量。例如,终端可以通过低通滤波(Low-pass filter)获取低频的钢琴声,或者通过高通滤波(high-pass filter)获取高频的钢琴声。在需要将钢琴的音频分量分为高频分量、中频分量和低频分量的情况下,终端通过低通滤波获取低频的钢琴声,并通过高通滤波获取高频的钢琴声,其余为中频的钢琴声。通过滤波器组对于乐器的音频分量进行进一步划分能够基于音频的频率进行处理,并且计算复杂度较低,处理速度较快。
对于音源分离系统没有识别为具体的乐器类型或者人声的音频分量,即其他乐器的音频分量,终端可以基于频谱能量分布判断该乐器的音频分量是否为高频分量或者低频分量。例如,终端可以通过音源分离系统从待播放音频中分离出鼓声的音频分量、贝斯声的音频分量、钢琴声的音频分量、人声的音频分量以及其他乐器的音频分量。在采用该音源分离系统的前提下,由于该音源分离系统无法识别吉他对应的音频分量,那么吉他的音频分量为其他乐器的音频分量。终端可以基于频谱能量分布根据频带范围内统计的能量判断吉他的音频分量是否为高频分量或者低频分量。基于吉他的音频分量的频谱能量分布的判断是指基于吉他的音频信号的频域能量的判断。具体地,终端可以将吉他的音频分量的时域信号进行傅里叶变换(例如快速傅里叶变换(fast Fourier transform,FFT))获得吉他的频域信号,然后根据预设的频带范围确定吉他的音频信号是否为低频信号或者高频信号。在一些可能的实现方式中,终端然后根据预设的频带范围确定吉他的音频分量为低频分量、中频分量或者高频分量。例如,吉他的音频分量的时域信号为x(t),该时域信号经过快速傅里叶变换后的频域信号为X(f)。预设的频带范围分别为:低频信号为0至500赫兹(Hz)、中频信号为500Hz至6000Hz以及高频信号为大于6000Hz。然后终端分别计算该信号在低频信号范围、中频信号范围以及高频信号范围内的频域能量,分别获得低频信号范围内的频域能量S1、中频信号范围内的频域能量S2以及高频信号范围内的频域能量S3,比较S1、S2和S3的大小确定该音频分量为低频分量、中频分量或者高频分量。
Figure BDA0003573664310000131
Figure BDA0003573664310000132
Figure BDA0003573664310000133
其中,fs为信号的采样率。
如此,终端可以对所获得的至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。在音频播放中,通常采用双通道传输的方式,如果两侧通道之间存在串扰,可能导致在某一侧播放音频信号时,另一侧播放不必要的信号,影响用户的使用体验。在立体声的播放中,两侧声信号的波形通常不完全一样,由于串扰的存在,可能导致两侧声信号的差异变小,破坏立体声中的定位信息,影响用户的使用体验。通常情况下,终端可以采用多种方式对于音频进行串扰消除,本实施例中可以采用基于最小二乘法的串扰消除方法对高频分量进行处理。
当至少一种乐器的至少一个音频分量中包括中频分量时,即对于其他乐器的音频分量判断为中频分量时,对该中频分量进行串扰消除,例如采用基于最小二乘法的串扰消除方法对高频分量进行处理。
S208:终端将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与串扰消除后的高频分量进行延迟对齐。
在一些可能的实现方式中,乐器的音频分量中的低频分量可以通过乐器类型确定。例如,当音源分离系统从待播放的音频中分离获得鼓的音频分量时,由于鼓为低频乐器,对应的频率范围主要集中在低频,则可以将鼓对应的音频分量确定为低频分量。
类似地,当音源分离系统从待播放的音频中分离获得贝斯(bass)的音频分量时,由于贝斯为低频乐器,对应的频率范围主要集中在低频,则可以将贝斯对应的音频分量确定为低频分量。
在另一些可能的实现方式中,对于频率范围较宽的乐器,例如钢琴,则可以通过S206中滤波器组的方式,获取钢琴的音频分量中的低频分量。
对于音源分离系统没有识别为具体的乐器类型或者人声的音频分量,即其他乐器的音频分量,终端可以基于频谱能量分布判断该乐器的音频分量是否为高频分量或者低频分量。
本实施例中,由于以HRTF作为传输矩阵,在对于低频进行处理时所估算得到的增益较大,因此对低频分量仅进行延迟处理,以使低频分量可以和经过串扰消除的高频分量进行对齐。进一步地,对低频仅进行延迟处理也可以避免传统的串扰消除在低频区域所存在的谐波失真和色染问题。
对于人声的音频分量,终端也仅进行延迟处理,以使人声的音频分量可以和经过串扰消除的高频分量进行对齐。
S210:终端通过第一扬声器对播放高频分量和人声的音频分量,通过第二扬声器对播放低频分量。
其中,第一扬声器对的张角小于第二扬声器对的张角。即,终端通过张角较小的扬声器对播放处理后的高频分量和处理后的人声的音频分量,通过张角较大的扬声器对播放处理后的低频分量。如图3所示,第一扬声器对为图中302和303,第二扬声器对为图中301和304,其302和302构成的张角∠1小于301和304构成的张角∠2。
通过附加相位差的方式,通过相位差与距离的关系,估计出用户的听音区域:
Figure BDA0003573664310000141
其中,ymax表示用户的听音区域,即允许用户的最大头部偏移距离,c表示声音的传播速度,f表示声源的频率,θ表示扬声器对的张角。
由公式(4)可知,声源的频率和扬声器对的张角成反比。因此,为了获取扩宽听音的甜点位(sweet spot),即本实施例中用户体验最好的区域,终端可以通过张角较小的第一扬声器对播放高频分量,通过张角较大的第二扬声器对播放低频分量。
由于用户对于音频中人声的需求通常为音质清楚,因此终端可以通过张角较小的第一扬声器对播放人声的音频分量。示例性地,当终端包括或者控制四个扬声器时,终端可以通过内部的两个扬声器(第一扬声器对)播放高频分量和人声的音频分量,通过两端的两个扬声器(第二扬声器对)播放低频分量。当终端包括或者控制六个扬声器时,终端可以通过内部的两个扬声器播放高频分量和人声的音频分量(第一扬声器对),通过次外侧的两个扬声器播放中频分量(第三扬声器对),通过两端的两个扬声器(第二扬声器对)播放低频分量。
通过以上内容的描述,本申请提供了一种音频播放方法。具体地,终端获取待播放的音频,从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量,然后将至少一种乐器的至少一个音频分量中的高频分量进行串扰消除,将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与串扰消除后的高频分量进行延迟对齐,通过张角较小的第一扬声器对播放高频分量和人声的音频分量,通过张角较大的第二扬声器对播放低频分量,如此,提高音频播放的鲁棒性。
一方面,电子设备根据频率对低频分量和高频分量以及人声进行不同处理,避免头相关传输函数作为串扰消除的传输矩阵在低频所计算的增益较大,因此对于低频分量不进行串扰消除,从而降低了音频播放的计算量,提高了系统的鲁棒性。
另一方面,电子设备通过大张角扬声器对对低频信号,通过小张角扬声器对对高频信号与人声信号进行重放,提高音频播放的稳定性,进一步提高音频处理的鲁棒性。
下面以音源分离系统可以识别鼓声、贝斯声、钢琴声以及人声,该终端可以控制4个扬声器为例,如图4所示,对本申请提供的音频播放方法进行介绍。
S202:终端获取待播放的音频。
其中,待播放的音频中不仅包括音源分离系统可以识别的鼓声、贝斯声、钢琴声以及人声,还包括音源分离系统无法识别的其他乐器的声音,例如可以为吉他声、小提琴声和大提琴声。
S204:终端从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。
终端通过音源分离系统分离出鼓声、贝斯声、钢琴声、人声以及无法分辨具体乐器的其他乐器声,例如吉他声和提琴声。
S206:终端将至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。
对于音源系统所分离获得的鼓声、贝斯声、钢琴声、人声以及无法分辨具体乐器的其他乐器声,终端可以根据乐器类型从音频分量中分离出高频分量、低频分量以及中频分量。
例如,鼓和贝斯为低频乐器,因此终端可以将分离出的鼓声和贝斯声确定为低频分量。
钢琴为宽频乐器,终端可以通过子带滤波器进一步对分离出的钢琴声进行分离。例如终端可以通过低通滤波器获取钢琴声中的低频分量,通过高通滤波器获取钢琴声中的高频分量。
对于无法分辨具体乐器声的其他乐器声(其他乐器的音频分量),或者其他的为设置其为高频乐器、低频乐器以及宽频乐器的其他乐器对应的音频。例如,其他乐器声中可以包括吉他声,吉他声可以为音源系统无法识别具体乐器的乐器声,也可以为音源识别系统可以识别,但是未设置应该如何处理的乐器声。
终端可以根据其他乐器声的频带范围,将其他乐器声分为低频分量、高频分量或者中频分量中的一种。终端也可以通过滤波器组,将其他乐器声中分离获得低频分量、高频分量和中频分量。
如此,终端可以对于通过上述步骤获得的高频分量,通过串扰消除单元进行基于最小二乘法的串扰消除处理。当分离确定的音频分量中包括中频分量时,终端也可以通过串扰消除单元对中频分量,进行基于最小二乘法的串扰消除处理。
S208:终端将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与串扰消除后的高频分量进行延迟对齐。
本实施例中,终端可以将音源系统所分离获得的鼓声、贝斯声、通过低通滤波器获得的钢琴声中的低频分量、从其他乐器声中获得的低频分量,以及人声的音频分量通过延迟单元进行延迟处理,以使得与经过串扰消除后的高频分量对齐,避免因为高频分量进行串扰消除造成的延迟。
S210:终端通过第一扬声器对播放高频分量和人声的音频分量,通过第二扬声器对播放低频分量。
如图4所示,终端通过张角较小的第一扬声器对(图中402和403)播放高频分量和人声的音频分量,通过张角较大的第二扬声器对(图中401和404)播放低频分量。当其他乐器的音频分量中包括中频分量时,终端通过第一扬声器对播放中频分量。
下面以音源分离系统可以识别短笛声、鼓声、贝斯声、钢琴声以及人声,该终端可以控制6个扬声器为例,如图5所示,对本申请提供的音频播放方法进行介绍。
S202:终端获取待播放的音频。
其中,待播放的音频中不仅包括音源分离系统可以识别的短笛声、鼓声、贝斯声、钢琴声以及人声,还包括音源分离系统无法识别的其他乐器的声音。
S204:终端从待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。
终端通过音源分离系统分离出短笛声、鼓声、贝斯声、钢琴声、人声以及无法分辨具体乐器的其他乐器声。
S206:终端将至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。
对于音源系统所分离获得的短笛声、鼓声、贝斯声、钢琴声、人声以及无法分辨具体乐器的其他乐器声,终端可以根据乐器类型从音频分量中分离出高频分量、低频分量以及中频分量。
其中,短笛为高频乐器,因此终端可以将短笛声确定为高频分量。鼓和贝斯为低频乐器,因此终端可以将分离出的鼓声和贝斯声确定为低频分量。钢琴为宽频乐器,终端可以通过子带滤波器进一步对分离出的钢琴声进行分离,获取低频分量与高频分量。
对于其他乐器的音频分量,终端可以根据其他乐器的音频分量对应的频带范围,将其他乐器的音频分量确定为低频分量、高频分量和中频分量中的任意一种,或者分别获取其他乐器的音频分量中的低频分量、高频分量和中频分量。
终端通过串扰消除单元基于最小二乘法的串扰消除对于高频分量和中频分量进行处理。
S208:终端将至少一种乐器的至少一个音频分量中的低频分量和人声的音频分量与串扰消除后的高频分量进行延迟对齐。
终端可以通过延迟单元将低频分量,以及人声的音频分量进行延迟处理,以使得与经过串扰消除后的高频分量对齐,避免因为高频分量进行串扰消除造成的延迟。
S210:终端通过第一扬声器对播放高频分量和人声的音频分量,通过第二扬声器对播放低频分量。
如图5所示,终端通过张角较小的第一扬声器对(图中503和504)播放高频分量和人声的音频分量,通过张角较大的第二扬声器对(图中501和506)播放低频分量,通过张角大小位于第一扬声器对和第二扬声器对之间的第三扬声器对播放中频分量。
本申请实施例还提供了一种音响,如图6所示,该终端可以包括:多个扬声器610一个或多个处理器620、存储器1130、一个或多个计算机程序640、,上述各器件可以通过一个或多个通信总线650连接。其中该一个或多个计算机程序640被存储在上述存储器630中,并被配置为被该一个或多个处理器620执行,该一个或多个计算机程序640包括指令,上述指令可以用于执行如图2相应实施例中音响执行的各个步骤。其中,该音响可以被包括在终端中。
本申请实施例可以根据上述方法示例对音响进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图7示出了上述和实施例中涉及的终端的一种可能的组成示意图,该终端执行本申请各方法实施例中任一方法实施例中的步骤。如图7所示,所述终端可以包括:获取模块702,用于获取待播放的音频;分离模块704,用于从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量;第一处理模块706,用于将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除;第二处理模块708,用于将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量进行延迟对齐;播放模块710,用于通过第一扬声器对播放所述高频分量和所述人声的音频分量,通过第二扬声器对播放所述低频分量,所述第一扬声器对的张角小于所述第二扬声器对的张角。
在一些可能的实现方式中,分离模块704可以用于:
根据所述至少一种乐器的乐器类型,从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。
在一些可能的实现方式中,当所述乐器的乐器类型为低频乐器时,分离模块704还用于:
将所述低频乐器的音频分量确定为低频分量。
在一些可能的实现方式中,当所述乐器的乐器类型为宽频乐器时,分离模块704还用于:
从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
在一些可能的实现方式中,分离模块704可以用于:
通过滤波器组,从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
在一些可能的实现方式中,当所述乐器的乐器类型不为预设类型的任意一种时,分离模块704还用于:
通过频谱能量分布,将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
在一些可能的实现方式中,第一处理模块706还用于:
将所述至少一种乐器的至少一个音频分量中的中频分量进行串扰消除;
第二处理模块708还用于:
将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量和中频分量进行延迟对齐。
在一些可能的实现方式中,播放模块710还用于:
通过第三扬声器对播放所述中频分量,所述第三扬声器对的张角大于所述第一扬声器对的张角,所述第三扬声器对的张角小于所述第二扬声器对的张角。
在一些可能的实现方式中,分离模块704可以用于:
将所述至少一种乐器的至少一个音频分量由时域信号转换为频域信号;
根据所述至少一种乐器的至少一个音频分量的频域信号的频带范围将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
在一些可能的实现方式中,分离模块704可以用于:
基于最小二乘法将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到音响,以使音响执行相应方法,在此不再赘述。
本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中包括指令,当上述指令在电子设备上运行时,使得该电子设备执行图2中的相关方法步骤,以实现上述实施例中的方法。
本实施例还提供了一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该终端执行如图2中的相关方法步骤,以实现上述实施例中的方法。
在本实施例所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种音频播放方法,其特征在于,所述方法包括:
获取待播放的音频;
从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量;
将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除;
将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量进行延迟对齐;
通过第一扬声器对播放所述高频分量和所述人声的音频分量,通过第二扬声器对播放所述低频分量,所述第一扬声器对的张角小于所述第二扬声器对的张角。
2.根据权利要求1所述的方法,其特征在于,所述从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量包括:
根据所述至少一种乐器的乐器类型,从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量。
3.根据权利要求2所述的方法,其特征在于,当所述乐器的乐器类型为低频乐器时,所述方法还包括:
将所述低频乐器的音频分量确定为低频分量。
4.根据权利要求2所述的方法,其特征在于,当所述乐器的乐器类型为宽频乐器时,所述方法还包括:
从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
5.根据权利要求4所述的方法,其特征在于,所述从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量,包括:
通过滤波器组,从所述宽频乐器的至少一个音频分量中分离出高频分量和低频分量。
6.根据权利要求5所述的方法,当所述乐器的乐器类型不为预设类型的任意一种时,所述方法还包括:
通过频谱能量分布,将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
7.根据权利要求1所述的方法,所述方法还包括:
将所述至少一种乐器的至少一个音频分量中的中频分量进行串扰消除;
所述将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量进行延迟对齐,包括:
将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量和中频分量进行延迟对齐。
8.根据权利要求7所述的方法,所述方法还包括:
通过第三扬声器对播放所述中频分量,所述第三扬声器对的张角大于所述第一扬声器对的张角,所述第三扬声器对的张角小于所述第二扬声器对的张角。
9.根据权利要求6所述的方法,其特征在于,所述通过频谱能量分布,将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种,包括:
将所述至少一种乐器的至少一个音频分量由时域信号转换为频域信号;
根据所述至少一种乐器的至少一个音频分量的频域信号的频带范围将所述至少一种乐器的至少一个音频分量确定为低频分量、中频分量或者高频分量中的至少一种。
10.根据权利要求1所述的方法,其特征在于,所述将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除,包括:
基于最小二乘法将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除。
11.一种音频播放装置,其特征在于,所述装置包括:
获取模块,用于获取待播放的音频;
分离模块,用于从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量;
第一处理模块,用于将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除;
第二处理模块,用于将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量进行延迟对齐;
播放模块,用于通过第一扬声器对播放所述高频分量和所述人声的音频分量,通过第二扬声器对播放所述低频分量,所述第一扬声器对的张角小于所述第二扬声器对的张角。
12.一种音响,其特征在于,所述音响包括存储器和处理器,所述存储器用于存储一个或多个程序;所述处理器用于运行所述一个或多个程序,以实现以下动作:
获取待播放的音频;
从所述待播放的音频中分离出至少一种乐器的至少一个音频分量和人声的音频分量;
将所述至少一种乐器的至少一个音频分量中的高频分量进行串扰消除;
将所述至少一种乐器的至少一个音频分量中的低频分量和所述人声的音频分量与串扰消除后的所述高频分量进行延迟对齐;
通过第一扬声器对播放所述高频分量和所述人声的音频分量,通过第二扬声器对播放所述低频分量,所述第一扬声器对的张角小于所述第二扬声器对的张角。
13.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在终端上运行时,所述终端执行如权利要求1-10中任一项所述的音频播放方法。
14.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,所述计算机执行如权利要求1-10中任一项所述的音频播放方法。
CN202210326486.2A 2022-03-30 2022-03-30 一种音频播放方法以及相关设备 Pending CN114786117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210326486.2A CN114786117A (zh) 2022-03-30 2022-03-30 一种音频播放方法以及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210326486.2A CN114786117A (zh) 2022-03-30 2022-03-30 一种音频播放方法以及相关设备

Publications (1)

Publication Number Publication Date
CN114786117A true CN114786117A (zh) 2022-07-22

Family

ID=82426950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210326486.2A Pending CN114786117A (zh) 2022-03-30 2022-03-30 一种音频播放方法以及相关设备

Country Status (1)

Country Link
CN (1) CN114786117A (zh)

Similar Documents

Publication Publication Date Title
CN111050269B (zh) 音频处理方法和电子设备
WO2021147415A1 (zh) 实现立体声输出的方法及终端
WO2020253844A1 (zh) 多媒体信息的处理方法、装置和存储介质
CN114727212B (zh) 音频的处理方法及电子设备
WO2021129521A1 (zh) 蓝牙通信方法和装置
CN112312366B (zh) 一种通过nfc标签实现功能的方法、电子设备及系统
CN112771828B (zh) 一种音频数据的通信方法及电子设备
CN114466097A (zh) 防漏音的移动终端及移动终端的声音输出方法
CN113744750B (zh) 一种音频处理方法及电子设备
CN114697812A (zh) 声音采集方法、电子设备及系统
CN111065020B (zh) 音频数据处理的方法和装置
CN113571035A (zh) 降噪方法及降噪装置
WO2022257563A1 (zh) 一种音量调节的方法,电子设备和系统
EP4203447A1 (en) Sound processing method and apparatus thereof
CN114398020A (zh) 一种音频播放方法及相关设备
CN114120950B (zh) 一种人声屏蔽方法和电子设备
WO2022095752A1 (zh) 帧解复用方法、电子设备及存储介质
CN113506566B (zh) 声音检测模型训练方法、数据处理方法以及相关装置
CN115641867A (zh) 语音处理方法和终端设备
CN114786117A (zh) 一种音频播放方法以及相关设备
KR20230039715A (ko) 필터링 수단에 의한 에코 제거 방법, 전자 디바이스 및 컴퓨터 판독가능 저장 매체
CN115706755A (zh) 回声消除方法、电子设备及存储介质
CN115567831A (zh) 一种提升扬声器的音质的方法及装置
CN113542984B (zh) 立体声实现系统、方法、电子设备及存储介质
CN115019803B (zh) 音频处理方法、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination