CN115620736A - 音频分享方法、装置、计算机可读存储介质及电子设备 - Google Patents
音频分享方法、装置、计算机可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN115620736A CN115620736A CN202110806752.7A CN202110806752A CN115620736A CN 115620736 A CN115620736 A CN 115620736A CN 202110806752 A CN202110806752 A CN 202110806752A CN 115620736 A CN115620736 A CN 115620736A
- Authority
- CN
- China
- Prior art keywords
- audio data
- media
- target
- mixed
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Abstract
本申请公开了一种音频分享方法、装置、计算机可读存储介质及电子设备,涉及人工智能技术领域,该方法包括:获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据;基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据;将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。本申请实现在通话过程中实时分享本地播放媒体的音频,有效提升音频分享效果。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种音频分享方法、装置、计算机可读存储介质及电子设备。
背景技术
音频分享即将本地的音频分享至其他终端进行播放的技术,随着用户分享需求的不断提升,很多的场景下都具有音频分享的需求。
目前,在进行音频分享时,相关技术中通常将本地媒体的音频文件通过分享应用和相关数据一起直接分享至目标终端,这样在音频分享时,对本地播放媒体的音频难以实时分享,导致音频分享效果较差。
发明内容
本申请实施例提供一种音频分享方法及相关装置,可以在本地与目标终端进行高质量通话的过程中,通过通话语音数据包实时分享本地播放媒体的音频,有效提升音频分享效果。
为解决上述技术问题,本申请实施例提供以下技术方案:
根据本申请的一个实施例,一种音频分享方法,该方法包括:获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据;基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据;将所述第二混合音频数据通过通话语音数据包发送至所述目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
根据本申请的一个实施例,一种音频分享装置,其包括:获取模块,用于获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;第一混合模块,用于将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据;消除模块,用于基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;第二混合模块,用于将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据;分享模块,用于将所述第二混合音频数据通过通话语音数据包发送至所述目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
在本申请的一些实施例中,本地通过目标通话应用与所述目标终端进行通话,所述媒体音频数据通过所述目标通话应用解析所述本地播放媒体得到;所述第一混合模块,包括:第一混音单元,用于通过所述目标通话应用,对所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据。
在本申请的一些实施例中,所述消除模块,包括:第一采集单元,用于通过所述目标通话应用,从操作系统的第一采集接口获取本地语音采集器采集的通话语音对应的本地音频数据;以及,第一消除单元,用于基于所述第一混合音频数据对所述本地音频数据进行回声消除处理,得到回声消除音频数据。
在本申请的一些实施例中,所述第一消除单元,包括:变换子单元,用于将所述第一混合音频数据进行采样率变换处理,得到与所述本地音频数据具有相同采样率的第一参考混合音频数据;消除子单元,用于从所述本地音频数据中消除所述第一参考混合音频数据匹配的回声数据,得到所述回声消除音频数据。
在本申请的一些实施例中,本地通过目标通话应用与所述第二终端进行通话,所述媒体音频数据通过目标媒体播放应用解析所述本地播放媒体得到;所述第一混合模块,包括:第二混音单元,用于通过本地操作系统,对所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据。
在本申请的一些实施例中,所述消除模块,包括:第二采集单元,用于通过所述目标通话应用,从操作系统的第二采集接口获取传输至本地语音播放器的所述第一混合音频数据;以及,第二消除单元,用于基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据。
在本申请的一些实施例中,所述第二消除单元,用于:将所述第一混合音频数据进行采样率变换处理,得到与所述本地音频数据具有相同采样率的第二参考混合音频数据;从所述本地音频数据中消除所述第二参考混合音频数据匹配的回声数据,得到回声消除音频数据。
在本申请的一些实施例中,本地通过目标通话应用与所述第二终端进行通话,所述媒体音频数据通过目标媒体播放应用解析所述本地播放媒体得到;所述第二混合模块,包括:混合消除单元,用于通过所述目标通话应用,基于所述目标音频数据对所述第一混合音频数据进行回声消除处理,得到所述目标媒体播放应用解析的所述媒体音频数据;以及,第三混音单元,用于将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据。
在本申请的一些实施例中,所述混合消除单元,用于:对所述第一混合音频数据进行频带分解处理,得到第一频带混合音频数据以及与所述目标音频数据具有相同采样率的第二频带混合音频数据;从所述第二频带混合音频数据中消除所述目标音频数据匹配的回声数据,得到消除后混合音频数据;将所述消除后混合音频数据及所述第一频带混合音频数据进行频带合成处理,得到所述目标媒体播放应用解析的所述媒体音频数据。
在本申请的一些实施例中,所述第二混合模块中包括的第四混音单元或所述第三混音单元,用于:通过所述目标通话应用,对所述回声消除音频数据进行采样率转换得到待合成回声消除音频数据,以及对所述媒体音频数据进行采样率转换得到待合成媒体音频数据;将所述待合成回声消除音频数据及所述待合成媒体音频数据进行混合处理,得到编码采样率的待编码混合音频数据;对所述待编码混合音频数据进行编码处理,得到所述第二混合音频数据。
在本申请的一些实施例中,所述第一混音单元或第二混音单元,用于:对所述媒体音频数据进行采样率变换处理,得到变换后媒体音频数据;对所述目标音频数据进行采样率变换处理,得到变换后目标音频数据;将所述变换后媒体音频数据及所述变换后目标音频数据进行混合,得到本地语音播放器对应采样率的第一混合音频数据。
在本申请的一些实施例中,所述装置还包括:本地同步单元,用于将所述第一混合音频数据传输至本地语音播放器进行音频播放。
根据本申请的另一实施例,一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行本申请实施例所述的方法。
根据本申请的另一实施例,一种电子设备,包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行本申请实施例所述的方法。
根据本申请的另一实施例,一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。
本申请实施例中,获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据;基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据;将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
以这种方式,本地播放媒体对应的音频及目标终端发送的通话语音会在本地同时混合播放,将媒体音频数据及目标音频数据进行混合处理得到第一混合音频数据,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,可以消除本地采集的通话语音中由本地混合播放的音频产生的回声数据,得到本地用户发出的通话语音的纯净语音数据(即回声消除音频数据),然后,将回声消除音频数据及媒体音频数据进行混合处理得到第二混合音频数据,通过通话语音数据包发送至目标终端进行音频播放。可以在本地与目标终端进行高质量通话的过程中,通过通话语音数据包实时分享本地播放媒体的音频,有效提升音频分享效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的系统的示意图。
图2示出了根据本申请的一个实施例的音频分享方法的流程图。
图3示出了根据本申请的一个实施例的音频混合处理过程的流程图。
图4示出了根据本申请的一个实施例的回声消除处理过程的流程图。
图5示出了根据本申请的一个实施例的回声消除处理方法的流程图。
图6示出了应用本申请的实施例的一种场景下进行音频分享的系统示意图。
图7示出了应用本申请的实施例的另一种场景下进行音频分享的系统示意图。
图8示出了根据本申请的另一个实施例的音频分享装置的框图。
图9示出了根据本申请的一个实施例的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了可以应用本申请实施例的系统100的示意图。如图1所示,系统100可以包括本地终端101及目标终端102,本地终端101与目标终端102可以经由互联网来进行通信。本地终端101及目标终端102可以是任意的设备,包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、VR/AR设备、智能手表以及计算机等等。
本地终端101及目标终端102上可以安装目标通话应用(例如,图1所示的本地终端101上的近端应用及目标终端上的远端应用),本地终端101及目标终端102可以基于目标通话应用进行通话,传输通话语音数据包。
其中,目标通话应用可以是VOIP(Voice over Internet Protocol)应用程序,基于是VOIP(Voice over Internet Protocol)应用程序,本地终端101及目标终端102可以进行基于网际协议(IP)的语音通话,即经由互联网来进行通信。
本地终端101及目标终端102可以与服务器连接,服务器可以向本地终端101及目标终端102发布媒体文体。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。一种实施方式中,服务器为云服务器,服务器可以提供人工智能云服务。所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
本示例的一种实施方式中,本地终端101可以获取本地播放媒体对应的媒体音频数据以及目标终端102发送的通话语音对应的目标音频数据;将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据;基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据;将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
其中,本地终端101上可以安装本地语音采集器(例如图1所示本地终端101上的麦克风)。通过本地语音采集器,本地终端101可以在通话过程中采集本地用户的通话语音(即本地采集的通话语音)。本地终端101上可以安装本地语音播放器(例如图1所示本地终端101上的喇叭),本地语音播放器可以基于第一混合音频数据进行音频播放。
目标终端102上可以安装目标语音采集器(例如图1所示目标终端102上的麦克风)。通过目标语音采集器,目标终端102可以在通话过程中采集远端用户的通话语音(即目标终端102发送的通话语音)。目标终端102上可以安装目标语音播放器(例如图1所示目标终端102上的喇叭),目标语音播放器可以基于第二混合音频数据进行音频播放,即同时播放本地用户的通话语音对应的回声消除音频数据以及本地播放媒体对应的音频。
图2示意性示出了根据本申请的一个实施例的音频分享方法的流程图。该音频分享方法的执行主体可以是任意的终端,例如图1所示的本地终端101。
如图2所示,该音频分享方法可以包括步骤S210至步骤S250。
步骤S210,获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;
步骤S220,将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据;
步骤S230,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;
步骤S240,将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据;
步骤S250,将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
下面描述进行音频分享时,所进行的各步骤的具体过程。
在步骤S210中,获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据。
本示例的实施方式中,本地(例如图1所示的本地终端101)及目标终端可以基于目标通话应用(例如voip应用程序)进行网络通话,传输通话语音的通话语音数据包。
目标终端发送的通话语音,即目标终端通过语音采集器采集并发送至本地的通话语音,其中,通话语音可以以通话语音数据包的形式发送至本地,本地可以通过目标通话应用接收并解析该通话语音数据包,得到通话语音对应的目标音频数据。
本地播放媒体即在本地实时播放的媒体(例如音乐或者视频等),媒体音频数据即本地播放媒体对应的音频流。
在一个实施方式中,本地播放媒体为本地通过目标通话应用(例如voip应用程序)选择播放的一个本地的媒体文件,目标通话应用中的音频解码器可以解析本地播放媒体获得媒体音频数据进行播放;其中,通过目标通话应用进行解析时需要考虑音频解码格式,可以根据媒体文件编码类型对应的音频解码器进行解码,例如mp3文件对应mp3解码器,AVI格式对应的AVI解码器,进而实现目标通话应用直接获取媒体音频数据。
在另一个实施方式中,本地播放媒体为目标媒体播放应用(例如目标通话应用之外的其他音乐软件)中播放的媒体,目标媒体播放应用中的音频解码器解析获得媒体音频数据进行播放,此时,目标通话应用不必关心媒体文件的音频解码格式。
在步骤S220中,将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据。
本示例的实施方式中,本地在通话过程中播放媒体文件,即本地播放媒体对应的音频及目标终端发送的通话语音会在本地同时混合播放。将媒体音频数据及目标音频数据进行混合处理得到第一混合音频数据,一方面,基于第一混合音频数据可以在本地语音播放器同时混合播放本地播放媒体对应的音频及目标终端发送的通话语音;另一方面,本地采集通话语音时,可能会携带本地播放媒体对应的音频及目标终端发送的通话语音产生的回声,基于第一混合音频数据,在后续步骤中,可以对本地采集的通话语音对应的本地音频数据进行回声消除处理,消除本地采集的通话语音中由本地混合播放的音频产生的回声数据,得到本地用户发出的通话语音的纯净语音数据(即回声消除音频数据)。
一种实施例中,本地通过目标通话应用与目标终端进行通话,媒体音频数据通过目标通话应用解析本地播放媒体得到;参阅图3,步骤S220,将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,包括:步骤S221,通过目标通话应用,对媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据。
该实施例中,本地播放媒体的媒体音频数据通过用于进行通话的目标通话应用直接解析得到,同时目标音频数据也由目标通话应用直接解析得到,进而可以直接通过目标通话应用对媒体音频数据及目标音频数据进行混合处理得到第一混合音频数据。目标通话应用可以将第一混合音频数据通过从操作系统接口输送至本地语音播放器进行播放。
一种实施例中,本地通过目标通话应用与第二终端进行通话,媒体音频数据通过目标媒体播放应用解析本地播放媒体得到;参阅图3,步骤S220,将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,包括:步骤S222,通过本地操作系统,对媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据。
该实施例中,媒体音频数据通过目标媒体播放应用解析得到,目标通话应用无法直接获取该媒体音频数据,但是,目标音频数据也由目标通话应用直接解析得到,此时,通过本地操作系统对媒体音频数据及目标音频数据进行混合处理得到第一混合音频数据,操作系统可以将第一混合音频数据输送至本地语音播放器进行播放。
一种实施例中,步骤S221中,对媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,包括:
对媒体音频数据进行采样率变换处理,得到变换后媒体音频数据;对目标音频数据进行采样率变换处理,得到变换后目标音频数据;将变换后媒体音频数据及变换后目标音频数据进行混合,得到本地语音播放器对应采样率的第一混合音频数据。
步骤S221对应实施例中,由目标通话应用对媒体音频数据及目标音频数据进行混合处理。目标通话应用可以通过采样率变换处理,将媒体音频数据变换为目标采样率(即本地语音播放器对应采样率)的变换后媒体音频数据,例如,典型的本地媒体文件(例如mp3文件),一般具有44.1kHz的采样率,喇叭等语音播放器播放的目标采样率典型为48kHz,所以可以将媒体音频数据的采样率从44.1kHz上采样到48kHz得到变换后媒体音频数据。同理,目标通话应用可以通过采样率变换处理,将目标音频数据变换为目标采样率(即本地语音播放器对应采样率)的变换后目标音频数据,例如,典型的远端语音信号(即目标音频数据)的采样率为16kHz,此时可以将目标音频数据从16kHz采样率上采样到48kHz采样率进而得到变换后目标音频数据。
最后,目标通话应用将变换后媒体音频数据及变换后目标音频数据进行混合,得到本地语音播放器对应采样率的第一混合音频数据,即可以通过本地语音播放器进行播放。
一种实施例中,步骤S222中,对媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,包括:
对媒体音频数据进行采样率变换处理,得到变换后媒体音频数据;对目标音频数据进行采样率变换处理,得到变换后目标音频数据;将变换后媒体音频数据及变换后目标音频数据进行混合,得到本地语音播放器对应采样率的第一混合音频数据。
步骤S222对应实施例中,由本地操作系统对媒体音频数据及目标音频数据进行混合处理。本地操作系统可以通过采样率变换处理,将媒体音频数据变换为目标采样率(即本地语音播放器对应采样率)的变换后媒体音频数据,例如,典型的本地媒体文件(例如mp3文件),一般具有44.1kHz的采样率,喇叭等语音播放器播放的目标采样率典型为48kHz,所以可以将媒体音频数据的采样率从44.1kHz上采样到48kHz得到变换后媒体音频数据。同理,本地操作系统可以通过采样率变换处理,将目标音频数据变换为目标采样率(即本地语音播放器对应采样率)的变换后目标音频数据,例如,典型的远端语音信号(即目标音频数据)的采样率为16kHz,此时可以将目标音频数据从16kHz采样率上采样到48kHz采样率进而得到变换后目标音频数据。
最后,本地操作系统将变换后媒体音频数据及变换后目标音频数据进行混合,得到本地语音播放器对应采样率的第一混合音频数据,即可以通过本地语音播放器进行播放。
在步骤S230中,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据。
本地采集通话语音时,可能会携带本地播放媒体对应的音频及目标终端发送的通话语音产生的混合回声,例如本地通过麦克风等语音采集器采集用户说的通话语音时,由于本地同时在本地语音播放器中播放本地播放媒体对应的音频及目标终端发送的通话语音,本地语音播放器中的声音可能被语音采集器采集到形成回成数据。
参照第一混合音频数据,可以对本地采集的通话语音对应的本地音频数据进行回声消除处理,消除本地采集的通话语音中由本地语音播放器混合播放的音频产生的回声数据,进而得到本地用户发出的通话语音对应的纯净语音数据(即回声消除音频数据)。
一种实施例中,参阅图4,步骤S230,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
步骤S231,通过目标通话应用,从操作系统的第一采集接口获取本地语音采集器采集的通话语音对应的本地音频数据;以及,步骤S232,基于第一混合音频数据对本地音频数据进行回声消除处理,得到回声消除音频数据。
该实施例,对于第一混合音频数据为目标通话应用混合得到的场景,目标通话应用仅需通过操作系统的第一采集接口获取本地语音采集器采集的通话语音对应的本地音频数据,然后,可以直接参照第一混合音频数据对应的频带,对本地音频数据进行回声消除处理,即可消除本地音频数据中的回声数据得到回声消除音频数据。
一种实施例中,步骤S232,基于所述第一混合音频数据对所述本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
将第一混合音频数据进行采样率变换处理,得到与本地音频数据具有相同采样率的第一参考混合音频数据;从本地音频数据中消除第一参考混合音频数据匹配的回声数据,得到回声消除音频数据。
目标通话应用将自己混合得到的第一混合音频数据变换到与本地音频数据具有相同采样率的第一参考混合音频数据。
由此,第一参考混合音频数据与本地音频数据的采样率相同,可以采用语音带回成消除器或自适应滤波器等,参考第一参考混合音频数据,准确地消除掉本地音频数据中第一参考混合音频数据匹配的回声数据。
一种实施例中,参阅图4,步骤S230,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
步骤S233,通过目标通话应用,从操作系统的第二采集接口获取传输至本地语音播放器的第一混合音频数据;以及,步骤S234,基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据。
该实施例,对于第一混合音频数据为本地操作系统混合得到的场景,目标通话应用可以通过操作系统的第二采集接口,实时获取操作系统送到本地语音播放器的第一混合音频数据,通过这种方式,目标通话应用可以获取其他应用(即目标媒体播放应用)实时播放的音频。
然后,目标通话应用即可以参照第一混合音频数据对应的频带,对本地音频数据进行回声消除处理,消除本地音频数据中的回声数据得到回声消除音频数据。
一种实施例中,步骤S234,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
将第一混合音频数据进行采样率变换处理,得到与本地音频数据具有相同采样率的第二参考混合音频数据;从本地音频数据中消除第二参考混合音频数据匹配的回声数据,得到回声消除音频数据。
目标通话应用将本地操作系统混合得到的第一混合音频数据变换到与本地音频数据具有相同采样率的第二参考混合音频数据。
由此,第二参考混合音频数据与本地音频数据的采样率相同,可以采用语音带回成消除器或自适应滤波器等,参考第二参考混合音频数据,准确地消除掉本地音频数据中第二参考混合音频数据匹配的回声数据。
在步骤S240中,将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据。
本示例的实施方式中,回成消除音频数据为本地用户说的纯净通话语音的音频数据,媒体音频数据是本地播放媒体的音频数据,将回声消除音频数据及媒体音频数据进行混合处理得到第二混合音频数据,即可基于第二混合音频数据同时分享播放本地用户的纯净通话语音及本地播放媒体的音频。
一种实施例中,本地通过目标通话应用与所述第二终端进行通话,媒体音频数据通过目标通话应用解析本地播放媒体得到;在步骤S240中,将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据,包括:
通过目标通话应用,对回声消除音频数据进行采样率转换得到待合成回声消除音频数据,以及对媒体音频数据进行采样率转换得到待合成媒体音频数据;将待合成回声消除音频数据及待合成媒体音频数据进行混合处理,得到编码采样率的待编码混合音频数据;对待编码混合音频数据进行编码处理,得到第二混合音频数据。
该实施例,对于目标通话应用在本地选定播放本地播放媒体的场景,目标通话应用可以直接获得媒体音频数据。
此时,目标通话应用可以直接对回声消除音频数据进行采样率转换,得到符合编码器的编码采样率的待合成回声消除音频数据。例如,回声消除音频数据可能具有16kHz的采样率,编码器需要对48kHz信号进行编码,因此采样率变换时,对回声消除音频数据进行上采样得到具有48kHz采样率的待合成回声消除音频数据。
同时,对媒体音频数据进行采样率转换,得到符合编码器的编码采样率的待合成媒体音频数据。例如,媒体音频数据的采样率为44.1khz,编码采样率为48kHz的话,采样率转换时,需要将媒体音频数据上采样得到具有48kHz采样率的待合成媒体音频数据。
最后合成得到编码采样率的待编码混合音频数据,由编码器进行编码得到第二混合音频数据,即可通过通话语音数据包进行打包发送。
一种实施例中,本地通过目标通话应用与所述第二终端进行通话,媒体音频数据通过目标媒体播放应用解析本地播放媒体得到;步骤S240,将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据,包括:步骤S241,通过目标通话应用,基于目标音频数据对第一混合音频数据进行回声消除处理,得到目标媒体播放应用解析的媒体音频数据;以及,步骤S242,将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据。
该实施例,对于目标通话应用在本地选定播放本地播放媒体的场景,媒体音频数据通过目标媒体播放应用解析本地播放媒体得到,目标通话应用通过从本地操作系统的接口获取第一混合音频数据,间接获取第一混合音频数据中包含的媒体音频数据。
第一混合音频数据中包含媒体音频数据及目标音频数据,此时,通过目标通话应用,可以参考目标音频数据,对第一混合音频数据进行回声消除处理,消除掉第一混合音频数据中的目标音频数据匹配的音频数据,目标通话应用即可从中获得目标媒体播放应用解析的媒体音频数据。
一种实施例中,步骤S241中,基于目标音频数据对第一混合音频数据进行回声消除处理,得到目标媒体播放应用解析的媒体音频数据,包括:
对第一混合音频数据进行频带分解处理,得到第一频带混合音频数据以及与目标音频数据具有相同采样率的第二频带混合音频数据;从第二频带混合音频数据中消除目标音频数据匹配的回声数据,得到消除后混合音频数据;将消除后混合音频数据及第一频带混合音频数据进行频带合成处理,得到目标媒体播放应用解析的所述媒体音频数据。
第一混合音频数据中包含媒体音频数据及目标音频数据,第一混合音频数据会具有较高的采样率,例如48kHz,即24kHz带宽的宽带信号。目标音频数据一般具有较低采样率,例如16kHz,即8kHz带宽。
此时,参阅图5,可以对第一混合音频数据i进行频带分解处理,得到第一频带混合音频数据ih以及与目标音频数据具有相同采样率的第二频带混合音频数据il,例如将第一混合音频数据i通过子带滤波器并变采样之后,分别得到高频带信号流(第一频带混合音频数据ih)和低频带信号流(第二频带混合音频数据il)。
低频带信号流(第二频带混合音频数据il)与目标音频数据x具有相同采样率,例如16kHz。参考目标音频数据x,通过语音带回声消除器等即可消除掉低频带信号流(第二频带混合音频数据il)中目标音频数据x匹配的回声数据,得到消除后混合音频数据ie,在低频带进行回声消除也大幅节省了计算量。
再将高频带信号流(第一频带混合音频数据ih)和消除后混合音频数据ie重新合成即可得到目标媒体播放应用解析的媒体音频数据l,可以有效保留本地播放媒体的音频品质。
一种实施例中,步骤S242,将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据,包括:
通过目标通话应用,对回声消除音频数据进行采样率转换得到待合成回声消除音频数据,以及对媒体音频数据进行采样率转换得到待合成媒体音频数据;将待合成回声消除音频数据及待合成媒体音频数据进行混合处理,得到编码采样率的待编码混合音频数据;对待编码混合音频数据进行编码处理,得到第二混合音频数据。
目标通话应用对回声消除音频数据进行采样率转换,得到符合编码器的编码采样率的待合成回声消除音频数据。例如,回声消除音频数据可能具有16kHz的采样率,编码器需要对48kHz信号进行编码,因此采样率变换时,对回声消除音频数据进行上采样得到具有48kHz采样率的待合成回声消除音频数据。同时,对媒体音频数据进行采样率转换,得到符合编码器的编码采样率的待合成媒体音频数据。例如,媒体音频数据的采样率为44.1khz,编码采样率为48kHz的话,采样率转换时,需要将媒体音频数据上采样得到具有48kHz采样率的待合成媒体音频数据。最后合成得到编码采样率的待编码混合音频数据,由编码器进行编码得到第二混合音频数据,即可通过通话语音数据包进行打包发送。
在步骤S250中,将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
第二混合音频数据中即包含了近端说话人声的纯净通话语音对应的回声消除音频数据以及本地播放媒体的媒体音频数据,将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,即可在通话过程中实时分享本地播放的音频。其中,一个示例中,通话语音数据包的打包格式采用实时传输协议RTP数据包格式。
一种实施例中,音频分析方法还包括:将第一混合音频数据传输至本地语音播放器进行音频播放。
第一混合音频数据包括本地播放媒体的媒体音频数据及目标终端上用户的通话语音对应的目标音频数据,本地语音播放器可以基于第一混合音频数据同时播放本地播放媒体的音频及目标终端上用户的通话语音。
以这种方式,基于步骤S210至步骤S250,本地播放媒体对应的音频及目标终端发送的通话语音会在本地同时混合播放,将媒体音频数据及目标音频数据进行混合处理得到第一混合音频数据,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,可以消除本地采集的通话语音中由本地混合播放的音频产生的回声数据,得到本地用户发出的通话语音的纯净语音数据(即回声消除音频数据),然后,将回声消除音频数据及媒体音频数据进行混合处理得到第二混合音频数据,通过通话语音数据包发送至目标终端进行音频播放。可以在本地与目标终端进行高质量通话的过程中,通过通话语音数据包实时分享本地播放媒体的音频,有效提升音频分享效果。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
图6示出了应用本申请的实施例的一种场景下进行音频分享的系统示意图。图7示出了应用本申请的实施例的另一种场景下进行音频分享的系统示意图。图6及图7的场景中进行音频分享的系统基于图1所示系统。
图6及图7的场景中,本地终端101及目标终端102上安装目标通话应用(即本地终端101上的近端应用及目标终端102上的远端应用),其中,近端应用和远端应用是VOIP(Voice over Internet Protocol)应用程序,基于是VOIP(Voice over InternetProtocol)应用程序,本地终端101及目标终端102可以进行基于网际协议(IP)的语音通话,即经由互联网来进行通信。
其中,本地终端101上安装本地语音采集器(例如图6及图7所示本地终端101上的麦克风)。通过本地语音采集器,本地终端101可以在通话过程中采集本地用户的通话语音(即本地采集的通话语音)。本地终端101上安装本地语音播放器(例如图6及图7所示本地终端101上的喇叭),本地语音播放器可以基于第一混合音频数据进行音频播放。
目标终端102上安装目标语音采集器(例如图6及图7所示目标终端102上的麦克风)。通过目标语音采集器,目标终端102可以在通话过程中采集远端用户的通话语音(即目标终端102发送的通话语音)。目标终端102上安装目标语音播放器(例如图6及图7所示目标终端102上的喇叭),目标语音播放器可以基于第二混合音频数据进行音频播放,即在远端同时播放本地用户的通话语音对应的回声消除音频数据以及本地播放媒体对应的音频。
图6及图7的场景中,本地终端101可以获取本地播放媒体对应的媒体音频数据以及目标终端102发送的通话语音对应的目标音频数据;将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据;基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据;将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。进一步的,在本地还可以将第一混合音频数据传输至本地语音播放器进行音频播放。
进而图6及图7所示的场景下,允许在通话过程中将本地播放媒体的音频实时传输给目标终端播放的同时,本地终端自身也能正常通过本地语音播放器外放出来,同时还能够正常与目标终端对应的远端用户互相通话。
其中,在图6所示的场景下实现将在voip应用程序内选择播放的本地播放媒体的音频实时共享声音给目标终端对应的远端用户。近端应用中包括“收包解码单元”、“本地媒体文件单元”、“音频解码单元”、“采样率变换单元1”、“采样率变换单元2”、“混音单元1”、“采样率变换单元4”、“混音单元2”、“编码发包单元”。
在图6所示的场景下音频分享处理过程具体可以包括:
1、获取本地播放媒体对应的媒体音频数据以及目标终端102发送的通话语音对应的目标音频数据,具体地:
1.1、本地终端通过近端应用中的“收包解码单元”收取目标终端发送的通话语音的通话语音数据包,通过目标通话应用接收并解析该通话语音数据包,得到目标终端102发送的通话语音对应的目标音频数据x。
1.2、本地终端通过近端应用中的“本地媒体文件单元”选择播放本地播放媒体,通过“音频解码单元”中的音频解码器解析本地播放媒体获得媒体音频数据j。
其中,通过近端应用进行解析媒体音频数据j时需要考虑音频解码格式,可以根据媒体文件编码类型对应的音频解码器进行解码,例如mp3文件对应mp3解码器,AVI格式对应的AVI解码器,进而实现近端应用直接获取媒体音频数据。
2、将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,即通过目标通话应用,对媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,具体地:
通过“采样率变换单元1”,对媒体音频数据j进行采样率变换处理,得到变换后媒体音频数据k;通过“采样率变换单元2”,对目标音频数据x进行采样率变换处理,得到变换后目标音频数据y;通过“混音单元1”,将变换后媒体音频数据k及变换后目标音频数据y进行混合,得到本地语音播放器对应采样率的第一混合音频数据z。
3、基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,具体地:
通过目标通话应用,从操作系统的第一采集接口获取本地语音采集器采集的通话语音对应的本地音频数据d;以及,通过“回声消除单元1”,基于第一混合音频数据z对本地音频数据d进行回声消除处理,得到回声消除音频数据e。
4、将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据,具体包括:
通过近端应用中的“采样率变换单元4”,对回声消除音频数据e进行采样率转换得到待合成回声消除音频数据f,以及通过“采样率变换单元3”,对媒体音频数据j进行采样率转换得到待合成媒体音频数据I;通过“混音单元2”,将待合成回声消除音频数据f及待合成媒体音频数据I进行混合处理,得到编码采样率的待编码混合音频数据g;通过“编码发包单元”,对待编码混合音频数据进行编码处理,得到第二混合音频数据。
5、通过“编码发包单元”,将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。进一步的,在本地将第一混合音频数据传输至本地语音播放器进行音频播放。
其中,在图7所示的场景下实现通过voip应用程序将目标媒体播放应用播放的本地播放媒体的音频实时共享声音给目标终端对应的远端用户。近端应用中包括“收包解码单元”、“采样率变换单元5”、“回声消除单元2”、“回声消除单元3”、“混音单元3”、“采样率变换单元7”、“采样率变换单元8”、“编码发包单元”。
在图7所示的场景下音频分享处理过程具体可以包括:
1、获取本地播放媒体对应的媒体音频数据以及目标终端102发送的通话语音对应的目标音频数据,具体地:
1.1、本地终端通过近端应用中的“收包解码单元”收取目标终端发送的通话语音的通话语音数据包,通过目标通话应用接收并解析该通话语音数据包,得到目标终端102发送的通话语音对应的目标音频数据x。
1.2、本地终端通过近端应用中的通过“目标媒体播放应用”选择播放本地播放媒体,解析本地播放媒体获得媒体音频数据。
2、将媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,即通过本地操作系统,对媒体音频数据及目标音频数据进行混合处理,得到第一混合音频数据,具体地:
通过“目标媒体播放应用”,对媒体音频数据进行采样率变换处理,得到变换后媒体音频数据j;
通过近端应用中的“采样率变换单元5”,对目标音频数据x进行采样率变换处理,得到变换后目标音频数据z;
本地操作系统,将变换后媒体音频数据j及变换后目标音频数据z进行混合,得到本地语音播放器对应采样率的第一混合音频数据i。
3、基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
通过近端应用,从操作系统的第二采集接口获取传输至本地语音播放器的第一混合音频数据i;以及,通过近端应用中“回声消除单元2”,基于第一混合音频数据i对本地采集的通话语音对应的本地音频数据d进行回声消除处理,得到回声消除音频数据e。
其中,基于第一混合音频数据i对本地采集的通话语音对应的本地音频数据d进行回声消除处理,得到回声消除音频数据e,包括:通过近端应用中“采样率变换单元7”,将第一混合音频数据i进行采样率变换处理,得到与本地音频数据具有相同采样率的第二参考混合音频数据k;从本地音频数据中消除第二参考混合音频数据k匹配的回声数据,得到回声消除音频数据e。
4、将回声消除音频数据及媒体音频数据进行混合处理,得到第二混合音频数据。
通过近端应用中的“回声消除单元3”,基于目标音频数据x对第一混合音频数据i进行回声消除处理,得到目标媒体播放应用解析的媒体音频数据I;以及,通过“混音单元3”,将回声消除音频数据e及媒体音频数据I进行混合处理,得到第二混合音频数据g。
其中,参阅图5,基于目标音频数据x对第一混合音频数据i进行回声消除处理,得到目标媒体播放应用解析的媒体音频数据I,包括:
对第一混合音频数据i进行频带分解处理,得到第一频带混合音频数据ih以及与目标音频数据具有相同采样率的第二频带混合音频数据il;从第二频带混合音频数据中消除目标音频数据x匹配的回声数据,得到消除后混合音频数据ie;将消除后混合音频数据ie及第一频带混合音频数据ih进行频带合成处理,得到目标媒体播放应用解析的媒体音频数据I。
将回声消除音频数据e及媒体音频数据I进行混合处理,得到第二混合音频数据g,包括:
通过近端应用中的“采样率变换单元8”,对回声消除音频数据e进行采样率转换得到待合成回声消除音频数据f,以及对媒体音频数据I进行采样率转换得到待合成媒体音频数据;将待合成回声消除音频数据f及待合成媒体音频数据进行混合处理,得到编码采样率的待编码混合音频数据g;通过“编码发包单元”,对待编码混合音频数据g进行编码处理,得到第二混合音频数据。
5、通过“编码发包单元”,将第二混合音频数据通过通话语音数据包发送至目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。进一步的,在本地将第一混合音频数据传输至本地语音播放器进行音频播放。
为便于更好的实施本申请实施例提供的音频分享方法,本申请实施例还提供一种基于上述音频分享方法的音频分享装置。其中名词的含义与上述音频分享方法中相同,具体实现细节可以参考方法实施例中的说明。图8示出了根据本申请的一个实施例的音频分享装置的框图。
如图8所示,音频分享装置300中可以包括获取模块310、第一混合模块320、消除模块330、第二混合模块340及分享模块350,音频分享装置400可以应用于终端。
获取模块310可以用于获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;第一混合模块320可以用于将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据;消除模块330可以用于基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;第二混合模块340可以用于将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据;分享模块350可以用于将所述第二混合音频数据通过通话语音数据包发送至所述目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
在本申请的一些实施例中,本地通过目标通话应用与所述目标终端进行通话,所述媒体音频数据通过所述目标通话应用解析所述本地播放媒体得到;所述第一混合模块320,包括:第一混音单元,用于通过所述目标通话应用,对所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据。
在本申请的一些实施例中,所述消除模块330,包括:第一采集单元,用于通过所述目标通话应用,从操作系统的第一采集接口获取本地语音采集器采集的通话语音对应的本地音频数据;以及,第一消除单元,用于基于所述第一混合音频数据对所述本地音频数据进行回声消除处理,得到回声消除音频数据。
在本申请的一些实施例中,所述第一消除单元,包括:变换子单元,用于将所述第一混合音频数据进行采样率变换处理,得到与所述本地音频数据具有相同采样率的第一参考混合音频数据;消除子单元,用于从所述本地音频数据中消除所述第一参考混合音频数据匹配的回声数据,得到所述回声消除音频数据。
在本申请的一些实施例中,本地通过目标通话应用与所述第二终端进行通话,所述媒体音频数据通过目标媒体播放应用解析所述本地播放媒体得到;所述第一混合模块320,包括:第二混音单元,用于通过本地操作系统,对所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据。
在本申请的一些实施例中,所述消除模块330,包括:第二采集单元,用于通过所述目标通话应用,从操作系统的第二采集接口获取传输至本地语音播放器的所述第一混合音频数据;以及,第二消除单元,用于基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据。
在本申请的一些实施例中,所述第二消除单元,用于:将所述第一混合音频数据进行采样率变换处理,得到与所述本地音频数据具有相同采样率的第二参考混合音频数据;从所述本地音频数据中消除所述第二参考混合音频数据匹配的回声数据,得到回声消除音频数据。
在本申请的一些实施例中,本地通过目标通话应用与所述第二终端进行通话,所述媒体音频数据通过目标媒体播放应用解析所述本地播放媒体得到;所述第二混合模块340,包括:混合消除单元,用于通过所述目标通话应用,基于所述目标音频数据对所述第一混合音频数据进行回声消除处理,得到所述目标媒体播放应用解析的所述媒体音频数据;以及,第三混音单元,用于将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据。
在本申请的一些实施例中,所述混合消除单元,用于:对所述第一混合音频数据进行频带分解处理,得到第一频带混合音频数据以及与所述目标音频数据具有相同采样率的第二频带混合音频数据;从所述第二频带混合音频数据中消除所述目标音频数据匹配的回声数据,得到消除后混合音频数据;将所述消除后混合音频数据及所述第一频带混合音频数据进行频带合成处理,得到所述目标媒体播放应用解析的所述媒体音频数据。
在本申请的一些实施例中,所述第二混合模块中包括的第四混音单元或所述第三混音单元,用于:通过所述目标通话应用,对所述回声消除音频数据进行采样率转换得到待合成回声消除音频数据,以及对所述媒体音频数据进行采样率转换得到待合成媒体音频数据;将所述待合成回声消除音频数据及所述待合成媒体音频数据进行混合处理,得到编码采样率的待编码混合音频数据;对所述待编码混合音频数据进行编码处理,得到所述第二混合音频数据。
在本申请的一些实施例中,所述第一混音单元或第二混音单元,用于:对所述媒体音频数据进行采样率变换处理,得到变换后媒体音频数据;对所述目标音频数据进行采样率变换处理,得到变换后目标音频数据;将所述变换后媒体音频数据及所述变换后目标音频数据进行混合,得到本地语音播放器对应采样率的第一混合音频数据。
在本申请的一些实施例中,所述装置还包括:本地同步单元,用于将所述第一混合音频数据传输至本地语音播放器进行音频播放。
以这种方式,基于音频分享装置300,可以本地播放媒体对应的音频及目标终端发送的通话语音会在本地同时混合播放,将媒体音频数据及目标音频数据进行混合处理得到第一混合音频数据,基于第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,可以消除本地采集的通话语音中由本地混合播放的音频产生的回声数据,得到本地用户发出的通话语音的纯净语音数据(即回声消除音频数据),然后,将回声消除音频数据及媒体音频数据进行混合处理得到第二混合音频数据,通过通话语音数据包发送至目标终端进行音频播放。可以在本地与目标终端进行高质量通话的过程中,通过通话语音数据包实时分享本地播放媒体的音频,有效提升音频分享效果。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器,如图9所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能,如处理器401可以执行:
获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据;基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据;将所述第二混合音频数据通过通话语音数据包发送至所述目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请上述实施例中各种可选实现方式中提供的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的实施例,而可以在不脱离其范围的情况下进行各种修改和改变。
Claims (15)
1.一种音频分享方法,其特征在于,所述方法包括:
获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;
将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据;
基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;
将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据;
将所述第二混合音频数据通过通话语音数据包发送至所述目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
2.根据权利要求1所述的方法,其特征在于,本地通过目标通话应用与所述目标终端进行通话,所述媒体音频数据通过所述目标通话应用解析所述本地播放媒体得到;
所述将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据,包括:
通过所述目标通话应用,对所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
通过所述目标通话应用,从操作系统的第一采集接口获取本地语音采集器采集的通话语音对应的本地音频数据;以及,
基于所述第一混合音频数据对所述本地音频数据进行回声消除处理,得到回声消除音频数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一混合音频数据对所述本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
将所述第一混合音频数据进行采样率变换处理,得到与所述本地音频数据具有相同采样率的第一参考混合音频数据;
从所述本地音频数据中消除所述第一参考混合音频数据匹配的回声数据,得到所述回声消除音频数据。
5.根据权利要求1所述的方法,其特征在于,本地通过目标通话应用与所述第二终端进行通话,所述媒体音频数据通过目标媒体播放应用解析所述本地播放媒体得到;
所述将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据,包括:
通过本地操作系统,对所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
通过所述目标通话应用,从操作系统的第二采集接口获取传输至本地语音播放器的所述第一混合音频数据;以及,
基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据,包括:
将所述第一混合音频数据进行采样率变换处理,得到与所述本地音频数据具有相同采样率的第二参考混合音频数据;
从所述本地音频数据中消除所述第二参考混合音频数据匹配的回声数据,得到回声消除音频数据。
8.根据权利要求1所述的方法,其特征在于,本地通过目标通话应用与所述第二终端进行通话,所述媒体音频数据通过目标媒体播放应用解析所述本地播放媒体得到;
所述将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据,包括:
通过所述目标通话应用,基于所述目标音频数据对所述第一混合音频数据进行回声消除处理,得到所述目标媒体播放应用解析的所述媒体音频数据;以及,
将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据。
9.根据权利要求8所述的方法,其特征在于,所述基于所述目标音频数据对所述第一混合音频数据进行回声消除处理,得到所述目标媒体播放应用解析的所述媒体音频数据,包括:
对所述第一混合音频数据进行频带分解处理,得到第一频带混合音频数据以及与所述目标音频数据具有相同采样率的第二频带混合音频数据;
从所述第二频带混合音频数据中消除所述目标音频数据匹配的回声数据,得到消除后混合音频数据;
将所述消除后混合音频数据及所述第一频带混合音频数据进行频带合成处理,得到所述目标媒体播放应用解析的所述媒体音频数据。
10.根据权利要求2或8所述的方法,其特征在于,所述将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据,包括:
通过所述目标通话应用,对所述回声消除音频数据进行采样率转换得到待合成回声消除音频数据,以及对所述媒体音频数据进行采样率转换得到待合成媒体音频数据;
将所述待合成回声消除音频数据及所述待合成媒体音频数据进行混合处理,得到编码采样率的待编码混合音频数据;
对所述待编码混合音频数据进行编码处理,得到所述第二混合音频数据。
11.根据权利要求2或5所述的方法,其特征在于,所述对所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据,包括:
对所述媒体音频数据进行采样率变换处理,得到变换后媒体音频数据;
对所述目标音频数据进行采样率变换处理,得到变换后目标音频数据;
将所述变换后媒体音频数据及所述变换后目标音频数据进行混合,得到本地语音播放器对应采样率的第一混合音频数据。
12.根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
将所述第一混合音频数据传输至本地语音播放器进行音频播放。
13.一种音频分享装置,其特征在于,所述装置包括:
获取模块,用于获取本地播放媒体对应的媒体音频数据以及目标终端发送的通话语音对应的目标音频数据;
第一混合模块,用于将所述媒体音频数据及所述目标音频数据进行混合处理,得到第一混合音频数据;
消除模块,用于基于所述第一混合音频数据对本地采集的通话语音对应的本地音频数据进行回声消除处理,得到回声消除音频数据;
第二混合模块,用于将所述回声消除音频数据及所述媒体音频数据进行混合处理,得到第二混合音频数据;
分享模块,用于将所述第二混合音频数据通过通话语音数据包发送至所述目标终端进行音频播放,以在通话过程中分享本地播放媒体的音频。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至12任一项所述的方法。
15.一种电子设备,其特征在于,包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110806752.7A CN115620736A (zh) | 2021-07-16 | 2021-07-16 | 音频分享方法、装置、计算机可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110806752.7A CN115620736A (zh) | 2021-07-16 | 2021-07-16 | 音频分享方法、装置、计算机可读存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620736A true CN115620736A (zh) | 2023-01-17 |
Family
ID=84854803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110806752.7A Pending CN115620736A (zh) | 2021-07-16 | 2021-07-16 | 音频分享方法、装置、计算机可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620736A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116095564A (zh) * | 2023-04-10 | 2023-05-09 | 深圳市嘉润原新显科技有限公司 | 显示器混音电路及显示器 |
CN116566963A (zh) * | 2023-07-12 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、电子设备和存储介质 |
CN116668582A (zh) * | 2023-08-02 | 2023-08-29 | 荣耀终端有限公司 | 音频文件分享的方法及电子设备 |
-
2021
- 2021-07-16 CN CN202110806752.7A patent/CN115620736A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116095564A (zh) * | 2023-04-10 | 2023-05-09 | 深圳市嘉润原新显科技有限公司 | 显示器混音电路及显示器 |
CN116566963A (zh) * | 2023-07-12 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、电子设备和存储介质 |
CN116566963B (zh) * | 2023-07-12 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、电子设备和存储介质 |
CN116668582A (zh) * | 2023-08-02 | 2023-08-29 | 荣耀终端有限公司 | 音频文件分享的方法及电子设备 |
CN116668582B (zh) * | 2023-08-02 | 2023-11-24 | 荣耀终端有限公司 | 音频文件分享的方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115620736A (zh) | 音频分享方法、装置、计算机可读存储介质及电子设备 | |
CN106911831B (zh) | 一种终端的麦克风的数据处理方法和具有麦克风的终端 | |
CN109547844A (zh) | 基于WebRTC协议的音视频推送方法和推流客户端 | |
US20220020395A1 (en) | Audio data processing method, electronic device, and storage medium | |
CN105929967B (zh) | 多路实时音频信号处理的仿真系统 | |
CN111107396A (zh) | 基于硬件的车机音频远程输出方法、装置及系统 | |
CN111863011B (zh) | 音频处理方法及电子设备 | |
CN113823304A (zh) | 语音信号的处理方法、装置、电子设备及可读存储介质 | |
CN112688965B (zh) | 一种会议音频共享方法、装置、电子设备及存储介质 | |
CN111883158B (zh) | 一种回声消除方法和装置 | |
CN112565668B (zh) | 一种网络会议共享声音的方法 | |
CN109451254A (zh) | 一种智能电视数字接收机 | |
CN112802485B (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN114979386A (zh) | 小程序语音通信方法、装置、电子设备、存储介质 | |
CN111564156B (zh) | 外呼系统部署方法、装置、计算机设备及存储介质 | |
CN213716506U (zh) | 一种回声消除装置 | |
EP3649643A1 (en) | Normalization of high band signals in network telephony communications | |
Chinna Rao et al. | Real-time implementation and testing of VoIP vocoders with asterisk PBX using wireshark packet analyzer | |
CN108132770A (zh) | 一种进行音频处理的方法和设备 | |
CN113571079A (zh) | 语音增强方法、装置、设备及存储介质 | |
KR20170052090A (ko) | 효율적인 음성 통화를 위한 샘플링 레이트 변환 방법 및 시스템 | |
CN110085231A (zh) | 基于usb端口的多mic语音助理模块 | |
CN114760389A (zh) | 语音通话方法、装置、计算机存储介质及电子设备 | |
CN117577123A (zh) | 基于音频编解码器的回声消除装置及电子终端 | |
CN116566963B (zh) | 一种音频处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40079466 Country of ref document: HK |