CN110430330A - 一种基于通话的音频数据处理方法及装置 - Google Patents

一种基于通话的音频数据处理方法及装置 Download PDF

Info

Publication number
CN110430330A
CN110430330A CN201910731048.2A CN201910731048A CN110430330A CN 110430330 A CN110430330 A CN 110430330A CN 201910731048 A CN201910731048 A CN 201910731048A CN 110430330 A CN110430330 A CN 110430330A
Authority
CN
China
Prior art keywords
audio
audio data
call
data
resampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910731048.2A
Other languages
English (en)
Inventor
孙承秀
杨攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cloud In Faith Network Technology Co Ltd
Original Assignee
Beijing Cloud In Faith Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cloud In Faith Network Technology Co Ltd filed Critical Beijing Cloud In Faith Network Technology Co Ltd
Priority to CN201910731048.2A priority Critical patent/CN110430330A/zh
Publication of CN110430330A publication Critical patent/CN110430330A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

本申请提供了一种基于通话的音频数据处理方法及装置,基于通话的音频数据处理方法包括:按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。可以提升通话的音频效果。

Description

一种基于通话的音频数据处理方法及装置
技术领域
本申请涉及音频数据技术领域,具体而言,涉及一种基于通话的音频数据处理方法及装置。
背景技术
在通话过程中,一般是移动终端或固定话机通过麦克风采集通话方的音频数据,并将采集的音频数据进行降噪以及编码处理后,发送至通话对方,从而实现双方的通话。
随着通信网络的快速发展,通信网络能够提供的应用服务越来越丰富,但目前的通话方法,仅利用麦克风这一应用服务采集通话方的音频数据并进行发送,音频数据中仅包含通话方的音频,使得传输至通话对方进行音频播放的音频效果单一,通话的音频效果较差,已不能满足用户对通话的多样化需求。
发明内容
有鉴于此,本申请的目的在于提供一种基于通话的音频数据处理方法及装置,提升通话的音频效果。
第一方面,本申请实施例提供了一种基于通话的音频数据处理方法,包括:
按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;
获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;
按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;
对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;
按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。
结合第一方面,本发明提供了第一方面的第一种可能的实施方式,其中,在所述得到音频叠加数据之后,按照预设的编码信息,对所述音频叠加数据进行编码之前,所述方法还包括:
利用混响算法,对所述音频叠加数据进行应用场景混响处理。
结合第一方面,本发明提供了第一方面的第二种可能的实施方式,其中,所述对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据,包括:
针对每一采样点,计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值;
判断所述和值是否超过预先设置的幅值阈值,若超过,在该采样点处,为所述通话音频数据和所述重采样音频数据设置衰减因子;
叠加设置衰减因子后的通话音频数据和重采样音频数据,得到音频叠加数据,其中,设置衰减因子后的通话音频数据的幅值与重采样音频数据的幅值的和值不大于所述幅值阈值。
结合第一方面的第二种可能的实施方式,本发明提供了第一方面的第三种可能的实施方式,其中,在所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值之前,所述方法还包括:
判断该采样点对应的通话音频数据的幅值是否小于预先设置的通话阈值;
若该采样点对应的通话音频数据的幅值小于预先设置的通话阈值,将所述重采样音频数据作为所述音频叠加数据;
若该采样点对应的通话音频数据的幅值不小于预先设置的通话阈值,执行所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值的步骤。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第四种可能的实施方式,其中,在所述得到重采样音频数据之后,对所述通话音频数据和所述重采样音频数据进行混音处理之前,所述方法还包括:
对所述通话音频数据和所述重采样音频数据分别进行回音消除处理以及噪声抑制处理。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第五种可能的实施方式,其中,在所述得到目标音频数据之后,按照所述采样率,对所述目标音频数据进行重采样之前,所述方法还包括:
对所述目标音频数据进行抗混叠滤波处理或抗镜像滤波处理。
结合第一方面、第一方面的第一种至第三种中的任一可能的实施方式,本发明提供了第一方面的第六种可能的实施方式,其中,所述对所述目标音频文件进行解码,得到目标音频数据,包括:
解析所述目标音频文件,获取所述目标音频文件中包含的编码信息,依据所述编码信息对所述目标音频文件中包含的音频信息进行解码,得到目标音频数据。
第二方面,本申请实施例提供了一种基于通话的音频数据处理装置,包括:
音频采集模块,用于按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;
解码模块,用于获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;
重采样模块,用于按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;
混音模块,用于对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;
编码模块,用于按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本申请实施例提供的一种基于通话的音频数据处理方法及装置,通过按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。这样,通过将通话音频数据与待融合的目标音频数据进行混音,丰富了发送至通话对方的音频播放效果,从而有效提升通话的音频效果,实现对通话业务的应用功能扩展。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于通话的音频数据处理方法流程示意图;
图2为本申请实施例提供的一种基于通话的音频数据处理装置结构示意图;
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种基于通话的音频数据处理方法流程示意图。如图1所示,该方法包括:
步骤101,按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;
本申请实施例中,在通话过程中,采集正在通话的通话方的通话音频数据。作为一可选实施例,采样率可依据实际需要确定。
本申请实施例中,作为一可选实施例,利用麦克风采集音通话频数据。例如,当用户A和用户B建立起实时通话时,麦克风按照预先设置的采样率采集并录制到用户A的通话音频数据,使得用户B可以获取到用户A通过通信网络发送的通话音频数据。本申请实施例中,在用户A通过通信网络发送通话音频数据之前,对用户A的通话音频数据进行处理,以提升通话的音频效果。
本申请实施例中,麦克风对通话方通话时连续的声波信号进行采集,得到通话音频数据。作为一可选实施例,采集的通话音频数据为未经过编码信息进行编码的数据。
步骤102,获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;
本申请实施例中,目标音频文件为用于增强通话音效的音频文件,数量可以为一个或多个。作为一可选实施例,目标音频文件包括但不限于:伴奏音频文件、录音音频文件等,其中,伴奏音频文件又可以包括伴奏一音频文件、伴奏二音频文件。
本申请实施例中,作为一可选实施例,可以通过通信网络从网络服务器获取目标音频文件。作为另一可选实施例,也可以从本地存储介质中获取目标音频文件。用户可依据个性化需求选择所需的目标音频文件。
本申请实施例中,作为一可选实施例,目标音频文件包括:音频信息以及编码信息,其中,编码信息为音频信息的编码格式。
本申请实施例中,编码格式包括但不限于:脉冲编码调制(PCM,Pulse CodeModulation)格式、高级音频编码(AAC,Advanced Audio Coding)格式等。
本申请实施例中,作为一可选实施例,对所述目标音频文件进行解码,得到目标音频数据,包括:
解析所述目标音频文件,获取所述目标音频文件中包含的编码信息,依据所述编码信息对所述目标音频文件中包含的音频信息进行解码,得到目标音频数据。
本申请实施例中,解析目标音频文件,获取编码信息,依据编码信息对应的编码格式,对音频信息进行解码。
步骤103,按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;
本申请实施例中,不同的目标音频数据,对应的音频频率可能不相同,这样,在后续进行音频文件合成时,合成的音频文件的频率不一致,会导致播放时音质较差。因而,对于解码得到的每一目标音频数据,均按照预设的采样率分别进行重采样处理,以保证后续合成的音频文件的采样率都相同。
本申请实施例中,作为一可选实施例,重采样包括:插值和抽取。
本申请实施例中,由于对音频数据进行插值处理可能产生镜像,对音频数据进行抽取处理可能产生混叠,因而,作为一可选实施例,在得到目标音频数据之后,按照所述采样率,对所述目标音频数据进行重采样之前,该方法还可以包括:
对所述目标音频数据进行抗混叠滤波处理或抗镜像滤波处理。
本申请实施例中,对需要进行抽取处理的目标音频数据,在进行抽取之前进行抗混叠滤波处理;对需要进行内插处理的目标音频数据,在进行内插之前进行抗镜像滤波处理。
本申请实施例中,作为一可选实施例,对所述目标音频数据进行抗混叠滤波处理或抗镜像滤波处理,包括:
获取所述目标音频数据对应的编码信息中包含的初始采样率;
若所述初始采样率小于或等于所述采样率,对所述目标音频数据进行抗镜像滤波处理;
若所述初始采样率大于所述采样率,对所述目标音频数据进行抗混叠滤波处理。
本申请实施例中,作为一可选实施例,可通过设置相应的低通滤波器来实现抗镜像滤波或抗混叠滤波。
步骤104,对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;
本申请实施例中,利用混音技术,将伴奏的重采样音频数据和通话音频数据混合在一起,从而将录音、混响、伴奏一、伴奏二、音频数据等多个数据混合在一起,形成一路音频。
本申请实施例中,每个音频数据的振幅不同,能量水平也不同,为了使得进行混音处理后的音频数据中的音频较为均衡,作为一可选实施例,采用自适应加权混音算法进行混音处理,自适应加权混音算法使用衰减因子改变音频数据的振幅。本申请实施例中,衰减因子代表了音频数据的权重,随音频数据的变化而变化,从而利用衰减因子来改变音频的振幅。
本申请实施例中,作为一可选实施例,对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据,包括:
针对每一采样点,计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值;
判断所述和值是否超过预先设置的幅值阈值,若超过,在该采样点处,为所述通话音频数据和所述重采样音频数据设置衰减因子;
叠加设置衰减因子后的通话音频数据和重采样音频数据,得到音频叠加数据,其中,设置衰减因子后的通话音频数据的幅值与重采样音频数据的幅值的和值不大于所述幅值阈值。
本申请实施例中,若和值没有超过预先设置的幅值阈值,则对目标音频数据和重采样音频数据进行线性叠加处理。
本申请实施例中,在进行混音处理时,依据衰减因子动态调节音频数据的幅值,以避免音频数据的溢出,实现音频均衡。例如,将两个音频文件中对应的音频数据进行数据相加时,假设每个采样点采用两字节16位表示采样值,能表示的采样值范围在-32768~32767,若两个音频文件中对应的音频数据进行数据线性相加导致溢出时,减小衰减因子,使得溢出的数据在衰减后能够处于临界值(-32768~32767)以内,若没有溢出现象,可以增大衰减因子,可以保障数据的平缓变化,达到无溢出的混音效果。
本申请实施例中,作为一可选实施例,在所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值之前,该方法还包括:
判断该采样点对应的通话音频数据的幅值是否小于预先设置的通话阈值;
若该采样点对应的通话音频数据的幅值小于预先设置的通话阈值,将所述重采样音频数据作为所述音频叠加数据;
若该采样点对应的通话音频数据的幅值不小于预先设置的通话阈值,执行所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值的步骤。
本申请实施例中,对通话音频数据进行静音检测,如果检测不到用户A的通话,直接采用伴奏的音频数据,即不进行混音处理,直接将重采样音频数据作为音频叠加数据发送至通话对方。
本申请实施例中,通话方在播放通话对方发送的包含伴奏音频数据的音频文件的过程中,麦克风也会采集到伴奏音频等回声或噪声,这样,会使得发送至通话对方的音频效果较差。因而,作为一可选实施例,在所述得到重采样音频数据之后,对所述通话音频数据和所述重采样音频数据进行混音处理之前,该方法还包括:
对所述通话音频数据和所述重采样音频数据分别进行回音消除处理以及噪声抑制处理。
本申请实施例中,作为一可选实施例,可以使用自适应回音消除算法进行回音消除,例如,以对通话音频数据进行回音消除处理为例,使用自适应滤波器,通过对未知的信道做辨识,建立远端信号模型,模拟回声的路径,然后利用自适应回音消除算法进行调整,使回声路径和冲击响应相逼近,得到估计值,然后将麦克风采集到的通话音频数据减去估计值,从而实现回音消除功能。
本申请实施例中,进行噪声抑制,可以提升音频的质量。
本申请实施例中,基于进行回音消除处理以及噪声抑制处理后的通话音频数据和重采样音频数据,进行混音处理。
步骤105,按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。
本申请实施例中,基于预先设置的编码信息,例如,PCM格式,对进行混音处理得到的音频叠加数据进行编码,得到融合音频文件。这样,能够实现实时的通话音频数据的融合处理。
本申请实施例中,融合音频文件包括:预先设置的编码信息以及利用该编码信息对音频叠加数据进行编码得到的编码音频数据。其中,该编码信息包括编码格式。这样,不同的音频数据,采用同一编码格式进行编码,可以保障后续融合后的各音频数据能够正常播放。当然,实际应用中,也可以是对各目标音频数据按照该编码信息进行编码,从而对不同编码格式的目标音频文件分别进行格式转化,使之转化为同一编码格式的音频文件,再基于采样率对格式转化的音频文件进行重采样。
本申请实施例中,作为另一可选实施例,编码信息中还可以包括:帧长信息、位深信息、承载每个采样点的比特数信息、声道数信息等。这样,可以保证编码后得到的各融合音频文件,对应的帧长相同、位深相同、承载每个采样点的比特数相同、声道模式相同。例如,通过对声道模式的设定,使得用户可以根据个性化的喜好来设置声道模式,从而能够有效提升用户的体验度。
本申请实施例可以应用于终端设备,其中,终端设备包括但不限于:移动电话、笔记本电脑、平板电脑(PAD)、个人数字助理(PDA)、车载终端、台式计算机等。
本申请实施例中,通过在通话音频数据中加入一些更灵活的需求,如变声、或在音乐伴奏,实现录音、音乐伴奏音频数据混音,并对混音进行溢出处理,使得发送至通话对方的音频数据中,不仅包含通话方的音频,还包含有伴奏或录音,使得传输至通话对方进行音频播放的音频形式多样,从而有效提升通话的音频效果。进一步地,通过进行回音消除、噪声抑制,可以有效提升通话质量,满足用户对通话的多样化需求,实现对通话业务的应用功能扩展。
本申请实施例中,为了增强音频数据的应用场景效果,可以对音频叠加数据进行混响处理,来模拟具体的应用场景,例如,KTV等应用场景。其中,混响是声源停止发声之后,经过室内的多次的反射和吸收,最后才消失,使得用户感觉到声音停止发声后仍然有若干个声波混合并持续一段时间的现象。因而,本申请实施例中,可以利用声源的该特点,在音频叠加数据的基础上融合混响,来模拟KTV等应用场景,从而使得通话达到KTV等应用场景的效果。因而,作为一可选实施例,在所述得到音频叠加数据之后,按照预设的编码信息,对所述音频叠加数据进行编码之前,该方法还包括:
利用混响算法,对所述音频叠加数据进行应用场景混响处理。
本申请实施例中,作为一可选实施例,应用场景包括但不限于:录音棚场景、KTV场景、演唱会场景、家庭影院场景等。
本申请实施例中,利用预设的混响算法进行混响处理。其中,混响算法用于对音频叠加数据添加混响效果。作为一可选实施例,混响算法包括但不限于:Schroeder混响算法、Moorer混响算法、基于反馈延迟网络的混响算法、基于梳状滤波的混响算法、基于全通滤波的混响算法等。
图2为本申请实施例提供的一种基于通话的音频数据处理装置结构示意图。如图2所示,该装置包括:
音频采集模块201,用于按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;
本申请实施例中,作为一可选实施例,利用麦克风采集音通话频数据。
解码模块202,用于获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;
本申请实施例中,目标音频文件为用于增强通话音效的音频文件,数量可以为一个或多个。
本申请实施例中,作为一可选实施例,可以通过通信网络从网络服务器获取目标音频文件。作为另一可选实施例,也可以从本地存储介质中获取目标音频文件。用户可依据个性化需求选择所需的目标音频文件。
本申请实施例中,作为一可选实施例,解码模块202,具体用于:
解析所述目标音频文件,获取所述目标音频文件中包含的编码信息,依据所述编码信息对所述目标音频文件中包含的音频信息进行解码,得到目标音频数据。
重采样模块203,用于按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;
本申请实施例中,作为一可选实施例,重采样包括:插值和抽取。
混音模块204,用于对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;
本申请实施例中,作为一可选实施例,混音模块204,具体用于:
针对每一采样点,计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值;
判断所述和值是否超过预先设置的幅值阈值,若超过,在该采样点处,为所述通话音频数据和所述重采样音频数据设置衰减因子;
叠加设置衰减因子后的通话音频数据和重采样音频数据,得到音频叠加数据,其中,设置衰减因子后的通话音频数据的幅值与重采样音频数据的幅值的和值不大于所述幅值阈值。
本申请实施例中,作为一可选实施例,在所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值之前,混音模块204,还用于:
判断该采样点对应的通话音频数据的幅值是否小于预先设置的通话阈值;
若该采样点对应的通话音频数据的幅值小于预先设置的通话阈值,将所述重采样音频数据作为所述音频叠加数据;
若该采样点对应的通话音频数据的幅值不小于预先设置的通话阈值,执行所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值的步骤。
本申请实施例中,作为一可选实施例,混音模块204还用于:
利用混响算法,对所述音频叠加数据进行应用场景混响处理。
编码模块205,用于按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。
本申请实施例中,融合音频文件包括:预先设置的编码信息以及利用该编码信息对音频叠加数据进行编码得到的编码音频数据。其中,该编码信息包括编码格式。作为另一可选实施例,编码信息中还可以包括:帧长信息、位深信息、承载每个采样点的比特数信息、声道数信息等。
本申请实施例中,作为一可选实施例,该装置还包括:
噪声去除模块(图中未示出),用于对所述通话音频数据和所述重采样音频数据分别进行回音消除处理以及噪声抑制处理。
本申请实施例中,作为另一可选实施例,该装置还包括:
滤波模块(图中未示出),用于对所述目标音频数据进行抗混叠滤波处理或抗镜像滤波处理。
本申请实施例中,作为一可选实施例,滤波模块,具体用于:
获取所述目标音频数据对应的编码信息中包含的初始采样率;
若所述初始采样率小于或等于所述采样率,对所述目标音频数据进行抗镜像滤波处理;
若所述初始采样率大于所述采样率,对所述目标音频数据进行抗混叠滤波处理。
本申请实施例中,作为一可选实施例,可通过设置相应的低通滤波器来实现抗镜像滤波或抗混叠滤波。
如图3所示,本申请一实施例提供了一种计算机设备300,用于执行图1中的基于通话的音频数据处理方法,该设备包括存储器301、处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序,其中,上述处理器302执行上述计算机程序时实现上述基于通话的音频数据处理方法的步骤。
具体地,上述存储器301和处理器302能够为通用的存储器和处理器,这里不做具体限定,当处理器302运行存储器301存储的计算机程序时,能够执行上述基于通话的音频数据处理方法。
对应于图1中的基于通话的音频数据处理方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述基于通话的音频数据处理方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述基于通话的音频数据处理方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于通话的音频数据处理方法,其特征在于,包括:
按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;
获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;
按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;
对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;
按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。
2.如权利要求1所述的方法,其特征在于,在所述得到音频叠加数据之后,按照预设的编码信息,对所述音频叠加数据进行编码之前,所述方法还包括:
利用混响算法,对所述音频叠加数据进行应用场景混响处理。
3.如权利要求1所述的方法,其特征在于,所述对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据,包括:
针对每一采样点,计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值;
判断所述和值是否超过预先设置的幅值阈值,若超过,在该采样点处,为所述通话音频数据和所述重采样音频数据设置衰减因子;
叠加设置衰减因子后的通话音频数据和重采样音频数据,得到音频叠加数据,其中,设置衰减因子后的通话音频数据的幅值与重采样音频数据的幅值的和值不大于所述幅值阈值。
4.如权利要求3所述的方法,其特征在于,在所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值之前,所述方法还包括:
判断该采样点对应的通话音频数据的幅值是否小于预先设置的通话阈值;
若该采样点对应的通话音频数据的幅值小于预先设置的通话阈值,将所述重采样音频数据作为所述音频叠加数据;
若该采样点对应的通话音频数据的幅值不小于预先设置的通话阈值,执行所述计算所述通话音频数据和所述重采样音频数据在该采样点的幅值的和值的步骤。
5.如权利要求1至4任一项所述的方法,其特征在于,在所述得到重采样音频数据之后,对所述通话音频数据和所述重采样音频数据进行混音处理之前,所述方法还包括:
对所述通话音频数据和所述重采样音频数据分别进行回音消除处理以及噪声抑制处理。
6.如权利要求1至4任一项所述的方法,其特征在于,在所述得到目标音频数据之后,按照所述采样率,对所述目标音频数据进行重采样之前,所述方法还包括:
对所述目标音频数据进行抗混叠滤波处理或抗镜像滤波处理。
7.如权利要求1至4任一项所述的方法,其特征在于,所述对所述目标音频文件进行解码,得到目标音频数据,包括:
解析所述目标音频文件,获取所述目标音频文件中包含的编码信息,依据所述编码信息对所述目标音频文件中包含的音频信息进行解码,得到目标音频数据。
8.一种基于通话的音频数据处理装置,其特征在于,包括:
音频采集模块,用于按照预先设置的采样率采集通话方的音频信息,得到通话音频数据;
解码模块,用于获取待融合的目标音频文件,对所述目标音频文件进行解码,得到目标音频数据;
重采样模块,用于按照所述采样率,对所述目标音频数据进行重采样,得到重采样音频数据;
混音模块,用于对所述通话音频数据和所述重采样音频数据进行混音处理,得到音频叠加数据;
编码模块,用于按照预设的编码信息,对所述音频叠加数据进行编码,得到融合音频文件,将所述融合音频文件发送给通话对方。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的基于通话的音频数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的基于通话的音频数据处理方法的步骤。
CN201910731048.2A 2019-08-08 2019-08-08 一种基于通话的音频数据处理方法及装置 Pending CN110430330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910731048.2A CN110430330A (zh) 2019-08-08 2019-08-08 一种基于通话的音频数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910731048.2A CN110430330A (zh) 2019-08-08 2019-08-08 一种基于通话的音频数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN110430330A true CN110430330A (zh) 2019-11-08

Family

ID=68413366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910731048.2A Pending CN110430330A (zh) 2019-08-08 2019-08-08 一种基于通话的音频数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN110430330A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181949A (zh) * 2019-12-25 2020-05-19 视联动力信息技术股份有限公司 一种声音检测方法、装置、终端设备和存储介质
CN111372121A (zh) * 2020-03-16 2020-07-03 北京文香信息技术有限公司 一种回声消除方法、装置、存储介质及处理器
CN113810650A (zh) * 2021-08-03 2021-12-17 武汉长江通信智联技术有限公司 车载音视频监控系统实现多方通话的一种音频混音方法
CN114827656A (zh) * 2022-04-22 2022-07-29 深圳市皓丽软件有限公司 麦克风数据中混合多路音频的处理方法及装置
CN114974324A (zh) * 2022-05-19 2022-08-30 安徽讯飞未来智能科技有限公司 一种耳机录制通话音频的方法及耳机和存储介质
CN115250367A (zh) * 2021-11-12 2022-10-28 稿定(厦门)科技有限公司 用于混合多媒体文件的方法及装置
CN116112736A (zh) * 2022-12-09 2023-05-12 上海鱼尔网络科技有限公司 音频处理方法、装置、计算机设备、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2413457B (en) * 2003-01-27 2007-05-02 Oki Electric Ind Co Ltd Telephone communications apparatus
US20100111290A1 (en) * 2008-11-04 2010-05-06 Ryuichi Namba Call Voice Processing Apparatus, Call Voice Processing Method and Program
CN101964670A (zh) * 2009-07-21 2011-02-02 雅马哈株式会社 回声抑制方法及回声抑制设备
CN101989430A (zh) * 2009-07-30 2011-03-23 比亚迪股份有限公司 一种混音处理系统及混音处理方法
CN102387272A (zh) * 2011-09-09 2012-03-21 南京大学 一种回声抵消系统中残留回声的抑制方法
CN103259943A (zh) * 2012-02-21 2013-08-21 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN104167213A (zh) * 2014-08-26 2014-11-26 深圳市中兴移动通信有限公司 音频处理方法和装置
CN104427143A (zh) * 2013-09-06 2015-03-18 联芯科技有限公司 残留回声检测方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2413457B (en) * 2003-01-27 2007-05-02 Oki Electric Ind Co Ltd Telephone communications apparatus
US20100111290A1 (en) * 2008-11-04 2010-05-06 Ryuichi Namba Call Voice Processing Apparatus, Call Voice Processing Method and Program
CN101964670A (zh) * 2009-07-21 2011-02-02 雅马哈株式会社 回声抑制方法及回声抑制设备
CN101989430A (zh) * 2009-07-30 2011-03-23 比亚迪股份有限公司 一种混音处理系统及混音处理方法
CN102387272A (zh) * 2011-09-09 2012-03-21 南京大学 一种回声抵消系统中残留回声的抑制方法
CN103259943A (zh) * 2012-02-21 2013-08-21 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN104427143A (zh) * 2013-09-06 2015-03-18 联芯科技有限公司 残留回声检测方法及系统
CN104167213A (zh) * 2014-08-26 2014-11-26 深圳市中兴移动通信有限公司 音频处理方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181949A (zh) * 2019-12-25 2020-05-19 视联动力信息技术股份有限公司 一种声音检测方法、装置、终端设备和存储介质
CN111181949B (zh) * 2019-12-25 2023-12-12 视联动力信息技术股份有限公司 一种声音检测方法、装置、终端设备和存储介质
CN111372121A (zh) * 2020-03-16 2020-07-03 北京文香信息技术有限公司 一种回声消除方法、装置、存储介质及处理器
CN113810650A (zh) * 2021-08-03 2021-12-17 武汉长江通信智联技术有限公司 车载音视频监控系统实现多方通话的一种音频混音方法
CN113810650B (zh) * 2021-08-03 2024-04-12 武汉长江通信智联技术有限公司 车载音视频监控系统实现多方通话的一种音频混音方法
CN115250367A (zh) * 2021-11-12 2022-10-28 稿定(厦门)科技有限公司 用于混合多媒体文件的方法及装置
CN114827656A (zh) * 2022-04-22 2022-07-29 深圳市皓丽软件有限公司 麦克风数据中混合多路音频的处理方法及装置
CN114974324A (zh) * 2022-05-19 2022-08-30 安徽讯飞未来智能科技有限公司 一种耳机录制通话音频的方法及耳机和存储介质
CN116112736A (zh) * 2022-12-09 2023-05-12 上海鱼尔网络科技有限公司 音频处理方法、装置、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
CN110430330A (zh) 一种基于通话的音频数据处理方法及装置
CN109147784B (zh) 语音交互方法、设备以及存储介质
CN101609667B (zh) Pmp播放器中实现卡拉ok功能的方法
CN101896964A (zh) 用于上下文描述符传输的系统、方法及设备
CN104364842A (zh) 立体声音频信号编码器
CN113241085B (zh) 回声消除方法、装置、设备及可读存储介质
CN106095379B (zh) 一种音量调节方法及装置
CN109104616A (zh) 一种直播间的语音连麦方法及客户端
CN111276152A (zh) 一种音频处理方法、终端及服务器
CN109120947A (zh) 一种直播间的语音私聊方法及客户端
CN110265065A (zh) 一种构建语音检测模型的方法及语音端点检测系统
CN110782907A (zh) 语音信号的发送方法、装置、设备及可读存储介质
CN113299306B (zh) 回声消除方法、装置、电子设备及计算机可读存储介质
CN112201262A (zh) 一种声音处理方法及装置
CN104978966A (zh) 音频流中的丢帧补偿实现方法和装置
CN108540680B (zh) 讲话状态的切换方法及装置、通话系统
JP2003522964A (ja) 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法
CN107452391B (zh) 音频编码方法及相关装置
CN112700767B (zh) 人机对话打断方法及装置
CN103701982B (zh) 用户终端显示内容的调整方法、装置和系统
CN112767955A (zh) 音频编码方法及装置、存储介质、电子设备
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质
CN112565668B (zh) 一种网络会议共享声音的方法
CN105578107B (zh) 多媒体通话呼叫建立过程和游戏的互动融合方法及装置
CN115831132A (zh) 音频编解码方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108

RJ01 Rejection of invention patent application after publication