CN111028854B - 一种音频数据的处理方法、装置、电子设备及存储介质 - Google Patents

一种音频数据的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111028854B
CN111028854B CN201911242549.0A CN201911242549A CN111028854B CN 111028854 B CN111028854 B CN 111028854B CN 201911242549 A CN201911242549 A CN 201911242549A CN 111028854 B CN111028854 B CN 111028854B
Authority
CN
China
Prior art keywords
audio data
echo cancellation
evaluation value
processed
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911242549.0A
Other languages
English (en)
Other versions
CN111028854A (zh
Inventor
邢文浩
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201911242549.0A priority Critical patent/CN111028854B/zh
Publication of CN111028854A publication Critical patent/CN111028854A/zh
Application granted granted Critical
Publication of CN111028854B publication Critical patent/CN111028854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本申请关于一种音频数据的处理方法、装置、电子设备及存储介质。该方法包括:获取第一用户与其他用户进行音频交互的指令后,将第一用户所在的终端设备采集的原始音频数据复制为第一音频数据和第二音频数据,根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,并基于获得的处理后的第一音频数据得到音频数据评估值,再基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,并对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。这样,一方面保证了得到的音频数据评估值的准确性,一方面保证了用户听到的音频数据的效果,满足了在进行音频交互的不同用户的用户体验。

Description

一种音频数据的处理方法、装置、电子设备及存储介质
技术领域
本申请涉及音频处理技术领域,尤其涉及一种音频数据的处理方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,第一用户可以跨越距离的限制,通过终端设备与其他用户进行音频数据交互,例如,连麦K歌,仿佛同时置身于一个环境中。
第一用户在与其他用户进行音频数据交互的过程中,所述第一用户与所述其他用户的人声音频数据以及环境中的背景音频数据会同时交杂在一起,在影响交互体验的同时,导致无法实现对音频数据的准确评估。
例如,第一用户在不使用耳机的情况下与其他用户进行连麦K歌的过程中,所述第一用户可以通过终端设备的扬声器听到所述其他用户的声音以及所选择的歌曲的背景音乐。所述终端设备将所述第一用户唱歌的声音以及对所述第一用户唱歌的水平所评估的分数实时呈现给第一用户和其他用户。但进行这种方式的音频数据交互时,由于所述终端设备在采集所述第一用户唱歌的声音的同时,会将所述其他用户的声音以及背景音乐的声音收录进去,这样过多声音的干扰会为所述终端设备对音频数据的评估,即,对所述第一用户唱歌的水平的评估造成影响,所以必然需要进行回声消除(Acoustic Echo Cancellation,AEC)以降低干扰。
现有技术下采用AEC进行音频数据处理时,通常采用非线性处理(Non-linearProcess,NLP)方式,例如,所述终端设备进行连麦K歌的过程中当对音频数据进行评估时,通常采用较轻量级NLP处理方式,这样可以很大程度上保留所述用户唱歌的声音,但是与此同时,保留了未能被消除的所述其他用户的声音以及背景音乐的声音。
这样,在进行连麦K歌时,所述其他用户会听到自己的声音,影响了用户得到的音质效果,严重影响其他用户在进行连麦K歌时的体验。
可见,采用现有技术下的AEC处理方式,无法解决在不影响用户听到的音频数据的效果的情况下,对音频数据进行准确评估的问题。
发明内容
本申请提供一种音频数据的处理方法、装置、电子设备及存储介质,用以解决现有技术中存在无法在不影响用户听到的音频数据的效果的情况下,对音频数据进行准确评估的问题。
本申请的技术方案如下:
根据本申请实施例的第一方面,本申请提供一种音频数据的处理方法,包括:
获取第一用户与其他用户进行音频交互的指令;
根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据;
根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值;
基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,以及采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。
可选的,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理之前,进一步包括:
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,对所述第一音频数据和第二音频数据分别进行预处理,其中,所述第一音频数据和所述第二音频数据中,包括有所述参考音频数据被所述终端设备播放后,再次被采集得到的音频数据;或者,
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,仅对所述第二音频数据进行预处理,其中,所述第二音频数据中,包括有被所述终端设备播放所述参考音频数据后,再次被采集得到的音频数据。
可选的,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行处理,包括:
根据预设的第一回声消除量级对应的调整参数,将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据。
可选的,所述得到处理后的第一音频数据,获得相应的音频数据评估值,包括:
计算所述处理后的第一音频数据的音调;
基于所述音调与所述原始音频数据对应的标准音频数据的音调的匹配程度,得到相应的音频数据评估值。
可选的,所述基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,包括:
若所述音频数据评估值未达到预设的音频数据评估值门限值,设置增加所述第二回声消除量级的初始值;
若所述音频数据评估值达到预设的音频数据评估值门限值,设置减小所述第二回声消除量级的初始值。
可选的,所述获得所述处理后的第一音频数据对应的音频数据评估值之后,进一步包括:
若确定所述音频数据评估值的取值达到设定阈值时,则提高编码码率;
若确定所述音频数据评估值的取值未达到设定阈值时,则降低编码码率。
可选的,所述获得处理后的第二音频数据之后,进一步包括:
将所述音频数据评估值呈现给所述第一用户,并将所述音频数据评估信息以及所述处理后的第二音频数据反馈给所述其他用户。
根据本申请实施例的第二方面,本申请提供一种音频数据的处理装置,包括:
接收单元,获取第一用户与其他用户进行音频交互的指令;根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据;
第一处理单元,根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值;
第二处理单元,基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,以及采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。
可选的,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理之前,所述第一处理单元进一步用于:
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,对所述第一音频数据和第二音频数据分别进行预处理,其中,所述第一音频数据和所述第二音频数据中,包括有所述参考音频数据被所述终端设备播放后,再次被采集得到的音频数据;或者,
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,仅对所述第二音频数据进行预处理,其中,所述第二音频数据中,包括有被所述终端设备播放所述参考音频数据后,再次被采集得到的音频数据。
可选的,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行处理时,所述第一处理单元用于:
根据预设的第一回声消除量级对应的调整参数,将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据。
可选的,所述得到处理后的第一音频数据,获得相应的音频数据评估值时,所述第一处理单元用于:
计算所述处理后的第一音频数据的音调;
基于所述音调与所述原始音频数据对应的标准音频数据的音调的匹配程度,得到相应的音频数据评估值。
可选的,所述基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级时,所述于第二处理单元用于:
若所述音频数据评估值未达到预设的音频数据评估值门限值,设置增加所述第二回声消除量级的初始值;
若所述音频数据评估值达到预设的音频数据评估值门限值,设置减小所述第二回声消除量级的初始值。
可选的,所述获得所述处理后的第一音频数据对应的音频数据评估值之后,所述第一处理单元进一步用于:
若确定所述音频数据评估值的取值达到设定阈值时,则提高编码码率;
若确定所述音频数据评估值的取值未达到设定阈值时,则降低编码码率。
可选的,所述获得处理后的第二音频数据之后,所述第二处理单元进一步用于:
将所述音频数据评估值呈现给所述第一用户,并将所述音频数据评估信息以及所述处理后的第二音频数据反馈给所述其他用户。
根据本申请实施例的第三方面,本申请提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现本申请实施例的第一方面中任一项所述的方法。
根据本申请实施例的第四方面,本申请提供一种存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行本申请实施例的第一方面中任一项所述的方法。
本申请有益效果如下:
本申请实施例提供了一种音频数据的处理方法、装置、电子设备及存储介质。终端设备获取第一用户与其他用户进行音频交互的指令,然后,根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据,再根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值,基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,以及采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。这样,一方面保证了得到的音频数据评估值的准确性,另一方面,在以得到所述音频数据评估值为依据,对音频数据进行处理时,可以保证其他用户得到的处理后的音频数据的效果,避免影响在进行音频交互的不同用户的用户体验。
附图说明
图1为本申请实施例中音频数据处理流程示意图;
图2为本申请实施例中连麦K歌音频交互示意图;
图3为本申请实施例中电子设备逻辑结构示意图;
图4为本申请实施例中电子设备实体结构示意图。
具体实施方式
为了解决现有技术中存在的无法在不影响用户听到的音频数据的效果的情况下,对音频数据进行准确评估的问题,本申请基于采集到的第一用户与其他用户进行音频交互时产生的原始音频数据,将所述原始音频数据进行复制后,分别采用第一回声消除量级以及第二回声消除量级进行处理,实现对所述原始音频数据的评估与处理。
下面结合附图1对本申请优选的实施例进行进一步详细说明:
步骤101:获取第一用户与其他用户进行音频交互的指令。
具体的,第一用户所在的终端设备确定所述第一用户发起与其他用户进行音频交互的操作,或者,所述终端设备确定所述第一用户同意其他用户发起的音频交互请求后,所述终端设备确定获取所述第一用户与其他用户进行音频交互的指令。
步骤102:根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据。
具体的,终端设备在第一用户与其他用户进行音频交互的过程中进行音频数据采集,并将采集到的所有音频数据统称为原始音频数据,所述原始音频数据包括本地第一用户产生的音频数据、所述终端设备播放后又重新被采集的音频数据组合而成,其中,播放后又被重新采集的音频数据包括背景音频数据以及进行音频交互的其他用户产生的音频数据,所述本地用户产生的音频数据称为待评估音频数据,所述终端设备播放后又重新被采集的音频数据称为无效音频数据。
终端设备得到原始音频数据之后,对所述原始音频数据进行复制,然后将复制得到的原始音频数据分别作为第一音频数据和第二音频数据,然后分别基于获得的所述第一音频数据和所述第二音频数据进行相应的回声消除处理。
参阅图2所示,以连麦K歌的场景为例,用户A在不使用耳机的情况下通过终端设备a与用户B进行连麦K歌,用户A通过所述终端设备a可以听到所述终端设备a播放的与其连麦的用户B的声音以及所选择的歌曲的背景音乐,进一步的,所述终端设备a在采集所述用户A唱歌的声音数据的同时,还采集自身所播放的所述背景音乐数据以及所播放的连麦的用户B的声音数据,并将采集到的全部声音数据作为原始音频数据。对于所述终端设备a来说,所采集到的所述用户A唱歌的声音数据是待评估音频数据,播放后再采集到的所述用户B的声音数据以及播放后再采集到的所述背景音乐数据统称为无效音频数据。终端设备a将采集到的用户A唱歌的声音数据、播放后再采集到的背景音乐数据以及播放后再采集到的连麦的用户B的声音数据作为原始音频数据1,对所述原始音频数据1进行复制,得到与所述原始音频数据1完全相同的音频数据1’,并将所述原始音频数据1作为第一音频数据,将所述音频数据1’作为第二音频数据。
进一步的,所述终端设备在采用对第一音频数据和第二音频数据进行回声消除的非线性处理之前,可以进行预处理,具体的,可以将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,对所述第一音频数据和第二音频数据分别进行预处理,其中,所述第一音频数据和所述第二音频数据中,包括有所述参考音频数据被所述终端设备播放后,再次被采集得到的音频数据;或者,
所述终端设备可以将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,仅对所述第二音频数据进行预处理,其中,所述第二音频数据中,包括有所述参考音频数据被所述终端设备播放后,再次被采集得到的音频数据。
这样,能够减少回声消除的非线性处理方式的处理压力,有效对所述终端设备播放后再次被采集的音频数据进行消除处理,保证后续的音频处理效果。
步骤103:根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理。
终端设备根据预设的第一回声消除量级对应的调整参数,将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据。
具体的,在线性处理方式对所述第一音频数据进行预处理,得到预处理后的第一音频数据之后,可以根据预设的第一回声消除量级对应的调整参数,采用非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据,或者,可以直接采用第一回声消除量级对应的调整参数,采用非线性处理方式对第一音频数据进行处理,得到处理后的第一音频数据。
所述预处理后的第一音频数据是通过第一回声消除量级对应的线性处理方式,消除所获得的所述第一音频数据中的无效音频数据所得到的,但由于线性处理过程中对于所述第一音频数据中无效音频数据的消除效果有限,故需要采用非线性处理方式对所述预处理后的第一音频数据进行再处理,所述无效音频数据为由终端设备播放后再次被采集的音频数据。终端设备基于预设的第一回声消除量级对应的调整参数,将发送给所述终端设备进行播放的音频数据作为参考音频数据,采用非线性处理方式,对所述预处理后的第一音频数据进行再处理。其中,在确定所述预设的第一回声消除量级的过程中,若需要保证所述第一音频数据中待评估音频数据的完整性,所述待评估音频数据为终端设备新采集到的音频数据,则应将所述第一回声消除量级对应设置为线性处理方式与处理等级较低的非线性处理方式组合或仅采用进行处理等级较轻的非线性处理方式进行处理。
下面对回声消除中线性处理和非线性处理的原理进行简单介绍:
所述线性处理是基于自适应滤波器实现的,假设终端设备播放的声音为声音数据X,所述声音数据X被播放后又被所述终端设备采集,所述终端设备采集到与所述声音数据X对应的声音数据Y。线性处理和非线性处理都是以音频数据X作为参考音频数据,基于所述声音数据X以及所述声音数据Y建立一个对应关系,这样,对于所述终端设备要播放的任意声音数据,都可以通过所述对应关系计算出所述任意声音数据被所述终端设备再次采集时所得到的声音数据。进而实现将上述播放再采集的数据从采集到的全部声音数据中消除。
当所述播放的声音数据X与被播放再采集后得到的声音数据Y之间的对应关系可以通过一个线性时不变系统表征时,可以通过上述线性处理方法从采集到的全部声音数据中消除所述声音数据Y,但是现实中从所述声音数据X到所述声音数据Y的对应过程不是线性时不变系统可以表征的,所以需要进行非线性处理(Non-linear Process,NLP)。
采集到的全部声音数据经过线性处理后,会消除一部分声音数据Y的影响,但是会有部分声音数据Y的残余,需要进行非线性处理。
非线性处理过程的输入包含两路数据,一路是经过回声消除线性处理后的残余声音数据,记为err,另一路是回声消除基于所建立的线性对应关系所估计的声音数据,记为echo;
将所述err和所述echo通过快速傅里叶变换(fast Fourier transform,FFT)变换到频域数据,即,Err=FFT(err),Echo=FFT(echo);
基于下面的公式,针对一个时刻任一的一个频点k,计算上述得到的Err和Echo幅度谱的信噪比Snr:
Snr(k)=|Err(k)|/|Echo(k)|;
进一步的,如果某个频点k的Snr较低,说明主要是残余声音数据,则为Err(k)加权一个低增益,其中,不同的增益对应配置为不同的调整参数;
如果某个频点k的Snr较高,说明主要是近端声音数据,则为Err(k)加权一个高增益,其中,不同的增益对应配置为不同的调整参数。
最后将加权后的Err’通过FFT反变换到时域,err’=IFFT(Err’)。
至此完成非线性处理,经过上面非线性处理后,输出的err’声音数据中进一步去除了残余声音数据。
对于每一个等级的回声消除量级,都对应相同等级的线性处理方式以及与所述回声消除量级相对应的非线性处理方式,用以实现对无效音频数据进行不同程度的消除。
以连麦K歌为例,终端设备获得的第一音频数据中包括用户A唱歌的声音数据、播放后再被采集的背景音乐数据以及播放后再被采集的连麦的用户B的声音数据,其中,所述用户A唱歌的声音数据为待评估音频数据,所述播放后再被采集的背景音乐数据以及播放后再被采集的连麦的用户B的声音数据称为无效音频数据,终端设备首先基于回声消除的线性处理方式,对所述第一音频数据进行线性处理,希望从所述第一音频数据中消除无效音频数据,所述无效音频数据包括所述播放后再被采集回来的背景音乐数据以及播放后再被采集的连麦的用户B的声音数据,得到预处理后的第一音频数据,但由于线性处理方式的处理能力有限,所述预处理后的第一音频数据中依然包括部分所述无效音频数据的影响,进一步的,根据第一回声消除量级对应的调整参数,采用非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据,所述处理后的第一音频数据中保留了完整的所述用户A唱歌的声音数据以进行后续的音频数据评估。
步骤104:得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值。
终端设备首先计算处理后的第一音频数据的音调;再基于所述音调与所述原始音频数据对应的标准音频数据的音调的匹配程度,得到相应的音频数据评估值。
具体的,终端设备基于得到的处理后的第一音频数据中的待评估音频数据,计算所述待评估音频数据的音调,同时,获取与所述待评估音频数据对应的标准音频数据的音调,所述终端设备将所述待评估音频数据的音调与所述标准音频数据的音调进行对比匹配,并基于所述音调与所述标准音频数据的音调的匹配程度,得到相应的音频数据评估值。匹配程度越高,对应的所述音频数据评估值越大,匹配程度越低,对应的所述音频数据评估值越小。
以连麦K歌为例,终端设备得到处理后的第一音频数据,所述处理后的第一音频数据中包括完整的用户A唱歌的声音数据,即,待评估音频数据,所述终端设备基于所述处理后的第一音频数据,计算用户A唱歌的声音数据的音调,同时,获取用户A所唱的歌曲的原唱的音调作为标准音频数据的音调,所述终端设备将计算得到的所述用户A唱歌的声音数据的音调与所述标准音频数据的音调进行对比匹配,基于两者的匹配程度,得到相应的音频数据评估值。
例如,某一时刻,终端设备在比较用户A唱歌的声音数据的音调与所述标准音频数据的音调的过程中,发现90%的音调完成了匹配,则得到的相应的音频数据评估值为90分。
步骤105:基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级。
终端设备基于所得到的音频数据评估值,确定第二回声消除量级的取值,首先,基于音频评估值设置音频数据评估门限值,并设置与所述音频数据评估门限值对应的第二回声消除量级的初始值,进一步的,所述终端设备若确定所述音频数据评估值未达到预设的音频数据评估值门限值,设置增加所述第二回声消除量级的初始值;反之,所述终端设备若确定所述音频数据评估值达到预设的音频数据评估值门限值,设置减小所述第二回声消除量级的初始值。
进一步的,可以根据实际需要,基于所述音频数据评估值的取值配置相应的回声消除量级。
以连麦K歌为例,预设的音频数据评估值门限值为65分,对应设置的第二回声消除量级初始值为5级,按照音频数据评估值超过所述音频数据评估值门限值的程度,或者,低于所述音频数据评估值门限值的程度,配置相应的第二回声消除等级。假设第二回声消除量级的最高级为7级,最低级为0级(此时只进行线性处理),可以根据需要设置所述回声消除量级与所述音频数据评估值的对应关系如下:
音频数据评估值未达到15分,对应回声消除量级7级;
音频数据评估值达到15分未达到35分,对应回声消除量级6级;
音频数据评估值达到35分未达到45分,对应回声消除量级5级;
音频数据评估值达到45分未达到65分,对应回声消除量级4级;
音频数据评估值达到65分未达到75分,对应回声消除量级3级;
音频数据评估值达到75分未达到85分,对应回声消除量级2级;
音频数据评估值达到85分未达到95分,对应回声消除量级1级;
音频数据评估值达到95分,对应回声消除量级0级。
步骤106:采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。
终端设备基于获得的音频数据评估值确定第二回声消除量级后,进一步的,基于获得的第二回声消除量级对第二音频数据进行处理,具体的,对于采用线性处理方式对所述第二音频数据进行预处理后,得到的预处理后的第二音频数据,根据所述第二回声消除量级对应的调整参数,采用非线性处理方式对所述预处理后的第二音频数据进行处理,得到处理后的第二音频数据。
所述预处理后的第二音频数据是采用回声消除的线性处理方式消除所述第二音频数据中的无效音频数据所得到的,其中,所述无效音频数据是指由终端设备播放后再次被采集的音频数据。但由于线性处理的过程中,对于所述第二音频数据中的无效音频数据的消除效果有限,故需要采用所述第二回声消除量级对应的非线性处理方式进行再处理,终端设备基于第二回声消除量级对应的调整参数,采用非线性处理的方式,处理所述第二音频数据。
本申请中,终端设备获得较大的音频数据评估值时,说明第一音频数据中待评估音频数据的音调与原始音频数据对应的标准音频数据的音调具有较高的匹配度,说明此时所述待评估音频数据完成度较高,这时将第二回声消除等级对应配置为较低等级的回声消除量级,虽然这会导致无效音频数据的残余,但是可以保留完成度较高的所述第二音频数据中的待评估数据。对应的,终端设备获得较小的音频数据评估值时,说明所述第一音频数据中的待评估音频数据的音调与原始音频数据对应的标准音频数据的音调具有较低的匹配度,说明此时所述待评估音频数据完成度较低,此时将第二回声消除等级对应配置为较高等级的回声消除量级,这样可以消除所述第二音频数据中的无效音频数据。
参阅图2所示,以连麦K歌为例,终端设备得到针对处理后的第一音频数据的音频数据评估值为5分,所述第一音频数据中包括有:待评估音频数据,即,用户A唱歌的声音数据,以及无效音频数据,即,播放后被再采集的背景音乐的声音数据以及播放后被再采集的用户B说话的声音数据。基于所述音频数据评估值,则可知用户A对于所选择的歌曲的完成度很低,所述用户A唱歌的声音数据中的音调只有很少部分与所选择的歌曲对应的标准音频数据的音调完成匹配,此时设置第二回声消除量级为较高量级,消除无效音频数据的干扰,此时虽然会对待评估音频数据也造成一定程度的消除,但由于所述待评估音频数据的完成度很低,对应具有较低的保留价值。
进一步的,终端设备获得所述处理后的第一音频数据对应的音频数据评估值之后,可以基于得到的音频数据评估值,设置一个设定阈值,以改变编码器码率,其中,编码器的码率越高,对应需要占用的带宽越大。若确定所述音频数据评估值的取值达到设定阈值时,则提高编码码率;这样,由于音频数据评估值的取值达到设定阈值,说明音频数据的完成质量较高,相应的提高编码码率,可以保证高品质的音频数据的传输效果。反之,若确定所述音频数据评估值的取值未达到设定阈值时,则降低编码码率。这样,可以在音频数据完成质量较低的情况下,不占用过多的带宽,节省资源。
进一步的,终端设备会将所述音频数据评估值呈现给所述第一用户,并将所述音频数据评估信息以及所述处理后的第二音频数据反馈给所述其他用户。
这样,第一用户和进行音频交互的其他用户可以同时看到对第一用户产生的音频数据进行评估后得到的音频数据评估值,并将处理后的第二音频数据呈现给所述其他用户,保证了所述第一用户与所述其他用户的交互体验。
基于上述实施例,参阅图3所示,本申请实施例中,终端设备至少包括:
接收单元301,获取第一用户与其他用户进行音频交互的指令;根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据;
第一处理单元302,根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值;
第二处理单元303,基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,以及采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。
可选的,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理之前,所述第一处理单元302进一步用于:
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,对所述第一音频数据和第二音频数据分别进行预处理,其中,所述第一音频数据和所述第二音频数据中,包括有所述参考音频数据被所述终端设备播放后,再次被采集得到的音频数据;或者,
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,仅对所述第二音频数据进行预处理,其中,所述第二音频数据中,包括有被所述终端设备播放所述参考音频数据后,再次被采集得到的音频数据。
可选的,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行处理时,所述第一处理单元302用于:
根据预设的第一回声消除量级对应的调整参数,将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据。
可选的,所述得到处理后的第一音频数据,获得相应的音频数据评估值时,所述第一处理单元302用于:
计算所述处理后的第一音频数据的音调;
基于所述音调与所述原始音频数据对应的标准音频数据的音调的匹配程度,得到相应的音频数据评估值。
可选的,所述基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级时,所述于第二处理单元303用于:
若所述音频数据评估值未达到预设的音频数据评估值门限值,设置增加所述第二回声消除量级的初始值;
若所述音频数据评估值达到预设的音频数据评估值门限值,设置减小所述第二回声消除量级的初始值。
可选的,所述获得所述处理后的第一音频数据对应的音频数据评估值之后,所述第一处理单元302进一步用于:
若确定所述音频数据评估值的取值达到设定阈值时,则提高编码码率;
若确定所述音频数据评估值的取值未达到设定阈值时,则降低编码码率。
可选的,所述获得处理后的第二音频数据之后,所述第二处理单元303进一步用于:
将所述音频数据评估值呈现给所述第一用户,并将所述音频数据评估信息以及所述处理后的第二音频数据反馈给所述其他用户。
基于同一发明构思,参阅图4所示,本申请实施例中提出一种电子设备,所述电子设备至少包括:存储器401和处理器402,其中,
存储器401,用于存储可执行指令;
处理器402,用于读取所述存储器401中的计算机指令,以实现上述任一种方法。
基于同一发明构思,本申请基于音频数据的处理的实施例中提供一种存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述任一种方法。
综上所述,本申请提供了一种音频数据的处理方法、装置、电子设备及存储介质。终端设备获取第一用户与其他用户进行音频交互的指令,然后,根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据,再根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值,基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,以及采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。这样,一方面保证了得到的音频数据评估值的准确性,另一方面,在以得到所述音频数据评估值为依据,对音频数据进行处理时,可以保证其他用户得到的处理后的音频数据的效果,避免影响在进行音频交互的不同用户的用户体验。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种音频数据的处理方法,其特征在于,包括:
获取第一用户与其他用户进行音频交互的指令;
根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据;
根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值,其中,所述音频数据评估值用于评估所述第一音频数据的音调,与对应的标准音频数据的音调的匹配程度;
基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,以及采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。
2.如权利要求1所述的方法,其特征在于,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理之前,进一步包括:
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,对所述第一音频数据和第二音频数据分别进行预处理,其中,所述第一音频数据和所述第二音频数据中,包括有所述参考音频数据被所述终端设备播放后,再次被采集得到的音频数据;或者,
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,仅对所述第二音频数据进行预处理,其中,所述第二音频数据中,包括有被所述终端设备播放所述参考音频数据后,再次被采集得到的音频数据。
3.如权利要求2所述的方法,其特征在于,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行处理,包括:
根据预设的第一回声消除量级对应的调整参数,将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据。
4.如权利要求1所述的方法,其特征在于,所述得到处理后的第一音频数据,获得相应的音频数据评估值,包括:
计算所述处理后的第一音频数据的音调;
基于所述音调与所述原始音频数据对应的标准音频数据的音调的匹配程度,得到相应的音频数据评估值。
5.如权利要求1-4任一项所述的方法,其特征在于,所述基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,包括:
若所述音频数据评估值未达到预设的音频数据评估值门限值,设置增加所述第二回声消除量级的初始值;
若所述音频数据评估值达到预设的音频数据评估值门限值,设置减小所述第二回声消除量级的初始值。
6.如权利要求1-4任一项所述的方法,其特征在于,所述获得所述处理后的第一音频数据对应的音频数据评估值之后,进一步包括:
若确定所述音频数据评估值的取值达到设定阈值时,则提高编码码率;
若确定所述音频数据评估值的取值未达到设定阈值时,则降低编码码率。
7.如权利要求1-4任一项所述的方法,其特征在于,所述获得处理后的第二音频数据之后,进一步包括:
将所述音频数据评估值呈现给所述第一用户,并将所述音频数据评估信息以及所述处理后的第二音频数据反馈给所述其他用户。
8.一种音频数据的处理装置,其特征在于,包括:
接收单元,获取第一用户与其他用户进行音频交互的指令;根据所述指令,获取第一用户所在的终端设备采集的原始音频数据,并对所述原始音频数据进行复制,获得第一音频数据和第二音频数据;
第一处理单元,根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理,得到处理后的第一音频数据,获得所述处理后的第一音频数据对应的音频数据评估值,其中,所述音频数据评估值用于评估所述第一音频数据的音调,与对应的标准音频数据的音调的匹配程度;
第二处理单元,基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级,以及采用获得的第二回声消除量级对应的调整参数对所述第二音频数据进行回声消除处理,获得处理后的第二音频数据。
9.如权利要求8所述的装置,其特征在于,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行回声消除处理之前,所述第一处理单元进一步用于:
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,对所述第一音频数据和第二音频数据分别进行预处理,其中,所述第一音频数据和所述第二音频数据中,包括有所述参考音频数据被所述终端设备播放后,再次被采集得到的音频数据;或者,
将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的线性处理方式,仅对所述第二音频数据进行预处理,其中,所述第二音频数据中,包括有被所述终端设备播放所述参考音频数据后,再次被采集得到的音频数据。
10.如权利要求9所述的装置,其特征在于,所述根据预设的第一回声消除量级对应的调整参数对所述第一音频数据进行处理时,所述第一处理单元用于:
根据预设的第一回声消除量级对应的调整参数,将第一用户所在的终端设备通过网络接收的,用于播放的音频数据作为参考音频数据,采用回声消除的非线性处理方式对所述预处理后的第一音频数据进行再处理,得到处理后的第一音频数据。
11.如权利要求8所述的装置,其特征在于,所述得到处理后的第一音频数据,获得相应的音频数据评估值时,所述第一处理单元用于:
计算所述处理后的第一音频数据的音调;
基于所述音调与所述原始音频数据对应的标准音频数据的音调的匹配程度,得到相应的音频数据评估值。
12.如权利要求8-11任一项所述的装置,其特征在于,所述基于所述音频数据评估值确定所述第二音频数据的第二回声消除量级时,所述第二处理单元用于:
若所述音频数据评估值未达到预设的音频数据评估值门限值,设置增加所述第二回声消除量级的初始值;
若所述音频数据评估值达到预设的音频数据评估值门限值,设置减小所述第二回声消除量级的初始值。
13.如权利要求8-11任一项所述的装置,其特征在于,所述获得所述处理后的第一音频数据对应的音频数据评估值之后,所述第一处理单元进一步用于:
若确定所述音频数据评估值的取值达到设定阈值时,则提高编码码率;
若确定所述音频数据评估值的取值未达到设定阈值时,则降低编码码率。
14.如权利要求 8-11任一项所述的装置,其特征在于,所述获得处理后的第二音频数据之后,所述第二处理单元进一步用于:
将所述音频数据评估值呈现给所述第一用户,并将所述音频数据评估信息以及所述处理后的第二音频数据反馈给所述其他用户。
15.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现如权利要求1至7中任一项所述的方法。
16.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的方法。
CN201911242549.0A 2019-12-06 2019-12-06 一种音频数据的处理方法、装置、电子设备及存储介质 Active CN111028854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911242549.0A CN111028854B (zh) 2019-12-06 2019-12-06 一种音频数据的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911242549.0A CN111028854B (zh) 2019-12-06 2019-12-06 一种音频数据的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111028854A CN111028854A (zh) 2020-04-17
CN111028854B true CN111028854B (zh) 2022-10-11

Family

ID=70207469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911242549.0A Active CN111028854B (zh) 2019-12-06 2019-12-06 一种音频数据的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111028854B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696569B (zh) * 2020-06-29 2023-12-15 美的集团武汉制冷设备有限公司 家电设备的回声消除方法、家电设备、终端和存储介质
CN113726936B (zh) * 2021-08-30 2023-10-24 联想(北京)有限公司 一种音频数据处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9246545B1 (en) * 2014-04-11 2016-01-26 Amazon Technologies, Inc. Adaptive estimation of delay in audio systems
JP6446893B2 (ja) * 2014-07-31 2019-01-09 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びエコー抑圧用コンピュータプログラム
CN109961797B (zh) * 2017-12-25 2023-07-18 阿里巴巴集团控股有限公司 一种回声消除方法、装置以及电子设备
CN109346098B (zh) * 2018-11-20 2022-06-07 网宿科技股份有限公司 一种回声消除方法及终端
CN110246515B (zh) * 2019-07-19 2023-10-24 腾讯科技(深圳)有限公司 回声的消除方法、装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN111028854A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
US6405163B1 (en) Process for removing voice from stereo recordings
JP5000647B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
CN110956976B (zh) 一种回声消除方法、装置、设备及可读存储介质
CN111028854B (zh) 一种音频数据的处理方法、装置、电子设备及存储介质
CN104919525B (zh) 用于评估退化语音信号的可理解性的方法和装置
US11238882B2 (en) Dry sound and ambient sound separation
CN110431624B (zh) 残余回声检测方法、残余回声检测装置、语音处理芯片及电子设备
CN106782586B (zh) 一种音频信号处理方法及装置
CN108200526A (zh) 一种基于可信度曲线的音响调试方法及装置
CN111583950A (zh) 一种音频处理方法、装置、电子设备及存储介质
US11380312B1 (en) Residual echo suppression for keyword detection
CN109887521B (zh) 用于音频的动态母带处理方法及装置
CN112837670B (zh) 语音合成方法、装置及电子设备
US11386911B1 (en) Dereverberation and noise reduction
CN109600697A (zh) 终端外放音质确定方法及装置
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统
CN115083431A (zh) 回声的消除方法、装置、电子设备及计算机可读介质
CN115410593A (zh) 音频信道的选择方法、装置、设备及存储介质
US9659575B2 (en) Signal processor and method therefor
CN115066912A (zh) 用于通过装置进行音频渲染的方法
Ivry et al. Objective Metrics to Evaluate Residual-Echo Suppression During Double-Talk in the Stereophonic Case.
CN112951265B (zh) 音频处理方法、装置、电子设备和存储介质
JP7393438B2 (ja) コヒーレンスを使用した信号コンポーネント推定
WO2022014359A1 (ja) 信号処理装置、信号処理方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant