CN111477240B - 音频处理方法、装置、设备和存储介质 - Google Patents

音频处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111477240B
CN111477240B CN202010266252.4A CN202010266252A CN111477240B CN 111477240 B CN111477240 B CN 111477240B CN 202010266252 A CN202010266252 A CN 202010266252A CN 111477240 B CN111477240 B CN 111477240B
Authority
CN
China
Prior art keywords
audio
voice
characteristic value
overlapping region
distance characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010266252.4A
Other languages
English (en)
Other versions
CN111477240A (zh
Inventor
胡新辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Original Assignee
Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Tonghuashun Intelligent Technology Co Ltd filed Critical Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority to CN202010266252.4A priority Critical patent/CN111477240B/zh
Publication of CN111477240A publication Critical patent/CN111477240A/zh
Application granted granted Critical
Publication of CN111477240B publication Critical patent/CN111477240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Stereophonic System (AREA)

Abstract

本申请涉及音频处理方法、装置、设备和存储介质。该方法包括:对待处理音频数据进行语音分离处理,得到至少两组音频分离结果;基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值;基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值;基于第一距离特征值和第二距离特征值,确定出音频分离结果的距离特征值;从至少两组音频分离结果的距离特征值中选取出目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果。如此,提高分离结果的精确度。

Description

音频处理方法、装置、设备和存储介质
技术领域
本申请涉及音频处理技术,特别是涉及一种音频处理方法、装置、设备和存储介质。
背景技术
在嘈杂的声学环境中,通常会同时存在多个不同的声源,比如,多人的混叠的声音等。在这种声学环境下,人类的听觉系统能在一定程度上分辨出目标语音,而计算机在这方面的能力还远远不如人类。因此,如何在多个人声混杂的声学环境中分离出目标语音成为语音信号处理领域的重要研究方向。
虽然,现有技术提供了语音分离方案,但主要适用于语音和噪声的分离,由于语音和噪声的特性差别大,所以,现有语音降噪方案能够较好地完成降噪任务。而由于不同说话人的语音特性非常接近,语音分离的技术难度明显大于语音降噪。因此,如何将不同说话人的语音进行分离,仍是未解决的问题。
发明内容
为解决上述问题,本发明提出了一种音频处理方法、装置、设备和存储介质,能够将混叠的音频,比如不同音频来源混叠后的音频数据进行分离,并提高了分离结果的精确度,为智能化音频处理奠定了基础。
第一方面,本申请实施例提供音频处理方法,包括:
对待处理音频数据进行语音分离处理,得到至少两组音频分离结果;其中,待处理音频数据包含有不同音频来源混叠后的音频数据,每组音频分离结果中包含有至少两个语音段;
基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值;
基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值;
基于第一距离特征值和第二距离特征值,确定出音频分离结果的距离特征值;
从至少两组音频分离结果的距离特征值中选取出目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果。
本申请实施例中,所述基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值,包括:
基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一特征值集合,其中,第一特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;
对第一特征值集合所包含的特征值进行加权处理,得到每组音频分离结果中语音段之间的第一距离特征值。
本申请实施例中,所述基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值,包括:
基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二特征值集合,其中,第二特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;
对第二特征值集合所包含的特征值进行加权处理,得到音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值。
本申请实施例中,所述方法还包括:
获取音频分离结果中各语音段的音频特征,将各语音段的音频特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的内容特征,将各语音段的内容特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的音频来源特征,将各语音段的音频来源特征作为语音段的特征信息。
本申请实施例中于,所述从至少两组音频分离结果的距离特征值中选取出目标距离特征值,包括:
从至少两组音频分离结果的距离特征值中选取出最大值作为目标距离特征值。
第二方面,本申请实施例提供一种音频处理装置,包括:
语音分离单元,用于对待处理音频数据进行语音分离处理,得到至少两组音频分离结果;其中,待处理音频数据包含有不同音频来源混叠后的音频数据,每组音频分离结果中包含有至少两个语音段;
特征值确定单元,用于基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值;基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值;基于第一距离特征值和第二距离特征值,确定出音频分离结果的距离特征值;
筛选单元,用于从至少两组音频分离结果的距离特征值中选取出目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果。
本申请实施例中,所述特征值确定单元,还用于:
基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一特征值集合,其中,第一特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;对第一特征值集合所包含的特征值进行加权处理,得到每组音频分离结果中语音段之间的第一距离特征值。
本申请实施例中,所述特征值确定单元,还用于:
基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二特征值集合,其中,第二特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;对第二特征值集合所包含的特征值进行加权处理,得到音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值。
本申请实施例中,所述特征值确定单元,还用于:
获取音频分离结果中各语音段的音频特征,将各语音段的音频特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的内容特征,将各语音段的内容特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的音频来源特征,将各语音段的音频来源特征作为语音段的特征信息。
本申请实施例中,所述筛选单元,还用于从至少两组音频分离结果的距离特征值中选取出最大值作为目标距离特征值。
第三方面,本申请实施例提供一种音频处理设备,包括:
一个或多个处理器;
与所述一个或多个处理器通信连接的存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现以上所述的方法。
这样,由于本申请方案能够确定出不同音频分离结果的距离特征值,这里,音频分离结果为对待处理音频数据进行语音分离处理后所得到的,所以,能够基于音频分离结果的距离特征值对不同音频分离结果进行筛选,进而筛选得到目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果,如此,在实现将不同音频来源混叠后的音频数据进行分离的基础上,最大化提高了分离结果的精确度,进而为后续智能化音频处理奠定了基础。
附图说明
图1为本发明实施例音频处理方法的实现流程示意图;
图2为本申请实施例音频混叠效果示意图;
图3为本申请实施例音频分离效果示意图;
图4为本发明实施例音频处理装置的结构示意图;
图5本发明实施例音频处理设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
本申请实施例提供了一种音频处理方法、装置、设备和存储介质;具体地,图1为本发明实施例音频处理方法的实现流程示意图,如图1所示,所述方法包括:
步骤101:对待处理音频数据进行语音分离处理,得到至少两组音频分离结果;其中,待处理音频数据包含有不同音频来源混叠后的音频数据,每组音频分离结果中包含有至少两个语音段。
本实施例中,可以通过神经网络或信号处理方法等对待处理音频数据进行语音分离处理,并分离得到多组分离结果,也即本申请方案所述的音频分离结果;当然,实际应用中,音频分离结果中语音段的数量与对应场景中混叠声源的数量有关,比如,与混叠的声源的数量相同。
这里,实际应用中,不同音频来源可以具体为不同人的声音,或者人的声音与动物的声音,或者不同动物的声音等,本申请实施例对音频来源不作限制,因此,本申请方案能够应用于复杂声学场景的语音交互环境中,比如,智能电梯、智能音箱或者智能电视等场景的语音识别、或说话人识别场景等。
需要说明是,实际应用中,不同音频分离结果可以是不同神经网络或不同信号处理方法所得到的分离结果;或者,是同一神经网络(或同一信号处理方法)在不同参数设置下的分离结果,比如,基于当前输出的音频分离结果对神经网络的相关参数进行调整,得到下一次的音频分离结果,如此循环,直至确定出最优结果,也即目标分离结果。这里,循环处理的截止条件与从至少两组音频分离结果的距离特征值中选取出目标距离特征值的条件相关,比如,选取条件为选取出最大值,此时截止条件为下一次的音频分离结果对应的距离特征值小于上一次音频分离结果对应的距离特征值,此时,上一次音频分离结果对应的距离特征值即为最大值,上一次音频分离结果即为目标分离结果。
步骤102:基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值。
本实施例中,音频分离结果中语音段的特征信息可以具体为音频特征(如声纹等),内容特征,以及音频来源特征(比如说话人特征等)中的至少一个。相应地,本申请方案在步骤102之前还需要获取音频分离结果中各语音段的音频特征,将各语音段的音频特征作为语音段的特征信息;和/或,获取音频分离结果中各语音段的内容特征,将各语音段的内容特征作为语音段的特征信息;和/或,获取音频分离结果中各语音段的音频来源特征,将各语音段的音频来源特征作为语音段的特征信息。当然,为了提升最终结果精确度,语音段的特征信息包括音频特征,内容特征,以及音频来源特征三类。
在一具体示例中,步骤102可以具体包括:基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一特征值集合,其中,第一特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;也就是说,当语音段的特征信息具体为音频特征,此时,可以确定出音频分离结果中语音段之间的音频距离特征值;同理,当语音段的特征信息具体为内容特征时,可以确定出音频分离结果中语音段之间的内容距离特征值;而当语音段的特征信息具体为音频来源特征时,可以确定出音频分离结果中语音段之间的音频来源距离特征值,即根据语音段的特征信息的不同,可以从不同角度确定出音频分离结果中语音段之间的距离特征值,进而将从不同角度确定出的音频分离结果中语音段之间的距离特征值作为第一特征值集合。进一步地,对第一特征值集合所包含的特征值进行加权处理,得到每组音频分离结果中语音段之间的第一距离特征值。
步骤103:基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值。
在另一具体示例中,音频分离结果中的语音段可能存在音频重叠区域(即含有至少两个音频来源的区域)和非音频重叠区域(即仅包含有一个音频来源的区域),此时,可以基于音频重叠区域和非音频重叠区域的特征信息来确定出第二特征值集合;具体地,步骤103可以包括:基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二特征值集合,其中,第二特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;也就是说,当语音段的特征信息具体为音频特征,此时,可以确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的音频距离特征值;同理,当语音段的特征信息具体为内容特征时,可以确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的内容距离特征值;而当语音段的特征信息具体为音频来源特征时,可以确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的音频来源距离特征值,即根据语音段的特征信息的不同,可以从不同角度确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的距离特征值,进而将从不同角度确定出的音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的距离特征值作为第二特征值集合。进一步地,对第二特征值集合所包含的特征值进行加权处理,得到音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值。
步骤104:基于第一距离特征值和第二距离特征值,确定出音频分离结果的距离特征值;
步骤105:从至少两组音频分离结果的距离特征值中选取出目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果。
这里,实际应用中,可以从至少两组音频分离结果的距离特征值中选取出最大值作为目标距离特征值,此时,目标距离特征值所对应的音频分离结果即为针对待处理音频数据的最优的目标分离结果。
这样,由于本申请方案能够确定出不同音频分离结果的距离特征值,这里,音频分离结果为对待处理音频数据进行语音分离处理后所得到的,所以,能够基于音频分离结果的距离特征值对不同音频分离结果进行筛选,进而筛选得到目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果,如此,在实现将不同音频来源混叠后的音频数据进行分离的基础上,最大化提高了分离结果的精确度,进而为后续智能化音频处理奠定了基础。
进一步地,由于本申请方案待处理音频数为不同音频来源混叠后的音频数据,且该不同来源可以为不同人声,或人声与其他生物体的声音等,本申请方案对此不作限制,所以能够实现将不同说话人的语音进行分离的目的,与现有语音降噪的方案相比,本申请应用场景更加广泛,能够为智能化音频处理奠定基础。
以下结合具体示例对本申请方案做进一步详细说明;本示例提供了一种多人语音场景下的音频处理方法,也即音频分离方法,在语音分离的过程中,通过构造总距离(也即以上所述的距离特征值)来确定最优分离结果,如通过构造总距离来对得到的音频分离结果进行微调,使得分离效果达到局部最优,从而提升多人语音场景下的语音与语音之间的分离效果。
本示例所述的混叠语音(也即以上所述的待处理音频数据)指N种人声,N为大于等于2的正整数,也就是说,同一时段内中至少部分时段中存在两个或两个以上的人声,如图2所示,图中一共有三条语音,第一条语音大约从2.0s到3.8s有人声,第二条语音大约从0.8s到2.6s有人声,此时,混叠语音则为第一条语音和第二条语音混合后的语音,从0.8s到3.8s对应的语音,但从2.0s到2.6s属于音频重叠区域。
具体地,音频处理方法包括:
步骤1:当检测到有混叠语音(如图2中的混叠语音)时,利用神经网络模型或信号处理方法对混叠语音进行语音分离,得到音频分离结果,如图3所示,该音频分离结果包括第一语音段和第二语音段。
此时,该音频分离结果所包括第一语音段和第二语音段通常为混叠的语音,即存在音频重叠区域,也就是说,语音分离处理得到的并非为混叠前的第一条语音和第二条语音,而是存在音频重叠区域的语音段,因此,还需要利用本申请方案进行优化处理,使得分离出的第一语音段和第二语音段最大化的接近原始的第一条语音和第二条语音。
需要说明的是,由于本示例以如图2两条语音混叠为例,所以,分离得到的音频分离结果中包含有两个语音段,分别为第一语音段和第二语音段。
步骤2:如图3所示,确定出第一语音段和第二语音段的音频重叠区域和非音频重叠区域。
步骤3:基于第一语音段和第二语音段的音频特征,得到第一语音段和第二语音段之间的音频距离特征值M1。
比如,提取第一语音段和第二语音段的音频特征,即梅尔频率倒谱系数(MFCC,MelFrequency Cepstrum Coefficient),利用贝叶斯信息准则(Bayesian InformationCriterions)来计算得到第一语音段和第二语音段之间的音频特征特征值M1。
步骤4:基于第一语音段的音频重叠区域和非音频重叠区域的音频特征,得到第一语音段的音频重叠区域和非音频重叠区域之间的音频距离特征值M2;同理,基于第二语音段的音频重叠区域和非音频重叠区域的音频特征,得到第二语音段的音频重叠区域和非音频重叠区域之间的音频距离特征值M3。计算步骤类似于步骤3。
步骤5:基于第一语音段和第二语音段的内容特征,得到第一语音段和第二语音段之间的内容距离特征值W1。
具体地,可以使用语音识别模型对第一语音段进行识别,得到第一音素序列;同理,使用语音识别模型对第二语音段进行识别,得到第二音素序列;对第一音素序列和第二音素序列进行音素相似度计算和音素连续性计算,分别得到音素序列相似度和音素序列连续度;根据音素序列相似度和音素序列连续度确定出第一语音段和第二语音段之间的内容距离特征值W1。
步骤6:基于第一语音段的音频重叠区域和非音频重叠区域的内容特征,得到第一语音段的音频重叠区域和非音频重叠区域之间的内容距离特征值W2;同理,基于第二语音段的音频重叠区域和非音频重叠区域的内容特征,得到第二语音段的音频重叠区域和非音频重叠区域之间的内容距离特征值W3。计算过程与步骤5类似。
步骤7:基于第一语音段和第二语音段的音频来源特征,得到第一语音段和第二语音段之间的音频来源距离特征值S1,也即说话人特征距离S1。
这里,实际应用中,音频来源特征可以根据内容距离特征来确定,此时,步骤7具体为基于第一语音段和第二语音段的内容距离特征,得到第一语音段和第二语音段之间的音频来源距离特征值S1;具体地,方法如下:
针对每一个音素,收集大量不同音频来源(如说话人)的训练数据,并训练得到基于音素的音频来源模型(如说话人模型),此音频来源模型主要使得相同音频来源(如说话人)的音素之间距离较近,不同音频来源(如说话人)的音素之间距离较远。
进一步地,由前述步骤5可以得到第一语音段和第二语音段对应的第一音素序列和第二音素序列。将第一音素序列中每一个音素(如第一音素)输入到与该音素(如第一音素)对应的音频来源模型(如说话人模型)中,得到基于该音素(如第一音素)的音频来源(如说话人)向量,进而得到第一音频来源向量组,同理,得到第二音频来源向量组;根据第一音频来源向量组和第二音频来源向量组计算得到第一语音段和第二语音段之间的音频来源距离特征值S1。
步骤8:采用与步骤7相似的方法,得到第一语音段的音频重叠区域和非音频重叠区域之间的音频来源距离特征值S2,以及得到第二语音段的音频重叠区域和非音频重叠区域之间的音频来源距离特征值S3。
具体地,由步骤7得到的第一音频来源向量组和步骤2得到的音频重叠区域和非音频重叠区域,即可得到第一语音段的音频重叠区域和非音频重叠区域之间的音频来源距离特征值S2;同理,由步骤7得到的第二音频来源向量组和步骤2得到的音频重叠区域和非音频重叠区域,即可得到第二语音段的音频重叠区域和非音频重叠区域之间的音频来源距离特征值S3。
步骤9:总距离D即为M1,M2,M3,W1,W2,W3,S1,S2,S3的线性组合。当然,实际应用中,可以基于实际的输出结果为不同的特征值设置权重。进一步地,调整参数,即调整步骤1所采用的神经网络模型或信号处理方法的参数,即可得到多个总距离,分别为D1,D2,…,,Dn-1,Dn。若Dn-1<=Dn,则Dn-1不是局部最大值,还需继续进行参数调整;否则,Dn-1>Dn,则Dn-1为局部最大值,停止计算,将Dn-1对应的第一语音段和第二语音段作为混叠语音的分离结果。
这样,在语音分离的过程中,通过构造的总距离来对分离效果进行微调,使得分离效果达到局部最优,提升语音分离的精确度。
本申请实施例还提供了一种音频处理装置,如图4所示,所述装置包括:
语音分离单元41,用于对待处理音频数据进行语音分离处理,得到至少两组音频分离结果;其中,待处理音频数据包含有不同音频来源混叠后的音频数据,每组音频分离结果中包含有至少两个语音段;
特征值确定单元42,用于基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值;基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值;基于第一距离特征值和第二距离特征值,确定出音频分离结果的距离特征值;
筛选单元43,用于从至少两组音频分离结果的距离特征值中选取出目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果。
本申请实施例中,所述特征值确定单元42,还用于:
基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一特征值集合,其中,第一特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;对第一特征值集合所包含的特征值进行加权处理,得到每组音频分离结果中语音段之间的第一距离特征值。
本申请实施例中,所述特征值确定单元42,还用于:
基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二特征值集合,其中,第二特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;对第二特征值集合所包含的特征值进行加权处理,得到音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值。
本申请实施例中,所述特征值确定单元42,还用于:
获取音频分离结果中各语音段的音频特征,将各语音段的音频特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的内容特征,将各语音段的内容特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的音频来源特征,将各语音段的音频来源特征作为语音段的特征信息。
本申请实施例中,所述筛选单元43,还用于从至少两组音频分离结果的距离特征值中选取出最大值作为目标距离特征值。
这里需要指出的是:以上装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本发明装置实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解,为节约篇幅,这里不再赘述。
本申请实施例还提供了一种音频处理设备,包括:一个或多个处理器;与所述一个或多个处理器通信连接的存储器;一个或多个应用程序;其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的方法。
在一具体示例中,本申请实施例所述的音频处理设备可具体为如图5所示的结构,所述音频处理设备至少包括处理器51、存储介质52以及至少一个外部通信接口53;所述处理器51、存储介质52以及外部通信接口53均通过总线54连接。所述处理器51可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码,所述计算机可执行代码能够执行以上任一实施例所述的方法。在实际应用中,所述语音分离单元41、特征值确定单元42以及筛选单元42均可以通过所述处理器51实现。
这里需要指出的是:以上音频处理设备实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本发明音频处理设备实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解,为节约篇幅,这里不再赘述。
本申请实施例还提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现以上所述的方法。
这里,计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
上述所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (10)

1.一种音频处理方法,其特征在于,所述方法包括:
对待处理音频数据进行语音分离处理,得到至少两组音频分离结果;其中,待处理音频数据包含有不同音频来源混叠后的音频数据,每组音频分离结果中包含有至少两个语音段;
基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值;
基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值;
基于第一距离特征值和第二距离特征值,确定出音频分离结果的距离特征值;
从至少两组音频分离结果的距离特征值中选取出目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果。
2.根据权利要求1所述的方法,其特征在于,所述基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值,包括:
基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一特征值集合,其中,第一特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;
对第一特征值集合所包含的特征值进行加权处理,得到每组音频分离结果中语音段之间的第一距离特征值。
3.根据权利要求1或2所述的方法,其特征在于,所述基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值,包括:
基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二特征值集合,其中,第二特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;
对第二特征值集合所包含的特征值进行加权处理,得到音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
获取音频分离结果中各语音段的音频特征,将各语音段的音频特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的内容特征,将各语音段的内容特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的音频来源特征,将各语音段的音频来源特征作为语音段的特征信息。
5.根据权利要求1所述的方法,其特征在于,所述从至少两组音频分离结果的距离特征值中选取出目标距离特征值,包括:
从至少两组音频分离结果的距离特征值中选取出最大值作为目标距离特征值。
6.一种音频处理装置,其特征在于,所述装置包括:
语音分离单元,用于对待处理音频数据进行语音分离处理,得到至少两组音频分离结果;其中,待处理音频数据包含有不同音频来源混叠后的音频数据,每组音频分离结果中包含有至少两个语音段;
特征值确定单元,用于基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一距离特征值;基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值;基于第一距离特征值和第二距离特征值,确定出音频分离结果的距离特征值;
筛选单元,用于从至少两组音频分离结果的距离特征值中选取出目标距离特征值,并将目标距离特征值所对应的音频分离结果作为待处理音频数据的目标分离结果。
7.根据权利要求6所述的装置,其特征在于,所述特征值确定单元,还用于:
基于音频分离结果中各语音段的特征信息,确定出每组音频分离结果中语音段之间的第一特征值集合,其中,第一特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;对第一特征值集合所包含的特征值进行加权处理,得到每组音频分离结果中语音段之间的第一距离特征值;
或者,还用于基于确定出的音频分离结果中各语音段的音频重叠区域和非音频重叠区域的特征信息,确定出音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二特征值集合,其中,第二特征值集合包含以下特征值中的至少一种:音频距离特征值,内容距离特征值以及音频来源距离特征值;对第二特征值集合所包含的特征值进行加权处理,得到音频分离结果的语音段中音频重叠区域和非音频重叠区域之间的第二距离特征值。
8.根据权利要求6所述的装置,其特征在于,所述特征值确定单元,还用于:
获取音频分离结果中各语音段的音频特征,将各语音段的音频特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的内容特征,将各语音段的内容特征作为语音段的特征信息;和/或,
获取音频分离结果中各语音段的音频来源特征,将各语音段的音频来源特征作为语音段的特征信息。
9.一种音频处理设备,其特征在于,包括:
一个或多个处理器;
与所述一个或多个处理器通信连接的存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行权利要求1至5任一项所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
CN202010266252.4A 2020-04-07 2020-04-07 音频处理方法、装置、设备和存储介质 Active CN111477240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010266252.4A CN111477240B (zh) 2020-04-07 2020-04-07 音频处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010266252.4A CN111477240B (zh) 2020-04-07 2020-04-07 音频处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111477240A CN111477240A (zh) 2020-07-31
CN111477240B true CN111477240B (zh) 2023-04-07

Family

ID=71750119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010266252.4A Active CN111477240B (zh) 2020-04-07 2020-04-07 音频处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111477240B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435659B (zh) * 2021-01-28 2021-04-30 北京威泰视信科技有限公司 一种信号处理方法、装置、电子设备及介质
CN113362831A (zh) * 2021-07-12 2021-09-07 科大讯飞股份有限公司 一种说话人分离方法及其相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314392B1 (en) * 1996-09-20 2001-11-06 Digital Equipment Corporation Method and apparatus for clustering-based signal segmentation
CN108766440A (zh) * 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN110164469A (zh) * 2018-08-09 2019-08-23 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314392B1 (en) * 1996-09-20 2001-11-06 Digital Equipment Corporation Method and apparatus for clustering-based signal segmentation
CN108766440A (zh) * 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN110164469A (zh) * 2018-08-09 2019-08-23 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置

Also Published As

Publication number Publication date
CN111477240A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
Han et al. Learning spectral mapping for speech dereverberation and denoising
CN111477240B (zh) 音频处理方法、装置、设备和存储介质
CN110473568B (zh) 场景识别方法、装置、存储介质及电子设备
CN113823273B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
CN111868823A (zh) 一种声源分离方法、装置及设备
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
CN115331656A (zh) 非指令语音的拒识方法、车载语音识别系统及汽车
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
Patel et al. Ux-net: Filter-and-process-based improved u-net for real-time time-domain audio separation
CN113077812A (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
WO2021125037A1 (ja) 信号処理装置、信号処理方法、プログラムおよび信号処理システム
CN112259110B (zh) 音频编码方法及装置、音频解码方法及装置
CN112562649B (zh) 一种音频处理的方法、装置、可读存储介质和电子设备
CN111429937B (zh) 语音分离方法、模型训练方法及电子设备
CN115881157A (zh) 音频信号的处理方法及相关设备
Uhle et al. Speech enhancement of movie sound
Dahy et al. A speech separation system in video sequence using dilated inception network and U-Net
Mohammadi et al. Speech recognition system based on machine learning in persian language
Xiang et al. Distributed microphones speech separation by learning spatial information with recurrent neural network
JPH04273298A (ja) 音声認識装置
Nguyen et al. Location Estimation of Receivers in an Audio Room using Deep Learning with a Convolution Neural Network.
EP4362502A1 (en) Controlling local rendering of remote environmental audio
CN115376501B (zh) 语音增强方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant