CN111402898A - 音频信号处理方法、装置、设备及存储介质 - Google Patents

音频信号处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111402898A
CN111402898A CN202010189291.9A CN202010189291A CN111402898A CN 111402898 A CN111402898 A CN 111402898A CN 202010189291 A CN202010189291 A CN 202010189291A CN 111402898 A CN111402898 A CN 111402898A
Authority
CN
China
Prior art keywords
classified
voice
segment
category
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010189291.9A
Other languages
English (en)
Other versions
CN111402898B (zh
Inventor
邓菁
王秋明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN202010189291.9A priority Critical patent/CN111402898B/zh
Publication of CN111402898A publication Critical patent/CN111402898A/zh
Application granted granted Critical
Publication of CN111402898B publication Critical patent/CN111402898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种音频信号处理方法、装置、设备及存储介质,涉及语音处理技术领域。该方法包括:获取待检测音频信号中多个语音片段的语音特征;根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定每个待分类语音片段的类别;其中,第一个语音片段的类别为预设类别,至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段;根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,并根据总类别个数,确定待检测音频信号的说话人数。相对于现有技术,避免了分离说话人所需的时间太长,影响确定说话人数目的实时性的问题。

Description

音频信号处理方法、装置、设备及存储介质
技术领域
本申请涉及语音处理技术领域,具体而言,涉及一种音频信号处理方法、装置、设备及存储介质。
背景技术
对于声纹识别系统来说,一般要求输入的语音数据只包含有单一的说话人。若输入语音中含有多个说话人的声音,则会导致提取的声纹特征错误,从而影响声纹识别系统的性能。所以一般在声纹识别之前,需要先判别输入语音中说话人的数目,若判定语音中含有多个说话人,则该条语音不送入声纹识别系统中。
现有技术中一般通过说话人分离技术来判断当前输入语音中的说话人数,该技术一般分为三个步骤:初始分割:找到说话人发生切换的时间点,并将输入语音分割为多段语音;聚类:按照一定的距离准则或者模式识别方法来对初始分割后的语音段按说话人聚类;重分割:利用聚类结果,对每个说话人的声纹特征进行更新,重新对原始语音进行分割。
但是现有技术的复杂度较高,耗时较长,会大大的增加分离说话人所需的时间,影响确定说话人数目的实时性。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种音频信号处理方法、装置、设备及存储介质,以解决现有技术中分离说话人所需的时间太长,影响确定说话人数目的实时性的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请一实施例提供了一种音频信号处理方法,所述方法包括:
获取待检测音频信号中多个语音片段的语音特征;
根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定所述每个待分类语音片段的类别;其中,所述第一个语音片段的类别为预设类别,所述至少一个已分类语音片段为所述每个待分类语音片段之前的至少一个语音片段;
根据所述第一个语音片段的类别以及所述每个待分类语音片段的类别,确定所述待检测音频信号中的总类别个数,并根据所述总类别个数,确定所述待检测音频信号的说话人数。
可选地,所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定所述每个待分类语音片段的类别,包括:
根据第一个语音片段之后的每个待分类语音片段的语音特征和所述至少一个已分类语音片段的语音特征,分别计算所述每个待分类语音片段与所述至少一个已分类语音片段之间的第一特征距离;
根据所述第一特征距离,确定所述每个待分类语音片段的类别。
可选地,所述根据所述第一特征距离,确定所述每个待分类语音片段的类别,包括:
根据所述第一特征距离,判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段;
若存在,则确定所述已分类语音片段的类别为所述待分类语音片段的类别;
若所述至少一个已分类语音片段中不存在与所述每个待分类语音片段的类别相同的已分类语音片段,则建立新类别,并确定所述待分类语音片段的类别为所述新类别。
可选地,所述根据所述第一特征距离,判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段,包括:
若所述第一特征距离小于第一预设阈值,则确定所述每个待分类语音片段与对应已分类语音片段的类别不同;
若所述第一特征距离大于或等于所述第一预设阈值,则根据所述特征距离以及所述每个待分类语音片段的内部特征距离,判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同。
可选地,所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离,判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同,包括:
若所述第一特征距离以及所述每个待分类语音片段的内部特征距离的差值,大于第二预设阈值,则确定所述每个待分类语音片段与对应已分类语音片段的类别不同。
可选地,所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离,判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同之前,所述方法还包括:
根据所述每个待分类语音片段的语音特征,和所述每个待分类语音片段的两个语音子片段的语音特征,确定所述每个待分类语音片段的内部特征距离。
可选地,所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定所述每个待分类语音片段的类别包括:
根据所述每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征,分别确定所述两个语音子片段与所述每个已分类语音片段的第二特征距离;
根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值,确定所述每个待分类语音片段的类别。
可选地,所述根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值,确定所述每个待分类语音片段的类别,包括:
若所述绝对差值,大于第三预设阈值,则确定所述每个待分类语音片段的类别为对应已分类语音片段的类别不同。
第二方面,本申请另一实施例提供了一种音频信号处理装置,所述装置包括:获取模块和确定模块,其中:
所述获取模块,用于获取待检测音频信号中多个语音片段的语音特征;
所述确定模块,用于根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定所述每个待分类语音片段的类别;其中,所述第一个语音片段的类别为预设类别,所述至少一个已分类语音片段为所述每个待分类语音片段之前的至少一个语音片段;
所述确定模块,还用于根据所述第一个语音片段的类别以及所述每个待分类语音片段的类别,确定所述待检测音频信号中的总类别个数,并根据所述总类别个数,确定所述待检测音频信号的说话人数。
可选地,所述装置还包括:计算模块,用于根据第一个语音片段之后的每个待分类语音片段的语音特征和所述至少一个已分类语音片段的语音特征,分别计算所述每个待分类语音片段与所述至少一个已分类语音片段之间的第一特征距离;
所述确定模块,还用于根据所述第一特征距离,确定所述每个待分类语音片段的类别。
可选地,所述装置还包括:判断模块,用于根据所述第一特征距离,判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段;
所述确定模块,还用于若存在,则确定所述已分类语音片段的类别为所述待分类语音片段的类别;
所述确定模块,还用于若所述至少一个已分类语音片段中不存在与所述每个待分类语音片段的类别相同的已分类语音片段,则建立新类别,并确定所述待分类语音片段的类别为所述新类别。
可选地,所述确定模块,还用于若所述第一特征距离小于第一预设阈值,则确定所述每个待分类语音片段与对应已分类语音片段的类别不同;
所述确定模块,还用于若所述第一特征距离大于或等于所述第一预设阈值,则根据所述特征距离以及所述每个待分类语音片段的内部特征距离,判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同。
可选地,所述确定模块,还用于若所述第一特征距离以及所述每个待分类语音片段的内部特征距离的差值,大于第二预设阈值,则确定所述每个待分类语音片段与对应已分类语音片段的类别不同。
可选地,所述确定模块,还用于根据所述每个待分类语音片段的语音特征,和所述每个待分类语音片段的两个语音子片段的语音特征,确定所述每个待分类语音片段的内部特征距离。
可选地,所述确定模块,还用于根据所述每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征,分别确定所述两个语音子片段与所述每个已分类语音片段的第二特征距离;
所述确定模块,还用于根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值,确定所述每个待分类语音片段的类别。
可选地,所述确定模块,还用于若所述绝对差值,大于第三预设阈值,则确定所述每个待分类语音片段的类别为对应已分类语音片段的类别不同。
第三方面,本申请另一实施例提供了一种音频信号处理设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当音频信号处理设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述第一方面任一所述方法的步骤。
第四方面,本申请另一实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。
本申请的有益效果是:采用本申请提供的方法,获取到待检测音频信号中的多个语音片段的语音特征后,只需根据第一个语音片段之后的每个待分类语音片段的语音特征,和至少一个已分类语音片段的语音特征,就可以确定每个待分类语音片段的类别,最终根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,这样的处理方法使得在确定待分类语音片段的类别时,只需将每个待分类语音片段的语音特征与已分类语音片段的语音特征之间进行对比即可,无需对比每个待分类语音片段之间的语音特征,使得对比效率提高,即减少了分离各说话人的时间,提高了确定待检测音频信号的说话人数的实时性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的音频信号处理方法的流程示意图;
图2为本申请另一实施例提供的音频信号处理方法的流程示意图;
图3为本申请另一实施例提供的音频信号处理方法的流程示意图;
图4为本申请另一实施例提供的音频信号处理方法的流程示意图;
图5为本申请另一实施例提供的音频信号处理方法的流程示意图;
图6为本申请一实施例提供的音频信号处理装置的结构示意图;
图7为本申请另一实施例提供的音频信号处理装置的结构示意图;
图8为本申请另一实施例提供的音频信号处理装置的结构示意图;
图9为本申请一实施例提供的音频信号处理设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
本申请下述各实施例提供的音频信号处理方法可由音频信号处理设备执行,该音频信号处理设备可以为安装有语音分离系统的终端设备或服务器等任一类型的设备。如下结合多个示例进行解释说明。图1为本申请一实施例提供的一种音频信号处理方法的流程示意图,如图1所示,该方法包括:
S101:获取待检测音频信号中多个语音片段的语音特征。
可选地,在本申请的一个实施例中,在获取待检测音频信号中多个语音片段的语音特征之前,需要先获取一段输入的待检测音频数据,并对该待检测音频数据进行预处理,再获取处理后的待检测音频信号中多个语音片段的语音特征。
示例地,可采用下述预处理过程对该待检测音频数据进行处理,得到多个语音片段的语音特征:
首先,可对该待检测音频信号进行直流降噪处理,以去除该待检测音频数据中的直流噪声,例如,可采用下述公式对该待检测音频信号进行直流降噪处理:
Figure BDA0002414761330000081
其中,
Figure BDA0002414761330000082
为直流降噪处理后的音频信号,μ是待检测音频信号x(n)的均值,n为待检测音频信号中的第n个采样点。
举例说明:若采样频率为8K,待检测音频数据的时长为10秒,则该待检测音频数据中包括8万个采样点,即该待检测音频信号所包括的采样点个数,可以根据采样频率以及该待检测音频的时长的乘积进行确定,此时μ为上述8万个采样点的均值。
可选的,还可对降噪处理后的待检测音频数据进行预加重处理,以减少尖锐噪音的影响,一定程度上弥补了高频部分的损耗,从而提升高频信号的辨析度。
在具体实现中,可采用下述预加重公式如下对音频信号进行预加重处理:y(n)=x(n)-α×x(n-1),其中,y(n)为经过预加重后的待检测音频中的各采样点,x(n)为待检测音频数据的各采样点,α为大于0,小于1的预设系数,如0.95-0.98之间的任一的数值。在本申请的一个实施例中,将α设置为0.97,但具体α的取值可以根据用户需要设计,本申请在此不做任何限制。
可选地,在本申请的一个实施例中,去除直流噪声后,再对预加重后的待检测音频数据进行分帧,得到多段待检测音频子数据。在本申请的一个实施例中,帧长可以为20ms,帧移可以为10ms,并且分帧时间也可以设置在预加重或去除噪音之前,只需保证在加窗前已完成分帧即可,具体分帧时间和分帧的帧长和帧移可以根据用户需要设计,本申请在此不做任何限制。
随后,对分帧后的各段待检测音频子数据的各帧信号加进行加窗处理,例如,加汉明(hamming)窗,可采用下述公式进行加窗:
y(n)=x(n)×w(n)
Figure BDA0002414761330000101
其中,y(n)为加窗后的信号,x(n)为原始信号,w(n)为汉明窗系数。M为窗长,可根据采样频率和帧长进行确定,举例说明,采样频率为8K且帧长为20ms时,对应的窗长为160个点。
在加窗处理之后,还可对加窗处理后的各段待检测音频子数据进行快速傅里叶(fast Fourier transform,FFT)变换。由于本申请中的各段待检测音频子数据均为离散信号,所以选择离散傅里叶变换(Discrete Fourier Transform,DFT)对加窗后的各段待检测音频子数据进行处理,处理公式如下:
Figure BDA0002414761330000102
Figure BDA0002414761330000103
其中,N可根据采样率进行确定,举例说明,对于8k采样率的语音来说,N可取值为256;对于16k采样率的语音来说,N可取值为512。X(k)为傅里叶变化后的频域信号。
随后对傅里叶变换后的各段待检测音频子数据进行离散余弦变换(DiscreteCosine Transform,DCT)。由于离散余弦变换具有很强的"能量集中"特性,所以可以去除频率特征的相关性,降低特征的维度。
DCT的公式如下:
Figure BDA0002414761330000104
Figure BDA0002414761330000111
其中,u表示经过DCT变换后的待检测音频数据特征的第u维,N为待检测音频数据的初始频域特征维度。举例说明,若需要将当前加窗后的各段待检测音频子数据,从30维的特征降至12维,此时N为30,u的取值为0-11。F(u)为经过DCT变换后的各段待检测音频子数据。
该方法可对DCT变换后的各段待检测音频子数据进行音频特征的提取,如提取频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征。其中,在DCT变换之后,进行音频特征的提取,可以去除音频片段中各维的相关性(即降维)。
随后基于能量的有效语音检测(Voice Activity Detection,VAD),得到输入语音的多个语音片段,并根据各语音片段的起始点对经过DCT变换后的待检测音频数据中的音频特征如MFCC特征进行切割,此时切割后的多个语音片段构成经过预处理后的S101中的待检测音频信号。
由于VAD可以找到语音的开始点和结束点,前述MFCC特征提取过程里,是对整条语音提取的,即提取的特征包括:语音的MFCC和非语音的MFCC,而此处是根据VAD的结果,来得到语音段的MFCC序列,即从语音分割,变为特征分割。
可选地,在本申请的一个实施例中,使用的VAD算法是基于短时平均子带能量的VAD,将语音在频域上分成四个子带,计算每个子带的平均能量,一般来说,语音在2kHz下包含有大量的能量,而噪声在2-4kHz或者4kHz以上相对有更好的能量。根据这一特性,设置不同的阈值,来判断当前时段的音频信号是语音还是非语音(静音或者噪声)。
S102:根据第一个语音片段之后的每个待分类语音片段的语音特征,和至少一个已分类语音片段的语音特征,确定每个待分类语音片段的类别。
其中,第一个语音片段的类别为预设类别,至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段。
可选地,在本申请的一个实施例中,类别的标识选择按照顺序的正整数,确定各语音片段所属类别之前,假设第一个语音片段属于第一个说话人,则建立类别1,并将第一个语音片段分到类别1中;但是类别标识的具体方式并不以上述实施例给出的为限制,也可以选择字母作为类别标识,或根据其他规则确定类别标识,具体类别标识的设置方式可以根据用户需要设计,本申请在此不做任何限制。
可选地,在本申请的一个实施例中,确定第一个语音片段的类别后,按照时间序列顺序,依次获取下一个语音片段作为待分类语音片段,并将该待分类语音片段分别于各已分类语音片段的语音特征进行对比,从而确定该待分类语音片段所属的类别。
S103:根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,并根据总类别个数,确定待检测音频信号的说话人数。
其中,所有待分类语音片段均处理完成后,统计总类别个数,并将总类别个数作为待检测音频信号的说话人数,即若当前统计得到总类别个数为10个,说明当前待检测音频信号中,说话人数为10人。
采用本申请提供的方法,由于获取到待检测音频信号中的多个语音片段的语音特征后,只需根据第一个语音片段之后的每个待分类语音片段的语音特征,和至少一个已分类语音片段的语音特征,就可以确定每个待分类语音片段的类别,最终根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,这样的处理方法使得在确定待分类语音片段的类别时,只需将每个待分类语音片段的语音特征与已分类语音片段的语音特征之间进行对比即可,无需对比每个待分类语音片段之间的语音特征,使得对比效率提高,即减少了分离各个说话人的时间,提高了确定待检测音频信号的说话人数的实时性。
可选的,在上述实施例的基础上,本申请实施例还可提供一种音频处理处理方法,如下结合附图进行说明。图2为本申请另一实施例提供的一种音频信号处理方法的流程示意图,如图2所示,S102可包括:
S104:根据第一个语音片段之后的每个待分类语音片段的语音特征,和至少一个已分类语音片段的语音特征,分别计算每个待分类语音片段与至少一个已分类语音片段之间的第一特征距离。
可选地,在本申请的一个实施例中,各语音片段之间的特征距离通过贝叶斯信息准则(Bayesian Information Criterion,BIC)距离来表示,在计算BIC距离之前,需要先对各语音片段的语音特征数据,计算均值向量和协方差矩阵,其中,均值的计算公式如下:
Figure BDA0002414761330000131
其中,N为语音特征的个数,xi为第i帧语音特征。协方差矩阵的计算公式如下:
Figure BDA0002414761330000132
随后再根据各语音片段的特征数据的均值向量和协方差矩阵,计算各语音片段之间的BIC距离。
S105:根据第一特征距离,确定每个待分类语音片段的类别。
其中,当第一特征距离为BIC距离时,可通过计算两个数据对应模型的复杂度差异,来判断两个数据是否是同一个类别。若两个语音片段之间的类别相同,其模型相近;若两个语音片段属于不同的类别,其对应的模型差异较大。
其中,通过计算各语音片段之间的第一特征距离,可以确定各待分类语音片段的类别,这样的计算方法复杂度低,从而可以快速确定当前待检测音频信号中的说话人数,提高了音频处理的实时性。
可选的,在上述实施例的基础上,本申请实施例还可提供一种音频处理处理方法,如下结合附图进行解释说明。图3为本申请另一实施例提供的一种音频信号处理方法的流程示意图,如图3所示,S105可包括:
S106:根据第一特征距离,判断是否存在与待分类语音片段的类别相同的已分类语音片段。
若至少一个已分类语音片段中存在与每个待分类语音片段的类别相同的已分类语音片段,则执行S107a:确定该已分类语音片段的类别为待分类语音片段的类别。
即将该与待分类语音片段类别相同的已分类语音片段的类别作为目标类别,并将待分类语音片段加入至目标类别中,至此待分类语音片段的分类已完成,此时待分类片段无需再与其他片段进行距离的计算。
若至少一个已分类语音片段中不存在与每个待分类语音片段的类别相同的已分类语音片段,则执行S107b:建立新类别,并确定待分类语音片段的类别为新类别。
这样的设置方式使得确定待分类语音片段的类别时,仅需将待分类语音片段的类别与已分类语音片段的类别进行对比,无需对比各待分类语音片段之间的类别,这样的对比方式大大减少了对比工作的耗时;并且边对比边确定待分类语音片段的类别,使得对比成功后,待分类语音片段的类别可以立即确定,即使还存在部分未对比的已分类语音片段进行,也无需再进行对比,从而减少了对比过程中的复杂度,提高了处理效率。
可选的,在上述实施例的基础上,本申请实施例还可提供一种音频处理处理方法,如下结合附图进行解释说明。图4为本申请另一实施例提供的一种音频信号处理方法的流程示意图,如图4所示,S106可包括:
S108:判断第一特征距离是否小于第一预设阈值。
其中,在本申请的一个实施例中,第一预设阈值设置为0,即若第一特征距离小于0,表示当前对比的两个语音片段属于不同的说话人,即确定每个待分类语音片段与对应已分类语音片段的类别不同。
若第一特征距离大于或等于0,则根据特征距离以及每个待分类语音片段的内部特征距离,判断每个待分类语音片段的类别与每个已分类语音片段的类别是否相同,即执行S109:判断第一特征距离以及每个待分类语音片段的内部特征距离的差值是否大于第二预设阈值。
在本申请的一个实施例中,第二预设阈值可以为100,即判断第一特征距离和对应的待分类语音片段的内部特征距离的差值是否大于100。
其中,每个待分类语音片段的内部特征距离是根据每个待分类语音片段的语音特征,和每个待分类语音片段的两个语音子片段的语音特征确定的。即根据每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征,分别确定两个语音子片段与每个已分类语音片段的第二特征距离。
其中,每个待分类语音片段分割后,可以得到该待分类语音片段对应的两个语音子片段。
可选地,在本申请的一个实施例中,对一个待分类语音片段Si,可以将该语音片段从中间分为两段,得到Si对应的两个语音子片段,分别记为
Figure BDA0002414761330000161
Figure BDA0002414761330000162
一个语音片段,可能有多秒音频数据。举例说明:假设当前待分类语音片段有3秒,则Si表示整个3秒语音,
Figure BDA0002414761330000163
表示前1.5秒的语音段,
Figure BDA0002414761330000164
表示后1.5秒的语音段。每个语音段都有多帧的MFCC特征。一般语音帧的长度是0.01毫秒,语音段的单位是秒,一秒的语音段对应100个语音帧,即100个MFCC特征向量。随后按上述计算均值向量和协方差矩阵的方法,分别计算Si
Figure BDA0002414761330000165
Figure BDA0002414761330000166
的均值向量和协方差矩阵,并计算Si的内部特征距离BIC距离。在实际应用中例如可采用下述公式计算Si的内部特征距离:
ΔBIC(i)=-R(i)+λP
Figure BDA0002414761330000167
Figure BDA0002414761330000168
其中,D表示音频特征的维度,ΔBIC(i)为Si的内部特征距离BIC距离,其可被作为一个参考阈值,用于判断Si与其他已分类语音片段是否属于同一类别。λ为可调平衡参数,在本申请的一个实施例中,λ的取值范围可以为0.5-2之间。
若计算得到第一特征距离以及每个待分类语音片段的内部特征距离的差值大于第二预设阈值,则确定每个待分类语音片段与对应已分类语音片段的类别不同,执行S107b:建立新类别,并确定待分类语音片段的类型为新类别。
若第一特征距离以及每个待分类语音片段的内部特征距离的差值小于或等于第二预设阈值,则执行S107a:确定该已分类语音片段的类别为待分类语音片段的类别。
可选的,在上述实施例的基础上,本申请实施例还可提供一种音频处理处理方法,如下结合附图进行解释说明。图5为本申请另一实施例提供的一种音频信号处理方法的流程示意图,如图5所示,该方法还包括:根据两个语音子片段与每个已分类语音片段的第二特征距离的绝对差值,确定每个待分类语音片段的类别。
即S110:判断两个语音子片段与每个已分类语音片段的第二特征距离的绝对差是否大于第三预设阈值。
可选地,在本申请的一个实施例中,第三阈值可以为300。
若绝对差值大于第三预设阈值,则确定每个待分类语音片段的类别为对应已分类语音片段的类别不同,执行S107b:建立新类别,并确定待分类语音片段的类型为新类别。
若绝对差值小于或等于第三预设阈值,则执行S107a:确定该已分类语音片段的类别为待分类语音片段的类别。
可选地,在本申请的一个实施例中,若某一类别中的语音片段数目少于3个,说明当前类别下,说话时间太短,所以将这种语音片段数目少于3个的类别予以删除,删除后的类别个数为最终总类别个数。这样的设置方式防止误判的情况,提高了语音识别的准确性。
为验证本申请提供的方法的有效性,从网络音视频资源、电话语音数据和桌面麦克风数据中,挑选了2000条语音座位待检测音频信号,其中,多人对话语音1000条,单人对话语音1000条,每条语音的长度为20秒-5分钟不等。
按照上述方法提供的步骤,计算每条待检测音频信号的说话人数,并统计判定的正确率,平均准确率的结果如表1所示。
平均准确率
多人语音 96.8%
单人语音 98.5%
同一说话人 99.1%
表1:说话人数判定的正确率
表1中的“同一说话人”是指:对于待检测音频信号为单人语音的情况来说,若说话人数目判定为1,则表示当前判定正确;对于待检测音频信号为多人语音情况,若说话人数目判定大于1人,即使与真实说话人数目不相符,仍然为判定正确。
采用本申请提供的音频信号处理方法,再获取到待检测音频信号中的多个语音片段的语音特征后,只需根据第一个语音片段之后的每个待分类语音片段的语音特征,和至少一个已分类语音片段的语音特征之间的第一特征距离,就可以确定每个待分类语音片段的类别,最终根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,这样的处理方法使得在确定待分类语音片段的类别时,只需将每个待分类语音片段的语音特征与已分类语音片段的语音特征之间进行对比即可,无需对比每个待分类语音片段之间的语音特征,使得对比效率提高,确定待检测音频信号的说话人数的实时性提高,并且由于本申请提出的方法在对音频的处理过程中,没有进行复杂的聚类和重分割,因此不但算法的效率非常高,并且对于后续声纹识别系统的实时性能基本没有影响。
下述结合附图对本申请所提供的音频信号处理装置进行解释说明,该音频信号处理装置可执行上述图1-图5任一音频信号处理方法,其具体实现以及有益效果参照上述,如下不再赘述。
图6为本申请一实施例提供的音频信号处理装置的结构示意图,如图6所示,该装置包括:获取模块201和确定模块202,其中:
获取模块201,用于获取待检测音频信号中多个语音片段的语音特征。
确定模块202,用于根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定每个待分类语音片段的类别;其中,第一个语音片段的类别为预设类别,至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段。
确定模块202,还用于根据第一个语音片段的类别以及每个待分类语音片段的类别,确定待检测音频信号的总类别个数,并根据总类别个数,确定待检测音频信号的说话人数。
图7为本申请一实施例提供的音频信号处理装置的结构示意图,如图7所示,该装置还包括:计算模块203,用于根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,分别计算每个待分类语音片段与至少一个已分类语音片段之间的第一特征距离。
确定模块202,还用于根据第一特征距离,确定每个待分类语音片段的类别。
图8为本申请一实施例提供的音频信号处理装置的结构示意图,如图8所示,该装置还包括:判断模块204,用于根据第一特征距离,判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段。
确定模块202,还用于若存在,则确定所述已分类语音片段的类别为所述待分类语音片段的类别。
确定模块202,还用于若至少一个已分类语音片段中不存在与每个待分类语音片段的类别相同的已分类语音片段,则建立新类别,并确定待分类语音片段的类别为新类别。
可选地,确定模块202,还用于若第一特征距离小于第一预设阈值,则确定每个待分类语音片段与对应已分类语音片段的类别不同。
确定模块202,还用于若第一特征距离大于或等于第一预设阈值,则根据特征距离以及每个待分类语音片段的内部特征距离,判断每个待分类语音片段的类别与每个已分类语音片段的类别是否相同。
可选地,确定模块202,还用于若第一特征距离以及每个待分类语音片段的内部特征距离的差值,大于第二预设阈值,则确定每个待分类语音片段与对应已分类语音片段的类别不同。
可选地,确定模块202,还用于根据每个待分类语音片段的语音特征,和每个待分类语音片段的两个语音子片段的语音特征,确定每个待分类语音片段的内部特征距离。
可选地,确定模块202,还用于根据每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征,分别确定两个语音子片段与每个已分类语音片段的第二特征距离。
确定模块202,还用于根据两个语音子片段与每个已分类语音片段的第二特征距离的绝对差值,确定每个待分类语音片段的类别。
可选地,确定模块202,还用于若绝对差值,大于第三预设阈值,则确定每个待分类语音片段的类别为对应已分类语音片段的类别不同。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图9为本申请一实施例提供的音频信号处理设备的结构示意图,该音频信号处理设备可以集成于终端设备、服务器或者终端设备的芯片。
该音频信号处理设备包括:处理器501、存储介质502和总线503。
处理器501用于存储程序,处理器501调用存储介质502存储的程序,以执行上述图1-图5对应的方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种程序产品,例如存储介质,该存储介质上存储有计算机程序,包括程序,该程序在被处理器运行时执行上述方法对应的实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种音频信号处理方法,其特征在于,所述方法包括:
获取待检测音频信号中多个语音片段的语音特征;
根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定所述每个待分类语音片段的类别;其中,所述第一个语音片段的类别为预设类别,所述至少一个已分类语音片段为所述每个待分类语音片段之前的至少一个语音片段;
根据所述第一个语音片段的类别以及所述每个待分类语音片段的类别,确定所述待检测音频信号中的总类别个数,并根据所述总类别个数,确定所述待检测音频信号的说话人数。
2.如权利要求1所述的方法,其特征在于,所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定所述每个待分类语音片段的类别,包括:
根据第一个语音片段之后的每个待分类语音片段的语音特征和所述至少一个已分类语音片段的语音特征,分别计算所述每个待分类语音片段与所述至少一个已分类语音片段之间的第一特征距离;
根据所述第一特征距离,确定所述每个待分类语音片段的类别。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一特征距离,确定所述每个待分类语音片段的类别,包括:
根据所述第一特征距离,判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段;
若存在,则确定所述已分类语音片段的类别为所述待分类语音片段的类别;
若至少一个所述已分类语音片段中不存在与所述每个待分类语音片段的类别相同的已分类语音片段,则建立新类别,并确定所述待分类语音片段的类别为所述新类别。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一特征距离,判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段,包括:
若所述第一特征距离小于第一预设阈值,则确定所述每个待分类语音片段与对应已分类语音片段的类别不同;
若所述第一特征距离大于或等于所述第一预设阈值,则根据所述特征距离以及所述每个待分类语音片段的内部特征距离,判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同。
5.如权利要求4所述的方法,其特征在于,所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离,判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同,包括:
若所述第一特征距离以及所述每个待分类语音片段的内部特征距离的差值,大于第二预设阈值,则确定所述每个待分类语音片段与对应已分类语音片段的类别不同。
6.如权利要求4所述的方法,其特征在于,所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离,判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同之前,所述方法还包括:
根据所述每个待分类语音片段的语音特征,和所述每个待分类语音片段的两个语音子片段的语音特征,确定所述每个待分类语音片段的内部特征距离。
7.如权利要求1所述的方法,其特征在于,所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征,确定所述每个待分类语音片段的类别包括:
根据所述每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征,分别确定所述两个语音子片段与所述每个已分类语音片段的第二特征距离;
根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值,确定所述每个待分类语音片段的类别。
8.如权利要求7所述的方法,其特征在于,所述根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值,确定所述每个待分类语音片段的类别,包括:
若所述绝对差值,大于第三预设阈值,则确定所述每个待分类语音片段的类别为对应已分类语音片段的类别不同。
9.一种音频信号处理设备,其特征在于,所述设备包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当音频信号处理设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述权利要求1-8任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述权利要求1-8任一项所述的方法。
CN202010189291.9A 2020-03-17 2020-03-17 音频信号处理方法、装置、设备及存储介质 Active CN111402898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010189291.9A CN111402898B (zh) 2020-03-17 2020-03-17 音频信号处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010189291.9A CN111402898B (zh) 2020-03-17 2020-03-17 音频信号处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111402898A true CN111402898A (zh) 2020-07-10
CN111402898B CN111402898B (zh) 2023-07-25

Family

ID=71428894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010189291.9A Active CN111402898B (zh) 2020-03-17 2020-03-17 音频信号处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111402898B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571082A (zh) * 2021-01-21 2021-10-29 腾讯科技(深圳)有限公司 语音通话的控制方法、装置、计算机可读介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2551284A1 (en) * 2005-07-25 2007-01-25 At&T Corp. Methods and systems for natural language understanding using human knowledge and collected data
CN102831890A (zh) * 2011-06-15 2012-12-19 镇江佳得信息技术有限公司 一种对文本无关的声纹进行识别的方法
CN103871424A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN108281146A (zh) * 2017-12-29 2018-07-13 青岛真时科技有限公司 一种短语音说话人识别方法和装置
CN109800299A (zh) * 2019-02-01 2019-05-24 浙江核新同花顺网络信息股份有限公司 一种说话人聚类方法及相关装置
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2551284A1 (en) * 2005-07-25 2007-01-25 At&T Corp. Methods and systems for natural language understanding using human knowledge and collected data
EP1748422A1 (en) * 2005-07-25 2007-01-31 AT&T Corp. Methods and systems for natural language understanding using human knowledge and collected data
CN102831890A (zh) * 2011-06-15 2012-12-19 镇江佳得信息技术有限公司 一种对文本无关的声纹进行识别的方法
CN103871424A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于贝叶斯信息准则的线上说话人聚类分析方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN108281146A (zh) * 2017-12-29 2018-07-13 青岛真时科技有限公司 一种短语音说话人识别方法和装置
CN109800299A (zh) * 2019-02-01 2019-05-24 浙江核新同花顺网络信息股份有限公司 一种说话人聚类方法及相关装置
CN110299150A (zh) * 2019-06-24 2019-10-01 中国科学院计算技术研究所 一种实时语音说话人分离方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赖松轩;李艳雄;: "说话人聚类的初始类生成方法" *
马勇;鲍长春;: "说话人分割聚类研究进展" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571082A (zh) * 2021-01-21 2021-10-29 腾讯科技(深圳)有限公司 语音通话的控制方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
CN111402898B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
WO2018149077A1 (zh) 声纹识别方法、装置、存储介质和后台服务器
CN110265037B (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN110718228B (zh) 语音分离方法、装置、电子设备及计算机可读存储介质
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
US20160111112A1 (en) Speaker change detection device and speaker change detection method
CN112053695A (zh) 声纹识别方法、装置、电子设备及存储介质
CN102968990B (zh) 说话人识别方法和系统
WO2006024117A1 (en) Method for automatic speaker recognition
JP2006079079A (ja) 分散音声認識システム及びその方法
CN111429935B (zh) 一种语音话者分离方法和装置
CN113223536B (zh) 声纹识别方法、装置及终端设备
EP0891618A1 (en) Speech processing
CN103794207A (zh) 一种双模语音身份识别方法
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN113112992B (zh) 一种语音识别方法、装置、存储介质和服务器
CN109065026B (zh) 一种录音控制方法及装置
CN111402898B (zh) 音频信号处理方法、装置、设备及存储介质
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN111785302A (zh) 说话人分离方法、装置及电子设备
CN111933153B (zh) 一种语音分割点的确定方法和装置
CN113077784B (zh) 一种角色识别智能语音设备
CN115457973A (zh) 说话人分割方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant