CN111883165B - 说话人语音切分方法、装置、电子设备及存储介质 - Google Patents

说话人语音切分方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111883165B
CN111883165B CN202010633445.9A CN202010633445A CN111883165B CN 111883165 B CN111883165 B CN 111883165B CN 202010633445 A CN202010633445 A CN 202010633445A CN 111883165 B CN111883165 B CN 111883165B
Authority
CN
China
Prior art keywords
frequency cepstrum
coefficient value
cluster
mel
mel frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010633445.9A
Other languages
English (en)
Other versions
CN111883165A (zh
Inventor
单彦会
郭晗暄
张俊杰
孟越涛
李娜
罗红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010633445.9A priority Critical patent/CN111883165B/zh
Publication of CN111883165A publication Critical patent/CN111883165A/zh
Application granted granted Critical
Publication of CN111883165B publication Critical patent/CN111883165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例涉及语音处理技术领域,公开了一种说话人语音切分方法。本发明在初始说话人语音包括静音时进行静音切除,得到标准说话人语音,提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,从所述梅尔频率倒谱特征集中选取不同维度的梅尔频率倒谱特征,得到梅尔频率倒谱特征子集,对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音。本发明还提出一种说话人语音切分装置、电子设备以及计算机可读存储介质。本发明可有效解决语音切分过程中计算量较大、切分准确率低的问题。

Description

说话人语音切分方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及语音处理技术领域,特别涉及一种说话人语音切分的方法、装置、电子设备及可读存储介质。
背景技术
随着社会各行业信息化及自动化程度的不断提升,人们对精准数据的需求越来越高,以预约上门服务录音为例,提供服务的公司想要对员工在上门服务内是否使用规范用语进行检测时,需要对录音中的两个人的语音进行准确的切分,确保一段语音中只有一个说话人,这就是说话人语音切分,进而根据切分后的语音进行智能分析,因此说话人语音切分具有重要意义。
但发明人发现,在对说话人语音切分时有如下弊端:计算音频中每一帧的梅尔频率倒谱特征时计算量较大,且使用全部的梅尔频率倒谱特征,不利于说话人切分,梅尔频率倒谱特征的平滑操作,也会削弱不同说话人的个性化特点,进而影响切分准确率。
发明内容
本发明实施方式的目的在于提供一种说话人语音切分方法、装置、电子设备及存储介质,可提取最优梅尔频率倒谱特征,解决计算量较大、切分准确率低的问题。
为解决上述技术问题,本发明的实施方式提供了一种说话人语音切分方法,所述方法包括:
在初始说话人语音包括静音时进行静音切除,得到标准说话人语音;
提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集;
从所述梅尔频率倒谱特征集中选取不同维度的梅尔频率倒谱特征,得到梅尔频率倒谱特征子集;
对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音。
为了解决上述问题,本发明还提供一种说话人语音切分装置,所述装置包括:
静音切除模块,用于在初始说话人语音包括静音时进行静音切除,得到标准说话人语音;
梅尔频率倒谱特征提取模块,用于提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,从所述梅尔频率倒谱特征集中选取不不同维度的梅尔频率倒谱特征,得到梅尔频率倒谱特征子集;
聚类切分模块,用于对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的说话人语音切分方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的说话人语音切分方法。
本发明实施方式相对于现有技术而言,使用静音切除手段从说话人语音中切除静音语音信息,减小了说话人语音的数据量,缓解后续计算的计算压力,同时提取说话人语音的梅尔频率倒谱特征,并选取不重复的多个梅尔频率倒谱特征组成梅尔频率倒谱特征子集,根据聚类方法对梅尔频率倒谱特征子集进行聚类得到聚类特征集,并计算所述聚类特征集的距离系数值和协方差系数值,因为提取说话人语音的梅尔频率倒谱特征的数量巨大,使用不重复的多个梅尔频率倒谱特征组成子梅尔频率倒谱特征的方法,并根据聚类方法提选取出最优的梅尔频率倒谱特征组,因此有效的避免在提取梅尔频率倒谱特征时数量过大导致计算大的问题,同时选择出最优的梅尔频率倒谱特征组,提高了切分准确率。
另外,所述对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音,包括:
对所述梅尔频率倒谱特征子集进行聚类得到聚类特征集,计算所述聚类特征集的距离系数值集和协方差系数值集;
根据所述距离系数值集和所述协方差系数值集,执行对所述初始说话人语音的切分,得出不同说话人的语音。
另外,所述根据所述距离系数值集和所述协方差系数值集,执行对所述初始说话人语音的切分,得出不同说话人的语音,包括:
根据所述距离系数值集和所述协方差系数值集,计算得到总系数值集;
从所述聚类特征集中选择所述总系数值集对应的聚类特征,得到切分特征集;
根据所述切分特征集,切分所述初始说话人语音,得到不同说话人的语音。
另外,所述距离系数值集的距离系数值的计算方法为:
所述协方差系数值集的协方差系数的计算方法为:
其中,sc表示所述距离系数值,ch表示所述协方差系数值,a表示在所述聚类特征集内同一聚类类别的聚类特征之间的平均距离,b表示所述聚类特征集内不同聚类类别的聚类特征之间的平均距离,m为所述聚类特征集内的聚类特征的数量,k为所述聚类特征集的聚类类别数,Bk为不同聚类类别的协方差矩阵,Wk为同类别的协方差矩阵,tr为协方差矩阵的迹。
另外,所述提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,包括:
对所述标准说话人语音进行分帧及加窗处理,得到分帧数据集;
将所述分帧数据集转变为频域数据集;
使用预构建的梅尔滤波器组,提取所述频域数据集的梅尔频率倒谱特征,得到梅尔频率倒谱特征集。
另外,所述使用预构建的梅尔滤波器组,提取所述频域数据集的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,包括:
根据所述梅尔滤波器组,对所述频域数据集进行平滑处理和降维操作,得到低维频域集;
对所述低维频域集的进行离散余弦变换,得到所述梅尔频率倒谱特征集。
另外,在所述对初始说话人语音进行静音切除,得到标准说话人语音之前,所述方法还包括:
获取原始说话人语音,对所述原始说话人语音进行回声消除操作;
对完成回声消除操作的所述原始说话人语音进行傅里叶变换得到原始频谱数据集;
对所述原始频谱数据集进行数字补偿运算,得到标准频谱数据集,根据所述标准频谱数据集计算得到所述初始说话人语音。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明第一实施例提供的说话人语音切分方法流程示意图;
图2为本发明第一实施例提供的说话人语音切分方法中音频预处理的详细实施流程示意图;
图3为本发明第一实施例提供的说话人语音切分方法中S3的详细实施流程示意图;
图4为本发明第一实施例提供的说话人语音切分方法中S7的详细实施流程示意图;
图5为本发明第二实施例提供的说话人语音切分方法流程示意图;
图6为本发明第三实施例提供的说话人语音切分装置的模块示意图;
图7为本发明第四实施例提供的实现说话人语音切分方法的电子设备的内部结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的实施方式涉及一种说话人语音切分方法,本实施方式的核心在于提取说话人语音的梅尔频率倒谱特征,并选取不重复的多个梅尔频率倒谱特征进行聚类操作及切分出不同说话人的语音,从而有效的解决计算量较大、切分准确率低的问题。下面对本实施方式的说话人语音切分实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
参阅图1所示,图1是本发明第一实施方式中说话人语音切分的流程图,包括:
S1、在初始说话人语音包括静音时进行静音切除,得到标准说话人语音。
本发明实施例中,在对初始说话人语音进行进行切除之前还包括:获取原始说话人语音,对所述原始说话人语音进行音频预处理,得到初始说话人语音。所述原始说话人语音可以是一段利用麦克风等音频设备获取的对话录音数据。本领域技术人员应该了解,麦克风等音频设备捕获到的录音数据可能会存在一些杂音,为了使本发明实施例最终得到的说话人语音切分结果更精确,较佳地,需要对所述原始说话人语音进行音频预处理。
详细地,可参阅图2所示的音频预处理的详细实施流程示意图,所述对所述原始说话人语音进行音频预处理,包括:
S11、对所述原始说话人语音进行回声消除操作,并对完成回声消除操作的所述原始说话人语音进行傅里叶变换得到原始频谱数据集;
S12、对所述原始频谱数据集进行数字补偿运算得到标准频谱数据集,根据所述标准频谱数据集计算得到所述初始说话人语音。
回声一般是因为扬声器发出的声音又被麦克风重新采集作为输入造成的。因此,本发明实施例中所述回声消除操作是以扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用所述远端信号的语音模型对回声进行估计,并不断修改录音装备内的滤波器的系数,使得录音值更加逼近真实的回声。
进一步地,所述数字补偿运算主要是针对在录音中分布广泛、频率相对稳定的白噪声。本发明实施例首先通过傅里叶变换判断原始频谱数据集是否含白噪声,若原始频谱数据集含白噪声,则通过数字补偿的方式对所述原始频谱数据集的白噪声进行处理,得到标准频谱数据集。数字补偿的方式很多种,如利用高斯分布函数计算出补偿值,并与白噪声的频谱进行结合,从而完成数字补偿运算。
所述静音切除的目的是从音频中切除没有讲话内容的片段。据统计,在语音对话中有将近30%时间是静音部分,所以为了减少计算量和切分精度需要把静音部分和实际语音分离开来。
本发明较佳实施例中,所述静音切除的方法可以采用以下两种:一是基于时域的静音切除;二是基于频域的静音切除。
详细地,所述基于时域的静音切除是基于说话人语音的音量、音高、过零率等指标对说话人语音进行静音切除。
其中,所述过零率表示每帧中语音信号通过零点(从正变为负或从负变为正)的次数,所述过零率的计算公式为:
其中,zcr表示过零率,s是语音信号内每个语音采样点的值,T为帧长,函数π{stst-1<0}表示在stst-1<0为真时,数值为1,在stst-1<0为假时值为0的函数。
在通过过零率指标对说话人语音进行切除时,本发明实施例判断每帧的过零率是否有数值变化,若每帧的过零率有数值变化,则表示该帧不是静音,若每帧的过零率没有数值变化,则表示该帧是静音,可将该帧切除。同理,通过判断说话人语音的音量、音高在每帧的数值变化,也可以实现静音切除。
进一步地,所述基于频域的静音切除可分为基于频谱的方差和基于频谱的熵两种方法。在基于频谱的方差的方法中,频谱的方差较大时,表示此段音频中有实际语音,频谱的方差较小时,表示此段音频是静音数据;相反,在基于频谱的熵的方法中,频谱的熵较大,表示此段音频是静音数据,频谱的熵较小,表示此段音频中有实际语音。详细地,本发明实施例将所述初始说话人语音的频谱的方差或者熵与预设阈值进行比较,分离出所述初始说话人语音中的静音部分,并将所述静音部分从所述初始说话人语音中切除。
S2、提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集。
所述梅尔频率倒谱特征也称梅尔频率倒谱系数(Mel Frequency CepstralCoefficient,简称MFCC),是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换而得到的,可有效的代表说话人语音的语音特征功能。
详细地,参阅图3所示,所述S2可的详细实施流程包括:
S21、对所述标准说话人语音进行分帧操作及加窗处理,得到分帧数据集;
S22、将所述分帧数据集转变为频域数据集,使用预构建的梅尔滤波器组提取所述频域数据集的梅尔频率倒谱特征,得到梅尔频率倒谱特征集。
其中,所述分帧操作能够保证得到的每一帧的信号是平稳的。较佳地,本发明较佳实施例选取20ms~50ms的帧长对所述标准说话人语音进行分帧。
进一步地,所述加窗处理可以使每帧信号的幅度在两端渐变到0,以提高每一帧信号的强度。较佳地,本发明实施例将每一帧音频信号与一个固定长度的窗函数相乘,实现所述加窗处理。
此外,由于音频信号在时域中能够利用的信息太少,最好把时域信号变换到频域中,因此,较佳地,本发明实施例将所述分帧数据集转变为频域数据集。本发明实施例可采用当前已公开的FFT(Fast Fourier Transform)技术将所述分帧数据集转变为频域数据集。
进一步地,本发明实施例中,所述使用预构建的梅尔滤波器组提取所述频域数据集的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,包括:根据所述梅尔滤波器组,对所述频域数据集进行平滑处理和降维操作得到低维频域集,对所述低维频域集的进行离散余弦变换得到所述梅尔频率倒谱特征集。
其中,所述梅尔滤波器组由M个具有间隔的三角带通滤波器组成。三角带通滤波器的作用有两个:(1)平滑处理:对频谱进行平滑化,并消除谐波的作用;(2)降维操作:经过梅尔滤波器组后,向量的维度一般为S维,可以降低运算量。本发明实施例中,M取值为22-26,各三角带滤波器之间的间隔随着M值的减小而缩小,随着M值的增大而增宽。所述离散余弦变换简称DCT(Discrete Cosine Transform),为当前公开的计算梅尔频率倒谱特征的方法。
本发明实施例利用上述M个三角带通滤波器组成的梅尔滤波器组,提取所述频域数据集的梅尔频率倒谱特征,得到N个梅尔频率倒谱特征。所述N个梅尔频率倒谱特征即称为梅尔频率倒谱特征集。
S3、从所述梅尔频率倒谱特征集中选取不同维度的梅尔频率倒谱特征得到梅尔频率倒谱特征子集。
如上所述,经过上述S3步骤可以得到N个梅尔频率倒谱特征,本发明实施例从所述N个梅尔频率倒谱特征中随机选取T个特征(T≤N),得到梅尔频率倒谱特征子集。
S4、对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音。
详细地,所述对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音,包括:对所述梅尔频率倒谱特征子集进行聚类得到聚类特征集,计算所述聚类特征集的距离系数值集和协方差系数值集;根据所述距离系数值集和所述协方差系数值集,执行对所述初始说话人语音的切分,得出不同说话人的语音。
本发明较佳实施例可以采用已知的K-Means算法对所述梅尔频率倒谱特征子集进行聚类。详细地,所述距离系数值的计算方法为:
进一步地,所述协方差系数值的计算方法为:
其中,sc表示所述距离系数值,ch表示所述协方差系数值,a表示在所述聚类特征集内同一聚类类别的聚类特征之间的平均距离,b表示所述聚类特征集内不同聚类类别的聚类特征之间的平均距离,m为所述聚类特征集内的聚类特征的数量,k为所述聚类特征集的聚类类别数,Bk为不同聚类类别的协方差矩阵,Wk为同类别的协方差矩阵,tr为协方差矩阵的迹,且Wk越小聚类效果越好,Bk越大聚类效果越好,即ch(k)的值越大越好。
其中,所述聚类类别是将多个梅尔频率倒谱特征划分为不同类别的意思,如一个示例中,有15个梅尔频率倒谱特征,但通过K-Means算法进行聚类发现这15个梅尔频率倒谱特征属于3个人所发出的声音,其中前7个梅尔频率倒谱特征属于第一个人,第8个到第13个梅尔频率倒谱特征属于第二个人,最后2个梅尔频率倒谱特征属于第三个人,因此所述聚类类别为3。在该示例中,第1个梅尔频率倒谱特征和第2个梅尔频率倒谱特征的距离,属于同一聚类类别的聚类特征之间的平均距离,第1个梅尔频率倒谱特征和第15个梅尔频率倒谱特征的距离,属于不同聚类类别的聚类特征之间的平均距离。本发明实施例中,距离系数值集内包括若干距离系数值,同理协方差系数值集包括若干协方差系数值,详细地,所述根据所述距离系数值集和所述协方差系数值集,执行对所述初始说话人语音的切分,得出不同说话人的语音
参阅图4的详细实施流程示意图,包括:
S41、根据所述距离系数值集和所述协方差系数值集,计算得到总系数值集;
S42、从所述聚类特征集中选择所述总系数值集对应的聚类特征,得到切分特征集;
S43、根据所述切分特征集,切分所述初始说话人语音,得到不同说话人的语音。
其中,根据距离系数值集和协方差系数值集,计算得到总系数值集的计算方法为:
ω=α·sc+β·ch
其中,α、β为参数,α+β=1,ω为所述总系数值,如距离系数值集和协方差系数值集内都分别有若干距离系数值和若干协方差系数值,根据每对距离系数值和协方差系数值计算得到总系数值,汇总总系数值得到总系数值集。
进一步地,由距离系数值的计算公式可知:
a,b等对应了聚类特征集内的聚类特征,而总系数值集是根据距离系数值计算得到,因此进一步地,总系数值集与聚类特征集同样具有对应关系,根据这种对应关系可从聚类特征集中选择得到切分特征集。
进一步地,当得到切分特征集后,本发明实施例通过切分特征集在所述原始说话人语音的位置,对应切分所述原始说话人语音可得到语音切分结果,如切分出不同说话人的语音。
优选地,参阅图5所示,本发明第二实施例中,在S4对所述梅尔频率倒谱特征子集进行聚类得到聚类特征集,计算所述聚类特征集的距离系数值集和协方差系数值集之后,还可以包括:
S5、汇总所述距离系数值集和协方差系数值集得到特征值集。
S6、判断所述特征值集是否满足预设的特征阈值,当所述特征值集不满足所述预设的特征阈值时,返回上述S3。
S7、当所述特征值集满足所述预设的特征阈值时,切分所述标准说话人语音,得出不同说话人的语音。
其中,所述预设的特征阈值是一个预设的聚类退出条件。如上所述,所述特征值集包括距离系数值集和所述协方差系数值集,则本发明实施例中,所述预设的特征阈值包括标准距离系数值以及协方差系数值。其中,所述标准距离系数值、所述标准协方差系数值都为经验值,可预先设定。
详细地,本发明实施例判断所述距离系数值与预设的标准距离系数值的大小关系,若所述距离系数值小于或等于所述标准距离系数值,则返回S3;当所述距离系数值大于所述标准距离系数值时,继续判断所述协方差系数值与预设的标准协方差系数值的大小关系;当所述协方差系数值小于或等于所述标准协方差系数值时,返回S3;当所述协方差系数值同样大于所述标准协方差系数值时,执行所述S7。
本发明实施方式相对于现有技术而言,使用静音切除手段从说话人语音中切除静音语音信息,减小了说话人语音的数据量,缓解后续计算的计算压力,同时提取说话人语音的梅尔频率倒谱特征,并选取不重复的多个梅尔频率倒谱特征组成梅尔频率倒谱特征子集,根据聚类方法对梅尔频率倒谱特征子集进行聚类得到聚类特征集,并计算所述聚类特征集的特征值,因为提取说话人语音的梅尔频率倒谱特征的数量巨大,使用不重复的多个梅尔频率倒谱特征组成子梅尔频率倒谱特征的方法,并根据聚类方法提选取出最优的梅尔频率倒谱特征组,因此有效的避免在提取梅尔频率倒谱特征时数量过大导致计算大的问题,同时选择出最优的梅尔频率倒谱特征组,提高了切分准确率。
图6所示,是本发明第三实施例提供的说话人语音切分装置的模块示意图。
本发明所述说话人语音切分装置100可以安装于电子设备中。根据实现的功能,所述说话人语音切分装置可以包括静音切除模块101、梅尔频率倒谱特征提取模块102、聚类切分模块103。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
静音切除模块101,用于对初始说话人语音进行静音切除,得到标准说话人语音。
梅尔频率倒谱特征提取模块102,用于提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,从所述梅尔频率倒谱特征集中选取不重复的多个梅尔频率倒谱特征,得到梅尔频率倒谱特征子集。
聚类切分模块103,用于对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音。
本申请所提供的说话人语音切分装置中的模块能够在使用提取说话人语音的梅尔频率倒谱特征,并选取不重复的多个梅尔频率倒谱特征进行聚类操作得到特征值,根据特征值切分出不同说话人的语音,其在具体运行时可以取得上述的方法实施例一样的技术效果,即有效的解决计算量较大、切分准确率低的问题。
如图7所示,本发明第四实施例提供的实现说话人语音切分方法的电子设备的内部结构示意图。
所述电子设备1可以包括处理器12、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器12上运行的计算机程序,如说话人语音切分程序10。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如说话人语音切分程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器12是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行说话人语音切分程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器12等之间的连接通信。
图7仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图7示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器12逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的说话人语音切分程序10是多个指令的组合,在所述处理器12中运行时,可以实现上述方法,在此不在赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有说话人语音切分程序,所述说话人语音切分程序可被一个或多个处理器执行,以实现如下操作:
在初始说话人语音包括静音时进行静音切除,得到标准说话人语音;
提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集;
从所述梅尔频率倒谱特征集中选取不同维度的梅尔频率倒谱特征,得到梅尔频率倒谱特征子集;
对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种说话人语音切分方法,其特征在于,所述方法包括:
在初始说话人语音包括静音时进行静音切除,得到标准说话人语音;
提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集;
从所述梅尔频率倒谱特征集中选取不同维度的梅尔频率倒谱特征,得到梅尔频率倒谱特征子集;
对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音;
所述对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音,包括:对所述梅尔频率倒谱特征子集进行聚类得到聚类特征集,计算所述聚类特征集的距离系数值集和协方差系数值集;
根据所述距离系数值集和所述协方差系数值集,执行对所述初始说话人语音的切分,得出不同说话人的语音;其中,根据所述距离系数值集和所述协方差系数值集,计算得到总系数值集;从所述聚类特征集中选择所述总系数值集对应的聚类特征,得到切分特征集;根据所述切分特征集,切分所述初始说话人语音,得到不同说话人的语音。
2.根据权利要求1所述的说话人语音切分方法,其特征在于,所述距离系数值集的距离系数值的计算方法为:
所述协方差系数值集的协方差系数的计算方法为:
其中,sc表示所述距离系数值,ch表示所述协方差系数值,a表示在所述聚类特征集内同一聚类类别的聚类特征之间的平均距离,b表示所述聚类特征集内不同聚类类别的聚类特征之间的平均距离,m为所述聚类特征集内的聚类特征的数量,k为所述聚类特征集的聚类类别数,Bk为不同聚类类别的协方差矩阵,Wk为同类别的协方差矩阵,tr为协方差矩阵的迹。
3.根据权利要求1所述的说话人语音切分方法,其特征在于,所述提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,包括:
对所述标准说话人语音进行分帧及加窗处理,得到分帧数据集;
将所述分帧数据集转变为频域数据集;
使用预构建的梅尔滤波器组,提取所述频域数据集的梅尔频率倒谱特征,得到梅尔频率倒谱特征集。
4.根据权利要求3所述的说话人语音切分方法,其特征在于,所述使用预构建的梅尔滤波器组,提取所述频域数据集的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,包括:
根据所述梅尔滤波器组,对所述频域数据集进行平滑处理和降维操作,得到低维频域集;
对所述低维频域集的进行离散余弦变换,得到所述梅尔频率倒谱特征集。
5.根据权利要求1至4任意一项的所述说话人语音切分方法,其特征在于,在所述对初始说话人语音进行静音切除,得到标准说话人语音之前,所述方法还包括:
获取原始说话人语音,对所述原始说话人语音进行回声消除操作;
对完成回声消除操作的所述原始说话人语音进行傅里叶变换得到原始频谱数据集;
对所述原始频谱数据集进行数字补偿运算,得到标准频谱数据集,根据所述标准频谱数据集计算得到所述初始说话人语音。
6.一种说话人语音切分装置,其特征在于,所述装置包括:
静音切除模块,用于在初始说话人语音包括静音时进行静音切除,得到标准说话人语音;
梅尔频率倒谱特征提取模块,用于提取所述标准说话人语音的梅尔频率倒谱特征,得到梅尔频率倒谱特征集,从所述梅尔频率倒谱特征集中选取不同维度的多个梅尔频率倒谱特征,得到梅尔频率倒谱特征子集;
聚类切分模块,对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音;所述对所述梅尔频率倒谱特征子集进行聚类切分,得到不同说话人的语音,包括:对所述梅尔频率倒谱特征子集进行聚类得到聚类特征集,计算所述聚类特征集的距离系数值集和协方差系数值集;根据所述距离系数值集和所述协方差系数值集,执行对所述初始说话人语音的切分,得出不同说话人的语音;其中,根据所述距离系数值集和所述协方差系数值集,计算得到总系数值集;从所述聚类特征集中选择所述总系数值集对应的聚类特征,得到切分特征集;根据所述切分特征集,切分所述初始说话人语音,得到不同说话人的语音。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一所述的说话人语音切分方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的说话人语音切分方法。
CN202010633445.9A 2020-07-02 2020-07-02 说话人语音切分方法、装置、电子设备及存储介质 Active CN111883165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010633445.9A CN111883165B (zh) 2020-07-02 2020-07-02 说话人语音切分方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010633445.9A CN111883165B (zh) 2020-07-02 2020-07-02 说话人语音切分方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111883165A CN111883165A (zh) 2020-11-03
CN111883165B true CN111883165B (zh) 2024-06-18

Family

ID=73151416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010633445.9A Active CN111883165B (zh) 2020-07-02 2020-07-02 说话人语音切分方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111883165B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
KR20140012221A (ko) * 2012-07-04 2014-02-03 금오공과대학교 산학협력단 표준편차 기반의 음원의 특징 축소 방법을 이용하는 음악 분위기 자동 판별 시스템 및 방법
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314392B1 (en) * 1996-09-20 2001-11-06 Digital Equipment Corporation Method and apparatus for clustering-based signal segmentation
JP5109050B2 (ja) * 2007-07-13 2012-12-26 学校法人早稲田大学 音声処理装置およびプログラム
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
JP2011081324A (ja) * 2009-10-09 2011-04-21 National Institute Of Advanced Industrial Science & Technology ピッチ・クラスター・マップを用いた音声認識方法
KR101593672B1 (ko) * 2014-10-29 2016-02-15 고려대학교 산학협력단 음향 분리 방법 및 장치
CN105845140A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 应用于短语音条件下的说话人确认方法和装置
US10026405B2 (en) * 2016-05-03 2018-07-17 SESTEK Ses velletisim Bilgisayar Tekn. San. Ve Tic A.S. Method for speaker diarization
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN111048099A (zh) * 2019-12-16 2020-04-21 随手(北京)信息技术有限公司 声音源的识别方法、装置、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140012221A (ko) * 2012-07-04 2014-02-03 금오공과대학교 산학협력단 표준편차 기반의 음원의 특징 축소 방법을 이용하는 음악 분위기 자동 판별 시스템 및 방법
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法

Also Published As

Publication number Publication date
CN111883165A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
WO2018149077A1 (zh) 声纹识别方法、装置、存储介质和后台服务器
CN100505040C (zh) 基于决策树和说话人改变检测的音频分割方法
US20160111112A1 (en) Speaker change detection device and speaker change detection method
CN100485780C (zh) 基于基音频率的快速音频分割方法
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
CN110880329A (zh) 一种音频识别方法及设备、存储介质
WO2021151310A1 (zh) 语音通话的噪声消除方法、装置、电子设备及存储介质
CN110047519B (zh) 一种语音端点检测方法、装置及设备
CN107680584B (zh) 用于切分音频的方法和装置
Pillos et al. A Real-Time Environmental Sound Recognition System for the Android OS.
CN116524939A (zh) 一种基于ecapa-tdnn的鸟鸣物种自动识别方法
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
CN111883165B (zh) 说话人语音切分方法、装置、电子设备及存储介质
Zhan et al. Audio post-processing detection and identification based on audio features
CN110379438A (zh) 一种语音信号基频检测与提取方法及系统
Mondal et al. Speech activity detection using time-frequency auditory spectral pattern
Singh et al. A comparative study on feature extraction techniques for language identification
CN114360580B (zh) 基于多特征决策融合的音频copy-move篡改检测与定位方法和系统
CN116072123B (zh) 广播信息播放方法、装置、可读存储介质及电子设备
CN112509556A (zh) 一种语音唤醒方法及装置
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质
CN118588112B (zh) 一种针对非言语信号的交流状态分析方法、设备及介质
CN117153185B (zh) 通话处理方法、装置、计算机设备和存储介质
CN115206345B (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant