CN111461173A - 一种基于注意力机制的多说话人聚类系统及方法 - Google Patents

一种基于注意力机制的多说话人聚类系统及方法 Download PDF

Info

Publication number
CN111461173A
CN111461173A CN202010151406.5A CN202010151406A CN111461173A CN 111461173 A CN111461173 A CN 111461173A CN 202010151406 A CN202010151406 A CN 202010151406A CN 111461173 A CN111461173 A CN 111461173A
Authority
CN
China
Prior art keywords
clustering
self
network
feature vector
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010151406.5A
Other languages
English (en)
Other versions
CN111461173B (zh
Inventor
林伟伟
胡康立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010151406.5A priority Critical patent/CN111461173B/zh
Publication of CN111461173A publication Critical patent/CN111461173A/zh
Application granted granted Critical
Publication of CN111461173B publication Critical patent/CN111461173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于注意力机制的多说话人聚类系统及方法,系统包括:噪声去除模块,用于去除音频中噪声;语音活动检测模块,用于检测声音的起始结束位置,分离语音部分和非语音部分;基于自注意力机制的深层次特征向量生成网络,用于提取音频片段的深层次特征向量;基于双向长短期记忆网络Bi‑LSTM以及自注意力机制的全监督聚类网络,用于聚类深层次特征向量并输出聚类结果。本发明的基于注意力机制的多说话人聚类方法,去除了噪声对聚类结果的影响,而且基于自注意力机制的特征向量生成模块能够学习音频的全局结构特征,生成具有判别特性的特征向量。基于Bi‑LSTM及自注意力机制的全监督聚类网络能更好地学习时序以及判别特征,让聚类效果更好。

Description

一种基于注意力机制的多说话人聚类系统及方法
技术领域
本发明涉及语音处理及聚类技术领域,特别涉及一种基于注意力机制的多 说话人聚类系统方法。
背景技术
随着科技和互联网的发展,现代社会中的数据大幅度增长,人类时代已进入 到一个大数据时代,人们所接受的信息庞大而复杂,在这些信息数据中语音数据 占据着重要的地位。而如何从这些语音数据中提取有效的信息,是目前不断在研 究和寻求突破的难点热点。说话人聚类(speaker diarization)是语音处理的 一个重要分支,其主要思想是将一段音频中是不同说话人的部分分离出来,然后 进行聚类,解决一个“谁在什么时候说话”的问题。但是说话人聚类与说话人辨 识不同,说话人聚类着重点在于将一些同质音频片段(homogenous segments) 归为某一个人,而不是将这些音频段辨识为一个特定的人。对于说话人聚类的结 果,可以用于多种应用场景,如分析客服与客户之间对话录音中客户的需求,为 满足客户需求提供更好的服务:音频转录、推荐业务、辅助信息检索等。而传统 的说话人聚类系统主要包括4个部分:(1)音频分割。主要是将输入音频分割成 只包含一个说话人信息的音频片段;(2)音频特征提取。主要是从分割后的音频 片段提取一些重要的特征作为该帧的特征表示;(3)聚类。主要是对音频片段的 特征表示进行聚类,划分不同说话人。(4)重分割。利用聚类结果去进行第二次 精炼,进而获得更好的结果。
但是目前的说话人聚类系统还存在很多的缺点和不足。当语音中含有噪声 时,在进行特征提取之前没有进行去噪处理,会让提取出来的语音特征受到噪声 干扰,进而影响系统的聚类效果。此外,传统的特征提取方法提取出来的特征较 为简单,难以突出不同说话人的音频之间的差异性。同时,说话人聚类系统中的 聚类方法大多数是一些传统的聚类方法,如层次化聚类(Hierarchical Cluster) 以及谱聚类(Spectral Clustering)。但是层次化聚类常常需要设定系统阈值来 进行聚类,受阈值影响较大;而效果较好的谱聚类,其聚类效果主要由相似度矩 阵决定,但是相似度矩阵的构建会受到参数k(邻域范围)、核函数的参数等超 参数的影响,不恰当的参数选择会导致聚类效果低下。而随着神经网络不断被人 们深入研究,深度学习模型逐渐被应用到说话人聚类系统上,特别是在提取音频特征和说话人特征聚类这两个方面。
在特征提取方法的改进上,有利用深度神经网络(DNN)训练提取的特征向 量d-vector,也有利用延时深度神经网络(TDNN)训练生成的特征向量x-vector。 这些方法生成的特征表示都能较为有效地突出不同说话人特征之间的差异性, 但是深度神经网络(DNN)生成的特征向量d-vector没有很好学习帧之间的时 序关系,而延时深度神经网络(TDNN)生成的特征向量x-vector学习音频全局 特性的能力不足。
在聚类方法的改进上,有利用LSTM网络来学习不同帧的相似性,生成一个 相似矩阵作为谱聚类的相似性矩阵,避免了相似性矩阵超参数的不巧当选择造 成的性能下降,但是该方法只能描述帧之间的局部关系,容易造成说话人聚类具 有时间上的聚集性,即一段音频前面一部分都是一个人,后面一部分都是另外一 个人,这种聚类效果对于对话类音频是很不理想的;也有直接利用LSTM网络或 者GRU网络来训练一个全监督聚类网络,针对特定的数据集训练对应的全监督 聚类模型,但是这种模型学习帧特征的判别特性能力不足,而且泛化能力不够。 此外,目前一些结合深度学习的聚类方法,没有使用排列无关的损失函数,只是 利用一些较为简单的损失函数,容易导致聚类效果受到排列顺序影响,模型不容 易收敛。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于注意力 机制的多说话人聚类方法,通过利用基于自注意力机制的深层次特征向量生成 网络来生成具有判别特性的特征向量,利用基于双向长短期记忆网络Bi-LSTM 以及自注意力机制的全监督聚类网络以及排列无关的损失函数来进行聚类,并 且联合优化特征提取以及聚类两个步骤,使得说话人聚类系统的效果得到更好 的提升。
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于注意力机制的多说话人聚类系统,包括噪声去除模 块、语音活动检测模块、深层次特征向量生成模块以及深层次特征向量聚类模块;
所述噪声去除模块,用于去除音频中噪声;
所述语音活动检测模块,用于检测声音的起始以及结束位置,分离语音部分 和非语音部分;
所述深层次特征向量生成模块,基于自注意力机制的深层次特征向量生成 网络,用于提取音频片段的深层次特征向量;
所述深层次特征向量聚类模块,基于双向长短期记忆网络Bi-LSTM以及自 注意力机制的全监督聚类网络,用于聚类深层次的特征向量并输出结果。
作为优选的技术方案,所述基于自注意力机制的深层次特征向量生成网络, 包括P个串联的自注意力机制编码模块,得到的结果经过一个全连接层,最后输 入到一个softmax输出层,其中生成的深层次特征向量是从最后一块自注意力机 制编码模块的输出结果经过标准化得到的,而不是经过全连接层或者softmax层 得到的结果。
作为优选的技术方案,所述深层次特征向量生成网络是一个分类模型,其损 失函数是一个多类交叉熵目标函数,假设在N个音频段中有C个说话人,
Figure BDA0002402563790000041
为第i个含t个帧的音频段
Figure BDA0002402563790000042
是第j说话人speakj的概率,损失函数表 达式如下:
Figure BDA0002402563790000043
其中dij是一个权重参数,其具体表达式如下所示:
Figure BDA0002402563790000044
作为优选的技术方案,所述深层次特征向量生成网络的训练步骤如下:
将音频段分帧并进行语音活动检测处理,得到音频段对应的活动语音帧Ft
对音频段对应的活动语音帧Ft进行特征提取,输入P个串联的自注意力机制 编码模块,得到编码后的特征向量Vt
将特征向量Vt传入全连接层以及softmax层,输出该音频段的说话人概率
Figure BDA0002402563790000045
根据说话人概率
Figure BDA0002402563790000046
计算每一次训练完成后的损失函数值Lossv,并 且利用该损失函数值Lossv进行反向传播,更新基于自注意力机制的深层次特征 向量生成网络的权重;
不断重复上述步骤,直至基于自注意力机制的深层次特征向量生成网络收 敛。
作为优选的技术方案,所述基于双向长短期记忆网络Bi-LSTM以及自注意 力机制的全监督聚类网络包括N个串联的Bi-LSTM模块,得到的结果传入一个 自注意力机制模块,最后输入到一个softmax输出层。
作为优选的技术方案,该基于双向长短期记忆网络Bi-LSTM以及自注意力 机制的全监督聚类网络的损失函数为一个排列无关的损失函数,所述的排列无 关的损失函数中,对于一段由C个说话人的说话音频组成的语音,其中每一个说 话人分配对应的排列序号[1,···,C],共有排列次序情况
Figure BDA0002402563790000051
种,而排列无关的损失 函数值Lossc,则是在所有排列次序情况下给聚类结果选择一种排序使得损失函 数Lossc值最小。
作为优选的技术方案,所述基于双向长短期记忆网络Bi-LSTM以及自注意 力机制的全监督聚类网络的训练方法为:
将基于自注意力机制的深层次特征向量生成网络生成的特征向量Vt传入N 个Bi-LSTM模块;
将经过Bi-LSTM模块处理的结果输入到一个自注意力机制模块;
将经过自注意力机制模块处理的结果输入到softmax输出层,得出聚类结 果;
利用聚类结果计算排列无关的损失函数值Lossc,并且利用该损失函数值 Lossc进行反向传播,更新基于双向长短期记忆网络Bi-LSTM以及自注意力机制 的全监督聚类网络的权重;
不断重复上述步骤,直至基于双向长短期记忆网络Bi-LSTM以及自注意力 机制的全监督聚类网络收敛。
本发明还提供了一种基于注意力机制的多说话人聚类系统的聚类方法,包 括下述步骤:
采集多人对话语音并对其进行标记,并存储于存储器中,构造一个多说话人 语音数据库;
将数据库中的音频数据沿数据流传入到噪声去除模块和语音活动检测模块 进行预处理;
联合训练基于自注意力机制的深层次特征向量生成网络和基于双向长短期 记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络,进行特征提取以及特 征聚类;
所述特征提取的具体步骤为:
将预处理完成的结果活动语音的MFCC特征传入特征提取模块;
将活动语音帧Ft对应的MFCC特征输入P个自注意力机制编码模块,得到深 层次特征向量Vt
将深层次特征向量Vt传入到全连接层以及softmax层,输出该音频段的概 率
Figure BDA0002402563790000061
根据概率
Figure BDA0002402563790000062
以及数据库中获取的标签信息,计算损失函数值Lossv,并且利用该损失函数值Lossv进行反向传播,更新网络的权值;
所述特征聚类具体步骤为:
将生成的深层次特征向量Vt传入N个Bi-LSTM模块;
将Bi-LSTM模块的输出结果传入到一个自注意力机制模块;
将自注意力机制模块的输出结果传入到softmax层,得出聚类结果;
根据聚类结果以及数据库中获得标签信息计算排列无关的损失函数值Lossc, 并且利用该损失函数值Lossc进行反向传播,更新网络的权值;
联合优化两个模块,即通过极小化下列目标函数来优化两个网络:
min L=α·Lossv+(1-α)·Lossc α∈(0,1)
重复以上步骤,直至基于自注意力机制的深层次特征向量生成网络和基于 双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络达到收敛状 态。
作为优选的技术方案,所述预处理为:
去噪处理,所使用的方法包括以下方法及其变体:小波变换、维纳滤波、 LogMMSE、神经网络DNN、CNN;
语音活动检测,所使用的方法以下方法及其变体:短时能量、短时过零率、 神经网络DNN、CNN、LSTM。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明在提取音频特征前,增加了对音频特征的去噪处理步骤,减少 噪声对说话人聚类系统的聚类效果的影响。
(2)本发明中的基于自注意力机制的深层次特征向量生成网络生成的深层 次特征向量具有更好的判别特征,在空间分布上,会使得同一类的特征向量相距 更加接近,不同类的特征向量相距更加远。使用自注意力机制可以学习音频的全 局特征,更好地捕捉帧之间的关系,以便于生成具有判别特性的特征向量。
(3)本发明采用基于双向长短期记忆网络Bi-LSTM以及自注意力机制的 全监督聚类网络,有助于提高说话人的聚类效果。双向长短期记忆网络Bi-LSTM 可以学习具有时序特性的特征向量之间的关系,更加清晰地描述其全局特征以 及局部特征;而自注意力机制可调整对不同帧之间的关注程度(权重),突出特 征向量的判别特征,以便于提高对说话人的聚类效果;此外,利用了排序无关的 损失函数可降低说话人聚类效果因排序问题导致的性能下降的影响。
(4)本发明联合优化基于自注意力机制的深层次特征向量生成网络和基于 双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络,避免了多 步骤优化过程中不同优化方法带来的误差以及误差传递,提高了说话人聚类系 统的效果。
附图说明
图1为本发明基于注意力机制的多说话人聚类方法的流程图示意图。
图2为本发明的一种具体实施方式的流程图示意图。
图3为本发明预处理模块M02实施流程图示意图。
图4为本发明特征提取模块M03实施流程图示意图。
图5为本发明聚类模块M04实施流程图示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方 式不限于此。
实施例
如图1所示,本实施例一种基于注意力机制的多说话人聚类系统,包括噪 声去除模块、语音活动检测模块、深层次特征向量生成模块以及深层次特征向量 聚类模块;
所述噪声去除模块,用于去除音频中噪声;所述的噪声去除模块用于去除音 频背景噪声的方法,包括但不限于以下方法及其变体:小波变换、维纳滤波 (Wienerfiltering)、LogMMSE、神经网络DNN、CNN等。
所述语音活动检测模块,用于检测声音的起始以及结束位置,分离语音部分 和非语音部分;所述的语音活动检测模块用于检测声音的起始以及结束位置,分 离语音部分和非语音部分的方法,包括但不限于以下方法及其组合或者变体:短 时能量(short timeenergy)、短时过零率(short time zero cross rate)、神经网络 DNN、CNN、LSTM等。
所述深层次特征向量生成模块,基于自注意力机制的深层次特征向量生成 网络,用于提取音频片段的深层次特征向量;
所述基于自注意力机制的深层次特征向量生成网络,包括P个串联的自注 意力机制编码模块,得到的结果经过一个全连接层,最后输入到一个softmax输 出层,其中生成的深层次特征向量是从最后一块自注意力机制编码模块的输出 结果经过标准化得到的,而不是经过全连接层或者softmax层得到的结果。
所述深层次特征向量生成网络是一个分类模型,其损失函数是一个多类交 叉熵目标函数,假设在N个音频段中有C个说话人,
Figure BDA0002402563790000091
为某个含t个帧 的音频段是某个说话人j的概率,损失函数表达式如下:
Figure BDA0002402563790000092
Figure BDA0002402563790000093
所述深层次特征向量生成网络的训练步骤如下:
将音频段分帧并进行语音活动检测处理,得到音频段对应的活动语音帧Ft
对音频段对应的活动语音帧Ft进行特征提取,输入P个串联的自注意力机制 编码模块,得到编码后的特征向量Vt
将特征向量Vt传入全连接层以及softmax层,输出该音频段的说话人概率
Figure BDA0002402563790000094
根据说话人概率
Figure BDA0002402563790000095
计算每一次训练完成后的损失函数值Lossv,并 且利用该损失函数值Lossv进行反向传播,更新基于自注意力机制的深层次特征 向量生成网络的权重;
不断重复上述步骤,直至基于自注意力机制的深层次特征向量生成网络收 敛。
所述深层次特征向量聚类模块,基于双向长短期记忆网络Bi-LSTM以及自 注意力机制的全监督聚类网络,用于聚类深层次的特征向量并输出结果。
所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网 络包括N个串联的Bi-LSTM模块,得到的结果传入一个自注意力机制模块,最 后输入到一个softmax输出层。
该基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络 的损失函数为一个排列无关的损失函数,所述的排列无关的损失函数中,对于一 段由C个说话人的说话音频组成的语音,其中每一个说话人分配对应的排列序 号[1,···,C],共有排列次序情况
Figure BDA0002402563790000101
种,而排列无关的损失函数值Lossc,则是在所 有排列次序情况下给聚类结果选择一种排序使得损失函数Lossc值最小。
所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网 络的训练方法为:
将基于自注意力机制的深层次特征向量生成网络生成的特征向量Vt传入N 个Bi-LSTM模块;
将经过Bi-LSTM模块处理的结果输入到一个自注意力机制模块;
将经过自注意力机制模块处理的结果输入到softmax输出层,得出聚类结 果。
利用聚类结果计算排列无关的损失函数值Lossc,并且利用该损失函数值 Lossc进行反向传播,更新基于双向长短期记忆网络Bi-LSTM以及自注意力机制 的全监督聚类网络的权重。
不断重复上述步骤,直至基于双向长短期记忆网络Bi-LSTM以及自注意力 机制的全监督聚类网络收敛。
本发明基于注意力机制的多说话人聚类系统的聚类方法的具体实施流程如 图2所示,但是本发明在训练模型与使用模型预测所需要的步骤不完全类似。 在训练的过程中,图2中标签数据流是必需的,即从数据库传输标签数据流D03、 D04到特征提取模块M03和聚类模块M04是必要的,这些标签信息是用于训练 基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi- LSTM以及自注意力机制的全监督聚类网络。而在使用模型的过程中,标签数据 流D03、D04是不需要传递到特征提取模块M03和聚类模块M04,模型的数据 流向只需要按照图2所示,从数据库中传递音频数据到预处理模块M02,然后 预处理模块M02的结果传递到特征提取模块M03,再将特征提取模块M03的 结果传递到聚类模块M04,最后输出聚类结果。
本实施例一种基于注意力机制的多说话人聚类方法,包括以下步骤:
(1)采集多人对话语音并对其进行标记,并存储于存储器中,构造一个多 说话人语音数据库。
(2)将数据库中的音频数据沿数据流D02传入到预处理模块M02,对音频 进行预处理,如图3所示,预处理模块M02具体步骤如下:
(2.1)去噪处理。对原始音频进行小波分解,得到各细节分量和近似分量, 并设置一个阈值对细节分量进行阈值处理,对大于阈值的细节分量进行置零处 理,然后对处理完成后的分量进行小波重构,得到去噪后音频数据。
(2.2)语音活动检测。首先利用一个大小为25ms,重叠区域为10ms的滑 动窗口对音频进行采样分帧,然后对每一帧提取39维的MFCC特征,以便后续 使用。而检测声音的起始以及结束位置,主要是利用了短时能量(short time energy)以及短时过零率(shorttime zero cross rate)两种检测方法结合的 方法。
进一步的,短时能量计算公式:
Figure BDA0002402563790000121
其中w(k)为窗口函数,N为窗口函数的长度,n为帧的采样率。在此实施 例中w(k)所使用的窗口函数是汉明窗口函数:
Figure BDA0002402563790000122
进一步的,短时过零率计算公式:
Figure BDA0002402563790000123
其中sign(x)为符号函数,具体公式如下所示:
Figure BDA0002402563790000124
更进一步的,语音活动检测的具体实现为:
(a)设定系统的能量阈值Eth、Etl以及过零率阈值Zt,其中Eth>Etl
(b)依次计算每一帧短时能量E(n),当存在某一帧Ft的短时能量E(n)大 于系统设定的能量阈值Eth时,则以该帧Ft为起点,分别向前向后搜索 短时能量E(n)小于能量阈值Etl对应帧的位置Ls、Le
(c)从位置Ls向前搜索短时过零率ZCR(n)小于系统设定的过零率阈值Zt对应帧的位置Voices,作为活动语音段的起始位置;从位置Le向后搜 索短时过零率ZCR(n)小于系统设定的过零率阈值Zt对应帧的位置 Voicee,作为活动语音段的结束位置;
(d)根据上述步骤分离语音部分和非语音部分,丢弃非语音部分,保留语 音部分,并提取语音部分的MFCC特征,作为特征提取模块的输入。
(3)联合训练基于自注意力机制的深层次特征向量生成网络和基于双向长 短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络。该部分主要涉及 特征提取模块M03以及聚类模块M04。
如图4所示,特征提取模块M03具体实现步骤如下:
M03-1.将预处理模块M02处理完成的结果活动语音的MFCC特征传入特征提 取模块;
M03-2.将活动语音帧Ft对应的MFCC特征输入P个自注意力机制编码模块, 得到深层次特征向量Vt
M03-3.将M03-2的结果深层次特征向量Vt传入到全连接层以及softmax层, 输出该音频段的概率
Figure BDA0002402563790000131
M03-4.根据M03-3结果概率
Figure BDA0002402563790000132
以及数据库中经数据流D03获取的 标签信息,计算损失函数值Lossv,并且利用该损失函数值Lossv进行反向传播, 更新网络的权值。
如图5所示,聚类模块M04具体实现步骤如下:
M04-1.将特征提取模块M03生成的深层次特征向量Vt传入N个Bi-LSTM模 块;
M04-2.将M04-1的输出结果传入到一个自注意力机制模块;
M04-3.将M04-2的输出结果传入到softmax层,得出聚类结果;
M04-4.根据M04-3的聚类结果以及数据库中经数据流D04获得标签信息计 算排列无关的损失函数值Lossc,并且利用该损失函数值Lossc进行反向传播,更 新网络的权值。
联合优化两个模块,即通过极小化下列目标函数来优化两个网络:
min L=α·Lossv+(1-α)·Lossc α∈(0,1)
不过重复以上步骤,直至基于自注意力机制的深层次特征向量生成网络和 基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络达到收 敛状态。
(4)网络训练完成,从数据库选取未聚类的音频,如图2所示,将音频数 据传递到预处理模块M02,然后预处理模块M02的结果传递到特征提取模块 M03,再将特征提取模块M03的结果传递到聚类模块M04,最后输出聚类结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实 施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、 替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于注意力机制的多说话人聚类系统,其特征在于,包括噪声去除模块、语音活动检测模块、深层次特征向量生成模块以及深层次特征向量聚类模块;
所述噪声去除模块,用于去除音频中噪声;
所述语音活动检测模块,用于检测声音的起始以及结束位置,分离语音部分和非语音部分;
所述深层次特征向量生成模块,基于自注意力机制的深层次特征向量生成网络,用于提取音频片段的深层次特征向量;
所述深层次特征向量聚类模块,基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络,用于聚类深层次的特征向量并输出结果。
2.根据权利要求1所述基于注意力机制的多说话人聚类系统,其特征在于,所述基于自注意力机制的深层次特征向量生成网络,包括P个串联的自注意力机制编码模块,得到的结果经过一个全连接层,最后输入到一个softmax输出层,其中生成的深层次特征向量是从最后一块自注意力机制编码模块的输出结果经过标准化得到的,而不是经过全连接层或者softmax层得到的结果。
3.根据权利要求2所述基于注意力机制的多说话人聚类系统,其特征在于,所述深层次特征向量生成网络是一个分类模型,其损失函数是一个多类交叉熵目标函数,假设在N个音频段中有C个说话人,
Figure RE-FDA0002499956460000011
为第i个含t个帧的音频段
Figure RE-FDA0002499956460000012
是第j说话人speakj的概率,损失函数表达式如下:
Figure RE-FDA0002499956460000013
其中dij是一个权重参数,其具体表达式如下所示:
Figure RE-FDA0002499956460000014
4.根据权利要求2所述基于注意力机制的多说话人聚类系统,其特征在于,所述深层次特征向量生成网络的训练步骤如下:
将音频段分帧并进行语音活动检测处理,得到音频段对应的活动语音帧Ft
对音频段对应的活动语音帧Ft进行特征提取,输入P个串联的自注意力机制编码模块,得到编码后的特征向量Vt
将特征向量Vt传入全连接层以及softmax层,输出该音频段的说话人概率
Figure RE-FDA0002499956460000021
根据说话人概率
Figure RE-FDA0002499956460000022
计算每一次训练完成后的损失函数值Lossv,并且利用该损失函数值Lossv进行反向传播,更新基于自注意力机制的深层次特征向量生成网络的权重;
不断重复上述步骤,直至基于自注意力机制的深层次特征向量生成网络收敛。
5.根据权利要求1所述基于注意力机制的多说话人聚类系统,其特征在于,所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络包括N个串联的Bi-LSTM模块,得到的结果传入一个自注意力机制模块,最后输入到一个softmax输出层。
6.根据权利要求5所述基于注意力机制的多说话人聚类系统,其特征在于,该基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的损失函数为一个排列无关的损失函数,所述的排列无关的损失函数中,对于一段由C个说话人的说话音频组成的语音,其中每一个说话人分配对应的排列序号[1,···,C],共有排列次序情况
Figure RE-FDA0002499956460000023
种,而排列无关的损失函数值Lossc,则是在所有排列次序情况下给聚类结果选择一种排序使得损失函数Lossc值最小。
7.根据权利要求6所述基于注意力机制的多说话人聚类系统,其特征在于,所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的训练方法为:
将基于自注意力机制的深层次特征向量生成网络生成的特征向量Vt传入N个Bi-LSTM模块;
将经过Bi-LSTM模块处理的结果输入到一个自注意力机制模块;
将经过自注意力机制模块处理的结果输入到softmax输出层,得出聚类结果;
利用聚类结果计算排列无关的损失函数值Lossc,并且利用该损失函数值Lossc进行反向传播,更新基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的权重;
不断重复上述步骤,直至基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络收敛。
8.根据权利要求1-7中任一项所述基于注意力机制的多说话人聚类系统的聚类方法,其特征在于,包括下述步骤:
采集多人对话语音并对其进行标记,并存储于存储器中,构造一个多说话人语音数据库;
将数据库中的音频数据沿数据流传入到噪声去除模块和语音活动检测模块进行预处理;
联合训练基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络,进行特征提取以及特征聚类;
所述特征提取的具体步骤为:
将预处理完成的结果活动语音的MFCC特征传入特征提取模块;
将活动语音帧Ft对应的MFCC特征输入P个自注意力机制编码模块,得到深层次特征向量Vt
将深层次特征向量Vt传入到全连接层以及softmax层,输出该音频段的概率
Figure RE-FDA0002499956460000031
根据概率
Figure RE-FDA0002499956460000032
以及数据库中获取的标签信息,计算损失函数值Lossv,并且利用该损失函数值Lossv进行反向传播,更新网络的权值;
所述特征聚类具体步骤为:
将生成的深层次特征向量Vt传入N个Bi-LSTM模块;
将Bi-LSTM模块的输出结果传入到一个自注意力机制模块;
将自注意力机制模块的输出结果传入到softmax层,得出聚类结果;
根据聚类结果以及数据库中获得标签信息计算排列无关的损失函数值Lossc,并且利用该损失函数值Lossc进行反向传播,更新网络的权值;
联合优化两个模块,即通过极小化下列目标函数来优化两个网络:
min L=α·Lossv+(1-α)·Lossc α∈(0,1)
重复以上步骤,直至基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络达到收敛状态。
9.根据权利要求8所述基于注意力机制的多说话人聚类系统的聚类方法,其特征在于,所述预处理为:
去噪处理,所使用的方法包括以下方法及其变体:小波变换、维纳滤波、LogMMSE、神经网络DNN、CNN;
语音活动检测,所使用的方法以下方法及其变体:短时能量、短时过零率、神经网络DNN、CNN、LSTM。
CN202010151406.5A 2020-03-06 2020-03-06 一种基于注意力机制的多说话人聚类系统及方法 Active CN111461173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010151406.5A CN111461173B (zh) 2020-03-06 2020-03-06 一种基于注意力机制的多说话人聚类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010151406.5A CN111461173B (zh) 2020-03-06 2020-03-06 一种基于注意力机制的多说话人聚类系统及方法

Publications (2)

Publication Number Publication Date
CN111461173A true CN111461173A (zh) 2020-07-28
CN111461173B CN111461173B (zh) 2023-06-20

Family

ID=71684188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010151406.5A Active CN111461173B (zh) 2020-03-06 2020-03-06 一种基于注意力机制的多说话人聚类系统及方法

Country Status (1)

Country Link
CN (1) CN111461173B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348068A (zh) * 2020-10-28 2021-02-09 东南大学 一种基于降噪编码器和注意力机制的时序数据聚类方法
CN112465119A (zh) * 2020-12-08 2021-03-09 武汉理工光科股份有限公司 一种基于深度学习的消防险情预警方法及装置
CN113066507A (zh) * 2021-03-15 2021-07-02 上海明略人工智能(集团)有限公司 端到端说话人分离方法、系统及设备
CN113496102A (zh) * 2021-07-05 2021-10-12 华北电力大学(保定) 一种基于改进BiGRU的配网超短期功率态势预测方法
CN113837607A (zh) * 2021-09-24 2021-12-24 浙江中烟工业有限责任公司 一种卷包剔除相关烟丝损耗异常的实时分析方法和装置
CN114550675A (zh) * 2022-03-01 2022-05-27 哈尔滨理工大学 一种基于CNN--Bi-LSTM网络的钢琴转录方法
CN114998968A (zh) * 2022-06-16 2022-09-02 北京理工大学 一种基于音视频分析课堂交互行为的方法
CN116072125A (zh) * 2023-04-07 2023-05-05 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统
CN116890786A (zh) * 2023-09-11 2023-10-17 江西五十铃汽车有限公司 车辆车锁控制方法、设备和介质
CN118411992A (zh) * 2024-07-02 2024-07-30 成都丰窝科技有限公司 基于asr语音识别的客服工单录入方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN110111797A (zh) * 2019-04-04 2019-08-09 湖北工业大学 基于高斯超矢量和深度神经网络的说话人识别方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110444223A (zh) * 2019-06-26 2019-11-12 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN110111797A (zh) * 2019-04-04 2019-08-09 湖北工业大学 基于高斯超矢量和深度神经网络的说话人识别方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110444223A (zh) * 2019-06-26 2019-11-12 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348068A (zh) * 2020-10-28 2021-02-09 东南大学 一种基于降噪编码器和注意力机制的时序数据聚类方法
CN112465119A (zh) * 2020-12-08 2021-03-09 武汉理工光科股份有限公司 一种基于深度学习的消防险情预警方法及装置
CN113066507B (zh) * 2021-03-15 2024-04-19 上海明略人工智能(集团)有限公司 端到端说话人分离方法、系统及设备
CN113066507A (zh) * 2021-03-15 2021-07-02 上海明略人工智能(集团)有限公司 端到端说话人分离方法、系统及设备
CN113496102A (zh) * 2021-07-05 2021-10-12 华北电力大学(保定) 一种基于改进BiGRU的配网超短期功率态势预测方法
CN113837607A (zh) * 2021-09-24 2021-12-24 浙江中烟工业有限责任公司 一种卷包剔除相关烟丝损耗异常的实时分析方法和装置
CN113837607B (zh) * 2021-09-24 2024-04-30 浙江中烟工业有限责任公司 一种卷包剔除相关烟丝损耗异常的实时分析方法和装置
CN114550675A (zh) * 2022-03-01 2022-05-27 哈尔滨理工大学 一种基于CNN--Bi-LSTM网络的钢琴转录方法
CN114998968A (zh) * 2022-06-16 2022-09-02 北京理工大学 一种基于音视频分析课堂交互行为的方法
CN114998968B (zh) * 2022-06-16 2024-05-31 北京理工大学 一种基于音视频分析课堂交互行为的方法
CN116072125B (zh) * 2023-04-07 2023-10-17 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统
CN116072125A (zh) * 2023-04-07 2023-05-05 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统
CN116890786A (zh) * 2023-09-11 2023-10-17 江西五十铃汽车有限公司 车辆车锁控制方法、设备和介质
CN118411992A (zh) * 2024-07-02 2024-07-30 成都丰窝科技有限公司 基于asr语音识别的客服工单录入方法

Also Published As

Publication number Publication date
CN111461173B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111461173B (zh) 一种基于注意力机制的多说话人聚类系统及方法
Zhou et al. Modality attention for end-to-end audio-visual speech recognition
Chavan et al. An overview of speech recognition using HMM
CN113408385A (zh) 一种音视频多模态情感分类方法及系统
Rajamani et al. A novel attention-based gated recurrent unit and its efficacy in speech emotion recognition
Friedland et al. The ICSI RT-09 speaker diarization system
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
CN111179911A (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
Todkar et al. Speaker recognition techniques: A review
CN110299142A (zh) 一种基于网络融合的声纹识别方法及装置
CN111326139B (zh) 一种语种识别方法、装置、设备及存储介质
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
Jin et al. Multi-head self-attention-based deep clustering for single-channel speech separation
Han et al. Self-supervised learning with cluster-aware-dino for high-performance robust speaker verification
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN110600046A (zh) 基于改进的STARGAN和x向量的多对多说话人转换方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Lung Improved wavelet feature extraction using kernel analysis for text independent speaker recognition
CN118447845A (zh) 一种智能客服对话系统及设备
Ahmad et al. Speech enhancement for multimodal speaker diarization system
CN118136022A (zh) 一种智能语音识别系统及方法
Soni et al. State-of-the-art analysis of deep learning-based monaural speech source separation techniques
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
Park et al. The Second DIHARD Challenge: System Description for USC-SAIL Team.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant