CN114678037A - 一种重叠语音的检测方法、装置、电子设备及存储介质 - Google Patents

一种重叠语音的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114678037A
CN114678037A CN202210385565.0A CN202210385565A CN114678037A CN 114678037 A CN114678037 A CN 114678037A CN 202210385565 A CN202210385565 A CN 202210385565A CN 114678037 A CN114678037 A CN 114678037A
Authority
CN
China
Prior art keywords
voice
overlapping
amplitude
feature
overlapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210385565.0A
Other languages
English (en)
Other versions
CN114678037B (zh
Inventor
万同堂
邓菁
郑榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN202210385565.0A priority Critical patent/CN114678037B/zh
Publication of CN114678037A publication Critical patent/CN114678037A/zh
Application granted granted Critical
Publication of CN114678037B publication Critical patent/CN114678037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供了一种重叠语音的检测方法、装置、电子设备及存储介质,包括:将待检测语音输入特征提取网络层,确定出待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;将各个音频段的幅度谱语音特征输入第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的相位谱语音特征输入第二残差网络层,确定出相位重叠得分矩阵;将幅度重叠得分矩阵和幅度重叠得分矩阵输入聚合网络层进行聚合处理,确定待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。通过将待检测语音输入到重叠语音检测模型中,将幅度重叠得分矩阵、相位重叠得分矩阵进行聚合处理,从而可以提高对重叠语音识别的准确率。

Description

一种重叠语音的检测方法、装置、电子设备及存储介质
技术领域
本申请涉及语音检测技术领域,尤其是涉及一种重叠语音的检测方法、装置、电子设备及存储介质。
背景技术
语音重叠检测是指在一段连续的多人说话的语音中检出多人同时说话的起始时间和结束时间。随着人工智能技术的发展,对于语音重叠算法的精度要求越来越高,因为在智能音箱、助听器、会议记录等应用设备中,麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰,若是不能准确地确定出重叠语音,将会严重影响到后端的应用,出现目标语音不清晰、语义识别不准或记录不准确的问题。
现阶段,一般采用基于无监督聚类的语音重叠算法进行确定,但是这种方法在面对大数据量语音文件时会导致更容易受到噪声信息的干扰,导致最终重叠语音确定的准确率降低。所以,如何快速准确的确定出重叠语音成为了亟需解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种重叠语音的检测方法、装置、电子设备及存储介质,从而提高对重叠语音识别的准确率。
本申请实施例提供了一种重叠语音的检测方法,所述检测方法包括:
获取待检测语音;
将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;
将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵;其中,所述幅度重叠得分矩阵表征所述待检测语音的每个音频段在幅度维度上的重叠程度;所述相位重叠得分矩阵表征所述待检测语音的每个音频段在相位维度上的重叠程度;所述第一残差网络层和所述第二残差网络层均包括多头注意力机制提取单元;
将所述幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,确定所述待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。
在一种可能的实施方式中,通过以下步骤训练所述重叠语音检测模型:
获取多条非重叠样本语音;
针对任意至少两条所述非重叠样本语音,对该至少两条所述非重叠样本语音进行重叠构造,确定出一条重叠样本语音;其中,所述重叠样本语音为该至少两条所述非重叠样本语音进行全部重叠构造或部分重叠构造生成的;
基于确定出的多条所述重叠样本语音所携带的重叠语音标签和多条非重叠样本语音所携带的非重叠语音标签对初始神经网络模型进行训练,确定出所述重叠语音检测模型。
在一种可能的实施方式中,将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵,包括:
针对于每个所述音频段的所述幅度谱语音特征,将所述幅度谱语音特征输入至一维卷积单元,对所述幅度谱语音特征进行一维卷积处理,确定出幅度谱语音第一特征;
将所述幅度谱语音第一特征输入至多尺度特征提取单元,对所述幅度谱语音第一特征在多尺度特征维度上进行非线性特征拟和,确定出幅度谱语音第二特征;
将所述幅度谱语音第二特征输入至多头注意力机制提取单元,对所述幅度谱语音第二特征进行加权平均值和加权标准差处理,确定出幅度谱语音第三特征;
将所述幅度谱语音第三特征输入至降维单元,对所述幅度谱语音第三特征进行降维处理,确定出幅度谱语音第四特征;
将所述幅度谱语音第四特征输入至分类单元,对所述幅度谱语音第四特征进行二分类处理,确定出幅度重叠得分向量;
基于各个所述音频段的幅度重叠得分向量,确定所述幅度重叠得分矩阵;
其中,所述第一残差网络层包括所述一维卷积单元、所述多尺度特征提取单元、所述多头注意力机制提取单元、所述降维单元以及所述分类单元。
在一种可能的实施方式中,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
对所述幅度重叠得分矩阵和所述相位重叠得分矩阵进行平均值计算,确定出平均值矩阵;
基于所述平均值矩阵,确定出所述待检测语音中是否存在重叠语音。
在一种可能的实施方式中,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
基于所述幅度重叠得分矩阵、幅度重叠得分矩阵所对应的音频段在幅度维度上的重叠程度标签、相位重叠得分矩阵以及相位重叠得分矩阵所对应的音频段在相位维度上的重叠程度标签,确定出得分矩阵标签数据集;
利用惩罚函数,对所述得分矩阵标签数据集进行构造并求解凸二次规划,确定出拉格朗日乘子的最优解序列;
在所述拉格朗日乘子的最优解序列中的任一个拉格朗日乘子的分量进行计算,确定出分类决策函数;
基于所述分类决策函数,确定所述待检测语音中是否存在重叠语音。
在一种可能的实施方式中,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
利用全连接网络和前向计算公式,对所述幅度重叠得分矩阵以及所述幅度重叠得分矩阵进行处理,确定所述待检测语音中是否存在重叠语音。
在一种可能的实施方式中,所述将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段幅度谱语音特征和每一音频段相位谱语音特征,包括:
对所述待检测语音进行分帧处理确定出多个音频段;
对每个所述音频段进行傅里叶处理,确定出每一音频段的幅度谱语音特征和相位谱语音特征。
本申请实施例还提供了一种重叠语音的检测装置,所述检测装置包括:
获取模块,用于获取待检测语音;
语音特征确定模块,用于将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;
得分矩阵确定模块,用于将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵;其中,所述幅度重叠得分矩阵表征所述待检测语音的每个音频段在幅度维度上的重叠程度;所述相位重叠得分矩阵表征所述待检测语音的每个音频段在相位维度上的重叠程度;所述第一残差网络层和所述第二残差网络层均包括多头注意力机制提取单元;
重叠语音确定模块,用于将所述幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,确定所述待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的一种重叠语音的检测方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的一种重叠语音的检测方法的步骤。
本申请提供了一种重叠语音的检测方法、装置、电子设备及存储介质,通过将待检测语音输入到特征提取网络层,快速准确地确定出幅度谱语音特征和相位谱语音特征,然后将得到的幅度谱语音特征输入第一残差网络层,相位谱语音特征输入第二残差网络层,在第一残差网络层和第二残差网络层对幅度谱语音特征、相位谱语音特征进行多头注意力机制处理,从而提高得分矩阵确定的准确率,最后将得分矩阵进行聚合处理,从而可以提高对重叠语音识别的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种重叠语音的检测方法的流程图;
图2为本申请实施例所提供的重叠语音检测模型的网络结构示意图;
图3为本申请实施例所提供的一种重叠语音的检测装置的结构示意图之一;
图4为本申请实施例所提供的一种重叠语音的检测装置的结构示意图之二;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“对重叠语音进行确定”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行对重叠语音进行确定的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的一种重叠语音的检测方法、装置、电子设备及存储介质的方案均在本申请保护范围内。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于语音检测技术领域。
语音重叠检测是指在一段连续的多人说话的语音中检出多人同时说话的起始时间和结束时间。随着人工智能技术的发展,对于语音重叠算法的精度要求越来越高,因为在智能音箱、助听器、会议记录等应用设备中,麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰,若是不能准确地确定出重叠语音,将会严重影响到后端的应用,出现目标语音不清晰、语义识别不准或记录不准确的问题。
经研究发现,现阶段,一般采用基于无监督聚类的语音重叠算法进行确定,但是这种方法在面对大数据量语音文件时会导致更容易受到噪声信息的干扰,导致最终重叠语音确定的准确率降低。所以,如何快速准确的确定出重叠语音成为了亟需解决的问题。
基于此,本申请实施例提供了一种重叠语音的检测方法,从而提高对重叠语音识别的准确率。
请参阅图1,图1为本申请实施例所提供的一种重叠语音的检测方法的流程图。如图1中所示,本申请实施例提供的检测方法,包括:
S101:获取待检测语音。
该步骤中,可以在会议期间、谈话期间中获取到一段待检测语音,并且对待检测语音进行去除静音段处理。这里,不限定待检测语音的来源以及获取方式。
这里,待检测语音可以包含人声、背景音乐等。
S102:将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征。
该步骤中,将待检测语音输入到重叠语音检测模型的特征提取网络层,确定出待检测语音的每一个音频段的幅度谱语音特征和相位谱语音特征。
其中,幅度谱语音特征为所述待检测语音在幅度上的二维语音特征;相位谱语音特征为所述待检测语音在相位上的二维语音特征。
这里,重叠语音检测模型是用于对检测语音进行重叠语音检测。其中,重叠语音包括特征提取网络层、第一残差网络层、第二残差网络层以及聚合网络层。
进一步的,通过以下步骤训练所述重叠语音检测模型:
(1):获取多条非重叠样本语音。
其中,可以在单个人的说话语音之中获取多条非重叠样本语音。
其中,非重叠样本语音均为纯净语音。
(2):针对任意至少两条所述非重叠样本语音,对该至少两条所述非重叠样本语音进行重叠构造,确定出一条重叠样本语音;其中,所述重叠样本语音为该至少两条所述非重叠样本语音进行全部重叠构造或部分重叠构造生成的。
这里,对任意至少两条非重叠样本语音进行重叠构造,确定出一条样本重叠语音。
这里,重叠构造分为部分重叠构造和全部重叠构造,全部重叠构造为至少两条非重叠样本语音的语音全部重叠,部分重叠构造为至少两条非重叠样本语音的语音部分重叠。
举例来讲,假设已有纯净语音集合S={w1,w2,w3,...,wN},从S中随机取2条语音进行重叠,重叠方式分为全部重叠和部分重叠,并记录重叠语音的起止时间t_start,t_end。
(3):基于确定出的多条所述重叠样本语音所携带的重叠语音标签和多条非重叠样本语音所携带的非重叠语音标签对初始神经网络模型进行训练,确定出所述重叠语音检测模型。
其中,重叠样本语音所对应的重叠语音标签为1,非重叠样本语音所对应的非重叠语音标签为0,利用多个重叠语音标签和多个非重叠语音标签对初始神经网络模型进行多次训练,确定出重叠语音检测模型。
进一步的,所述将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段幅度谱语音特征和每一音频段相位谱语音特征,包括:
1):对所述待检测语音进行分帧处理确定出多个音频段。
其中,对待检测语音进行分帧处理得到多个音频段。
2):对每个所述音频段进行傅里叶处理,确定出每一音频段的幅度谱语音特征和相位谱语音特征。
其中,针对于每个音频段,对该音频段进行傅里叶处理之后的得到的频域信号F=a*i+b,其中,a为傅里叶变换后的实部,b为傅里叶变换的虚部。然后提取频域信号的幅度和相位,其中幅度A=sqrt(a^2+b^2),相位P=atan(a/b),进而确定出每一音频段的幅度谱语音特征和相位谱语音特征。
在具体实施例中,将频率为8000Hz的待检测分成[0,1600],[1600,3200],[3200,4800],[4800,6400]以及[6400,8000]五个音频段,然后对这五个音频段进行傅里叶处理,确定出每一音频段所对应的幅度谱语音特征和相位谱语音特征。
S103:将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵。
该步骤中,可以同时将各个音频段的幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵。
其中,所述幅度重叠得分矩阵表征所述待检测语音的每个音频段在幅度维度上的重叠程度;所述相位重叠得分矩阵表征所述待检测语音的每个音频段在相位维度上的重叠程度;所述第一残差网络层和所述第二残差网络层均包括多头注意力机制提取单元。
其中,相位重叠得分矩阵表征待检测语音的每个音频段在相位维度上的重叠程度,相位重叠得分矩阵是由多个音频段在相位维度上的重叠程度组成。举例来讲,相位重叠得分矩阵{0,1,1,1,0…},0表征音频段在相位维度上不重叠,1表征音频段在相位维度上重叠。
其中,幅度重叠得分矩阵表征待检测语音的每个音频段在幅度维度上的重叠程度。幅度重叠得分矩阵是由多个音频段在幅度维度上的重叠程度组成。举例来讲,幅度重叠得分矩阵{0,1,1,1,0…},0表征音频段在幅度维度上不重叠,1表征音频段在幅度维度上重叠。
这里,第一残差网络层和第二残差网络层的内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失的问题。
进一步的,将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵,包括:
A:针对于每个所述音频段的所述幅度谱语音特征,将所述幅度谱语音特征输入至一维卷积单元,对所述幅度谱语音特征进行一维卷积处理,确定出幅度谱语音第一特征。
这里,将每个音频段所对应的幅度谱语音特征输入到一维卷积单元之中,每个幅度谱语音特征进行一维卷积处理,确定出幅度谱语音第一特征。
其中,幅度谱语音第一特征为对幅度谱语音特征进行一维卷积处理所得到的。
B:将所述幅度谱语音第一特征输入至多尺度特征提取单元,对所述幅度谱语音第一特征在多尺度特征维度上进行非线性特征拟和,确定出幅度谱语音第二特征。
这里,将一维卷积处理后的幅度谱语音第一特征输入到多尺度特征提取单元,以使对幅度谱语音第一特征在多尺度特征维度上进行非线性特征拟和,进而可以在多尺度维度上对幅度谱语音第一特征进行特征提取,确定出幅度谱语音第二特征。
这里,多尺度特征提取单元包括第一特征提取单元和第二特征提取单元,将所述幅度谱语音第一特征输入至所述第一特征提取单元,对所述幅度谱语音第一特征进行特征提取,确定出幅度谱语音第一参考特征;将所述幅度谱语音第一参考特征输入至所述第二特征提取单元,对所述幅度谱语音第二特征进行特征提取,确定出幅度谱语音第二参考特征;将所述幅度谱语音第一参考特征和所述幅度谱语音第二参考特征进行特征拼接,确定出所述幅度谱语音第二特征。
C:将所述幅度谱语音第二特征输入至多头注意力机制提取单元,对所述幅度谱语音第二特征进行加权平均值和加权标准差处理,确定出幅度谱语音第三特征。
这里,将多尺度特征提取之后的幅度谱语音第二特征输入至多头注意力机制提取单元,在多头注意力机制提取单元之中对幅度谱语音第二特征进行加权平均值和加权标准差处理,确定出幅度谱语音第三特征。
D:将所述幅度谱语音第三特征输入至降维单元,对所述幅度谱语音第三特征进行降维处理,确定出幅度谱语音第四特征。
这里,将幅度谱语音第三特征输入至降维单元,对所述幅度谱语音第三特征进行降维处理,以便确定出符合预设要求的幅度谱语音第四特征。
E:将所述幅度谱语音第四特征输入至分类单元,对所述幅度谱语音第四特征进行二分类处理,确定出幅度重叠得分向量。
这里,将幅度谱语音第四特征输入至分类单元,对幅度谱语音第四特征进行二分类处理,判断幅度谱语音第四特征在幅度维度上的是否重叠,并确定出幅度重叠得分向量。
F:基于各个所述音频段的幅度重叠得分向量,确定所述幅度重叠得分矩阵。
这里,若音频段的幅度重叠得分向量大于或等于预设重叠得分向量,则该音频段的幅度重叠用1表示,若音频段的幅度重叠得分向量小于预设重叠得分向量,则该音频段的幅度重叠用0表示,这里,1代表幅度重叠,0代表幅度不重叠,此部分不限定幅度重叠的表达形式。
其中,先对每个音频段的幅度重叠得分向量进行判断,确定出每个音频段所对应的重叠程度,然后将每个音频段所对应的重叠程度按照每个音频段的起始时间进行排序得到幅度重叠得分矩阵。
举例来讲,将10s的待检测语音分成2个音频段分别为0s-5s,5s-10s,对这两个音频段的幅度谱语音特征进行提取,并输入到重叠语音检测模型的第一残差网络层之中,确定出0s-5s音频段对应的幅度重叠得分向量为0.8,5s-10s音频段对应的幅度重叠得分向量为0.6,将两个重叠得分向量分别与预设重叠得分向量0.7进行比较,确定出0s-5s音频段在幅度维度上重叠,并用1表征。确定出5s-10s音频段在幅度维度上不重叠,并用0表征,所以得到的幅度重叠得分矩阵为{1,0}。
其中,所述第一残差网络层包括所述一维卷积单元、多尺度特征提取单元、所述多头注意力机制提取单元、降维单元以及分类单元。
进一步的,其中,将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵,包括:
针对于每个所述音频段的所述相位谱语音特征,将所述相位谱语音特征输入至一维卷积单元,对所述相位谱语音特征进行一维卷积处理,确定出相位谱语音第一特征;
将所述相位谱语音第一特征输入至多尺度特征提取单元,对所述相位谱语音第一特征在多尺度特征维度上进行非线性特征拟和,确定出相位谱语音第二特征;
将所述相位谱语音第二特征输入至多头注意力机制提取单元,对所述相位谱语音第二特征进行加权平均值和加权标准差处理,确定出相位谱语音第三特征;
将所述相位谱语音第三特征输入至降维单元,对所述相位谱语音第三特征进行降维处理,确定出相位谱语音第四特征;
将所述相位谱语音第四特征输入至分类单元,对所述相位谱语音第四特征进行二分类处理,确定出相位重叠得分向量;
基于各个所述音频段的相位重叠得分向量,确定所述幅相位重叠得分矩阵;
其中,所述第二残差网络层包括所述一维卷积单元、所述多尺度特征提取单元、所述多头注意力机制提取单元、所述降维单元以及所述分类单元。
这里,关于将相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵的实现步骤与上述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度谱重叠得分矩阵的实现步骤相一致,此部分不在进行赘述。
S104:将所述幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,确定所述待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。
该步骤中,将幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,以使每一音频段所对应的幅度重叠得分矩阵中的矩阵元素和相位重叠得分矩阵中的矩阵元素进行聚合处理,进而快速准确地确定出待检测语音中的每一音频段是否存在重叠语音,若存在重叠语音,则输出重叠语音的起始时间和终止时间。
这里,举例来讲,将10s的待检测语音分成2个音频段分别为0s-5s,5s-10s,将这两个音频段的幅度谱语音特征输入到重叠语音检测模型的第一残差网络层之中,确定出幅度重叠得分矩阵为{1,0},将这两个音频段的相位谱语音特征输入到重叠语音检测模型的第二残差网络层之中,确定出相位重叠得分矩阵为{0,1},针对于0s-5s的音频段将幅度重叠得分矩阵为{1,0}中该音频段所对应的矩阵元素“1”与相位重叠得分矩阵为{0,1}中该音频段所对应的矩阵元素“0”进行聚合处理,得到该音频段的重叠得分0.8,将重叠得分0.8与预设重叠分值0.6进行比较,则确定出该音频段为重叠语音,并确定出该重叠语音的起始时间和终止时间为0-5s。
进一步的,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
对所述幅度重叠得分矩阵和所述相位重叠得分矩阵进行平均值计算,确定出平均值矩阵;基于所述平均值矩阵,确定出所述待检测语音中是否存在重叠语音。
这里,通过以下公式确定出待检测语音中是否存在重叠语音:
Figure BDA0003593534480000151
其中,a1、b1为幅度重叠得分矩阵,a2、b2为相位重叠得分矩阵,L为分类结果。
进一步的,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
a:基于所述幅度重叠得分矩阵、幅度重叠得分矩阵所对应的音频段在幅度维度上的重叠程度标签、相位重叠得分矩阵以及相位重叠得分矩阵所对应的音频段在相位维度上的重叠程度标签,确定出得分矩阵标签数据集。
这里,t={x,y},x={a1,b1,a2,b2},y=Tk,其中,x为幅度重叠得分矩阵、幅度重叠得分矩阵,y为幅度重叠得分矩阵所对应的音频段在幅度维度上的重叠程度标签、相位重叠得分矩阵以及相位重叠得分矩阵所对应的音频段在相位维度上的重叠程度标签。
训练数据集得到得分矩阵标签数据集:
T={(x1,y1),(x2,y2),...,(xN,yN)};
b:利用惩罚函数,对所述得分矩阵标签数据集进行构造并求解凸二次规划,确定出拉格朗日乘子的最优解序列。
这里,选取适当的核函数k(x,z)和惩罚函数c>0,构造并求解凸二次规划问题:
Figure BDA0003593534480000161
Figure BDA0003593534480000162
得到最优解:
Figure BDA0003593534480000163
其中,a*为拉格朗日乘子,xi表示输入数据,xj表示对应标签。ai表示待求解参数。
c:在所述拉格朗日乘子的最优解序列中的任一个拉格朗日乘子的分量进行计算,确定出分类决策函数。
这里,选择a*的一个分量
Figure BDA0003593534480000164
满足条件为
Figure BDA0003593534480000165
计算出:
Figure BDA0003593534480000166
确定出分类决策函数为:
Figure BDA0003593534480000167
d:基于所述分类决策函数,确定所述待检测语音中是否存在重叠语音。
然后,利用分类决策函数,确定所述待检测语音中是否存在重叠语音。
进一步的,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
利用全连接网络和前向计算公式,对所述幅度重叠得分矩阵以及所述幅度重叠得分矩阵进行处理,确定所述待检测语音中是否存在重叠语音。
这里,构造全连接网络,利用前向计算训练一个前向网络,进而对幅度重叠得分矩阵以及幅度重叠得分矩阵进行处理,确定待检测语音中是否存在重叠语音。
这里,还可以通过采用最小二乘多项式平滑对输出的重叠语音进行平滑处理。
本申请提供了一种重叠语音的检测方法,通过将待检测语音输入到特征提取网络层,快速准确地确定出幅度谱语音特征和相位谱语音特征,然后将得到的幅度谱语音特征输入第一残差网络层,相位谱语音特征输入第二残差网络层,在第一残差网络层和第二残差网络层对幅度谱语音特征、相位谱语音特征进行多头注意力机制处理,从而提高得分矩阵确定的准确率,最后将得分矩阵进行聚合处理,从而可以提高对重叠语音识别的准确率。
请参阅图2,图2为本申请实施例所提供的重叠语音检测模型的网络结构示意图。如图2中所示,重叠语音检测模型包含特征提取网络层、第一残差网络层、第二残差网络层以及聚合网络层,且第一残差网络层和第二残差网络层均包括一维卷积单元、多尺度特征提取单元、多头注意力机制提取单元、降维单元以及分类单元。将待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征,然后分别将将各个音频段的幅度谱语音特征输入至第一残差网络层,确定出幅度重叠得分矩阵,相位谱语音特征输入至第二残差网络层,确定出相位重叠得分矩阵。然后将幅度重叠得分矩阵和幅度重叠得分矩阵输入至的聚合网络层进行聚合处理,确定重叠检测结果。
如图2中所示,重叠语音检测模型的各个网络层的说明如下:
特征提取网络层用于对待检测语音的幅度谱语音特征和相位谱语音特征进行特征提取,第一残差网络层用于确定出幅度谱语音特征在幅度维度上的重叠程度,第二残差网络层用于确定出相位谱语音特征在相位维度上的重叠程度,聚合网络层用于对幅度重叠得分矩阵和幅度重叠得分矩阵进行聚合处理,并确定出待检测语音中是否存在重叠语音。
第一残差网络层和第二残差网络层中的一维卷积单元用于对幅度谱语音特征和相位谱语音特征进行一维卷积处理;多尺度特征提取单元用于对幅度谱语音第一特征和相位谱语音第一特征进行多尺度特征提取,多尺度特征提取单元还包括第一特征提取单元和第二特征提取单元,均用于对幅度谱语音特征和相位谱语音特征进行特征提取;多头注意力机制提取单元用于对幅度谱语音第二特征和相位谱语音第二特征进行加权平均值和加权标准差处理;降维单元用于对幅度谱语音第三特征和相位谱语音第三特征进行降维处理;分类单元用于对幅度谱语音第四特征和相位谱语音第四特征进行二分类处理。
请参阅图3、图4,图3为本申请实施例所提供的一种重叠语音的检测装置的结构示意图之一;图4为本申请实施例所提供的一种重叠语音的检测装置的结构示意图之二。如图3中所示,所述重叠语音的检测装置300包括:
获取模块310,用于获取待检测语音;
语音特征确定模块320,用于将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;
得分矩阵确定模块330,用于将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵;其中,所述幅度重叠得分矩阵表征所述待检测语音的每个音频段在幅度维度上的重叠程度;所述相位重叠得分矩阵表征所述待检测语音的每个音频段在相位维度上的重叠程度;所述第一残差网络层和所述第二残差网络层均包括多头注意力机制提取单元;
重叠语音确定模块340,用于将所述幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,确定所述待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。
进一步的,如图4所示,检测装置还包括模型训练模块350,模型训练模块350用于通过以下步骤训练所述重叠语音检测模型:
获取多条非重叠样本语音;
针对任意至少两条所述非重叠样本语音,对该至少两条所述非重叠样本语音进行重叠构造,确定出一条重叠样本语音;其中,所述重叠样本语音为该至少两条所述非重叠样本语音进行全部重叠构造或部分重叠构造生成的;
基于确定出的多条所述重叠样本语音所携带的重叠语音标签和多条非重叠样本语音所携带的非重叠语音标签对初始神经网络模型进行训练,确定出所述重叠语音检测模型。
进一步的,得分矩阵确定模块330在用于将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵时,得分矩阵确定模块330具体用于:
针对于每个所述音频段的所述幅度谱语音特征,将所述幅度谱语音特征输入至一维卷积单元,对所述幅度谱语音特征进行一维卷积处理,确定出幅度谱语音第一特征;
将所述幅度谱语音第一特征输入至多尺度特征提取单元,对所述幅度谱语音第一特征在多尺度特征维度上进行非线性特征拟和,确定出幅度谱语音第二特征;
将所述幅度谱语音第二特征输入至多头注意力机制提取单元,对所述幅度谱语音第二特征进行加权平均值和加权标准差处理,确定出幅度谱语音第三特征;
将所述幅度谱语音第三特征输入至降维单元,对所述幅度谱语音第三特征进行降维处理,确定出幅度谱语音第四特征;
将所述幅度谱语音第四特征输入至分类单元,对所述幅度谱语音第四特征进行二分类处理,确定出幅度重叠得分向量;
基于各个所述音频段的幅度重叠得分向量,确定所述幅度重叠得分矩阵;
其中,所述第一残差网络层包括所述一维卷积单元、所述多尺度特征提取单元、所述多头注意力机制提取单元、所述降维单元以及所述分类单元。
进一步的,重叠语音确定模块340通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
对所述幅度重叠得分矩阵和所述相位重叠得分矩阵进行平均值计算,确定出平均值矩阵;
基于所述平均值矩阵,确定出所述待检测语音中是否存在重叠语音。
进一步的,重叠语音确定模块340通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
基于所述幅度重叠得分矩阵、幅度重叠得分矩阵所对应的音频段在幅度维度上的重叠程度标签、相位重叠得分矩阵以及相位重叠得分矩阵所对应的音频段在相位维度上的重叠程度标签,确定出得分矩阵标签数据集;
利用惩罚函数,对所述得分矩阵标签数据集进行构造并求解凸二次规划,确定出拉格朗日乘子的最优解序列;
在所述拉格朗日乘子的最优解序列中的任一个拉格朗日乘子的分量进行计算,确定出分类决策函数;
基于所述分类决策函数,确定所述待检测语音中是否存在重叠语音。
进一步的,重叠语音确定模块340通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
利用全连接网络和前向计算公式,对所述幅度重叠得分矩阵以及所述幅度重叠得分矩阵进行处理,确定所述待检测语音中是否存在重叠语音。
进一步的,语音特征确定模块320在用于所述将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段幅度谱语音特征和每一音频段相位谱语音特征时,语音特征确定模块320具体用于:
对所述待检测语音进行分帧处理确定出多个音频段;
对每个所述音频段进行傅里叶处理,确定出每一音频段的幅度谱语音特征和相位谱语音特征。
本申请实施例提供的一种重叠语音的检测装置,所述检测装置包括:获取模块,用于获取待检测语音;语音特征确定模块,用于将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;得分矩阵确定模块,用于将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵;重叠语音确定模块,用于将所述幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,确定所述待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。
这样,通过将待检测语音输入到特征提取网络层,快速准确地确定出幅度谱语音特征和相位谱语音特征,然后将得到的幅度谱语音特征输入第一残差网络层,相位谱语音特征输入第二残差网络层,在第一残差网络层和第二残差网络层对幅度谱语音特征、相位谱语音特征进行多头注意力机制处理,从而提高得分矩阵确定的准确率,最后将得分矩阵进行聚合处理,从而可以提高对重叠语音识别的准确率。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1所示方法实施例中的一种重叠语音的检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的一种重叠语音的检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种重叠语音的检测方法,其特征在于,所述检测方法包括:
获取待检测语音;
将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;
将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵;其中,所述幅度重叠得分矩阵表征所述待检测语音的每个音频段在幅度维度上的重叠程度;所述相位重叠得分矩阵表征所述待检测语音的每个音频段在相位维度上的重叠程度;所述第一残差网络层和所述第二残差网络层均包括多头注意力机制提取单元;
将所述幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,确定所述待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。
2.根据权利要求1所述的检测方法,其特征在于,通过以下步骤训练所述重叠语音检测模型:
获取多条非重叠样本语音;
针对任意至少两条所述非重叠样本语音,对该至少两条所述非重叠样本语音进行重叠构造,确定出一条重叠样本语音;其中,所述重叠样本语音为该至少两条所述非重叠样本语音进行全部重叠构造或部分重叠构造生成的;
基于确定出的多条所述重叠样本语音所携带的重叠语音标签和多条非重叠样本语音所携带的非重叠语音标签对初始神经网络模型进行训练,确定出所述重叠语音检测模型。
3.根据权利要求1所述的检测方法,其特征在于,将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵,包括:
针对于每个所述音频段的所述幅度谱语音特征,将所述幅度谱语音特征输入至一维卷积单元,对所述幅度谱语音特征进行一维卷积处理,确定出幅度谱语音第一特征;
将所述幅度谱语音第一特征输入至多尺度特征提取单元,对所述幅度谱语音第一特征在多尺度特征维度上进行非线性特征拟和,确定出幅度谱语音第二特征;
将所述幅度谱语音第二特征输入至多头注意力机制提取单元,对所述幅度谱语音第二特征进行加权平均值和加权标准差处理,确定出幅度谱语音第三特征;
将所述幅度谱语音第三特征输入至降维单元,对所述幅度谱语音第三特征进行降维处理,确定出幅度谱语音第四特征;
将所述幅度谱语音第四特征输入至分类单元,对所述幅度谱语音第四特征进行二分类处理,确定出幅度重叠得分向量;
基于各个所述音频段的幅度重叠得分向量,确定所述幅度重叠得分矩阵;
其中,所述第一残差网络层包括所述一维卷积单元、所述多尺度特征提取单元、所述多头注意力机制提取单元、所述降维单元以及所述分类单元。
4.根据权利要求1所述的检测方法,其特征在于,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
对所述幅度重叠得分矩阵和所述相位重叠得分矩阵进行平均值计算,确定出平均值矩阵;
基于所述平均值矩阵,确定出所述待检测语音中是否存在重叠语音。
5.根据权利要求1所述的检测方法,其特征在于,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
基于所述幅度重叠得分矩阵、幅度重叠得分矩阵所对应的音频段在幅度维度上的重叠程度标签、相位重叠得分矩阵以及相位重叠得分矩阵所对应的音频段在相位维度上的重叠程度标签,确定出得分矩阵标签数据集;
利用惩罚函数,对所述得分矩阵标签数据集进行构造并求解凸二次规划,确定出拉格朗日乘子的最优解序列;
在所述拉格朗日乘子的最优解序列中的任一个拉格朗日乘子的分量进行计算,确定出分类决策函数;
基于所述分类决策函数,确定所述待检测语音中是否存在重叠语音。
6.根据权利要求1所述的检测方法,其特征在于,通过以下步骤对所述幅度重叠得分矩阵和所述幅度重叠得分矩阵进行聚合处理,确定所述待检测语音中是否存在重叠语音:
利用全连接网络和前向计算公式,对所述幅度重叠得分矩阵以及所述幅度重叠得分矩阵进行处理,确定所述待检测语音中是否存在重叠语音。
7.根据权利要求1所述的检测方法,其特征在于,所述将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段幅度谱语音特征和每一音频段相位谱语音特征,包括:
对所述待检测语音进行分帧处理确定出多个音频段;
对每个所述音频段进行傅里叶处理,确定出每一音频段的幅度谱语音特征和相位谱语音特征。
8.一种重叠语音的检测装置,其特征在于,所述检测装置包括:
获取模块,用于获取待检测语音;
语音特征确定模块,用于将所述待检测语音输入至预先训练好的重叠语音检测模型的特征提取网络层,确定出所述待检测语音的每一音频段的幅度谱语音特征和相位谱语音特征;
得分矩阵确定模块,用于将各个音频段的所述幅度谱语音特征输入至重叠语音检测模型的第一残差网络层,确定出幅度重叠得分矩阵;以及将各个音频段的所述相位谱语音特征输入至重叠语音检测模型的第二残差网络层,确定出相位重叠得分矩阵;其中,所述幅度重叠得分矩阵表征所述待检测语音的每个音频段在幅度维度上的重叠程度;所述相位重叠得分矩阵表征所述待检测语音的每个音频段在相位维度上的重叠程度;所述第一残差网络层和所述第二残差网络层均包括多头注意力机制提取单元;
重叠语音确定模块,用于将所述幅度重叠得分矩阵和所述幅度重叠得分矩阵输入至重叠语音检测模型的聚合网络层进行聚合处理,确定所述待检测语音中是否存在重叠语音,并在存在时,输出重叠语音的起始时间和终止时间。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的一种重叠语音的检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的一种重叠语音的检测方法的步骤。
CN202210385565.0A 2022-04-13 2022-04-13 一种重叠语音的检测方法、装置、电子设备及存储介质 Active CN114678037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210385565.0A CN114678037B (zh) 2022-04-13 2022-04-13 一种重叠语音的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210385565.0A CN114678037B (zh) 2022-04-13 2022-04-13 一种重叠语音的检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114678037A true CN114678037A (zh) 2022-06-28
CN114678037B CN114678037B (zh) 2022-10-25

Family

ID=82077450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210385565.0A Active CN114678037B (zh) 2022-04-13 2022-04-13 一种重叠语音的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114678037B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160073198A1 (en) * 2013-03-20 2016-03-10 Nokia Technologies Oy Spatial audio apparatus
US20180174571A1 (en) * 2015-09-16 2018-06-21 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
WO2018177608A1 (en) * 2017-03-31 2018-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for post-processing an audio signal using a transient location detection
CN109545188A (zh) * 2018-12-07 2019-03-29 深圳市友杰智新科技有限公司 一种实时语音端点检测方法及装置
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110047470A (zh) * 2019-04-11 2019-07-23 深圳市壹鸽科技有限公司 一种语音端点检测方法
WO2019198265A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Corporation Speech recognition system and method using speech recognition system
WO2020173488A1 (zh) * 2019-02-28 2020-09-03 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN111899756A (zh) * 2020-09-29 2020-11-06 北京清微智能科技有限公司 一种单通道语音分离方法和装置
CN112331218A (zh) * 2020-09-29 2021-02-05 北京清微智能科技有限公司 一种针对多说话人的单通道语音分离方法和装置
CN113921022A (zh) * 2021-12-13 2022-01-11 北京世纪好未来教育科技有限公司 音频信号分离方法、装置、存储介质和电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160073198A1 (en) * 2013-03-20 2016-03-10 Nokia Technologies Oy Spatial audio apparatus
US20180174571A1 (en) * 2015-09-16 2018-06-21 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
WO2018177608A1 (en) * 2017-03-31 2018-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for post-processing an audio signal using a transient location detection
WO2019198265A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Corporation Speech recognition system and method using speech recognition system
CN109545188A (zh) * 2018-12-07 2019-03-29 深圳市友杰智新科技有限公司 一种实时语音端点检测方法及装置
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
WO2020173488A1 (zh) * 2019-02-28 2020-09-03 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110047470A (zh) * 2019-04-11 2019-07-23 深圳市壹鸽科技有限公司 一种语音端点检测方法
CN111899756A (zh) * 2020-09-29 2020-11-06 北京清微智能科技有限公司 一种单通道语音分离方法和装置
CN112331218A (zh) * 2020-09-29 2021-02-05 北京清微智能科技有限公司 一种针对多说话人的单通道语音分离方法和装置
CN113921022A (zh) * 2021-12-13 2022-01-11 北京世纪好未来教育科技有限公司 音频信号分离方法、装置、存储介质和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUN-KYUNG LEE: "Single-channel speech separation using phase-based methods", 《IEEE TRANSACTIONS ON CONSUMER ELECTRONICS》 *
张超: "语音端点检测方法研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN114678037B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN110246490B (zh) 语音关键词检测方法及相关装置
Ittichaichareon et al. Speech recognition using MFCC
Barkana et al. A new pitch-range based feature set for a speaker’s age and gender classification
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
US7684986B2 (en) Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes
CN102486920A (zh) 音频事件检测方法和装置
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
KR20130133858A (ko) 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Yoon et al. A new replay attack against automatic speaker verification systems
Mannepalli et al. FDBN: Design and development of Fractional Deep Belief Networks for speaker emotion recognition
JP7160095B2 (ja) 属性識別装置、属性識別方法、およびプログラム
CN108364656B (zh) 一种用于语音重放检测的特征提取方法及装置
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN110189767B (zh) 一种基于双声道音频的录制移动设备检测方法
KR102018286B1 (ko) 음원 내 음성 성분 제거방법 및 장치
Yasmin et al. A rough set theory and deep learning-based predictive system for gender recognition using audio speech
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
CN116631380B (zh) 一种音视频多模态的关键词唤醒方法及装置
CN114678037B (zh) 一种重叠语音的检测方法、装置、电子设备及存储介质
Imoto et al. Acoustic scene analysis from acoustic event sequence with intermittent missing event
CN116486789A (zh) 语音识别模型的生成方法、语音识别方法、装置及设备
US20210327435A1 (en) Voice processing device, voice processing method, and program recording medium
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant