CN111429937A - 语音分离方法、模型训练方法及电子设备 - Google Patents

语音分离方法、模型训练方法及电子设备 Download PDF

Info

Publication number
CN111429937A
CN111429937A CN202010387355.6A CN202010387355A CN111429937A CN 111429937 A CN111429937 A CN 111429937A CN 202010387355 A CN202010387355 A CN 202010387355A CN 111429937 A CN111429937 A CN 111429937A
Authority
CN
China
Prior art keywords
voice
separation
speech
network model
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010387355.6A
Other languages
English (en)
Other versions
CN111429937B (zh
Inventor
艾文
冯大航
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010387355.6A priority Critical patent/CN111429937B/zh
Publication of CN111429937A publication Critical patent/CN111429937A/zh
Application granted granted Critical
Publication of CN111429937B publication Critical patent/CN111429937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音分离方法、模型训练方法及电子设备,所述语音分离方法包括:获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。本发明实施例能够提高语音分离的效果。

Description

语音分离方法、模型训练方法及电子设备
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语音分离方法、模型训练方法及电子设备。
背景技术
在嘈杂的声学环境中,比如在鸡尾酒会中,通常同时存在多个不同的声源,例如,多个人说话的声音,餐具的碰撞声以及音乐声等。语音分离可以将目标语音从背景干扰中分离出来。语音分离属于基本的任务类型,应用范围较为广泛,包括听力假体、移动通信、鲁棒的自动语音以及说话人识别等各种应用领域。
然而,目前在训练语音分离网络模型的过程中,无法将分离出的语音与实际声源进行对应,从而训练的语音分离网络模型准确性较低,导致语音分离的效果较差。
发明内容
本发明实施例提供一种语音分离方法、模型训练方法及电子设备,以解决现有技术中在训练语音分离网络模型的过程中,无法将分离出的语音与实际声源进行对应,从而训练的语音分离网络模型准确性较低,导致语音分离的效果较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音分离方法,所述方法包括:
获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;
将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
第二方面,本发明实施例提供了一种模型训练方法,所述方法包括:
获取训练样本的语音特征,所述语音特征至少包括相位特征;
基于所述训练样本的语音特征训练语音分离网络模型。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:
获取模块,用于获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;
输入模块,用于将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
第四方面,本发明实施例提供了一种电子设备,所述电子设备包括:
获取模块,用于获取训练样本的语音特征,所述语音特征至少包括相位特征;
训练模块,用于基于所述训练样本的语音特征训练语音分离网络模型。
第五方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的语音分离方法中的步骤,或者,所述程序被所述处理器执行时实现如第二方面所述的模型训练方法中的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音分离方法中的步骤,或者,所述计算机程序被处理器执行时实现如第二方面所述的模型训练方法中的步骤。
本发明实施例中,在模型训练的过程中,获取训练样本的语音特征,所述语音特征至少包括相位特征;基于所述训练样本的语音特征训练语音分离网络模型,这样,能够基于相位特征将分离的语音与实际声源进行对应,从而可以提高训练的语音分离网络模型的准确性。在语音分离的过程中,获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,这样,能够基于相位特征将分离的语音与实际声源进行对应,从而提高语音分离的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音分离方法的流程图;
图2是本发明实施例提供的一种语音分离网络模型的结构示意图;
图3是本发明实施例提供的一种模型训练方法的流程图;
图4是本发明实施例提供的一种电子设备的结构示意图之一;
图5是本发明实施例提供的一种电子设备的结构示意图之二;
图6是本发明实施例提供的一种电子设备的结构示意图之三;
图7是本发明实施例提供的一种电子设备的结构示意图之四;
图8是本发明实施例提供的一种电子设备的结构示意图之五。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
参见图1,图1是本发明实施例提供的一种语音分离方法的流程图,如图1所示,包括以下步骤:
步骤101、获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征。
其中,可以对待处理语音进行特征提取,得到待处理语音的语音特征。所述相位特征,可以是基于多个语音通道获取的相位特征,例如,每个麦克风均可以为一条语音通道,可以通过多个麦克风获取待处理语音,所述相位特征可以为多个麦克风获取的待处理语音的相位特征。所述语音特征还可以包括谱特征,所述谱特征可以是基于多个语音通道获取的谱特征。所述相位特征可以包括IPD(插入相位延迟)参数,或者,还可以包括其他相位相关的特征参数。
步骤102、将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
其中,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,可以包括:将所述待处理语音的谱特征和相位特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。所述将所述待处理语音的谱特征和相位特征输入预先训练的语音分离网络模型,可以是,将所述待处理语音的谱特征和相位特征进行拼接后输入预先训练的语音分离网络模型。
或者,所述语音分离网络模型还可以包括第一神经网络模型和第二神经网络模型,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,可以包括:将所述待处理语音的谱特征输入所述第一神经网络模型,以对所述待处理语音进行语音分离,得到第三分离结果;将所述第三分离结果与所述相位特征输入所述第二神经网络模型,以对所述第三分离结果进行语音分离,得到语音分离结果。
或者,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,可以包括:将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
另外,所述语音分离网络模型可以包括BLSTM(双向长短期记忆网络)模型,或者,可以包括LSTM(长短期记忆网络)模型,或者可以包括RNN(循环神经网络)模型等等,可以用于语音分离的网络模型均可以作为语音分离网络模型,本发明实施例对此不进行限定。语音分离网络模型还可以包括线性(linear)函数以及sigmoid函数,在实际应用中,如图2所示,以语音分离网络模型用于分离两个声源的语音信号为例,语音分离网络模型可以包括BLSTM模型,BLSTM模型输出两路分离的语音信号的语音特征,线性(linear)函数及sigmoid函数用于对分离的语音信号的语音特征进行降维处理,以减少语音特征的特征信息,第一路输出和第二路输出用于输出分离的语音信号。
本发明实施例中,获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征,将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,能够基于相位特征将分离的语音与实际声源进行对应,从而提高语音分离的效果。
可选的,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型之前,所述方法还包括:
将所述待处理语音分为第一语音段和第二语音段,所述第一语音段和所述第二语音段均包括N帧连续的语音信号,所述第一语音段与所述第二语音段均至少包括第i帧语音信号,所述第i帧语音信号为所述待处理语音中的任意一帧语音信号,N大于0,i大于0;
所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述第一语音段的语音特征输入预先训练的语音分离网络模型,得到所述第一语音段的第一分离结果;
将所述第二语音段的语音特征输入所述语音分离网络模型,得到所述第二语音段的第二分离结果;
基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果。
其中,所述第一语音段的最后一帧语音信号可以与所述第二语音段的第一帧语音信号相同,均为第i帧语音信号。以N为3,i为3为例,第一语音段可以包括待处理语音的第1帧至第3帧语音信号,第二语音段可以包括待处理语音的第3帧至第5帧语音信号。可以将待处理语音重叠分段,将待处理语音划分为多个两两之间具有相同帧的语音段,并将划分的语音段的语音特征输入语音分离网络模型,进行语音分离。
另外,所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果,可以是,从所述第一分离结果和所述第二分离结果中确定与所述待处理语音的乘积较大的一项对应的分离结果;基于所述与所述待处理语音的乘积较大的一项对应的分离结果获取所述第i帧语音信号的语音分离结果;或者,还可以是,将第一分离结果与第二分离结果的均值作为所述第i帧语音信号的语音分离结果,等等。
该实施方式中,所述第一语音段与所述第二语音段均至少包括第i帧语音信号,通过将待处理语音进行重叠分段处理,使得每一帧语音信号在语音分离的过程中,可以参考相邻帧的信息,并且能够进行两次语音分离,从而能够提高语音分离的效果。
可选的,所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果,包括:
基于所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积较大的一项获取所述第i帧语音信号的语音分离结果。
其中,可以基于所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积的绝对值较大的一项获取所述第i帧语音信号的语音分离结果。可以确定所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积的绝对值较大的一项,从与所述待处理语音的乘积的绝对值较大的一项分离结果中提取所述第i帧语音信号的语音分离结果。以第一语音段k1,第二语音段k2为例,可以计算:max(abs(Outk1(f,t)*X(f,t),Outk2(f,t)*X(f,t))),得到与所述待处理语音的乘积的绝对值较大的一项分离结果,Outk1(f,t)为所述第一分离结果,Outk2(f,t)为所述第二分离结果,X(f,t)为待处理语音的语音特征。
该实施方式中,从所述第一分离结果和所述第二分离结果中确定与所述待处理语音的乘积较大的一项对应的分离结果;基于所述与所述待处理语音的乘积较大的一项对应的分离结果获取所述第i帧语音信号的语音分离结果,能够依据声源的空间谱的集中程度,将集中程度较高的作为语音分离结果,能够进一步提高语音分离的效果。
可选的,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述待处理语音的谱特征输入所述第一神经网络模型,以对所述待处理语音进行语音分离,得到第三分离结果;
将所述第三分离结果与所述相位特征输入所述第二神经网络模型,以对所述第三分离结果进行语音分离,得到语音分离结果。
其中,所述第一神经网络模型可以为用于语音分离的BLSTM模型,或者,LSTM模型,或者RNN模型等等。所述第二神经网络模型可以为用于语音分离的BLSTM模型,或者,LSTM模型,或者RNN模型等等。所述谱特征可以包括幅度谱特征,或者对数谱特征,等等。
该实施方式中,采用谱特征基于第一神经网络模型进行第一次语音分离,采用相位特征基于第二神经网络模型进行第二次语音分离,通过两次语音分离能够进一步提高语音分离的效果。
可选的,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
其中,所述固定波束方向语音可以为预设语音。例如,可以在相对于麦克风的预设位置播放语音,通过麦克风采集该播放的语音,将采集到的语音作为固定波束方向语音。所述固定波束方向语音的语音特征可以包括谱特征,或者可以包括谱特征和相位特征,等等。所述将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型,可以是,将所述待处理语音的语音特征及固定波束方向语音的语音特征进行拼接后输入预先训练的语音分离网络模型。
该实施方式中,将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,这样,通过增加固定波束方向语音的语音特征,可以增加声源的确认性,从而能够提高语音分离的效果。
参见图3,图3是本发明实施例提供的一种模型训练方法的流程图,如图3所示,包括以下步骤:
步骤201、获取训练样本的语音特征,所述语音特征至少包括相位特征。
其中,可以对训练样本进行特征提取,得到训练样本的语音特征。所述相位特征,可以是基于多个语音通道获取的相位特征,例如,每个麦克风均可以为一条语音通道,可以通过多个麦克风获取训练样本,所述相位特征可以为多个麦克风获取的训练样本的相位特征。所述语音特征还可以包括谱特征,所述谱特征可以是基于多个语音通道获取的谱特征。
步骤202、基于所述训练样本的语音特征训练语音分离网络模型。
其中,所述基于所述训练样本的语音特征训练语音分离网络模型,可以包括:基于所述训练样本的谱特征和相位特征训练语音分离网络模型。所述语音分离网络模型可以包括第一神经网络模型和第二神经网络模型,所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练,可以包括:基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练。
另外,所述语音分离网络模型还可以包括第一神经网络模型和第二神经网络模型,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,可以包括:将所述待处理语音的谱特征输入所述第一神经网络模型,以对所述待处理语音进行语音分离,得到第三分离结果;将所述第三分离结果与所述相位特征输入所述第二神经网络模型,以对所述第三分离结果进行语音分离,得到语音分离结果。
需要说明的是,在实际应用中,若共有N个声源,进行语音分离的过程为,输入-输出*N,在计算损失函数loss时,label和
Figure BDA0002484279990000081
需要一一对应,对应过程中因为排序问题会出现置换问题,例如,分离两条语音时,A,B分别表示两个模型输出的
Figure BDA0002484279990000082
C,D分别表示标签labels,会出现无法确定A对应D,B对应C,还是A对应C,B对应D,从而会使得训练的语音分离网络模型不准确,本发明实施例可以通过相位特征将同一方向的声源的语音信号通过同一路输出,从而不会出现置换问题,可以提高训练的语音分离网络模型的准确性。
进一步的,可以采用本发明实施例中的模型训练方法对语音分离网络模型进行训练,并将训练得到的语音分离网络模型作为上述实施例中的语音分离方法中的预先训练的语音分离网络模型。
本发明实施例中,在模型训练的过程中,获取训练样本的语音特征,所述语音特征至少包括相位特征;基于所述训练样本的语音特征训练语音分离网络模型,这样,能够基于相位特征将分离的语音与实际声源进行对应,从而可以提高训练的语音分离网络模型的准确性,进而采用训练的语音分离网络模型进行语音分离,能够提高语音分离的效果。
可选的,所述基于所述训练样本的语音特征训练语音分离网络模型之前,所述方法还包括:
将所述训练样本分为第三语音段和第四语音段,所述第三语音段和所述第四语音段包括M帧连续的语音信号,所述第三语音段与所述第四语音段均至少包括第j帧语音信号,所述第j帧语音信号为所述训练样本中的任意一帧语音信号,M大于0,j大于0;
所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练,包括:
将所述第三语音段的语音特征输入用于语音分离的语音分离网络模型,得到所述第三语音段的第三分离结果;
将所述第四语音段的语音特征输入所述语音分离网络模型,得到所述第四语音段的第四分离结果;
基于所述第j帧语音信号的语音分离结果与目标输出更新所述语音分离网络模型的参数;
其中,所述第j帧语音信号的语音分离结果基于所述第三分离结果和所述第四分离结果两者中置信度评分较高的一项获得。
其中,所述第三语音段的最后一帧语音信号可以与所述第四语音段的第一帧语音信号相同,均为第j帧语音信号。以M为4,j为4为例,第三语音段可以包括训练样本的第1帧至第4帧语音信号,第四语音段可以包括训练样本的第4帧至第7帧语音信号。可以将训练样本重叠分段,将训练样本划分为多个两两之间具有相同帧的语音段,并将划分的语音段的语音特征输入语音分离网络模型,进行模型训练。M的值可以与N的值相同,也可以与N的值不同。
另外,可以基于所述第三分离结果和所述第四分离结果中置信度评分较高的一项获取所述第j帧语音信号的语音分离结果。可以确定所述第三分离结果和所述第四分离结果中置信度评分较高的一项,从置信度评分较高的一项分离结果中提取所述第j帧语音信号的语音分离结果。
进一步的,以所述语音分离网络模型的输出为两个声源的语音信号为例,分为声源A和声源B,声源的方向分别为θA和θB,对于训练样本的每个语音段,存在以下几种情况:两个声源的语音都占有足够的时长,可以认为该语音段为确认的双声源段,语音分离网络模型的输出顺序可以由θA和θB确定,假设θA<θB,则在训练的过程中可以认为语音分离网络模型的输出结果中声源A的语音信号为第一路输出,声源B的语音信号为第二路输出;若只有一个声源的语音,且时长超过一定门限,则可以认为该段为确认的单声源段,语音分离网络模型的两路输出中,第一路输出为分离的语音,第二路输出为0;若没有声源的语音,则语音分离网络模型的输出全为0。另外,为避免语音分离所需的信息不够,语音分离网络模型的输出可能会不可控的情况,可以将语音段中有1个或者2个声源的语音,其中至少有1个声源的语音的时长较小的语音段不参与语音分离网络模型的训练。
该实施方式中,所述第三语音段与所述第四语音段均至少包括第j帧语音信号,通过将训练样本进行重叠分段处理,使得每一帧语音信号在语音分离的过程中,可以参考相邻帧的信息,并且能够进行两次语音分离,能够提高语音分离网络模型的准确性,进而能够提高语音分离的效果。
可选的,所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定;或者
所述置信度评分基于语音增强值与实际语音值确定,所述语音增强值为所述语音分离网络模型的输入与声源的波束系数的乘积,所述实际语音值为所述语音分离网络模型的输出与输入的乘积。
其中,所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定,可以是,计算所述语音分离网络模型对语音段中每帧语音信号进行语音分离的输出与目标输出的差值的平方,将该差值的平方值乘以每帧语音信号频点的权重,得到第一乘积,对语音段中多帧语音信号对应的第一乘积求和得到该语音段的置信度评分。在实际应用中,以k语音段为例,k语音段中包括声源A和声源B的语音信号,例如,k语音段中分离出的声源A的语音信号的置信度评分可以为:cos tk=∑f,tWeight(f,t)*[Mask(f,t)-Outk(f,t)]2,Weight(f,t)为每帧语音信号频点的权重,Mask(f,t)为声源A的语音信号的目标输出,Outk(f,t)为语音分离网络模型从k语音段中分离出的声源A的语音信号,f为频率,t为时间。
另外,所述置信度评分基于语音增强值与实际语音值确定,可以是,计算所述语音增强值与实际语音值的差值的平方,将该差值的平方值乘以每帧语音信号频点的权重,得到第二乘积,对语音段中多帧语音信号对应的第一乘积求和得到该语音段的置信度评分。在实际应用中,以k语音段为例,k语音段中包括声源A和声源B的语音信号,例如,k语音段中分离出的声源A的语音信号的置信度评分可以为:
Figure BDA0002484279990000111
其中,Weight(f,t)为每帧语音信号频点的权重,beam(f,t)为声源A所在方向波束的波束系数,X(f,t)为所述语音分离网络模型输入的语音信号的语音特征,Outk(f,t)为语音分离网络模型从k语音段中分离出的声源A的语音信号,f为频率,t为时间。
该实施方式中,所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定,能够将靠近目标输出的作为语音分离结果,能够提高语音分离网络模型的准确性,从而提高语音分离的效果;或者,所述置信度评分基于语音增强值与实际语音值确定,能够依据声源的空间谱的集中程度,将集中程度较高的作为语音分离结果,能够提高语音分离网络模型的准确性,从而提高语音分离的效果。
可选的,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练,包括:
基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练。
其中,所述第一神经网络模型可以为用于语音分离的BLSTM模型,或者,LSTM模型,或者RNN模型等等。所述第二神经网络模型可以为用于语音分离的BLSTM模型,或者,LSTM模型,或者RNN模型等等。
该实施方式中,基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练,能够提高语音分离网络模型的准确性,从而提高语音分离的效果。
可选的,所述语音分离网络模型的输出包括至少两个声源的语音信号,所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定。
其中,在训练所述语音分离网络模型的过程中,由于训练样本包括多个语音段,语音分离网络模型对每个语音段单独进行语音分离,可能会出现声源的语音信号与目标输出不对应的情况。例如,相邻的两个语音段中前一语音段只有一个声源的语音信号,例如声源B,语音分离网络模型在第一路输出中输出声源B的语音信号,若后一语音段中有两个声源的语音信号,例如声源A和声源B,此时,语音分离网络模型在第二路输出中输出声源B的语音信号,会使得声源的语音信号与目标输出的对应关系错误,可以将声源B的语音信号调整到第一路输出。可以通过声源定位的方式来确定输出顺序,通过声源定位将位于同一方向的声源的语音信号通过语音分离网络模型的同一路输出,从而可以确定所述语音分离网络模型的输出与目标输出的对应关系。
该实施方式中,所述语音分离网络模型的输出包括至少两个声源的语音信号,所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定,能够进一步避免语音分离网络模型的实际输出与目标输出不对应,从而提高语音分离网络模型的准确性,进而提高语音分离的效果。
参见图4,图4是本发明实施例提供的一种电子设备的结构示意图之一,如图4所示,电子设备300包括:
获取模块301,用于获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;
输入模块302,用于将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
可选的,如图5所示,电子设备300还包括:
分段模块303,用于将所述待处理语音分为第一语音段和第二语音段,所述第一语音段和所述第二语音段均包括N帧连续的语音信号,所述第一语音段与所述第二语音段均至少包括第i帧语音信号,所述第i帧语音信号为所述待处理语音中的任意一帧语音信号,N大于0,i大于0;
所述输入模块302包括:
第一输入单元3021,用于将所述第一语音段的语音特征输入预先训练的语音分离网络模型,得到所述第一语音段的第一分离结果;
第二输入单元3022,将所述第二语音段的语音特征输入所述语音分离网络模型,得到所述第二语音段的第二分离结果;
获取单元3023,用于基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果。
可选的,所述获取单元3023具体用于:
基于所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积较大的一项获取所述第i帧语音信号的语音分离结果。
可选的,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述输入模块302具体用于:
将所述待处理语音的谱特征输入所述第一神经网络模型,以对所述待处理语音进行语音分离,得到第三分离结果;
将所述第三分离结果与所述相位特征输入所述第二神经网络模型,以对所述第三分离结果进行语音分离,得到语音分离结果。
可选的,所述输入模块302具体用于:
将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
电子设备能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
参见图6,图6是本发明实施例提供的一种电子设备的结构示意图之三,如图6所示,电子设备400包括:
获取模块401,用于获取训练样本的语音特征,所述语音特征至少包括相位特征;
训练模块402,用于基于所述训练样本的语音特征训练语音分离网络模型。
可选的,如图7所示,所述电子设备400还包括:
分段模块403,用于将所述训练样本分为第三语音段和第四语音段,所述第三语音段和所述第四语音段包括M帧连续的语音信号,所述第三语音段与所述第四语音段均至少包括第j帧语音信号,所述第j帧语音信号为所述训练样本中的任意一帧语音信号,M大于0,j大于0;
所述训练模块402具体用于:
将所述第三语音段的语音特征输入用于语音分离的语音分离网络模型,得到所述第三语音段的第三分离结果;
将所述第四语音段的语音特征输入所述语音分离网络模型,得到所述第四语音段的第四分离结果;
基于所述第j帧语音信号的语音分离结果与目标输出更新所述语音分离网络模型的参数;
其中,所述第j帧语音信号的语音分离结果基于所述第三分离结果和所述第四分离结果两者中置信度评分较高的一项获得。
可选的,所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定;或者
所述置信度评分基于语音增强值与实际语音值确定,所述语音增强值为所述语音分离网络模型的输入与声源的波束系数的乘积,所述实际语音值为所述语音分离网络模型的输出与输入的乘积。
可选的,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述训练模块402具体用于:
基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练。
可选的,所述语音分离网络模型的输出包括至少两个声源的语音信号,所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定。
电子设备能够实现图3的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
请参见图8,图8是本发明实施例提供的一种电子设备的结构示意图之五,如图8所示,电子设备500包括:存储器502、处理器501及存储在所述存储器502上并可在所述处理器501上运行的程序,其中:
在一种实施方式中,所述处理器501读取存储器502中的程序,用于执行:
获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;
将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
可选的,所述处理器501还用于执行:
将所述待处理语音分为第一语音段和第二语音段,所述第一语音段和所述第二语音段均包括N帧连续的语音信号,所述第一语音段与所述第二语音段均至少包括第i帧语音信号,所述第i帧语音信号为所述待处理语音中的任意一帧语音信号,N大于0,i大于0;
所述处理器501用于执行的所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述第一语音段的语音特征输入预先训练的语音分离网络模型,得到所述第一语音段的第一分离结果;
将所述第二语音段的语音特征输入所述语音分离网络模型,得到所述第二语音段的第二分离结果;
基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果。
可选的,所述处理器501用于执行的所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果,包括:
基于所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积较大的一项获取所述第i帧语音信号的语音分离结果。
可选的,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述处理器501用于执行的所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述待处理语音的谱特征输入所述第一神经网络模型,以对所述待处理语音进行语音分离,得到第三分离结果;
将所述第三分离结果与所述相位特征输入所述第二神经网络模型,以对所述第三分离结果进行语音分离,得到语音分离结果。
可选的,所述处理器501用于执行的所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
在另一种实施方式中,所述处理器501读取存储器502中的程序,用于执行:
获取训练样本的语音特征,所述语音特征至少包括相位特征;
基于所述训练样本的语音特征训练语音分离网络模型。
可选的,所述处理器501还用于执行:
将所述训练样本分为第三语音段和第四语音段,所述第三语音段和所述第四语音段包括M帧连续的语音信号,所述第三语音段与所述第四语音段均至少包括第j帧语音信号,所述第j帧语音信号为所述训练样本中的任意一帧语音信号,M大于0,j大于0;
所述处理器501用于执行的所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练,包括:
将所述第三语音段的语音特征输入用于语音分离的语音分离网络模型,得到所述第三语音段的第三分离结果;
将所述第四语音段的语音特征输入所述语音分离网络模型,得到所述第四语音段的第四分离结果;
基于所述第j帧语音信号的语音分离结果与目标输出更新所述语音分离网络模型的参数;
其中,所述第j帧语音信号的语音分离结果基于所述第三分离结果和所述第四分离结果两者中置信度评分较高的一项获得。
可选的,所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定;或者
所述置信度评分基于语音增强值与实际语音值确定,所述语音增强值为所述语音分离网络模型的输入与声源的波束系数的乘积,所述实际语音值为所述语音分离网络模型的输出与输入的乘积。
可选的,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述处理器501用于执行的所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练,包括:
基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练。
可选的,所述语音分离网络模型的输出包括至少两个声源的语音信号,所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定。
在图8中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器501代表的一个或多个处理器和存储器502代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
处理器501负责管理总线架构和通常的处理,存储器502可以存储处理器501在执行操作时所使用的数据。
需要说明的是,本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现,以及达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音分离方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (13)

1.一种语音分离方法,其特征在于,所述方法包括:
获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;
将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型之前,所述方法还包括:
将所述待处理语音分为第一语音段和第二语音段,所述第一语音段和所述第二语音段均包括N帧连续的语音信号,所述第一语音段与所述第二语音段均至少包括第i帧语音信号,所述第i帧语音信号为所述待处理语音中的任意一帧语音信号,N大于0,i大于0;
所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述第一语音段的语音特征输入预先训练的语音分离网络模型,得到所述第一语音段的第一分离结果;
将所述第二语音段的语音特征输入所述语音分离网络模型,得到所述第二语音段的第二分离结果;
基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一分离结果和所述第二分离结果获取所述第i帧语音信号的语音分离结果,包括:
基于所述第一分离结果和所述第二分离结果中与所述待处理语音的乘积较大的一项获取所述第i帧语音信号的语音分离结果。
4.根据权利要求1所述的方法,其特征在于,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述待处理语音的谱特征输入所述第一神经网络模型,以对所述待处理语音进行语音分离,得到第三分离结果;
将所述第三分离结果与所述相位特征输入所述第二神经网络模型,以对所述第三分离结果进行语音分离,得到语音分离结果。
5.根据权利要求1所述的方法,其特征在于,所述将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果,包括:
将所述待处理语音的语音特征以及固定波束方向语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
6.一种模型训练方法,其特征在于,所述方法包括:
获取训练样本的语音特征,所述语音特征至少包括相位特征;
基于所述训练样本的语音特征训练语音分离网络模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述训练样本的语音特征训练语音分离网络模型之前,所述方法还包括:
将所述训练样本分为第三语音段和第四语音段,所述第三语音段和所述第四语音段包括M帧连续的语音信号,所述第三语音段与所述第四语音段均至少包括第j帧语音信号,所述第j帧语音信号为所述训练样本中的任意一帧语音信号,M大于0,j大于0;
所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练,包括:
将所述第三语音段的语音特征输入用于语音分离的语音分离网络模型,得到所述第三语音段的第三分离结果;
将所述第四语音段的语音特征输入所述语音分离网络模型,得到所述第四语音段的第四分离结果;
基于所述第j帧语音信号的语音分离结果与目标输出更新所述语音分离网络模型的参数;
其中,所述第j帧语音信号的语音分离结果基于所述第三分离结果和所述第四分离结果两者中置信度评分较高的一项获得。
8.根据权利要求7所述的方法,其特征在于,所述置信度评分基于所述目标输出与所述语音分离网络模型的输出确定;或者
所述置信度评分基于语音增强值与实际语音值确定,所述语音增强值为所述语音分离网络模型的输入与声源的波束系数的乘积,所述实际语音值为所述语音分离网络模型的输出与输入的乘积。
9.根据权利要求6所述的方法,其特征在于,所述语音特征还包括谱特征,所述语音分离网络模型包括第一神经网络模型和第二神经网络模型,所述基于所述训练样本的语音特征对用于语音分离的语音分离网络模型进行训练,包括:
基于所述训练样本的谱特征和相位特征对所述第一神经网络模型和所述第二神经网络模型进行训练。
10.根据权利要求6所述的方法,其特征在于,所述语音分离网络模型的输出包括至少两个声源的语音信号,所述语音分离网络模型输出的至少两个声源的语音信号与目标输出的对应关系基于声源定位确定。
11.一种电子设备,其特征在于,所述电子设备包括:
获取模块,用于获取待处理语音的语音特征,所述待处理语音中包括至少两个声源的语音信号,所述语音特征至少包括相位特征;
输入模块,用于将所述待处理语音的语音特征输入预先训练的语音分离网络模型,以对所述待处理语音进行语音分离,得到语音分离结果。
12.一种电子设备,其特征在于,所述电子设备包括:
获取模块,用于获取训练样本的语音特征,所述语音特征至少包括相位特征;
训练模块,用于基于所述训练样本的语音特征训练语音分离网络模型。
13.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音分离方法中的步骤,或者,所述程序被所述处理器执行时实现如权利要求6至10中任一项所述的模型训练方法中的步骤。
CN202010387355.6A 2020-05-09 2020-05-09 语音分离方法、模型训练方法及电子设备 Active CN111429937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010387355.6A CN111429937B (zh) 2020-05-09 2020-05-09 语音分离方法、模型训练方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010387355.6A CN111429937B (zh) 2020-05-09 2020-05-09 语音分离方法、模型训练方法及电子设备

Publications (2)

Publication Number Publication Date
CN111429937A true CN111429937A (zh) 2020-07-17
CN111429937B CN111429937B (zh) 2023-09-15

Family

ID=71550864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010387355.6A Active CN111429937B (zh) 2020-05-09 2020-05-09 语音分离方法、模型训练方法及电子设备

Country Status (1)

Country Link
CN (1) CN111429937B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183107A (zh) * 2020-09-04 2021-01-05 华为技术有限公司 音频的处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102097099A (zh) * 2009-12-11 2011-06-15 冲电气工业株式会社 使用通过线性组合的频谱分析的源声分离器及其方法
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN103943113A (zh) * 2014-04-15 2014-07-23 福建星网视易信息系统有限公司 一种歌曲去伴奏的方法和装置
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN107871496A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102097099A (zh) * 2009-12-11 2011-06-15 冲电气工业株式会社 使用通过线性组合的频谱分析的源声分离器及其方法
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN103943113A (zh) * 2014-04-15 2014-07-23 福建星网视易信息系统有限公司 一种歌曲去伴奏的方法和装置
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN107871496A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183107A (zh) * 2020-09-04 2021-01-05 华为技术有限公司 音频的处理方法和装置
WO2022048239A1 (zh) * 2020-09-04 2022-03-10 华为技术有限公司 音频的处理方法和装置

Also Published As

Publication number Publication date
CN111429937B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
JP2022531574A (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
WO2017191249A1 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN105788592A (zh) 一种音频分类方法及装置
CN110111808B (zh) 音频信号处理方法及相关产品
CN110176250B (zh) 一种基于局部学习的鲁棒声学场景识别方法
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
WO2022048239A1 (zh) 音频的处理方法和装置
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN113555032A (zh) 多说话人场景识别及网络训练方法、装置
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN111429937B (zh) 语音分离方法、模型训练方法及电子设备
CN111477240B (zh) 音频处理方法、装置、设备和存储介质
CN111554270B (zh) 训练样本筛选方法及电子设备
CN111145726B (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
CN111785302A (zh) 说话人分离方法、装置及电子设备
CN111508530A (zh) 语音情感识别方法、装置及存储介质
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
CN110569908A (zh) 说话人计数方法及系统
CN113763968B (zh) 用于识别语音的方法、装置、设备、介质和产品
CN113077784B (zh) 一种角色识别智能语音设备
CN115050350A (zh) 标注检查方法及相关装置、电子设备、存储介质
JP2002062892A (ja) 音響分類装置
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
CN111883132B (zh) 一种语音识别方法、设备、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant