CN111566732A

CN111566732A - 声音信号分离装置和声音信号分离方法

Info

Publication number: CN111566732A
Application number: CN201880085821.6A
Authority: CN
Inventors: 齐藤辰彦; 川岛启吾; 石井纯; 冈登洋平
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2020-08-21
Anticipated expiration: 2038-01-15
Also published as: JP6725185B2; US11250871B2; JPWO2019138573A1; DE112018006332B4; DE112018006332T5; US20210193163A1; WO2019138573A1; CN111566732B

Abstract

在声音信号分离装置(1)中，判定部(6)判定在由信号再生成部(5)再生成的每个成分的声音信号中是否混合存在来自多个声源的成分，当判定为混合存在多个成分时，反复执行特征量提取部(2)、数据估计部(3)、数据分类部(4)以及信号再生成部(5)的一系列处理，直到再生成了每个声源的成分的声音信号为止。

Description

声音信号分离装置和声音信号分离方法

技术领域

本发明涉及将混合有1个以上来自声源的成分的声音信号分离成每个成分的声音信号的声音信号分离装置和声音信号分离方法。

背景技术

作为将混合有1个以上来自声源的成分的声音信号分离成每个成分的声音信号的技术，例如有专利文献1记载的方法。该方法使用深层神经网络(以下称作DNN)，将混合有1个以上成分的声音信号分离成每个成分的声音信号。

在先技术文献

专利文献

专利文献1：国际公开第2017/007035号

发明内容

发明要解决的课题

在专利文献1记载的方法中，无法确认在分离声音信号后是否适当地分离成每个声源的成分，因此，存在如下的课题：在声源的数量未知时，声音信号有时不能被正确地分离成每个声源的成分。

本发明正是为了解决上述课题而提出的，其目的在于得到一种声音信号分离装置和声音信号分离方法，即使声源的数量未知，也能够将声音信号适当地分离成每个声源的成分。

用于解决课题的手段

本发明的声音信号分离装置具备特征量提取部、数据估计部、数据分类部、信号再生成部以及判定部。特征量提取部从包含混合有1个以上成分的声音信号的输入信号中提取特征量。数据估计部使用以估计将从同一声源输出的声音信号的成分之间对应起来的分类用数据的方式学习而成的DNN，根据由特征量提取部提取出的特征量来估计分类用数据。数据分类部将由数据估计部估计出的分类用数据分类成与每个成分的声音信号对应的数据。信号再生成部根据由数据分类部按照声音信号的每个成分分类后的分类用数据和由特征量提取部提取出的特征量，再生成每个成分的声音信号。判定部判定在由信号再生成部再生成的每个成分的声音信号中是否混合存在来自多个声源的成分。在该结构中，其特征在于，在由判定部判定为混合存在来自多个声源的成分时，反复执行特征量提取部、数据估计部、数据分类部以及信号再生成部的一系列处理，直到再生成了每个声源的成分的声音信号为止。

发明效果

根据本发明，声音信号分离装置判定在再生成的每个成分的声音信号中是否混合存在来自多个声源的成分，在判定为混合存在多个成分时，反复执行特征量提取部、数据估计部、数据分类部以及信号再生成部的一系列处理，直到再生成了每个声源的成分的声音信号为止。

通过这样地构成，即使声源的数量未知，声音信号分离装置也能够将声音信号适当地分离成每个声源的成分。

附图说明

[图1]是表示本发明的实施方式1的声音信号分离装置的结构的框图。

[图2]图2A是表示实现实施方式1的声音信号分离装置的功能的硬件结构的框图。图2B是表示执行实现实施方式1的声音信号分离装置的功能的软件的硬件结构的框图。

[图3]是表示实施方式1的声音信号分离方法的流程图。

[图4]图4A是表示映射到二维空间的与2个声音信号的成分对应的分类用数据的图。图4B是表示映射到二维空间的按照声音信号的每个成分分类后的分类用数据的图。

[图5]是表示与来自3个声源的成分对应的分类用数据的分类结果与时间的关系的图。

[图6]是表示每个成分的声音信号的语音识别结果的例子的图。

[图7]图7A是表示与混合存在来自2个声源的成分的声音信号对应的分类用数据的分类结果以及与来自1个声源的成分的声音信号对应的分类用数据的分类结果与时间的关系的图。图7B是表示与按照来自3个声源的每个成分正确地分离出的声音信号对应的分类用数据的分类结果与时间的关系的图。

[图8]是表示针对混合存在来自多个声源的成分的声音信号以及从1个声源输出的成分的声音信号各自的语音识别结果的图。

[图9]是表示针对混合存在来自多个声源的成分的声音信号以及来自1个声源的成分的声音信号各自的语音识别结果和识别似然度的图。

具体实施方式

下面，为了更加详细地说明本发明，按照附图对用于实施本发明的方式进行说明。

实施方式1

图1是表示本发明的实施方式1的声音信号分离装置1的结构的框图。声音信号分离装置1具备特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6，声音信号分离装置1将输入信号a中包含的声音信号分离成每个成分的声音信号，输出包含每个成分的声音信号的输出信号h。

特征量提取部2从输入信号a中提取特征量。输入信号a可以是混合有1个以上成分的声音信号，也可以是包含声音信号和其他信号的信号。例如，输入信号a也可以是除了声音信号以外还包含与该声音信号对应的图像信号或文本数据的信号。

由特征量提取部2从输入信号a中提取出的特征量是分类用特征量b和信号再生成用特征量c。分类用特征量b是在数据估计部3估计分类用数据d时使用的特征量。例如，特征量提取部2对输入信号a中包含的声音信号实施短时傅立叶变换，求出频率轴上的振幅，根据频率轴上的振幅计算特征量。也可以将这样根据声音信号计算出的特征量按照时间序列排列而成的数据作为分类用特征量b。

信号再生成用特征量c是在信号再生成部5生成输出信号f时使用的特征量。例如，信号再生成用特征量c可以是特征量提取部2对输入信号a中包含的声音信号实施短时傅立叶变换而计算出的谱系数，也可以是输入信号a中包含的图像信息或文本数据。

数据估计部3使用DNN3a，根据由特征量提取部2从输入信号a中提取出的分类用特征量b，估计分类用数据d。分类用数据d是将从同一声源输出的声音信号的成分之间对应起来的数据。

例如，分类用数据d也可以是以使从同一声源输出的声音信号的时间频率成分之间的距离变小的方式变换后的声音信号的成分之间的成本。

在DNN3a中根据分类用特征量b设定有以估计分类用数据d的方式预先学习而成的网络参数3b。设定有网络参数3b的DNN3a通过对分类用特征量b分层地实施运算，估计分类用数据d。DNN3a例如也可以使用RNN(Recurrent Neural Network：循环神经网络)或CNN(Convolutional Neural Network：卷积神经网络)。

数据分类部4按照来自声源的每个成分对由数据估计部3估计出的分类用数据d进行分类。在分类用数据d的分类中也可以使用k平均法(k-means clustering)或GMM(Gaussian Mixture Models：高斯混合模型)这样的分类方法。由数据分类部4分类后的分类用数据d即分类结果信息e被输出到信号再生成部5。

信号再生成部5从数据分类部4输入分类结果信息e，基于分类结果信息e中的每个成分的分类用数据d，根据信号再生成用特征量c再生成每个成分的声音信号。信号再生成部5将作为再生成的每个成分的声音信号的输出信号f输出到判定部6。另外，输出信号f也可以包含与再生成的每个成分的声音信号对应的图像信号和文本信息。

判定部6判定在信号再生成部5的输出信号f中包含的每个成分的声音信号中是否混合存在来自多个声源的成分。例如，判定部6根据每个成分的声音信号的语音识别结果，判定在输出信号f中包含的每个成分的声音信号中是否混合存在来自多个声源的成分。另外，判定部6也可以根据每个成分的声音信号的语音识别结果的识别似然度，判定在输出信号f中包含的每个成分的声音信号中是否混合存在来自多个声源的成分。

判定部6将包含判定为混合存在来自多个声源的成分的声音信号的输出信号g返回到特征量提取部2。由此，反复执行特征量提取部2、数据估计部3、数据分类部4以及信号再生成部5的一系列处理，直到适当地再生成每个声源的成分的声音信号为止。判定部6输出输出信号h。输出信号h是包含由信号再生成部5再生成的每个声源的成分的声音信号的信号，也可以包含与这些声音信号对应的图像信号和文本信息。

图2A是表示实现声音信号分离装置1的功能的硬件结构的框图。图2B是表示执行实现声音信号分离装置1的功能的软件的硬件结构的框图。在图2A和图2B中，声音接口100是输入输入信号a中包含的声音信号并输出输出信号h中包含的声音信号的接口。例如，声音接口100与收集声音信号的麦克风连接，并与输出声音信号的扬声器连接。

图像接口101是输入输入信号a中包含的图像信号并输出输出信号h中包含的图像信号的接口。例如，图像接口101与拍摄图像信号的摄像机连接，并与显示图像信号的显示器连接。

文本输入接口102是输入输入信号a中包含的文本信息并输出输出信号h中包含的文本信息的接口。例如，文本输入接口102与用于输入文本信息的键盘或鼠标连接，并与显示文本信息的显示器连接。

在图2A所示的处理电路103具备的未图示的存储器或图2B所示的存储器105中暂时存储有输入信号a、分类用特征量b、信号再生成用特征量c、分类用数据d、分类结果信息e、输出信号f、输出信号g以及输出信号h。

处理电路103或处理器104适当地从存储器读出这些数据，进行声音信号的分离处理。

声音信号分离装置1中的特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6各自的功能通过处理电路实现。

即，声音信号分离装置1具备用于执行使用图3后述的步骤ST1～步骤ST5的处理的处理电路。处理电路可以是专用硬件，也可以是执行存储器中存储的程序的CPU(CentralProcessing Unit：中央处理单元)。

在处理电路是图2A所示的专用硬件的处理电路103的情况下，处理电路103例如相当于单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC(ApplicationSpecific Integrated Circuit：面向特定用途的集成电路)、FPGA(Field-ProgrammableGate Array：现场可编程门阵列)或它们的组合。特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6各自的功能可以通过单独的处理电路实现，也可以将这些功能汇总起来通过1个处理电路实现。

在处理电路是图2B所示的处理器104的情况下，特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6各自的功能通过软件、固件或者软件与固件的组合实现。软件或固件被描述成程序，存储在存储器105中。

处理器104通过读出并执行存储器105中存储的程序，实现特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6各自的功能。即，声音信号分离装置1具备存储器105，该存储器105用于存储在由处理器104执行时结果是执行图3所示的步骤ST1～步骤ST5的处理的程序。

这些程序使计算机执行特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6的步骤或方法。

存储器105也可以是存储有用于使计算机作为特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6发挥功能的程序的计算机能读取的存储介质。

存储器105例如可以是RAM(Random Access Memory：随机存取存储器)、ROM(ReadOnly Memory：只读存储器)、闪存、EPROM(Erasable Programmable Read Only Memory：可擦除可编程只读存储器)、EEPROM(Electrically-EPROM：电可擦除可编程只读存储器)等非易失性或易失性半导体存储器、磁盘、软盘、光盘、压缩盘、迷你盘、DVD等。另外，存储器105也可以是USB(Universal Serial Bus：通用串行总线)存储器这样的外部存储器。

关于特征量提取部2、数据估计部3、数据分类部4、信号再生成部5以及判定部6各自的功能，也可以用专用硬件实现一部分，用软件或者固件实现一部分。例如，关于特征量提取部2和数据估计部3，通过作为专用硬件的处理电路来实现功能。关于数据分类部4、信号再生成部5以及判定部6，也可以通过处理器104读出并执行存储器105中存储的程序来实现功能。这样，处理电路可以通过硬件、软件、固件或它们的组合来实现上述功能的各个功能。

接着，对动作进行说明。

图3是表示实施方式1的声音信号分离方法的流程图。

特征量提取部2从输入信号a中提取分类用特征量b和信号再生成用特征量c(步骤ST1)。分类用特征量b从特征量提取部2输出到数据估计部3，信号再生成用特征量c从特征量提取部2输出到信号再生成部5。

在输入信号a中，除了由声音接口100接受输入的声音信号以外，还可以包含由图像接口101输入的图像信号或者由文本输入接口102输入的文本信息。

另外，特征量提取部2也可以从处理电路103具备的未图示的存储器或存储器105读出输入信号a来提取特征量。

此外，输入信号a也可以是流数据。

接着，数据估计部3使用DNN3a，根据分类用特征量b估计分类用数据d(步骤ST2)。分类用数据d从数据估计部3输出到数据分类部4。

接着，数据分类部4根据预先指定的声源数，按照每个成分对由数据估计部3估计出的分类用数据d进行分类(步骤ST3)。数据分类部4将作为按照每个成分分类后的分类用数据d的分类结果信息e输出到信号再生成部5。

图4A是表示映射到二维空间的与2个声音信号的成分对应的分类用数据d1、d2的图。图4B是表示映射到二维空间的按照声音信号的每个成分分类后的分类用数据d1、d2的图。在图4A的例子中，设声源的数量为声源A和声源B这2个，在输入信号a中混合有从声源A输出的声音信号的成分和从声源B输出的声音信号的成分。

用圆形记号表示的分类用数据d1是将从声源A输出的声音信号的成分之间对应起来的数据，用三角形记号表示的分类用数据d2是将从声源B输出的声音信号的成分之间对应起来的数据。

例如，在来自声源的声音信号的输出状态发生变化的情况下，分类用特征量b也相应地发生变化。在数据估计部3使用DNN3a根据分类用特征量b估计出分类用数据d时，即使是与从同一声源输出的声音信号的成分对应的分类用数据d，也存在与分类用特征量b的变化对应地在分类用数据d的值中产生偏差的情况。因此，在不知道多个值产生偏差的分类用数据d是属于声源A的分类用数据d1还是属于声源B的分类用数据d2的状态下，输入到数据分类部4。

图4B是表示按照来自声源的每个成分分类后的分类用数据d1、d2的图。在图4A和图4B中，声源的数量为声源A和声源B这2个。

在从数据估计部3输入分类用数据d时，数据分类部4根据预先指定的声源数“2”，对分类用数据d进行分类。由此，得到表示与声源A对应的分类用数据d1的分类结果A1和表示与声源B对应的分类用数据d2的分类结果A2。

图5是表示与来自3个声源A、声源B以及声源C各自的成分对应的分类用数据d1、d2、d3的分类结果与时间的关系的图。在图5中，用四边形记号表示的分类用数据d3被分类成与声源C对应的分类结果G1，用三角形记号表示的分类用数据d2被分类成与声源B对应的分类结果G2，用圆形记号表示的分类用数据d1被分类成与声源A对应的分类结果G3。

返回到图3的说明。

信号再生成部5根据从特征量提取部2输入的信号再生成用特征量c和从数据分类部4输入的分类结果信息e中的每个成分的分类用数据d，再生成每个成分的声音信号(步骤ST4)。例如，信号再生成部5使用被分类成同一成分的分类用数据d，确定与声源对应的信号再生成用特征量c，根据确定的信号再生成用特征量c和分类用数据d，再生成每个成分的声音信号。信号再生成部5将作为再生成的每个成分的声音信号的输出信号f输出到判定部6。

判定部6判定在信号再生成部5的输出信号f中包含的每个成分的声音信号中是否混合存在来自多个声源的成分(步骤ST5)。例如，判定部6根据声音信号的语音识别结果，判定在该声音信号中是否混合存在来自多个声源的成分。在语音识别处理中，也可以使用所谓的“模式识别”这样的识别技术。判定部6将得到语音识别结果的声音信号判定为仅是来自1个声源的成分，将未得到语音识别结果的声音信号判定为混合存在来自多个声源的成分。

例如，判定部6对来自信号再生成部5的输出信号f中包含的声音信号执行语音识别处理。另外，判定部6也可以使用与DNN3a分开设置的DNN，执行声音信号的语音识别处理。

图6是表示每个成分的声音信号的语音识别结果的例子的图，表示与使用图5的分类结果G1～G3再生成的每个成分的声音信号有关的语音识别结果。在图6中，“根据分类结果G1生成的信号”是指由信号再生成部5根据分类结果G1的分类用数据d3再生成的来自声源C的成分的声音信号。“根据分类结果G2生成的信号”是指由信号再生成部5根据分类结果G2的分类用数据d2再生成的来自声源B的成分的声音信号。“根据分类结果G3生成的信号”是指由信号再生成部5根据分类结果G3的分类用数据d1再生成的来自声源A的成分的声音信号。

对于按照来自声源的每个成分适当地分离出的声音信号，能够高精度地进行语音识别处理。通过对根据分类结果G1的分类用数据d3再生成的声音信号进行语音识别，得到语音识别结果10a。通过对根据分类结果G2再生成的声音信号进行语音识别，得到语音识别结果10b。通过对根据分类结果G3再生成的声音信号进行语音识别，得到语音识别结果10c。

在得到声音信号的语音识别结果的情况下，判定部6判定为在该声音信号中没有混合存在来自多个声源的成分，不能分离成更多的成分(步骤ST5：否)，将包含该声音信号的输出信号h输出到外部并结束处理。

图7A是表示与混合存在来自声源B的成分和来自声源C的成分的声音信号对应的分类用数据的分类结果G0以及与来自声源A的成分的声音信号对应的分类用数据的分类结果G3与时间的关系的图。图7B是表示与按照来自声源A、声源B以及声源C的每个成分被正确地分离出的声音信号对应的分类用数据的分类结果G1、G2、G3与时间的关系的图。图7A和图7B表示将混合存在来自声源A、声源B以及声源C的成分的声音信号分离成每个声源的成分的情况。

在将混合存在来自声源A、声源B以及声源C各自的成分的声音信号分离成每个声源的成分的情况下，数据分类部4需要分别分类成与来自声源A的成分对应的分类用数据d1、与来自声源B的成分对应的分类用数据d2以及与来自声源C的成分对应的分类用数据d3。

但是，在图7A中声源的数量未知，数据分类部4根据预先指定的声源数“2”，对分类用数据d进行分类。因此，例如，分类用数据d1被正确地分类成与声源A对应的分类结果G3，但是，分类用数据d2和分类用数据d3被错误地分类成与混合存在来自声源B的成分和来自声源C的成分的声音信号对应的分类结果G0。

图8是表示针对混合存在来自声源B的成分和来自声源C的成分的声音信号以及来自声源A的成分的声音信号各自的语音识别结果的图。在图8中，“根据分类结果G0生成的信号”是由信号再生成部5根据分类结果G0的分类用数据d2、d3再生成的混合存在来自声源B的成分和来自声源C的成分的声音信号。“根据分类结果G1生成的信号”是指根据分类结果G1的分类用数据d3再生成的来自声源C的成分的声音信号。“根据分类结果G2生成的信号”是指根据分类结果G2的分类用数据d2再生成的来自声源B的成分的声音信号。“根据分类结果G3生成的信号”是指根据分类结果G3的分类用数据d1再生成的来自声源A的成分的声音信号。

通过对来自声源C的成分的声音信号进行语音识别，得到语音识别结果10a。通过对来自声源B的成分的声音信号进行语音识别，得到语音识别结果10b，通过对来自声源A的成分的声音信号进行语音识别，得到语音识别结果10c。

但是，混合存在来自声源B的成分和来自声源C的成分的声音信号的语音识别精度低，如图8所示，无法得到识别结果。

判定部6在无法得到声音信号的语音识别结果的情况下，判定为在该声音信号中混合存在来自多个声源的成分(步骤ST5：是)。此时，变更对数据分类部4指定的声源数或处理对象的声音文件(步骤ST6)。例如，数据分类部4将预先指定的声源数增加+1。然后，判定部6将包含上述声音信号的成分和与该声音信号的成分一起再生成的声音信号的成分的输出信号g输出到特征量提取部2，返回到步骤ST1的处理。另外，在变更处理对象的声音文件的情况下，判定部6仅将混合存在来自多个声源的成分的声音信号输出到特征量提取部2，返回到步骤ST1的处理。

然后，特征量提取部2、数据估计部3、数据分类部4以及信号再生成部5对声音信号执行步骤ST1～步骤ST4的一系列处理，直到适当地分离成每个声源的成分的声音信号为止。

当反复执行步骤ST1～步骤ST4的一系列处理时，数据分类部4如图7B所示，将分类用数据d1分类成与声源A对应的分类结果G3，将分类用数据d2分类成与声源B对应的分类结果G2，将分类用数据d3分类成与声源C对应的分类结果G1。信号再生成部5根据分类结果G1、分类结果G2以及分类结果G3，再生成来自声源C的成分的声音信号、来自声源B的成分的声音信号以及来自声源A的成分的声音信号。

这样，声音信号分离装置1判定在再生成的每个成分的声音信号中是否混合存在来自多个声源的成分，反复进行成分的分离处理，直到判定为混合存在来自多个声源的成分的声音信号被适当地分离成每个声源的成分为止。由此，即使声源的数量未知，也能够将声音信号适当地分离成每个声源的成分。

另外，语音识别处理并不限定于模式识别，例如也可以采用参考文献中记载的模式识别以外的语音识别处理。

(参考文献)古井贞熙《语音信息处理》森北出版，1998年，pp79-132

另外，判定部6也可以根据对象声音信号的语音识别结果的识别似然度，判定是否混合存在来自多个声源的成分。

图9是表示针对混合存在来自多个声源的成分的声音信号以及来自1个声源的成分的声音信号各自的语音识别结果和识别似然度的图。至此，是以混合存在来自多个声源的成分的声音信号不能进行语音识别为前提的，但实际上虽然识别精度低，但有可能得到识别结果。

在图9中，“根据分类结果G0生成的信号”是由信号再生成部5根据分类结果G0的分类用数据d2、d3再生成的混合存在来自声源B的成分和来自声源C的成分的声音信号。“根据分类结果G1生成的信号”是指根据分类结果G1的分类用数据d3再生成的来自声源C的成分的声音信号。“根据分类结果G2生成的信号”是指根据分类结果G2的分类用数据d2再生成的来自声源B的成分的声音信号。“根据分类结果G3生成的信号”是指根据分类结果G3的分类用数据d1再生成的来自声源A的成分的声音信号。

通过对来自声源C的成分的声音信号进行语音识别，得到语音识别结果10a，其识别似然度为“0.9”。通过对来自声源B的成分的声音信号进行语音识别，得到语音识别结果10b，其识别似然度为“0.8”。通过对来自声源A的成分的声音信号进行语音识别，得到语音识别结果10c，其识别似然度为“1.0”。另一方面，通过对混合存在来自声源B的成分和来自声源C的成分的声音信号进行语音识别，得到特异的语音识别结果10d，其识别似然度为“0.1”。

判定部6将对象声音信号的语音识别结果的识别似然度与预先设定的阈值进行比较，如果识别似然度高于阈值，则判定为在该声音信号中没有混合存在来自多个声源的成分，如果识别似然度在阈值以下，则判定为在该声音信号中混合存在来自多个声源的成分。例如，在与识别似然度相关的阈值为0.5时，判定部6判定为在识别似然度为0.5以下的“根据分类结果G0生成的信号”中混合存在来自多个声源的成分。

例如，判定部6对来自信号再生成部5的输出信号f中包含的声音信号执行语音识别处理和识别似然度的计算。另外，判定部6也可以使用与DNN3a分开设置的DNN，执行声音信号的语音识别处理和识别似然度的计算。

至此，示出对包含判定为混合存在来自多个声源的成分的声音信号和与该声音信号的成分一起再生成的声音信号的成分的输出信号g执行图3所示的步骤ST1～步骤ST4的一系列处理的情况，但并不限定于此。

例如，也可以是，当判定为在由信号再生成部5再生成的信号中混合存在来自多个声源的成分的情况下，数据分类部4变更预先指定的声源的数量(例如，在图4A和图4B中为“2”的声源的数量)，声音信号分离装置1按照变更后的声源的数量分离输入信号a中包含的声音信号。

另外，也可以是，声音信号分离装置1对仅包含判定为混合存在来自多个声源的成分的声音信号的成分的输出信号g，执行步骤ST1～步骤ST4的一系列处理。在这些情况下，当判定为在由信号再生成部5再生成的信号中混合存在来自多个声源的成分时，也反复进行步骤ST1～步骤ST4的一系列处理。

如上所述，在实施方式1的声音信号分离装置1中，判定部6判定在再生成的每个成分的声音信号中是否混合存在来自多个声源的成分。在判定为混合存在多个成分时，反复执行特征量提取部2、数据估计部3、数据分类部4以及信号再生成部5的一系列处理，直到分离成每个声源的成分的声音信号为止。在该结构中，判定部6根据每个成分的声音信号的语音识别结果，判定是否混合存在来自多个声源的成分。或者，判定部6根据与每个成分的声音信号的语音识别有关的识别似然度，判定是否混合存在来自多个声源的成分。

由于这样地构成，因此，即使声源的数量未知，声音信号分离装置1也能够将声音信号适当地分离成每个声源的成分。

另外，本发明并不限定于上述实施方式，能够在本发明的范围内进行实施方式的任意构成要素的变形或实施方式的任意构成要素的省略。

产业上的可利用性

即使声源的数量未知，本发明的声音信号分离装置也能够将声音信号适当地分离成每个声源的成分，因此，例如能够用于存在多个声源的会议系统。

标号说明

1：声音信号分离装置；2：特征量提取部；3：数据估计部；3a：DNN；3b：网络参数；4：数据分类部；5：信号再生成部；6：判定部；10a～10d：语音识别结果；100：声音接口；101：图像接口；102：文本输入接口；103：处理电路；104：处理器；105：存储器。

Claims

1.一种声音信号分离装置，其特征在于，该声音信号分离装置具备：

特征量提取部，其从包含混合有1个以上成分的声音信号的输入信号中提取特征量；

数据估计部，其使用以估计将从同一声源输出的声音信号的成分之间对应起来的分类用数据的方式学习而成的深层神经网络，根据由所述特征量提取部提取出的特征量来估计所述分类用数据；

数据分类部，其将由所述数据估计部估计出的所述分类用数据分类成与每个成分的声音信号对应的数据；

信号再生成部，其根据由所述数据分类部按照声音信号的每个成分分类后的所述分类用数据和由所述特征量提取部提取出的特征量，再生成每个成分的声音信号；以及

判定部，其判定在由所述信号再生成部再生成的每个成分的声音信号中是否混合存在来自多个声源的成分，

在由所述判定部判定为混合存在来自多个声源的成分时，反复执行所述特征量提取部、所述数据估计部、所述数据分类部以及所述信号再生成部的一系列处理，直到再生成了每个声源的成分的声音信号为止。

2.根据权利要求1所述的声音信号分离装置，其特征在于，

所述判定部根据每个成分的声音信号的语音识别结果，判定是否混合存在来自多个声源的成分。

3.根据权利要求1所述的声音信号分离装置，其特征在于，

所述判定部根据与每个成分的声音信号的语音识别有关的识别似然度，判定是否混合存在来自多个声源的成分。

4.一种声音信号分离方法，其特征在于，该声音信号分离方法具有如下步骤：

特征量提取部从包含混合有1个以上成分的声音信号的输入信号中提取特征量；

数据估计部使用以估计将从同一声源输出的声音信号的成分之间对应起来的分类用数据的方式学习而成的深层神经网络，根据由所述特征量提取部提取出的特征量来估计所述分类用数据；

数据分类部将由所述数据估计部估计出的所述分类用数据分类成与每个成分的声音信号对应的数据；

信号再生成部根据由所述数据分类部按照声音信号的每个成分分类后的所述分类用数据和由所述特征量提取部提取出的特征量，再生成每个成分的声音信号；以及

判定部判定在由所述信号再生成部再生成的每个成分的声音信号中是否混合存在来自多个声源的成分，