CN116997961A - 信息处理装置、输出方法和输出程序 - Google Patents
信息处理装置、输出方法和输出程序 Download PDFInfo
- Publication number
- CN116997961A CN116997961A CN202180095532.6A CN202180095532A CN116997961A CN 116997961 A CN116997961 A CN 116997961A CN 202180095532 A CN202180095532 A CN 202180095532A CN 116997961 A CN116997961 A CN 116997961A
- Authority
- CN
- China
- Prior art keywords
- sound
- target sound
- target
- signal
- sound signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims description 31
- 230000005236 sound signal Effects 0.000 claims abstract description 211
- 230000000873 masking effect Effects 0.000 claims abstract description 92
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 9
- 238000013500 data storage Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
信息处理装置(100)具有:取得部(120),其取得声源位置信息(111)、混合声音信号和已学习模型(112);声音特征量提取部(130),其根据混合声音信号提取多个声音特征量;增强部(140),其根据声源位置信息(111)对多个声音特征量中的目标声音方向的声音特征量进行增强;估计部(150),其根据多个声音特征量和声源位置信息(111)估计目标声音方向;掩蔽特征量提取部(160),其根据估计出的目标声音方向和多个声音特征量提取掩蔽特征量;生成部(170),其根据被增强的声音特征量生成目标声音方向增强声音信号,根据掩蔽特征量生成目标声音方向掩蔽声音信号;以及目标声音信号输出部(180),其使用目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型(112)输出目标声音信号。
Description
技术领域
本发明涉及信息处理装置、输出方法和输出程序。
背景技术
多个讲话者同时讲话,由此,语音混合。有时希望从混合的语音中提取目标讲话者的语音。例如,在提取目标讲话者的语音的情况下,考虑抑制噪音的方法。这里,已提出抑制噪音的方法(参照专利文献1)。
现有技术文献
专利文献
专利文献1:日本特开2010-239424号公报
专利文献2:国际公开第2016/143125号
非专利文献
非专利文献1:Yi Luo,Nima Mesgarani,“Conv-TasNet:Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation”,2019年
非专利文献2:Ashish Vaswani et al.,“Attention Is All You Need”,inProc.NIPS,2017年
发明内容
发明要解决的课题
但是,在目标声音(例如目标讲话者的语音)入射到麦克风的方向与干扰声音(例如干扰讲话者的语音)入射到该麦克风的方向之间的角度小的情况下,有时装置即使使用上述的技术也很难输出表示目标声音的信号即目标声音信号。
本发明的目的在于,输出目标声音信号。
用于解决课题的手段
提供本发明的一个方式的信息处理装置。信息处理装置具有:取得部,其取得目标声音的声源的位置信息即声源位置信息、表示包含所述目标声音和干扰声音的混合声音的信号即混合声音信号以及已学习模型;声音特征量提取部,其根据所述混合声音信号提取多个声音特征量;增强部,其根据所述声源位置信息,对所述多个声音特征量中的、所述目标声音的方向即目标声音方向的声音特征量进行增强;估计部,其根据所述多个声音特征量和所述声源位置信息估计所述目标声音方向;掩蔽特征量提取部,其根据估计出的所述目标声音方向和所述多个声音特征量,提取所述目标声音方向的特征量被掩蔽的状态的特征量即掩蔽特征量;生成部,其根据被增强的声音特征量,生成所述目标声音方向被增强的声音信号即目标声音方向增强声音信号,根据所述掩蔽特征量,生成所述目标声音方向被掩蔽的声音信号即目标声音方向掩蔽声音信号;以及目标声音信号输出部,其使用所述目标声音方向增强声音信号、所述目标声音方向掩蔽声音信号和所述已学习模型输出表示所述目标声音的信号即目标声音信号。
发明效果
根据本发明,能够输出目标声音信号。
附图说明
图1是示出实施方式1的目标声音信号输出系统的例子的图。
图2是示出实施方式1的信息处理装置具有的硬件的图。
图3是示出实施方式1的信息处理装置的功能的框图。
图4是示出实施方式1的已学习模型的结构例的图。
图5是示出实施方式1的信息处理装置执行的处理的例子的流程图。
图6是示出实施方式1的学习装置的功能的框图。
图7是示出实施方式1的学习装置执行的处理的例子的流程图。
图8是示出实施方式2的信息处理装置的功能的框图。
图9是示出实施方式2的信息处理装置执行的处理的例子的流程图。
图10是示出实施方式3的信息处理装置的功能的框图。
图11是示出实施方式3的信息处理装置执行的处理的例子的流程图。
图12是示出实施方式4的信息处理装置的功能的框图。
图13是示出实施方式4的信息处理装置执行的处理的例子的流程图。
具体实施方式
下面,参照附图对实施方式进行说明。以下的实施方式不过是例子,能够在本发明的范围内进行各种变更。
实施方式1
图1是示出实施方式1的目标声音信号输出系统的例子的图。目标声音信号输出系统包含信息处理装置100和学习装置200。信息处理装置100是执行输出方法的装置。信息处理装置100使用已学习模型输出目标声音信号。已学习模型由学习装置200生成。
关于信息处理装置100,利用活用阶段进行说明。关于学习装置200,利用学习阶段进行说明。首先,对活用阶段进行说明。
<活用阶段>
图2是示出实施方式1的信息处理装置具有的硬件的图。信息处理装置100具有处理器101、易失性存储装置102和非易失性存储装置103。
处理器101对信息处理装置100整体进行控制。例如,处理器101是CPU(CentralProcessing Unit:中央处理单元)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等。处理器101也可以是多处理器。此外,信息处理装置100也可以具有处理电路。处理电路也可以是单一电路或复合电路。
易失性存储装置102是信息处理装置100的主存储装置。例如,易失性存储装置102是RAM(Random Access Memory:随机存取存储器)。非易失性存储装置103是信息处理装置100的辅助存储装置。例如,非易失性存储装置103是HDD(Hard Disk Drive:硬盘驱动器)或SSD(Solid State Drive:固态驱动器)。
此外,由易失性存储装置102或非易失性存储装置103确保的存储区域称作存储部。
接着,对信息处理装置100具有的功能进行说明。
图3是示出实施方式1的信息处理装置的功能的框图。信息处理装置100具有取得部120、声音特征量提取部130、增强部140、估计部150、掩蔽特征量提取部160、生成部170和目标声音信号输出部180。
取得部120、声音特征量提取部130、增强部140、估计部150、掩蔽特征量提取部160、生成部170和目标声音信号输出部180的一部分或全部也可以通过处理电路实现。此外,取得部120、声音特征量提取部130、增强部140、估计部150、掩蔽特征量提取部160、生成部170和目标声音信号输出部180的一部分或全部也可以作为处理器101执行的程序的模块来实现。例如,处理器101执行的程序也称作输出程序。例如,输出程序被记录于记录介质。
存储部也可以存储声源位置信息111和已学习模型112。声源位置信息111是目标声音的声源的位置信息。例如,在目标声音是目标声音讲话者发出的语音的情况下,声源位置信息111是目标声音讲话者的位置信息。
取得部120取得声源位置信息111。例如,取得部120从存储部取得声源位置信息111。这里,声源位置信息111也可以被存储于外部装置(例如云服务器)。在声源位置信息111被存储于外部装置的情况下,取得部120从外部装置取得声源位置信息111。
取得部120取得已学习模型112。例如,取得部120从存储部取得已学习模型112。此外,例如,取得部120从学习装置200取得已学习模型112。
取得部120取得混合声音信号。例如,取得部120从具有N(N为2以上的整数)个麦克风的麦克风阵列取得混合声音信号。混合声音信号是表示包含目标声音和干扰声音的混合声音的信号。混合声音信号也可以表现为N个声音信号。另外,例如,目标声音是目标声音讲话者发出的语音、动物发出的声音等。干扰声音是干扰目标声音的声音。此外,在混合声音中也可以包含噪声。在以下的说明中,设为在混合声音中包含目标声音、干扰声音和噪声。
声音特征量提取部130根据混合声音信号提取多个声音特征量。例如,声音特征量提取部130提取对混合声音信号进行短时傅里叶变换(STFT:short-time Fouriertransform)而得到的功率谱的时间序列作为多个声音特征量。另外,提取出的多个声音特征量也可以表现为N个声音特征量。
增强部140根据声源位置信息111对多个声音特征量中的、目标声音方向的声音特征量进行增强。例如,增强部140使用多个声音特征量、声源位置信息111和MVDR(MinimumVariance Distortion less Response:最小方差无失真响应)波束成形器对目标声音方向的声音特征量进行增强。
估计部150根据多个声音特征量和声源位置信息111估计目标声音方向。详细地讲,估计部150使用式(1)估计目标声音方向。
l表示时间。k表示频率。xlk表示与从最接近根据声源位置信息111确定的目标声音的声源位置的麦克风得到的声音信号对应的声音特征量。xlk也可以考虑为STFT谱。aθ,k表示某个角度方向θ的转向向量。H是共轭转置。
掩蔽特征量提取部160根据估计出的目标声音方向和多个声音特征量提取掩蔽特征量。掩蔽特征量是目标声音方向的特征量被掩蔽的状态的特征量。对掩蔽特征量的提取处理进行详细说明。掩蔽特征量提取部160根据目标声音方向制作方向掩蔽。方向掩蔽是提取目标声音方向被增强的声音的掩蔽。该掩蔽是与声音特征量相同尺寸的矩阵。在目标声音方向的角度范围为θ的情况下,方向掩蔽Mlk用式(2)表示。
掩蔽特征量提取部160将掩蔽矩阵的元素积与多个声音特征量相乘,由此提取掩蔽特征量。
生成部170根据由增强部140增强后的声音特征量,生成目标声音方向被增强的声音信号(以下称作目标声音方向增强声音信号)。例如,生成部170使用由增强部140增强后的声音特征量和短时傅里叶逆变换(ISTFT:Inverse short-time Fourier transform)生成目标声音方向增强声音信号。
生成部170根据掩蔽特征量生成目标声音方向被掩蔽的声音信号(以下称作目标声音方向掩蔽声音信号)。例如,生成部170使用掩蔽特征量和短时傅里叶逆变换生成目标声音方向掩蔽声音信号。
目标声音方向增强声音信号和目标声音方向掩蔽声音信号也可以作为学习信号被输入到学习装置200。
目标声音信号输出部180使用目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。这里,对已学习模型112的结构例进行说明。
图4是示出实施方式1的已学习模型的结构例的图。已学习模型112包含编码器(Encoder)112a、分离器(Separator)112b和解码器(Decoder)112c。
编码器112a根据目标声音方向增强声音信号估计“M维度×时间”的目标声音方向增强时间频率表现。此外,编码器112a根据目标声音方向掩蔽声音信号估计“M维度×时间”的目标声音方向掩蔽时间频率表现。例如,编码器112a也可以将通过STFT估计出的功率谱估计为目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现。此外,例如,编码器112a也可以使用一维卷积运算来估计目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现。在进行该估计的情况下,目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现可以被投影到相同的时间频率表现空间,也可以被投影到不同的时间频率表现空间。另外,例如,该估计记载于非专利文献1。
分离器112b根据目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现估计“M维度×时间”的掩蔽矩阵。此外,在目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现被输入到分离器112b时,目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现也可以在频率轴方向上连结。由此,被转换为“2M维度×时间”的表现。目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现也可以在与时间轴和频率轴不同的轴上连结。由此,被转换为“M维度×时间×2”的表现。也可以对目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现进行加权。被加权的目标声音方向增强时间频率表现和被加权的目标声音方向掩蔽时间频率表现也可以合并。权重也可以由已学习模型112来估计。
另外,分离器112b是由输入层、中间层和输出层构成的神经网络。例如,关于层与层之间的传播,也可以使用与LSTM(Long Short Term Memory:长短期记忆)相似的方法和组合一维卷积运算而成的方法。
解码器112c将“M维度×时间”的目标声音方向增强时间频率表现和“M维度×时间”的掩蔽矩阵相乘。解码器112c使用通过相乘而得到的信息和与在编码器112a中使用的方法对应的方法输出目标声音信号。例如,当在编码器112a中使用的方法是STFT的情况下,解码器112c使用通过相乘而得到的信息和ISTFT输出目标声音信号。此外,例如,当在编码器112a中使用的方法是一维卷积运算的情况下,解码器112c使用通过相乘而得到的信息和一维卷积逆运算输出目标声音信号。
目标声音信号输出部180也可以将目标声音信号输出到扬声器。由此,目标声音从扬声器输出。另外,扬声器的图示被省略。
接着,使用流程图对信息处理装置100执行的处理进行说明。
图5是示出实施方式1的信息处理装置执行的处理的例子的流程图。
(步骤S11)取得部120取得混合声音信号。
(步骤S12)声音特征量提取部130根据混合声音信号提取多个声音特征量。
(步骤S13)增强部140根据声源位置信息111对目标声音方向的声音特征量进行增强。
(步骤S14)估计部150根据多个声音特征量和声源位置信息111估计目标声音方向。
(步骤S15)掩蔽特征量提取部160根据估计出的目标声音方向和多个声音特征量提取掩蔽特征量。
(步骤S16)生成部170根据由增强部140增强后的声音特征量生成目标声音方向增强声音信号。此外,生成部170根据掩蔽特征量生成目标声音方向掩蔽声音信号。
(步骤S17)目标声音信号输出部180使用目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
另外,步骤S14、S15也可以与步骤S13并行地执行。此外,步骤S14、S15也可以在步骤S13之前执行。
接着,对学习阶段进行说明。
<学习阶段>
在学习阶段中,对已学习模型112的生成的一例进行说明。
图6是示出实施方式1的学习装置的功能的框图。学习装置200具有声音数据存储部211、脉冲响应存储部212、噪声存储部213、脉冲响应应用部220、混合部230、处理执行部240和学习部250。
此外,声音数据存储部211、脉冲响应存储部212、噪声存储部213也可以作为由学习装置200具有的易失性存储装置或非易失性存储装置确保的存储区域来实现。
脉冲响应应用部220、混合部230、处理执行部240和学习部250的一部分或全部也可以通过学习装置200具有的处理电路实现。此外,脉冲响应应用部220、混合部230、处理执行部240和学习部250的一部分或全部也可以作为学习装置200具有的处理器执行的程序的模块来实现。
声音数据存储部211存储目标声音信号和干扰声音信号。另外,干扰声音信号是表示干扰声音的信号。脉冲响应存储部212存储脉冲响应数据。噪声存储部213存储噪声信号。另外,噪声信号是表示噪声的信号。
脉冲响应应用部220将与目标声音的位置和干扰声音的位置对应的脉冲响应数据与声音数据存储部211中存储的1个目标声音信号和声音数据存储部211中存储的任意数量的干扰声音信号进行卷积。
混合部230根据脉冲响应应用部220输出的声音信号和噪声存储部213中存储的噪声信号生成混合声音信号。此外,脉冲响应应用部220输出的声音信号也可以作为混合声音信号来处理。学习装置200也可以向信息处理装置100发送混合声音信号。
处理执行部240执行步骤S11~S16,由此生成目标声音方向增强声音信号和目标声音方向掩蔽声音信号。即,处理执行部240生成学习信号。
学习部250使用学习信号进行学习。即,学习部250使用目标声音方向增强声音信号和目标声音方向掩蔽声音信号进行用于输出目标声音信号的学习。另外,在学习中,决定神经网络的参数即输入权重系数。在学习中,也可以使用非专利文献1所示的损失函数。此外,在学习中,也可以使用脉冲响应应用部220输出的声音信号和损失函数计算误差。而且,例如,在学习中使用Adam等最优化方法,根据反向误差传播方式决定神经网络的各层级的输入权重系数。
另外,学习信号可以是处理执行部240生成的学习信号,也可以是信息处理装置100生成的学习信号。
接着,使用流程图对学习装置200执行的处理进行说明。
图7是示出实施方式1的学习装置执行的处理的例子的流程图。
(步骤S21)脉冲响应应用部220将脉冲响应数据与目标声音信号和干扰声音信号进行卷积。
(步骤S22)混合部230根据脉冲响应应用部220输出的声音信号和噪声信号生成混合声音信号。
(步骤S23)处理执行部240执行步骤S11~S16,由此生成学习信号。
(步骤S24)学习部250使用学习信号进行学习。
然后,学习装置200反复进行学习,由此生成已学习模型112。
根据实施方式1,信息处理装置100使用已学习模型112,由此输出目标声音信号。已学习模型112是根据目标声音方向增强声音信号和目标声音方向掩蔽声音信号通过用于输出目标声音信号的学习而生成的已学习模型。详细地讲,已学习模型112识别被增强或掩蔽的目标声音成分和未被增强或掩蔽的目标声音成分,由此,在目标声音方向与干扰声音方向之间的角度小的情况下,也输出目标声音信号。由此,在目标声音方向与干扰声音方向之间的角度小的情况下,信息处理装置100也使用已学习模型112,由此能够输出目标声音信号。
实施方式2
接着,对实施方式2进行说明。在实施方式2中,主要对与实施方式1不同的事项进行说明。而且,在实施方式2中,省略与实施方式1共同的事项的说明。
图8是示出实施方式2的信息处理装置的功能的框图。信息处理装置100还具有选择部190。
选择部190的一部分或全部也可以通过处理电路实现。此外,选择部190的一部分或全部也可以作为处理器101执行的程序的模块来实现。
选择部190使用混合声音信号和声源位置信息111选择目标声音方向的通道的声音信号。换言之,选择部190根据声源位置信息111,从N个声音信号中选择目标声音方向的通道的声音信号。
这里,选择出的声音信号、目标声音方向增强声音信号和目标声音方向掩蔽声音信号也可以作为学习信号被输入到学习装置200。
目标声音信号输出部180使用选择出的声音信号、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
接着,对已学习模型112中包含的编码器112a、分离器112b和解码器112c的处理进行说明。
编码器112a根据目标声音方向增强声音信号估计“M维度×时间”的目标声音方向增强时间频率表现。此外,编码器112a根据目标声音方向掩蔽声音信号估计“M维度×时间”的目标声音方向掩蔽时间频率表现。进而,编码器112a根据选择出的声音信号估计“M维度×时间”的混合声音时间频率表现。例如,编码器112a也可以将通过STFT估计的功率谱估计为目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现。此外,例如,编码器112a也可以使用一维卷积运算来估计目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现。在进行该估计的情况下,目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现可以被投影到相同的时间频率表现空间,也可以被投影到不同的时间频率表现空间。另外,例如,该估计记载于非专利文献1。
分离器112b根据目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现估计“M维度×时间”的掩蔽矩阵。此外,在目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现被输入到分离器112b时,目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现也可以在频率轴方向上连结。由此,被转换为“3M维度×时间”的表现。目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现也可以在与时间轴和频率轴不同的轴上连结。由此,被转换为“M维度×时间×3”的表现。也可以对目标声音方向增强时间频率表现、目标声音方向掩蔽时间频率表现和混合声音时间频率表现进行加权。被加权的目标声音方向增强时间频率表现、被加权的目标声音方向掩蔽时间频率表现和被加权的混合声音时间频率表现也可以合并。权重也可以由已学习模型112来估计。
解码器112c的处理与实施方式1相同。
这样,目标声音信号输出部180使用选择出的声音信号、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
接着,使用流程图对信息处理装置100执行的处理进行说明。
图9是示出实施方式2的信息处理装置执行的处理的例子的流程图。图9的处理与图5的处理的不同之处在于执行步骤S11a、17a。因此,在图9中,对步骤S11a、17a进行说明。而且,步骤S11a、17a以外的处理的说明省略。
(步骤S11a)选择部190使用混合声音信号和声源位置信息111选择目标声音方向的通道的声音信号。
(步骤S17a)目标声音信号输出部180使用选择出的声音信号、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
另外,步骤S11a在执行步骤S17a之前执行即可,可以在任意的时机执行。
这里,对已学习模型112的生成进行说明。学习装置200使用包含目标声音方向的通道的声音信号(即目标声音方向的混合声音信号)的学习信号进行学习。例如,该学习信号也可以由处理执行部240生成。
学习装置200对目标声音方向增强声音信号与目标声音方向的混合声音信号之间的差分进行学习。此外,学习装置200对目标声音方向掩蔽声音信号与目标声音方向的混合声音信号之间的差分进行学习。学习装置200对差分大的部位的信号是目标声音信号进行学习。这样,学习装置200进行学习,由此生成已学习模型112。
根据实施方式2,信息处理装置100使用通过学习而得到的已学习模型112,由此能够输出目标声音信号。
实施方式3
接着,对实施方式3进行说明。在实施方式3中,主要对与实施方式1不同的事项进行说明。而且,在实施方式3中,省略与实施方式1共同的事项的说明。
图10是示出实施方式3的信息处理装置的功能的框图。信息处理装置100还具有可靠度计算部191。
可靠度计算部191的一部分或全部也可以通过处理电路实现。此外,可靠度计算部191的一部分或全部也可以作为处理器101执行的程序的模块来实现。
可靠度计算部191通过预先设定的方法计算掩蔽特征量的可靠度Fi。掩蔽特征量的可靠度Fi也可以称作方向掩蔽的可靠度Fi。预先设定的方法用下面的式(3)表示。ω表示目标声音方向的角度范围。θ表示声音产生方向的角度范围。
可靠度Fi是与方向掩蔽相同尺寸的矩阵。另外,可靠度Fi也可以被输入到学习装置200。
目标声音信号输出部180使用可靠度Fi、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
接着,对已学习模型112中包含的编码器112a、分离器112b和解码器112c的处理进行说明。
编码器112a在实施方式1的处理的基础上进行以下的处理。编码器112a将可靠度Fi的频率区间数F和帧数T相乘,由此计算时间频率表现FT。另外,频率区间数F是时间频率表现的频率轴方向的要素的数量。帧数T是以预先设定的时间对混合声音信号进行分割而得到的数量。
在目标声音方向增强时间频率表现和时间频率表现FT一致的情况下,在以后的处理中,时间频率表现FT作为实施方式2的混合声音时间频率表现来处理。在目标声音方向增强时间频率表现和时间频率表现FT不一致的情况下,编码器112a进行转换矩阵转换处理。具体而言,编码器112a将可靠度Fi的频率轴方向的要素数转换为目标声音方向增强时间频率表现的频率轴方向的要素数。
在目标声音方向增强时间频率表现和时间频率表现FT一致的情况下,分离器112b执行与实施方式2的分离器112b相同的处理。
在目标声音方向增强时间频率表现和时间频率表现FT不一致的情况下,分离器112b对频率轴方向的要素数被转换后的可靠度Fi和目标声音方向增强时间频率表现进行统合。例如,分离器112b使用非专利文献3所示的Attention法进行统合。分离器112b根据进行统合而得到的目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现估计“M维度×时间”的掩蔽矩阵。
解码器112c的处理与实施方式1相同。
这样,目标声音信号输出部180使用可靠度Fi、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
接着,使用流程图对信息处理装置100执行的处理进行说明。
图11是示出实施方式3的信息处理装置执行的处理的例子的流程图。图11的处理与图5的处理的不同之处在于执行步骤S15b、17b。因此,在图11中,对步骤S15b、17b进行说明。而且,步骤S15b、17b以外的处理的说明省略。
(步骤S15b)可靠度计算部191计算掩蔽特征量的可靠度Fi。
(步骤S17b)目标声音信号输出部180使用可靠度Fi、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
这里,对已学习模型112的生成进行说明。学习装置200在进行学习的情况下,使用可靠度Fi进行学习。学习装置200也可以使用从信息处理装置100取得的可靠度Fi进行学习。学习装置200也可以使用学习装置200具有的易失性存储装置或非易失性存储装置中存储的可靠度Fi进行学习。学习装置200使用可靠度Fi决定考虑多少目标声音方向掩蔽声音信号。学习装置200进行用于进行该决定的学习,由此生成已学习模型112。
根据实施方式3,目标声音方向增强声音信号和目标声音方向掩蔽声音信号被输入到已学习模型112。目标声音方向掩蔽声音信号是根据掩蔽特征量而生成的。已学习模型112使用掩蔽特征量的可靠度Fi决定考虑多少目标声音方向掩蔽声音信号。已学习模型112根据该决定来输出目标声音信号。这样,信息处理装置100通过将可靠度Fi输入到已学习模型112,能够输出更加适当的目标声音信号。
实施方式4
接着,对实施方式4进行说明。在实施方式4中,主要对与实施方式1不同的事项进行说明。而且,在实施方式4中,省略与实施方式1共同的事项的说明。
图12是示出实施方式4的信息处理装置的功能的框图。信息处理装置100还具有噪声区间检测部192。
噪声区间检测部192的一部分或全部也可以通过处理电路实现。此外,噪声区间检测部192的一部分或全部也可以作为处理器101执行的程序的模块来实现。
噪声区间检测部192根据目标声音方向增强声音信号检测噪声区间。例如,噪声区间检测部192在检测噪声区间的情况下,使用专利文献2中记载的方法。例如,噪声区间检测部192在根据目标声音方向增强声音信号检测到语音区间后,对语音区间的始端时刻和语音区间的终端时刻进行校正,由此确定语音区间。噪声区间检测部192将确定的语音区间从表示目标声音方向增强声音信号的区间中除外,由此检测噪声区间。这里,检测到的噪声区间也可以被输入到学习装置200。
目标声音信号输出部180使用检测到的噪声区间、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
接着,对已学习模型112中包含的编码器112a、分离器112b和解码器112c的处理进行说明。
编码器112a在实施方式1的处理的基础上进行以下的处理。编码器112a根据与目标声音方向增强声音信号的噪声区间对应的信号估计“M维度×时间”的非目标声音时间频率表现。例如,编码器112a也可以将通过STFT估计的功率谱估计为非目标声音时间频率表现。此外,例如,编码器112a也可以使用一维卷积运算来估计非目标声音时间频率表现。在进行该估计的情况下,非目标声音时间频率表现可以被投影到相同的时间频率表现空间,也可以被投影到不同的时间频率表现空间。另外,例如,该估计记载于非专利文献1。
分离器112b对非目标声音时间频率表现和目标声音方向增强时间频率表现进行统合。例如,分离器112b使用非专利文献3所示的Attention法进行统合。分离器112b根据进行统合而得到的目标声音方向增强时间频率表现和目标声音方向掩蔽时间频率表现估计“M维度×时间”的掩蔽矩阵。
另外,例如,分离器112b能够根据非目标声音时间频率表现估计噪声的倾向。
解码器112c的处理与实施方式1相同。
接着,使用流程图对信息处理装置100执行的处理进行说明。
图13是示出实施方式4的信息处理装置执行的处理的例子的流程图。图13的处理与图5的处理的不同之处在于执行步骤S16c、17c。因此,在图13中,对步骤S16c、17c进行说明。而且,步骤S16c、17c以外的处理的说明省略。
(步骤S16c)噪声区间检测部192根据目标声音方向增强声音信号检测表示噪声的区间即噪声区间。
(步骤S17c)目标声音信号输出部180使用噪声区间、目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型112输出目标声音信号。
这里,对已学习模型112的生成进行说明。学习装置200在进行学习的情况下,使用噪声区间进行学习。学习装置200也可以使用从信息处理装置100取得的噪声区间进行学习。学习装置200也可以使用处理执行部240检测到的噪声区间进行学习。学习装置200根据噪声区间对噪声的倾向进行学习。学习装置200考虑噪声的倾向,根据目标声音方向增强声音信号和目标声音方向掩蔽声音信号进行用于输出目标声音信号的学习。这样,学习装置200进行学习,由此生成已学习模型112。
根据实施方式4,噪声区间被输入到已学习模型112。已学习模型112根据噪声区间估计目标声音方向增强声音信号和目标声音方向掩蔽声音信号中包含的噪声的倾向。已学习模型112考虑噪声的倾向,根据目标声音方向增强声音信号和目标声音方向掩蔽声音信号输出目标声音信号。由此,信息处理装置100考虑噪声的倾向来输出目标声音信号,因此,能够输出更加适当的目标声音信号。
以上说明的各实施方式中的特征能够彼此适当地组合。
标号说明
100:信息处理装置;101:处理器;102:易失性存储装置;103:非易失性存储装置;111:声源位置信息;112:已学习模型;120:取得部;130:声音特征量提取部;140:增强部;150:估计部;160:掩蔽特征量提取部;170:生成部;180:目标声音信号输出部;190:选择部;191:可靠度计算部;192:噪声区间检测部;200:学习装置;211:声音数据存储部;212:脉冲响应存储部;213:噪声存储部;220:脉冲响应应用部;230:混合部;240:处理执行部;250:学习部。
Claims (7)
1.一种信息处理装置,该信息处理装置具有:
取得部,其取得目标声音的声源的位置信息即声源位置信息、表示包含所述目标声音和干扰声音的混合声音的信号即混合声音信号以及已学习模型;
声音特征量提取部,其根据所述混合声音信号提取多个声音特征量;
增强部,其根据所述声源位置信息,对所述多个声音特征量中的、所述目标声音的方向即目标声音方向的声音特征量进行增强;
估计部,其根据所述多个声音特征量和所述声源位置信息估计所述目标声音方向;
掩蔽特征量提取部,其根据估计出的所述目标声音方向和所述多个声音特征量,提取所述目标声音方向的特征量被掩蔽的状态的特征量即掩蔽特征量;
生成部,其根据被增强的声音特征量,生成所述目标声音方向被增强的声音信号即目标声音方向增强声音信号,根据所述掩蔽特征量,生成所述目标声音方向被掩蔽的声音信号即目标声音方向掩蔽声音信号;以及
目标声音信号输出部,其使用所述目标声音方向增强声音信号、所述目标声音方向掩蔽声音信号和所述已学习模型输出表示所述目标声音的信号即目标声音信号。
2.根据权利要求1所述的信息处理装置,其中,
所述信息处理装置还具有选择部,该选择部使用所述混合声音信号和所述声源位置信息选择所述目标声音方向的通道的声音信号,
所述目标声音信号输出部使用选择出的声音信号、所述目标声音方向增强声音信号、所述目标声音方向掩蔽声音信号和所述已学习模型输出所述目标声音信号。
3.根据权利要求1或2所述的信息处理装置,其中,
所述信息处理装置还具有可靠度计算部,该可靠度计算部通过预先设定的方法计算所述掩蔽特征量的可靠度,
所述目标声音信号输出部使用所述可靠度、所述目标声音方向增强声音信号、所述目标声音方向掩蔽声音信号和所述已学习模型输出所述目标声音信号。
4.根据权利要求1~3中的任意一项所述的信息处理装置,其中,
所述混合声音包含噪声。
5.根据权利要求4所述的信息处理装置,其中,
所述信息处理装置还具有噪声区间检测部,该噪声区间检测部根据所述目标声音方向增强声音信号检测表示所述噪声的区间即噪声区间,
所述目标声音信号输出部使用所述噪声区间、所述目标声音方向增强声音信号、所述目标声音方向掩蔽声音信号和所述已学习模型输出所述目标声音信号。
6.一种输出方法,其中,
信息处理装置取得目标声音的声源的位置信息即声源位置信息、表示包含所述目标声音和干扰声音的混合声音的信号即混合声音信号以及已学习模型,
所述信息处理装置根据所述混合声音信号提取多个声音特征量,
所述信息处理装置根据所述声源位置信息,对所述多个声音特征量中的、所述目标声音的方向即目标声音方向的声音特征量进行增强,
所述信息处理装置根据所述多个声音特征量和所述声源位置信息估计所述目标声音方向,
所述信息处理装置根据估计出的所述目标声音方向和所述多个声音特征量,提取所述目标声音方向的特征量被掩蔽的状态的特征量即掩蔽特征量,
所述信息处理装置根据被增强的声音特征量,生成所述目标声音方向被增强的声音信号即目标声音方向增强声音信号,根据所述掩蔽特征量,生成所述目标声音方向被掩蔽的声音信号即目标声音方向掩蔽声音信号,
所述信息处理装置使用所述目标声音方向增强声音信号、所述目标声音方向掩蔽声音信号和所述已学习模型输出表示所述目标声音的信号即目标声音信号。
7.一种输出程序,该输出程序使信息处理装置执行以下处理:
取得目标声音的声源的位置信息即声源位置信息、表示包含所述目标声音和干扰声音的混合声音的信号即混合声音信号以及已学习模型,
根据所述混合声音信号提取多个声音特征量,
根据所述声源位置信息,对所述多个声音特征量中的、所述目标声音的方向即目标声音方向的声音特征量进行增强,
根据所述多个声音特征量和所述声源位置信息估计所述目标声音方向,
根据估计出的所述目标声音方向和所述多个声音特征量,提取所述目标声音方向的特征量被掩蔽的状态的特征量即掩蔽特征量,
根据被增强的声音特征量,生成所述目标声音方向被增强的声音信号即目标声音方向增强声音信号,根据所述掩蔽特征量,生成所述目标声音方向被掩蔽的声音信号即目标声音方向掩蔽声音信号,
使用所述目标声音方向增强声音信号、所述目标声音方向掩蔽声音信号和所述已学习模型输出表示所述目标声音的信号即目标声音信号。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/014790 WO2022215199A1 (ja) | 2021-04-07 | 2021-04-07 | 情報処理装置、出力方法、及び出力プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116997961A true CN116997961A (zh) | 2023-11-03 |
Family
ID=83545327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180095532.6A Pending CN116997961A (zh) | 2021-04-07 | 2021-04-07 | 信息处理装置、输出方法和输出程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230419980A1 (zh) |
JP (1) | JP7270869B2 (zh) |
CN (1) | CN116997961A (zh) |
DE (1) | DE112021007013T5 (zh) |
WO (1) | WO2022215199A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4163294B2 (ja) * | 1998-07-31 | 2008-10-08 | 株式会社東芝 | 雑音抑圧処理装置および雑音抑圧処理方法 |
JP2003271191A (ja) * | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
JP5107956B2 (ja) | 2009-03-31 | 2012-12-26 | Kddi株式会社 | 雑音抑圧方法、装置およびプログラム |
JP5573517B2 (ja) * | 2010-09-07 | 2014-08-20 | ソニー株式会社 | 雑音除去装置および雑音除去方法 |
WO2016143125A1 (ja) | 2015-03-12 | 2016-09-15 | 三菱電機株式会社 | 音声区間検出装置および音声区間検出方法 |
JP6567478B2 (ja) * | 2016-08-25 | 2019-08-28 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 |
JP2019078864A (ja) * | 2017-10-24 | 2019-05-23 | 日本電信電話株式会社 | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム |
-
2021
- 2021-04-07 JP JP2023512578A patent/JP7270869B2/ja active Active
- 2021-04-07 WO PCT/JP2021/014790 patent/WO2022215199A1/ja active Application Filing
- 2021-04-07 DE DE112021007013.4T patent/DE112021007013T5/de active Pending
- 2021-04-07 CN CN202180095532.6A patent/CN116997961A/zh active Pending
-
2023
- 2023-08-29 US US18/239,289 patent/US20230419980A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022215199A1 (ja) | 2022-10-13 |
DE112021007013T5 (de) | 2023-12-07 |
JPWO2022215199A1 (zh) | 2022-10-13 |
JP7270869B2 (ja) | 2023-05-10 |
US20230419980A1 (en) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7191793B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
US7895038B2 (en) | Signal enhancement via noise reduction for speech recognition | |
EP3511937B1 (en) | Device and method for sound source separation, and program | |
US8036888B2 (en) | Collecting sound device with directionality, collecting sound method with directionality and memory product | |
Minhua et al. | Frequency domain multi-channel acoustic modeling for distant speech recognition | |
US20070276662A1 (en) | Feature-vector compensating apparatus, feature-vector compensating method, and computer product | |
Xu et al. | Generalized spatio-temporal rnn beamformer for target speech separation | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Nesta et al. | Blind source extraction for robust speech recognition in multisource noisy environments | |
Saleem et al. | Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence | |
JP2019054344A (ja) | フィルタ係数算出装置、収音装置、その方法、及びプログラム | |
KR102316627B1 (ko) | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 | |
CN116997961A (zh) | 信息处理装置、输出方法和输出程序 | |
US11676619B2 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
Kovalyov et al. | Dfsnet: A steerable neural beamformer invariant to microphone array configuration for real-time, low-latency speech enhancement | |
Wang et al. | Improving frame-online neural speech enhancement with overlapped-frame prediction | |
KR101068666B1 (ko) | 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치 | |
Kindt et al. | Improved separation of closely-spaced speakers by exploiting auxiliary direction of arrival information within a u-net architecture | |
Wu et al. | Improved speaker-dependent separation for chime-5 challenge | |
EP4171064A1 (en) | Spatial dependent feature extraction in neural network based audio processing | |
WO2023223529A1 (ja) | 情報処理装置、プログラム及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |