CN107507625A - 声源距离确定方法及装置 - Google Patents

声源距离确定方法及装置 Download PDF

Info

Publication number
CN107507625A
CN107507625A CN201610425685.3A CN201610425685A CN107507625A CN 107507625 A CN107507625 A CN 107507625A CN 201610425685 A CN201610425685 A CN 201610425685A CN 107507625 A CN107507625 A CN 107507625A
Authority
CN
China
Prior art keywords
model
training data
voice
reverberation
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610425685.3A
Other languages
English (en)
Other versions
CN107507625B (zh
Inventor
喻涛
潘嘉
王海坤
王智国
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xun Feizhi Metamessage Science And Technology Ltd
Original Assignee
Xun Feizhi Metamessage Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xun Feizhi Metamessage Science And Technology Ltd filed Critical Xun Feizhi Metamessage Science And Technology Ltd
Priority to CN201610425685.3A priority Critical patent/CN107507625B/zh
Publication of CN107507625A publication Critical patent/CN107507625A/zh
Application granted granted Critical
Publication of CN107507625B publication Critical patent/CN107507625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种声源距离确定方法及装置,该方法包括:接收用户语音信号;提取所述语音信号的频谱特征;将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。利用本发明,可以提高距离测定的准确性,而且无需借助第三方传感器。

Description

声源距离确定方法及装置
技术领域
本发明涉及语音信号处理领域,具体涉及一种声源距离确定方法及装置。
背景技术
随着人工智能技术的进步,人机语音交互也取得了长足的发展,各种语音助手APP和人机交互机器人大肆兴起。语音识别作为语音交互中必不可少的功能之一,其识别效果很大一部分取决于录音质量,现有的语音识别装置在录音质量较差时,往往整体识别效果会急剧下降,严重影响用户体验。因而,作为提升语音录音质量方法之一的:根据用户语音输入距离提醒和/或纠正用户语音输入习惯(如离麦克风近一些),对语音识别乃至整个语音交互体验尤为重要。
现有的声源距离判断主要有以下两种场景:
1、多麦克风场景,多是根据麦克风阵列硬件布置,以及各麦克风接收声源语音信号的时差,进行声源与各麦克风距离的判断。
2、单麦克风场景,多是采用第三方传感器测定声源与麦克风的距离,如红外测距、多摄像头测距等。
对于多麦克风场景,为了追求外观的精致,现在的收音设备尺寸越来越小,随之带来了因麦克风阵列集中而导致声源距离判定不准确的问题,比如,假设两个麦克风相距5cm,此时可能对于距离3米或5米的语音信号,其响应效果相差甚微,此时通过传统的距离判断方法其测定的距离准确性较差。对于单麦克风场景,现有的单麦克设备只能借助第三方传感器进行声源距离测定,因而需要更大的硬件成本和设计投入。
发明内容
本发明提供一种声源距离确定方法及装置,以解决现有的单麦克只能借助第三方传感器进行距离测定所带来的投入成本高的问题,以及多麦克受限于麦克风阵列硬件布局集中所带来的距离测定不准确的问题。
为此,本发明提供如下技术方案:
一种声源距离确定方法,包括:
接收用户语音信号;
提取所述语音信号的频谱特征;
将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;并且将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;
基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。
优选地,所述语音分离模型、语音环境分析模型、以及声源距离判定模型采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合。
优选地,所述方法还包括按以下方式构建语音分离模型:
确定语音分离模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:混响冲击函数系数特征;
获取训练数据,所述训练数据为带噪带混响的语音数据;
提取所述训练数据的频谱特征;
基于所述训练数据的频谱特征,训练得到语音分离模型。
优选地,所述方法还包括按以下方式构建语音环境分析模型:
确定语音环境分析模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:房间因子T60信息;
获取训练数据,所述训练数据为带噪带混响的语音数据;
提取所述训练数据的频谱特征;
基于所述训练数据的频谱特征,训练得到语音环境分析模型。
优选地,所述语音环境分析模型为带瓶颈隐层的前馈神经网络;所述语音环境信息为:瓶颈隐层输出信息。
优选地,所述方法还包括按以下方式构建声源距离判定模型:
确定声源距离判定模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:混响冲击函数系数特征和语音环境信息;所述输出层的输出包括:语音信号与麦克风的距离信息;
获取训练数据,所述训练数据为带噪带混响的语音数据;
提取所述训练数据的频谱特征;
利用所述训练数据的频谱特征,分别获取所述训练数据的混响冲击函数系数特征和语音环境信息;
基于所述训练数据的混响冲击函数系数特征和语音环境信息,训练得到声源距离判定模型。
优选地,所述声源距离判定模型为回归模型,其输出层节点为1个,表示语音信号与麦克风的距离信息为语音信号与麦克风的距离值;或者所述声源距离判定模型为分类模型,其输出层节点为多个,表示语音信号与麦克风的距离描述信息。
优选地,所述获取训练数据包括:
收集纯净的语音数据及多种不同的噪声数据;
将所述噪声数据以不同信噪比、以及具有不同房间因子T60和距离的混响冲击响应函数加入所述纯净的语音数据,得到带噪带混响的语音数据。
一种声源距离确定装置,包括:
接收模块,用于接收用户语音信号;
特征提取模块,用于提取所述语音信号的频谱特征;
语音分离模块,用于将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;
语音环境分析模块,用于将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;
距离判定模块,用于基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。
优选地,所述语音分离模型、语音环境分析模型、以及声源距离判定模型采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合。
优选地,所述装置还包括:语音分离模型构建模块,用于构建语音分离模型;所述语音分离模型构建模块包括:
语音分离模型结构确定单元,用于确定语音分离模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:混响冲击函数系数特征;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
语音分离模型训练单元,用于基于所述训练数据的频谱特征,训练得到语音分离模型。
优选地,所述装置还包括:语音环境分析模型构建模块,用于构建语音环境分析模型;所述语音环境分析模型构建模块包括:
语音环境分析模型结构确定单元,用于确定语音环境分析模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:房间因子T60信息;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
语音环境分析模型训练单元,用于基于所述训练数据的频谱特征,训练得到语音环境分析模型。
优选地,所述语音环境分析模型为带瓶颈隐层的前馈神经网络;所述语音环境信息为:瓶颈隐层输出信息。
优选地,所述装置还包括:声源距离判定模型构建模块,用于构建声源距离判定模型;所述声源距离判定模型构建模块包括:
声源距离判定模型结构确定单元,用于确定声源距离判定模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:响冲击函数系数特征和语音环境信息;所述输出层的输出包括:语音信号与麦克风的距离信息;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
信息获取单元,用于利用所述训练数据的频谱特征,分别获取所述训练数据的混响冲击函数系数特征和语音环境信息;
声源距离判定模型训练单元,用于基于所述训练数据的混响冲击函数系数特征和语音环境信息,训练得到声源距离判定模型。
优选地,所述声源距离判定模型为回归模型,其输出层节点为1个,表示语音信号与麦克风的距离信息为语音信号与麦克风的距离值;或者所述声源距离判定模型为分类模型,其输出层节点为多个,表示语音信号与麦克风的距离描述信息。
优选地,所述训练数据获取单元包括:
数据收集单元,用于收集纯净的语音数据及多种不同的噪声数据;
预处理单元,用于将所述噪声数据以不同信噪比、以及具有不同房间因子T60和距离的混响冲击响应函数加入所述纯净的语音数据,得到带噪带混响的语音数据。本发明实施例提供的声源距离确定方法及装置,基于语音信号的声学特征,采用机器学习的方法进行距离判定,具体地,提取用户语音信号的频谱特征,根据该频谱特征利用预先构建的语音分离模型和语音环境分析模型,得到所述语音信号的混响冲击函数系数特征和语音环境信息,然后再利用声源距离判定模型确定用户语音与麦克风的距离信息,从而无需借助第三方传感器进行距离测定,降低了成本,而且也解决了传统多麦克受限于麦克风阵列硬件布局集中所带来的距离测定不准确的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例中构建语音分离模型的流程图;
图2是本发明实施例中构建语音环境分析模型的流程图;
图3是本发明实施例中语音环境分析模型的一种拓扑结构示意图;
图4是本发明实施例中构建声源距离判定模型的流程图;
图5是本发明实施例声源距离确定方法的流程图;
图6是本发明实施例声源距离确定装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有技术中的问题,本发明实施例提供一种声源距离判定方法及装置,采用基于机器学习的方式,解决了传统的单麦克只能借助第三方传感器进行距离测定所带来的投入成本高的问题,同时也解决了传统多麦克受限于麦克风阵列硬件布局集中所带来的距离测定不准确的问题。
具体地,首先从接收的用户语音信号中提取频谱特征,利用所述频谱特征,分别基于预先构建的语音分离模型和语音环境分析模型,得到所述语音信号的混响冲击函数系数特征和语音环境信息;然后,基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。
其中,所述语音分离模型、语音环境分析模型、以及声源距离判定模型可以采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合。
上述语音分离模型、语音环境分析模型、以及声源距离判定模型可以预先离线构建,下面分别详细说明这三种模型的构建过程。
如图1所示,是本发明实施例中语音分离模型的构建流程,包括以下步骤:
步骤101,确定语音分离模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:扩展的带噪带混响语音数据的频谱特征,所述输出层的输出包括:混响冲击函数系数特征,还可进一步包括:干净语音信号的频谱特征、噪声信号频谱特征。
比如,输入为72*11维,即进行11帧扩展的带噪带混响语音数据的频谱特征;隐层一般为3到8层,比如取为4层,隐层节点为2048个;输出为72维的干净语音信号的频谱特征、72维的噪声信号频谱特征、8000维的混响冲击函数系数特征。
需要说明的是,冲击函数通常以频域表示,具体的维数与频域分辨率有关,若音频为16K采样率,由于频域表示的对称性,通常选取8K个采样点,即混响冲击函数用8K维的向量表示;若音频为8K采样率,通常选择4K个采样点。以16K采样率为例,则混响冲击函数系数特征用8000维的向量表示。
步骤102,获取训练数据,所述训练数据为带噪带混响的语音数据。
具体地,可以通过对纯净的语音数据以不同信噪比、不同房间因子T60以及不同距离的混响冲击响应函数加入噪声来得到带噪带混响的语音数据。
其中,纯净的语音数据可以通过一些特殊环境如录音室进行录制。噪声样本可以选自Aurora2数据库中的高斯白噪声、多人说话噪声、餐厅噪声和街道噪声等,也可以自行录制各种类型的噪声,加噪时的信噪比可以为:20dB、15dB、10dB、5dB、0dB、-5dB等。带噪带混响的语音数据,可以通过对纯净语音以不同信噪比加入噪声,利用不同房间因子T60、不同距离的混响冲击响应函数,形成平行的带噪带混响语音数据。所述混响冲击响应函数可以通过各种实际环境测取或者通过大量仿真实验得到。
步骤103,提取所述训练数据的频谱特征。
所述训练数据的频谱特征如FilterBank特征或MFCC或PLP特征等,比如可以取24维的FilterBank特征及其一阶、二阶差分,共72维特征。
步骤104,基于所述训练数据的频谱特征,训练得到语音分离模型。
具体训练方法可采用现有技术中常见的训练方法,如BP(ErrorBackPropagation,误差反向传播)算法等,对此不再详细描述。
如图2所示,是本发明实施例中语音环境分析模型的构建流程,包括以下步骤:
步骤201,确定语音环境分析模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:房间因子T60信息。
在实际应用中,可以优选采用带bottle neck(瓶颈)隐层的前馈神经网络,如图3所示,输入层为72*11维的带噪带混响语音数据的频谱特征;隐层一般为3到8层,比如取为5层,其中每个隐层的节点数分别为2048-2048-40-2048-2048;输出为一维的房间因子(即房间混响时间)T60(采用回归模型)或者为多维的对应房间因子T60的不同粒度的各个值(采用分类模型),房间因子T60的不同粒度指的就是T60的不同值范围,如(0.1,0.3)、[0.3,0.6)、[0.6,0.9)、[0.9,1.8)。。
步骤202,获取训练数据,所述训练数据为带噪带混响的语音数据。
需要说明的是,在语音环境分析模型训练时的训练数据可以采用与语音分离模型训练时同样的训练数据,也可以采用不同的训练数据,对此本发明实施例不做限定。
步骤203,提取所述训练数据的频谱特征。
所述频谱特征如FilterBank特征或MFCC或PLP特征等,比如可以取24维的FilterBank特征及其一阶、二阶差分,共72维特征。
步骤204,基于所述训练数据的频谱特征,训练得到语音环境分析模型。
具体可以采用现有技术中常见的训练方法,如BP算法等,对此不再详细描述。
如图4所示,是本发明实施例中构建声源距离判定模型的流程图,包括以下步骤:
步骤401,确定声源距离判定模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:混响冲击函数系数特征和语音环境信息;所述输出层的输出包括:语音信号与麦克风的距离信息。
比如,输入层为8040个节点,输入为8000维混响冲击函数系数特征和40维的语音环境信息。
步骤402,获取训练数据,所述训练数据为带噪带混响的语音数据。
步骤403,提取所述训练数据的频谱特征。
步骤404,利用所述训练数据的频谱特征,分别获取所述训练数据的混响冲击函数系数特征和语音环境信息。
具体地,可以利用预先构建的语音分离模型和语音环境分析模型得到训练数据的混响冲击函数系数特征和语音环境信息。
所述语音环境信息可以是语音环境分析模型输出的房间因子T60,或者如果语音环境分析模型输出的是多个房间因子T60的值范围,则可以取其中得分最高所对应T60的值范围作为所述语音环境信息,或者是bottle neck隐层输出信息,即BN特征。
步骤405,基于所述训练数据的混响冲击函数系数特征和语音环境信息,训练得到声源距离判定模型。
如图5所示,是本发明实施例声源距离确定方法的流程图,包括以下步骤:
步骤501,接收用户语音信号。
步骤502,提取所述语音信号的频谱特征。
所述频谱特征如FilterBank(滤波器组)特征或MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数)或PLP(Perceptual Linear Predictive,感知线性预测系数)特征等。具体提取时,需要先对语音数据进行分帧处理,然后对分帧后的语音数据进行预加重,最后依次提取每帧语音数据的频谱特征。
进一步地,为了提高所述频谱特征的区分性,可以对提取的频谱特征进行前后帧扩展作为模型的输入。
步骤503,将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征。
对于预先构建的语音分离模型,输入上述语音数据的频谱特征,输出为混响冲击函数系数特征,进一步还可包括:干净语音的频谱特征和噪声的频谱特征。
步骤504,将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息。
对于语音环境分析模型,输入同样为上述语音数据的频谱特征,输出为一维的房间因子T60或多维的对应房间因子T60的不同粒度的各个值。
因为谱特征与房间因子的相关性不如其与音素的相关性强,所以对于语音环境分析模型,其输出的房间因子T60信息的区分性相较于上述语音分离模型较差,因此在实际应用中,如果语音环境分析模型采用带bottleneck隐层的前馈神经网络时,也可以取语音环境分析模型的bottle neck隐层输出信息(即BN特征)作为语音环境信息,该信息既能反映房间因子T60信息,又具有鲁棒性。
需要说明的是,在实际应用中,可以将语音环境分析模型输出的房间因子T60信息作为所述语音信号的语音环境信息,也可以将BN特征作为所述语音信号的语音环境信息,对此本发明实施例不做限定。
需要说明的是,上述步骤503和步骤504没有时间先后顺序关系,也就是说,可以先利用语音分离模型得到语音信号的混响冲击函数系数特征,再利用语音环境分析模型得到语音信号的语音环境信息,或反之。
步骤505,基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。
具体地,针对声源距离判定模型,输入上述混响冲击函数系数特征、语音环境信息,输出用户语音与麦克风的距离信息,该距离信息可以是较为精确的距离,也可以是对距离的一个描述,如距离近、中、远等。
因为所述距离信息可以是一个确定的距离数值(此时声源距离判定模型为一个回归模型),也可以是距离粒度的一个表征(如远、中、近)(此时声源距离判定模型为一个分类模型),故输出层的节点数可以是1个,表示确定的距离数值,也可以是多个,分别表示语音信号与麦克风的距离,比如3个,分别表示距离为远、中、近。当然还可以是其他表征方式,对此不再一一举例。
本发明实施例提供的声源距离确定方法,基于语音信号的声学特征,采用机器学习的方法进行距离判定,具体地,提取用户语音信号的频谱特征,根据该频谱特征利用预先构建的语音分离模型和语音环境分析模型,得到所述语音信号的混响冲击函数系数特征和语音环境信息,然后再利用声源距离判定模型确定用户语音与麦克风的距离信息,从而无需借助第三方传感器进行距离测定,降低了成本,而且也解决了传统多麦克受限于麦克风阵列硬件布局集中所带来的距离测定不准确的问题。本发明实施例提供的声源距离确定方法,对于多麦克风场景和单麦克风场景均可适用。
利用本发明实施例得到的距离信息可以作为语音交互装置中与用户进行交互反馈的依据,例如当发现用户输入语音距离远时,可以提醒用户缩小距离,这样有利于提高语音交互装置的语音识别效果,进而提升用户体验。
相应地,本发明实施例还提供一种声源距离确定装置,如图6所示,是该装置的一种结构示意图。
在该实施例中,所述装置包括:
接收模块601,用于接收用户语音信号;
特征提取模块602,用于提取所述语音信号的频谱特征;
语音分离模块603,用于将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;
语音环境分析模块604,用于将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;
距离判定模块605,用于基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。
需要说明的是,所述语音分离模型、语音环境分析模型、以及声源距离判定模型可以采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合,语音环境分析模型可以优选带bottle neck隐层的前馈神经网络,相应地,所述语音环境信息为:bottleneck隐层输出信息。
另外,这三种模型可以由相应的模型构建模块预先离线构建,即由语音分离模型构建模块构建语音分离模型,由语音环境分析模型构建模块构建语音环境分析模型,由声源距离判定模型构建模块构建声源距离判定模型。
下面分别对这三个模型构建模块进行详细说明,其中:
所述语音分离模型构建模块的一种具体结构包括以下各单元:
语音分离模型结构确定单元,用于确定语音分离模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:混响冲击函数系数特征;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
语音分离模型训练单元,用于基于所述训练数据的频谱特征,训练得到语音分离模型。
所述语音环境分析模型构建模块的一种具体结构包括以下各单元:
语音环境分析模型结构确定单元,用于确定语音环境分析模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:房间因子T60信息;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
语音环境分析模型训练单元,用于基于所述训练数据的频谱特征,训练得到语音环境分析模型。
所述声源距离判定模型构建模块的一种具体结构包括以下各单元:
声源距离判定模型结构确定单元,用于确定声源距离判定模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:响冲击函数系数特征和语音环境信息;所述输出层的输出包括:语音信号与麦克风的距离信息;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
信息获取单元,用于利用所述训练数据的频谱特征,分别获取所述训练数据的混响冲击函数系数特征和语音环境信息;
声源距离判定模型训练单元,用于基于所述训练数据的混响冲击函数系数特征和语音环境信息,训练得到声源距离判定模型。
需要说明的是,在实际应用中,所述语音环境分析模型和声源距离判定模型均可采用回归模型或分类模型,比如,对于声源距离判定模型,采用回归模型时,其输出层节点为可以1个,表示语音信号与麦克风的距离信息为语音信号与麦克风的距离值;采用分类模型时,其输出层节点可以有多个,比如为3个,分别表示语音信号与麦克风的距离为远、中、近。
另外,需要说明的是,上述三个模型构建模块可以独立于该装置,也可以集成在该装置中,而且,其中的训练数据获取单元和特征提取单元可以共用。而且所述特征提取单元和该装置中的特征提取模块602可以是一个物理实体。
所述训练数据获取单元可以通过对纯净的语音数据以不同信噪比、以及具有不同房间因子T60和距离的混响冲击响应函数加入噪声来得到带噪带混响的语音数据,比如,所述训练数据获取单元可以包括以下各单元:
数据收集单元,用于收集纯净的语音数据及多种不同的噪声数据;
预处理单元,用于将所述噪声数据以不同信噪比、以及具有不同房间因子T60和距离的混响冲击响应函数加入所述纯净的语音数据,得到带噪带混响的语音数据。
本发明实施例提供的声源距离确定方法及装置,基于语音信号的声学特征,采用机器学习的方法进行距离判定,具体地,提取用户语音信号的频谱特征,根据该频谱特征利用预先构建的语音分离模型和语音环境分析模型,得到所述语音信号的混响冲击函数系数特征和语音环境信息,然后再利用声源距离判定模型确定用户语音与麦克风的距离信息,从而无需借助第三方传感器进行距离测定,降低了成本,而且也解决了传统多麦克受限于麦克风阵列硬件布局集中所带来的距离测定不准确的问题。本发明实施例提供的声源距离确定装置,可应用于多麦克风场景和单麦克风场景。
利用本发明实施例得到的距离信息可以作为语音交互装置中与用户进行交互反馈的依据,例如当发现用户输入语音距离远时,可以提醒用户缩小距离,这样有利于提高语音交互装置的语音识别效果,进而提升用户体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种声源距离确定方法,其特征在于,包括:
接收用户语音信号;
提取所述语音信号的频谱特征;
将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;并且将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;
基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。
2.根据权利要求1所述的方法,其特征在于,所述语音分离模型、语音环境分析模型、以及声源距离判定模型采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建语音分离模型:
确定语音分离模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:混响冲击函数系数特征;
获取训练数据,所述训练数据为带噪带混响的语音数据;
提取所述训练数据的频谱特征;
基于所述训练数据的频谱特征,训练得到语音分离模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建语音环境分析模型:
确定语音环境分析模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:房间因子T60信息;
获取训练数据,所述训练数据为带噪带混响的语音数据;
提取所述训练数据的频谱特征;
基于所述训练数据的频谱特征,训练得到语音环境分析模型。
5.根据权利要求4所述的方法,其特征在于,所述语音环境分析模型为带瓶颈隐层的前馈神经网络;所述语音环境信息为:瓶颈隐层输出信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建声源距离判定模型:
确定声源距离判定模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:混响冲击函数系数特征和语音环境信息;所述输出层的输出包括:语音信号与麦克风的距离信息;
获取训练数据,所述训练数据为带噪带混响的语音数据;
提取所述训练数据的频谱特征;
利用所述训练数据的频谱特征,分别获取所述训练数据的混响冲击函数系数特征和语音环境信息;
基于所述训练数据的混响冲击函数系数特征和语音环境信息,训练得到声源距离判定模型。
7.根据权利要求6所述的方法,其特征在于,
所述声源距离判定模型为回归模型,其输出层节点为1个,表示语音信号与麦克风的距离信息为语音信号与麦克风的距离值;或者
所述声源距离判定模型为分类模型,其输出层节点为多个,表示语音信号与麦克风的距离描述信息。
8.根据权利要求3至7任一项所述的方法,其特征在于,所述获取训练数据包括:
收集纯净的语音数据及多种不同的噪声数据;
将所述噪声数据以不同信噪比、以及具有不同房间因子T60和距离的混响冲击响应函数加入所述纯净的语音数据,得到带噪带混响的语音数据。
9.一种声源距离确定装置,其特征在于,包括:
接收模块,用于接收用户语音信号;
特征提取模块,用于提取所述语音信号的频谱特征;
语音分离模块,用于将所述频谱特征输入预先构建的语音分离模型,得到所述语音信号的混响冲击函数系数特征;
语音环境分析模块,用于将所述频谱特征输入预先构建的语音环境分析模型,得到所述语音信号的语音环境信息;
距离判定模块,用于基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。
10.根据权利要求9所述的装置,其特征在于,所述语音分离模型、语音环境分析模型、以及声源距离判定模型采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:语音分离模型构建模块,用于构建语音分离模型;所述语音分离模型构建模块包括:
语音分离模型结构确定单元,用于确定语音分离模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:混响冲击函数系数特征;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
语音分离模型训练单元,用于基于所述训练数据的频谱特征,训练得到语音分离模型。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:语音环境分析模型构建模块,用于构建语音环境分析模型;所述语音环境分析模型构建模块包括:
语音环境分析模型结构确定单元,用于确定语音环境分析模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:带噪带混响语音数据的频谱特征,所述输出层的输出包括:房间因子T60信息;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
语音环境分析模型训练单元,用于基于所述训练数据的频谱特征,训练得到语音环境分析模型。
13.根据权利要求12所述的装置,其特征在于,所述语音环境分析模型为带瓶颈隐层的前馈神经网络;所述语音环境信息为:瓶颈隐层输出信息。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:声源距离判定模型构建模块,用于构建声源距离判定模型;所述声源距离判定模型构建模块包括:
声源距离判定模型结构确定单元,用于确定声源距离判定模型的拓扑结构,所述拓扑结构包括输入层、隐层和输出层,所述输入层的输入包括:响冲击函数系数特征和语音环境信息;所述输出层的输出包括:语音信号与麦克风的距离信息;
训练数据获取单元,用于获取训练数据,所述训练数据为带噪带混响的语音数据;
特征提取单元,用于提取所述训练数据的频谱特征;
信息获取单元,用于利用所述训练数据的频谱特征,分别获取所述训练数据的混响冲击函数系数特征和语音环境信息;
声源距离判定模型训练单元,用于基于所述训练数据的混响冲击函数系数特征和语音环境信息,训练得到声源距离判定模型。
15.根据权利要求14所述的方法,其特征在于,
所述声源距离判定模型为回归模型,其输出层节点为1个,表示语音信号与麦克风的距离信息为语音信号与麦克风的距离值;或者
所述声源距离判定模型为分类模型,其输出层节点为多个,表示语音信号与麦克风的距离描述信息。
16.根据权利要求11至15任一项所述的装置,其特征在于,所述训练数据获取单元包括:
数据收集单元,用于收集纯净的语音数据及多种不同的噪声数据;
预处理单元,用于将所述噪声数据以不同信噪比、以及具有不同房间因子T60和距离的混响冲击响应函数加入所述纯净的语音数据,得到带噪带混响的语音数据。
CN201610425685.3A 2016-06-14 2016-06-14 声源距离确定方法及装置 Active CN107507625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610425685.3A CN107507625B (zh) 2016-06-14 2016-06-14 声源距离确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610425685.3A CN107507625B (zh) 2016-06-14 2016-06-14 声源距离确定方法及装置

Publications (2)

Publication Number Publication Date
CN107507625A true CN107507625A (zh) 2017-12-22
CN107507625B CN107507625B (zh) 2021-03-05

Family

ID=60679133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610425685.3A Active CN107507625B (zh) 2016-06-14 2016-06-14 声源距离确定方法及装置

Country Status (1)

Country Link
CN (1) CN107507625B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831446A (zh) * 2018-05-24 2018-11-16 百度在线网络技术(北京)有限公司 用于生成样本的方法和装置
CN109640112A (zh) * 2019-01-15 2019-04-16 广州虎牙信息科技有限公司 视频处理方法、装置、设备及存储介质
CN112201262A (zh) * 2020-09-30 2021-01-08 珠海格力电器股份有限公司 一种声音处理方法及装置
CN112992170A (zh) * 2021-01-29 2021-06-18 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN113132193A (zh) * 2021-04-13 2021-07-16 Oppo广东移动通信有限公司 智能设备的控制方法、装置、电子设备以及存储介质
CN113466616A (zh) * 2021-06-22 2021-10-01 海南电网有限责任公司乐东供电局 一种电缆故障点快速定位方法以及装置
US11222652B2 (en) 2019-07-19 2022-01-11 Apple Inc. Learning-based distance estimation
WO2022188560A1 (zh) * 2021-03-10 2022-09-15 Oppo广东移动通信有限公司 距离关系确定、设备控制、模型训练的方法及相关装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010256817A (ja) * 2009-04-28 2010-11-11 Nippon Hoso Kyokai <Nhk> 残響インパルス応答生成装置、残響付加装置及びプログラム
CN102707261A (zh) * 2012-06-20 2012-10-03 太仓博天网络科技有限公司 一种麦克风阵列声源定位系统
CN102740208A (zh) * 2011-04-14 2012-10-17 东南大学 一种基于多变量统计的助听器声源定位方法
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN103576126A (zh) * 2012-07-27 2014-02-12 姜楠 基于神经网络的四通道阵列声源定位系统
CN104378822A (zh) * 2014-11-14 2015-02-25 联想(北京)有限公司 一种定位方法、服务器、电子设备及定位系统
CN104535965A (zh) * 2014-12-29 2015-04-22 江苏科技大学 基于嵌入式gpu系统的并行化声源定位系统及方法
US9081083B1 (en) * 2011-06-27 2015-07-14 Amazon Technologies, Inc. Estimation of time delay of arrival
CN105068048A (zh) * 2015-08-14 2015-11-18 南京信息工程大学 基于空间稀疏性的分布式麦克风阵列声源定位方法
CN105159066A (zh) * 2015-06-18 2015-12-16 同济大学 一种智能音乐厅调控方法及调控装置
US20160034248A1 (en) * 2014-07-29 2016-02-04 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for conducting interactive sound propagation and rendering for a plurality of sound sources in a virtual environment scene
CN105445697A (zh) * 2016-01-05 2016-03-30 西安成峰科技有限公司 一种低成本低功耗的声源定向方法
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010256817A (ja) * 2009-04-28 2010-11-11 Nippon Hoso Kyokai <Nhk> 残響インパルス応答生成装置、残響付加装置及びプログラム
CN102740208A (zh) * 2011-04-14 2012-10-17 东南大学 一种基于多变量统计的助听器声源定位方法
US9081083B1 (en) * 2011-06-27 2015-07-14 Amazon Technologies, Inc. Estimation of time delay of arrival
CN102707261A (zh) * 2012-06-20 2012-10-03 太仓博天网络科技有限公司 一种麦克风阵列声源定位系统
CN103576126A (zh) * 2012-07-27 2014-02-12 姜楠 基于神经网络的四通道阵列声源定位系统
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
US20160034248A1 (en) * 2014-07-29 2016-02-04 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for conducting interactive sound propagation and rendering for a plurality of sound sources in a virtual environment scene
CN104378822A (zh) * 2014-11-14 2015-02-25 联想(北京)有限公司 一种定位方法、服务器、电子设备及定位系统
CN104535965A (zh) * 2014-12-29 2015-04-22 江苏科技大学 基于嵌入式gpu系统的并行化声源定位系统及方法
CN105159066A (zh) * 2015-06-18 2015-12-16 同济大学 一种智能音乐厅调控方法及调控装置
CN105068048A (zh) * 2015-08-14 2015-11-18 南京信息工程大学 基于空间稀疏性的分布式麦克风阵列声源定位方法
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
CN105445697A (zh) * 2016-01-05 2016-03-30 西安成峰科技有限公司 一种低成本低功耗的声源定向方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
凌代俭等: "基于人工神经网络的混响时间预测方法", 《应用声学》 *
梅铁民 苑丽苹: "混响时间与声源及接收器位置关系研究", 《中国测试》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831446A (zh) * 2018-05-24 2018-11-16 百度在线网络技术(北京)有限公司 用于生成样本的方法和装置
CN108831446B (zh) * 2018-05-24 2019-10-18 百度在线网络技术(北京)有限公司 用于生成样本的方法和装置
CN109640112A (zh) * 2019-01-15 2019-04-16 广州虎牙信息科技有限公司 视频处理方法、装置、设备及存储介质
CN109640112B (zh) * 2019-01-15 2021-11-23 广州虎牙信息科技有限公司 视频处理方法、装置、设备及存储介质
US11222652B2 (en) 2019-07-19 2022-01-11 Apple Inc. Learning-based distance estimation
CN112201262A (zh) * 2020-09-30 2021-01-08 珠海格力电器股份有限公司 一种声音处理方法及装置
CN112201262B (zh) * 2020-09-30 2024-05-31 珠海格力电器股份有限公司 一种声音处理方法及装置
CN112992170A (zh) * 2021-01-29 2021-06-18 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN112992170B (zh) * 2021-01-29 2022-10-28 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
WO2022188560A1 (zh) * 2021-03-10 2022-09-15 Oppo广东移动通信有限公司 距离关系确定、设备控制、模型训练的方法及相关装置
CN113132193A (zh) * 2021-04-13 2021-07-16 Oppo广东移动通信有限公司 智能设备的控制方法、装置、电子设备以及存储介质
CN113466616A (zh) * 2021-06-22 2021-10-01 海南电网有限责任公司乐东供电局 一种电缆故障点快速定位方法以及装置

Also Published As

Publication number Publication date
CN107507625B (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN107507625A (zh) 声源距离确定方法及装置
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
US9542938B2 (en) Scene recognition method, device and mobile terminal based on ambient sound
CN105788592A (zh) 一种音频分类方法及装置
CN110049270A (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
CN110503969A (zh) 一种音频数据处理方法、装置及存储介质
CN101246685A (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN106782504A (zh) 语音识别方法和装置
CN103377651B (zh) 语音自动合成装置及方法
CN107808659A (zh) 智能语音信号模式识别系统装置
CN108597505A (zh) 语音识别方法、装置及终端设备
CN107910011A (zh) 一种语音降噪方法、装置、服务器及存储介质
CN107293286A (zh) 一种基于网络配音游戏的语音样本收集方法
Lee et al. Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN109887489A (zh) 基于生成对抗网络的深度特征的语音去混响方法
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN108877809A (zh) 一种说话人语音识别方法及装置
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN112382301B (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
CN113393828A (zh) 一种语音合成模型的训练方法、语音合成的方法及装置
CN105306673A (zh) 移动终端及其自动调整情景模式的方法
CN110333484B (zh) 基于环境背景声感知与分析的室内区域级定位方法
CN105679323A (zh) 一种号码发现方法及系统
CN112180318B (zh) 声源波达方向估计模型训练和声源波达方向估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant