CN111179909A - 一种多麦远场语音唤醒方法及系统 - Google Patents

一种多麦远场语音唤醒方法及系统 Download PDF

Info

Publication number
CN111179909A
CN111179909A CN201911282202.9A CN201911282202A CN111179909A CN 111179909 A CN111179909 A CN 111179909A CN 201911282202 A CN201911282202 A CN 201911282202A CN 111179909 A CN111179909 A CN 111179909A
Authority
CN
China
Prior art keywords
far
field
audio
microphone
field data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911282202.9A
Other languages
English (en)
Other versions
CN111179909B (zh
Inventor
贾小月
贺东华
胡君
方标新
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201911282202.9A priority Critical patent/CN111179909B/zh
Publication of CN111179909A publication Critical patent/CN111179909A/zh
Application granted granted Critical
Publication of CN111179909B publication Critical patent/CN111179909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种多麦远场语音唤醒方法及系统,所述方法包括:采集获得多麦远场数据;根据所述多麦远场数据通过预设规则提取获得多麦远场特征;将所述多麦远场特征输入至预先训练的远场声学模型中,获得对应每个音素的标签;将所述每个音素的标签通过加权自动状态机进行识别,通过识别后生成唤醒参数;将所述唤醒参数与预设的唤醒阈值进行对比,若超过所述唤醒阈值,则执行唤醒任务;所述方法及系统去除了传统的信号处理模块,又保证了唤醒能力的不下降,大大的减少了开发成本,减轻了语音控制智能硬件的造价成本,有利于语音控制智能硬件的发展。

Description

一种多麦远场语音唤醒方法及系统
技术领域
本发明涉及仿真控制领域,更具体地,涉及一种多麦远场语音唤醒方 法及系统。
背景技术
智能硬件的潮流带动了远场唤醒的需求,比如百度音箱和小雅音箱, 在与其交互时,用户都需要先说一个唤醒词唤醒它,比如小度小度,一般 人们都是在远场使用它,即使用远场语音唤醒。远场语音唤醒有两条解决 方案:第一个方案是训练近场唤醒声学模型,多麦语音信号经过传统的信 号处理算法声源定位,语音增强去混响,成单路近场语音,进入近场唤醒 声学模型,近场唤醒打分模块,判断是否唤醒。这种方案对定位算法算法 和语音增强算法要求很高,唤醒片段一般很短,要依靠这么少的片段定位, 并且做噪声估计,难度很大。第二个方案是训练单路远场唤醒声学模型, 多麦语音信号取其中能量最大的一路,进入远场唤醒声学模型,远场唤醒 模块打分,判断是否唤醒。这种方案想法非常简单,相当于损失多麦信息, 把压力完全交给了声学模型,效果较差。
发明内容
为了解决背景技术存在的现有的远场语音唤醒算法要求高、实现难度 大、效果差的问题,本发明提供了一种多麦远场语音唤醒方法及系统;所 述方法及系统通过近场数据模拟仿真远场数据,通过近场数据训练获得音 素标签,进而训练获得远场声学模型,通过远场声学模型实现远场语音唤 醒;所述一种多麦远场语音唤醒方法包括:
采集获得多麦远场数据;
根据所述多麦远场数据通过预设规则提取获得多麦远场特征;
将所述多麦远场特征输入至预先训练的远场声学模型中,获得对应每 个音素的标签;
将所述每个音素的标签通过加权自动状态机进行识别,通过识别后生 成唤醒参数;
将所述唤醒参数与预设的唤醒阈值进行对比,若超过所述唤醒阈值, 则执行唤醒任务。
进一步的,所述根据所述多麦远场数据通过预设规则提取获得多麦远 场特征,包括:
将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的 预设的空间滤波器分别进行滤波,获得多路滤波音频;
对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特 征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行 合并,获得一个目标音频特征集合。
进一步的,所述预先训练的远场声学模型的训练方法包括:
根据采集的近场数据仿真获得多麦远场数据;
对所述多麦远场数据进行特征提取,获得多麦远场特征;
根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型, 进而获得近场声学训练模型下的音频标签;所述近场声学训练模型下的音 频标签与远程声学模型的音频标签相同;
根据所述多麦远场特征以及所述音频标签训练获得远场声学模型。
进一步的,所述根据采集的近场数据仿真获得多麦远场数据,包括:
采集获取近场数据;
在所述近场数据的声源及麦克风附近随机设置反射面,并确定所述反 射面与所述声源及麦克风的相对位置;
根据反射面通过镜像法模拟远场声源到麦克风的远场数据;
所述远场数据的计算方式包括:
Figure BDA0002317068000000021
其中,i为不小于2的正整数,yi为第i个麦克风对应的远场数据;hi为 第i个麦克风对应的卷积冲击响应;s为近场数据,ni为第i个麦克风的噪 声。
进一步的,对所述多麦远场数据进行特征提取获得多麦远场特征,包 括:
通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进 行空间滤波,获得多组滤波音频;
对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特 征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行 合并,获得一个目标音频特征集合,即为多麦远场特征。
进一步的,通过预先设置的空间滤波器对所述对应每个麦克风的多麦 远场数据进行空间滤波,获得多组滤波音频,包括:
通过下述公式计算获得滤波音频:
Figure RE-GDA0002444234400000031
其中,i为麦克风序号,且为不小于2的正整数;j为空间滤波器的序 号,j为不小于2且不大于i的正整数;
yi(f)为i个麦克风收集到的频域中的远场数据;wji为预先设定的j个空 间滤波器、第i个麦克风的权重系数;Zj(f)是经由第j个空间滤波器对该空 间滤波器对应的麦克风收集到的频域中的远场数据进行滤波后得到的滤波 音频。
进一步的,根据采集的近场数据通过预设规则迭代训练获得近场声学 训练模型,包括:
将所述近场数据的音频分帧,根据梅尔倒谱系数提取特征;
将所述近场数据音频按字典展开成音素,并将所述展开后的音频按初 始分割方式在时间上进行分割,并对分割后的每部分音频标记音素标签;
将对应的特征以及音素标签输入至时延神经网络tdnn训练获得初始模 型;
根据维特比算法对所示初始模型进行强制对齐,获得新的分割方式对 音频进行重新分割,获得新的音素标签;
根据新的音素标签以及对应的特征重新训练获得新的模型;
逐次迭代直到两轮分割的差别小于预设阈值时,停止进行新的训练;
取最新的训练模型作为近场声学训练模型。
所述一种多麦远场语音唤醒系统包括:
数据采集单元,所述数据采集单元用于采集获得多麦远场数据;
特征提取单元,所述特征提取单元用于根据所述多麦远场数据通过预 设规则提取获得多麦远场特征;
标签获取单元,所述标签获取单元用于将所述多麦远场特征输入至预 先训练的远场声学模型中,获得对应每个音素的标签;
唤醒参数生成单元,所述唤醒参数生成单元用于将所述每个音素的标 签通过加权自动状态机进行识别,通过识别后生成唤醒参数;
唤醒识别单元,所述唤醒识别单元用于将所述唤醒参数与预设的唤醒 阈值进行对比,若超过所述唤醒阈值,则执行唤醒任务。
进一步的,所述特征提取单元用于将所述多麦远场数据中每个麦克风 对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波,获得 多路滤波音频;
所述特征提取单元用于对所述多路滤波音频进行特征提取,获得每路 滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的至少 一个音频特征;
所述特征提取单元用于对所述每路滤波音频对应的音频特征集合中相 同时刻的音频特征进行合并,获得一个目标音频特征集合。
进一步的,所述系统包括远场声学模型训练单元;所述远场声学模型 训练单元用于训练所述标签获取单元使用的所述远场声学模型;说是远场 声学模型训练单元包括数据仿真模块、特征提取模块、近场模型训练模块 以及远场模型生成模块;
所述数据仿真模块用于根据采集的近场数据仿真获得多麦远场数据;
所述特征提取模块用于对所述多麦远场数据进行特征提取,获得多麦 远场特征;
所述近场模型训练模块用于根据采集的近场数据通过预设规则迭代训 练获得近场声学训练模型,进而获得近场声学训练模型下的音频标签;所 述近场声学训练模型下的音频标签与远程声学模型的音频标签相同;
所述远场模型生成模块用于根据所述多麦远场特征以及所述音频标签 训练获得远场声学模型。
进一步的,所述数据仿真模块用于采集获取近场数据;
所述数据仿真模块用于在所述近场数据的声源及麦克风附近随机设置 反射面,并确定所述反射面与所述声源及麦克风的相对位置;
所述数据仿真模块用于根据反射面通过镜像法模拟远场声源到麦克风 的远场数据;
所述远场数据的计算方式包括:
Figure BDA0002317068000000051
其中,i为不小于2的正整数,yi为第i个麦克风对应的远场数据;hi为 第i个麦克风对应的卷积冲击响应;s为近场数据,ni为第i个麦克风的噪 声。
进一步的,所述特征提取模块用于通过预先设置的空间滤波器对所述 对应每个麦克风的多麦远场数据进行空间滤波,获得多组滤波音频;
所述特征提取模块用于对所述多路滤波音频进行特征提取,获得每路 滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的至少 一个音频特征;
所述特征提取模块用于对所述每路滤波音频对应的音频特征集合中相 同时刻的音频特征进行合并,获得一个目标音频特征集合,即为多麦远场 特征。
进一步的,所述近场模型训练模块用于将所述近场数据的音频分帧, 根据梅尔倒谱系数提取特征;
所述近场模型训练模块用于将所述近场数据音频按字典展开成音素, 并将所述展开后的音频按初始分割方式在时间上进行分割,并对分割后的 每部分音频标记音素标签;
所述近场模型训练模块用于将对应的特征以及音素标签输入至时延神 经网络tdnn训练获得初始模型;
所述近场模型训练模块用于根据维特比算法对所示初始模型进行强制 对齐,获得新的分割方式对音频进行重新分割,获得新的音素标签;
所述近场模型训练模块用于根据新的音素标签以及对应的特征重新训 练获得新的模型;
逐次迭代直到两轮分割的差别小于预设阈值时,停止进行新的训练;
取最新的训练模型作为近场声学训练模型。
本发明的有益效果为:本发明的技术方案,给出了一种多麦远场语音 唤醒方法及系统;所述方法及系统通过近场数据模拟仿真远场数据,通过 近场数据训练获得音素标签,进而训练获得远场声学模型,通过远场声学 模型实现远场语音唤醒;所述方法及系统去除了传统的信号处理模块,又 保证了唤醒能力的不下降,大大的减少了开发成本,减轻了语音控制智能 硬件的造价成本,有利于语音控制智能硬件的发展。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明具体实施方式的一种多麦远场语音唤醒方法的流程图;
图2为本发明具体实施方式的远场声学模型训练方法的流程图;
图3为本发明具体实施方式的一种多麦远场语音唤醒系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许 多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例 是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分 传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是 对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的 技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典 限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应 该被理解为理想化的或过于正式的意义。
图1为本发明具体实施方式的一种多麦远场语音唤醒方法的流程图; 如图1所示,所示方法包括:
步骤110,采集获得多麦远场数据;
本实施例中,是在多个麦克风采集下,对远场语音音频进行分析、识 别并唤醒其他关联设备的一种方法;所述多麦远场数据,是指多组由不同 麦克风采集的且声源距离麦克风距离较远的音频数据;常见的,例如智能 音响识别用户声音并根据指令唤醒操作。
步骤120,根据所述多麦远场数据通过预设规则提取获得多麦远场特 征;
将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的 预设的空间滤波器分别进行滤波,获得多路滤波音频;
对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特 征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行 合并,获得一个目标音频特征集合。
步骤130,将所述多麦远场特征输入至预先训练的远场声学模型中, 获得对应每个音素的标签;
本实施例中,使用的远场声学模型为预先训练获得的,所述远场声学 模型预先训练的方法如图2所示,见后详述。
步骤140,将所述每个音素的标签通过加权自动状态机进行识别,通 过识别后生成唤醒参数;
步骤150,将所述唤醒参数与预设的唤醒阈值进行对比,若超过所述 唤醒阈值,则执行唤醒任务。
图2为本发明具体实施方式的远场声学模型训练方法的流程图;如图 2所示,所述方法包括:
步骤210,根据采集的近场数据仿真获得多麦远场数据;
本实施例中,通过近场仿真获得多麦远场数据的具体方法为:
采集获取近场数据;所述近场数据可选取适宜的开源数据,相较于远 场数据更易获得。
在所述近场数据的声源及麦克风附近随机设置反射面,并确定所述反 射面与所述声源及麦克风的相对位置;
根据反射面通过镜像法模拟远场声源到麦克风的远场数据;
例如近场数据中的声源和麦克风处于某一房间内,房间的四壁相较于 声源和麦克风来说都属于反射面。通过声源直接传向麦克风的声音为直达 声,通过反射面反射的声音为反射声,根据镜像法反射声所走过的路径, 相当于在反射面的另一侧较远位置(声源较于反射面的对称点)的传来的 远场音频数据,通过此原理,模拟声源到麦克风的远场数据。
所述远场数据的计算方式包括:
Figure BDA0002317068000000081
其中,i为不小于2的正整数,yi为第i个麦克风对应的远场数据;hi为 第i个麦克风对应的卷积冲击响应;s为近场数据,ni为第i个麦克风的噪 声。
步骤220,对所述多麦远场数据进行特征提取,获得多麦远场特征;
具体的,特征提取的方法为:
通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进 行空间滤波,获得多组滤波音频;
对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特 征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行 合并,获得一个目标音频特征集合,即为多麦远场特征。
通过下述公式计算获得滤波音频:
Figure RE-GDA0002444234400000091
其中,i为麦克风序号,且为不小于2的正整数;j为空间滤波器的序 号,j为不小于2且不大于i的正整数;
yi(f)为i个麦克风收集到的频域中的远场数据;wji为预先设定的j个空 间滤波器、第i个麦克风的权重系数;Zj(f)是经由第j个空间滤波器对该空 间滤波器对应的麦克风收集到的频域中的远场数据进行滤波后得到的滤波 音频。
步骤230,根据采集的近场数据通过预设规则迭代训练获得近场声学 训练模型,进而获得近场声学训练模型下的音频标签;所述近场声学训练 模型下的音频标签与远程声学模型的音频标签相同;
具体的,近场声学训练模型的训练方法为:
将所述近场数据的音频分帧,根据梅尔倒谱系数提取特征;
以本实施例为例,所述的音频可以设置为25ms一帧;帧移10ms(即 由15ms重叠),梅尔倒谱系数设置为40维;
将所述近场数据音频按字典展开成音素,并将所述展开后的音频按初 始分割方式在时间上进行分割,并对分割后的每部分音频标记音素标签;
将对应的特征以及音素标签输入至时延神经网络tdnn训练获得初始模 型;
根据维特比算法对所示初始模型进行强制对齐,获得新的分割方式对 音频进行重新分割,获得新的音素标签;
根据新的音素标签以及对应的特征重新训练获得新的模型;
逐次迭代直到两轮分割的差别小于预设阈值时,停止进行新的训练;
取最新的训练模型作为近场声学训练模型。
步骤240,根据所述多麦远场特征以及所述音频标签训练获得远场声 学模型。
获得的远场声学模型即可应用到如步骤130所述的方法中。
图3为本发明具体实施方式的一种多麦远场语音唤醒系统的结构图, 如图3所示,所述系统包括:
数据采集单元310,所述数据采集单元310用于采集获得多麦远场数 据;
特征提取单元320,所述特征提取单元320用于根据所述多麦远场数 据通过预设规则提取获得多麦远场特征;
进一步的,所述特征提取单元320用于将所述多麦远场数据中每个麦 克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波, 获得多路滤波音频;
所述特征提取单元320用于对所述多路滤波音频进行特征提取,获得 每路滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的 至少一个音频特征;
所述特征提取单元320用于对所述每路滤波音频对应的音频特征集合 中相同时刻的音频特征进行合并,获得一个目标音频特征集合。
标签获取单元330,所述标签获取单元330用于将所述多麦远场特征 输入至预先训练的远场声学模型中,获得对应每个音素的标签;
唤醒参数生成单元340,所述唤醒参数生成单元340用于将所述每个 音素的标签通过加权自动状态机进行识别,通过识别后生成唤醒参数;
唤醒识别单元350,所述唤醒识别单元350用于将所述唤醒参数与预 设的唤醒阈值进行对比,若超过所述唤醒阈值,则执行唤醒任务。
进一步的,所述系统包括远场声学模型训练单元360;所述远场声学 模型训练单元360用于训练所述标签获取单元330使用的所述远场声学模 型;说是远场声学模型训练单元360包括数据仿真模块、特征提取模块、 近场模型训练模块以及远场模型生成模块;
所述数据仿真模块用于根据采集的近场数据仿真获得多麦远场数据;
所述特征提取模块用于对所述多麦远场数据进行特征提取,获得多麦 远场特征;
所述近场模型训练模块用于根据采集的近场数据通过预设规则迭代训 练获得近场声学训练模型,进而获得近场声学训练模型下的音频标签;所 述近场声学训练模型下的音频标签与远程声学模型的音频标签相同;
所述远场模型生成模块用于根据所述多麦远场特征以及所述音频标签 训练获得远场声学模型。
进一步的,所述数据仿真模块用于采集获取近场数据;
所述数据仿真模块用于在所述近场数据的声源及麦克风附近随机设置 反射面,并确定所述反射面与所述声源及麦克风的相对位置;
所述数据仿真模块用于根据反射面通过镜像法模拟远场声源到麦克风 的远场数据;
所述远场数据的计算方式包括:
Figure BDA0002317068000000111
其中,i为不小于2的正整数,yi为第i个麦克风对应的远场数据;hi为 第i个麦克风对应的卷积冲击响应;s为近场数据,ni为第i个麦克风的噪 声。
进一步的,所述特征提取模块用于通过预先设置的空间滤波器对所述 对应每个麦克风的多麦远场数据进行空间滤波,获得多组滤波音频;
所述特征提取模块用于对所述多路滤波音频进行特征提取,获得每路 滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的至少 一个音频特征;
所述特征提取模块用于对所述每路滤波音频对应的音频特征集合中相 同时刻的音频特征进行合并,获得一个目标音频特征集合,即为多麦远场 特征。
进一步的,所述近场模型训练模块用于将所述近场数据的音频分帧, 根据梅尔倒谱系数提取特征;
所述近场模型训练模块用于将所述近场数据音频按字典展开成音素, 并将所述展开后的音频按初始分割方式在时间上进行分割,并对分割后的 每部分音频标记音素标签;
所述近场模型训练模块用于将对应的特征以及音素标签输入至时延神 经网络tdnn训练获得初始模型;
所述近场模型训练模块用于根据维特比算法对所示初始模型进行强制 对齐,获得新的分割方式对音频进行重新分割,获得新的音素标签;
所述近场模型训练模块用于根据新的音素标签以及对应的特征重新训 练获得新的模型;
逐次迭代直到两轮分割的差别小于预设阈值时,停止进行新的训练;
取最新的训练模型作为近场声学训练模型。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解, 本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中, 并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行 自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。 可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及 此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/ 或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说 明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公 开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述, 本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由 提供相同、等同或相似目的的替代特征来代替。本说明书中涉及到的步骤 编号仅用于区别各步骤,而并不用于限制各步骤之间的时间或逻辑的关系, 除非文中有明确的限定,否则各个步骤之间的关系包括各种可能的情况。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括 其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征 的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权 利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使 用。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处 理器上运行的软件模块实现,或者以它们的组合实现。本公开还可以实现 为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例 如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储 在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信 号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换 实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元 件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助 于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列 举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个 硬件项来具体体现。
以上所述仅是本公开的具体实施方式,应当指出的是,对于本领域的 普通技术人员来说,在不脱离本公开精神的前提下,可以作出若干改进、 修改、和变形,这些改进、修改、和变形都应视为落在本申请的保护范围 内。

Claims (13)

1.一种多麦远场语音唤醒方法,其特征在于,所述方法包括:
采集获得多麦远场数据;
根据所述多麦远场数据通过预设规则提取获得多麦远场特征;
将所述多麦远场特征输入至预先训练的远场声学模型中,获得对应每个音素的标签;
将所述每个音素的标签通过加权自动状态机进行识别,通过识别后生成唤醒参数;
将所述唤醒参数与预设的唤醒阈值进行对比,若超过所述唤醒阈值,则执行唤醒任务。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多麦远场数据通过预设规则提取获得多麦远场特征,包括:
将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波,获得多路滤波音频;
对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并,获得一个目标音频特征集合。
3.根据权利要求1所述的方法,其特征在于:所述预先训练的远场声学模型的训练方法包括:
根据采集的近场数据仿真获得多麦远场数据;
对所述多麦远场数据进行特征提取,获得多麦远场特征;
根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型,进而获得近场声学训练模型下的音频标签;所述近场声学训练模型下的音频标签与远程声学模型的音频标签相同;
根据所述多麦远场特征以及所述音频标签训练获得远场声学模型。
4.根据权利要求3所述的方法,其特征在于,所述根据采集的近场数据仿真获得多麦远场数据,包括:
采集获取近场数据;
在所述近场数据的声源及麦克风附近随机设置反射面,并确定所述反射面与所述声源及麦克风的相对位置;
根据反射面通过镜像法模拟远场声源到麦克风的远场数据;
所述远场数据的计算方式包括:
Figure FDA0002317067990000021
其中,i为不小于2的正整数,yi为第i个麦克风对应的远场数据;hi为第i个麦克风对应的卷积冲击响应;s为近场数据,ni为第i个麦克风的噪声。
5.根据权利要求3所述的方法,其特征在于,对所述多麦远场数据进行特征提取获得多麦远场特征,包括:
通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波,获得多组滤波音频;
对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并,获得一个目标音频特征集合,即为多麦远场特征。
6.根据权利要求5所述的方法,其特征在于,通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波,获得多组滤波音频,包括:
通过下述公式计算获得滤波音频:
Figure RE-FDA0002444234390000031
其中,i为麦克风序号,且为不小于2的正整数;j为空间滤波器的序号,j为不小于2且不大于i的正整数;
yi(f)为i个麦克风收集到的频域中的远场数据;wji为预先设定的j个空间滤波器、第i个麦克风的权重系数;Zj(f)是经由第j个空间滤波器对该空间滤波器对应的麦克风收集到的频域中的远场数据进行滤波后得到的滤波音频。
7.根据权利要求3所述的方法,其特征在于,根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型,包括:
将所述近场数据的音频分帧,根据梅尔倒谱系数提取特征;
将所述近场数据音频按字典展开成音素,并将所述展开后的音频按初始分割方式在时间上进行分割,并对分割后的每部分音频标记音素标签;
将对应的特征以及音素标签输入至时延神经网络tdnn训练获得初始模型;
根据维特比算法对所示初始模型进行强制对齐,获得新的分割方式对音频进行重新分割,获得新的音素标签;
根据新的音素标签以及对应的特征重新训练获得新的模型;
逐次迭代直到两轮分割的差别小于预设阈值时,停止进行新的训练;
取最新的训练模型作为近场声学训练模型。
8.一种多麦远场语音唤醒系统,其特征在于,所述系统包括:
数据采集单元,所述数据采集单元用于采集获得多麦远场数据;
特征提取单元,所述特征提取单元用于根据所述多麦远场数据通过预设规则提取获得多麦远场特征;
标签获取单元,所述标签获取单元用于将所述多麦远场特征输入至预先训练的远场声学模型中,获得对应每个音素的标签;
唤醒参数生成单元,所述唤醒参数生成单元用于将所述每个音素的标签通过加权自动状态机进行识别,通过识别后生成唤醒参数;
唤醒识别单元,所述唤醒识别单元用于将所述唤醒参数与预设的唤醒阈值进行对比,若超过所述唤醒阈值,则执行唤醒任务。
9.根据权利要求8所述的系统,其特征在于:
所述特征提取单元用于将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波,获得多路滤波音频;
所述特征提取单元用于对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
所述特征提取单元用于对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并,获得一个目标音频特征集合。
10.根据权利要求8所述的系统,其特征在于:所述系统包括远场声学模型训练单元;所述远场声学模型训练单元用于训练所述标签获取单元使用的所述远场声学模型;说是远场声学模型训练单元包括数据仿真模块、特征提取模块、近场模型训练模块以及远场模型生成模块;
所述数据仿真模块用于根据采集的近场数据仿真获得多麦远场数据;
所述特征提取模块用于对所述多麦远场数据进行特征提取,获得多麦远场特征;
所述近场模型训练模块用于根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型,进而获得近场声学训练模型下的音频标签;所述近场声学训练模型下的音频标签与远程声学模型的音频标签相同;
所述远场模型生成模块用于根据所述多麦远场特征以及所述音频标签训练获得远场声学模型。
11.根据权利要求10所述的系统,其特征在于:
所述数据仿真模块用于采集获取近场数据;
所述数据仿真模块用于在所述近场数据的声源及麦克风附近随机设置反射面,并确定所述反射面与所述声源及麦克风的相对位置;
所述数据仿真模块用于根据反射面通过镜像法模拟远场声源到麦克风的远场数据;
所述远场数据的计算方式包括:
Figure FDA0002317067990000051
其中,i为不小于2的正整数,yi为第i个麦克风对应的远场数据;hi为第i个麦克风对应的卷积冲击响应;s为近场数据,ni为第i个麦克风的噪声。
12.根据权利要求10所述的系统,其特征在于:
所述特征提取模块用于通过预先设置的空间滤波器对所述对应每个麦克风的多麦远场数据进行空间滤波,获得多组滤波音频;
所述特征提取模块用于对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
所述特征提取模块用于对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并,获得一个目标音频特征集合,即为多麦远场特征。
13.根据权利要求10所述的系统,其特征在于:
所述近场模型训练模块用于将所述近场数据的音频分帧,根据梅尔倒谱系数提取特征;
所述近场模型训练模块用于将所述近场数据音频按字典展开成音素,并将所述展开后的音频按初始分割方式在时间上进行分割,并对分割后的每部分音频标记音素标签;
所述近场模型训练模块用于将对应的特征以及音素标签输入至时延神经网络tdnn训练获得初始模型;
所述近场模型训练模块用于根据维特比算法对所示初始模型进行强制对齐,获得新的分割方式对音频进行重新分割,获得新的音素标签;
所述近场模型训练模块用于根据新的音素标签以及对应的特征重新训练获得新的模型;
逐次迭代直到两轮分割的差别小于预设阈值时,停止进行新的训练;
取最新的训练模型作为近场声学训练模型。
CN201911282202.9A 2019-12-13 2019-12-13 一种多麦远场语音唤醒方法及系统 Active CN111179909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911282202.9A CN111179909B (zh) 2019-12-13 2019-12-13 一种多麦远场语音唤醒方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911282202.9A CN111179909B (zh) 2019-12-13 2019-12-13 一种多麦远场语音唤醒方法及系统

Publications (2)

Publication Number Publication Date
CN111179909A true CN111179909A (zh) 2020-05-19
CN111179909B CN111179909B (zh) 2023-01-10

Family

ID=70653837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911282202.9A Active CN111179909B (zh) 2019-12-13 2019-12-13 一种多麦远场语音唤醒方法及系统

Country Status (1)

Country Link
CN (1) CN111179909B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933111A (zh) * 2020-08-12 2020-11-13 北京猎户星空科技有限公司 语音唤醒方法、装置、电子设备和存储介质
CN113674761A (zh) * 2021-07-26 2021-11-19 青岛海尔科技有限公司 设备确定方法及设备确定系统
CN114779656A (zh) * 2022-04-29 2022-07-22 四川虹美智能科技有限公司 智能家电控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358619A1 (en) * 2015-06-06 2016-12-08 Apple Inc. Multi-Microphone Speech Recognition Systems and Related Techniques
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN107464565A (zh) * 2017-09-20 2017-12-12 百度在线网络技术(北京)有限公司 一种远场语音唤醒方法及设备
CN107680586A (zh) * 2017-08-01 2018-02-09 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
US20190362711A1 (en) * 2018-05-24 2019-11-28 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358619A1 (en) * 2015-06-06 2016-12-08 Apple Inc. Multi-Microphone Speech Recognition Systems and Related Techniques
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN107680586A (zh) * 2017-08-01 2018-02-09 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN107464565A (zh) * 2017-09-20 2017-12-12 百度在线网络技术(北京)有限公司 一种远场语音唤醒方法及设备
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
US20190362711A1 (en) * 2018-05-24 2019-11-28 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张宇等: "基于注意力LSTM和多任务学习的远场语音识别", 《清华大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933111A (zh) * 2020-08-12 2020-11-13 北京猎户星空科技有限公司 语音唤醒方法、装置、电子设备和存储介质
CN113674761A (zh) * 2021-07-26 2021-11-19 青岛海尔科技有限公司 设备确定方法及设备确定系统
CN113674761B (zh) * 2021-07-26 2023-07-21 青岛海尔科技有限公司 设备确定方法及设备确定系统
CN114779656A (zh) * 2022-04-29 2022-07-22 四川虹美智能科技有限公司 智能家电控制方法及系统
CN114779656B (zh) * 2022-04-29 2023-08-11 四川虹美智能科技有限公司 智能家电控制方法及系统

Also Published As

Publication number Publication date
CN111179909B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
Barker et al. The third ‘CHiME’speech separation and recognition challenge: Analysis and outcomes
Sailor et al. Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification.
CN111179909B (zh) 一种多麦远场语音唤醒方法及系统
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN107731233B (zh) 一种基于rnn的声纹识别方法
US8543402B1 (en) Speaker segmentation in noisy conversational speech
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN111402903A (zh) 采用深度学习的超声攻击检测
Kim et al. Environmental noise embeddings for robust speech recognition
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN111599344B (zh) 一种基于拼接特征的语种识别方法
Maheswari et al. A hybrid model of neural network approach for speaker independent word recognition
Marlina et al. Makhraj recognition of Hijaiyah letter for children based on Mel-Frequency Cepstrum Coefficients (MFCC) and Support Vector Machines (SVM) method
CN104952446A (zh) 基于语音交互的数字楼盘展示系统
Revathi et al. Robust speech recognition in noisy environment using perceptual features and adaptive filters
CN111081273A (zh) 一种基于声门波信号特征提取的语音情感识别方法
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
Santos et al. Speech recognition in noisy environments with convolutional neural networks
Saradi et al. Voice-based motion control of a robotic vehicle through visible light communication
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
WO2020073839A1 (zh) 语音唤醒方法、装置、系统及电子设备
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
Roy et al. Phoneme recognition using boosted binary features
Agrawal et al. Deep variational filter learning models for speech recognition
Agrawal et al. Comparison of Unsupervised Modulation Filter Learning Methods for ASR.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant