CN105632486A - 一种智能硬件的语音唤醒方法和装置 - Google Patents
一种智能硬件的语音唤醒方法和装置 Download PDFInfo
- Publication number
- CN105632486A CN105632486A CN201510982997.XA CN201510982997A CN105632486A CN 105632486 A CN105632486 A CN 105632486A CN 201510982997 A CN201510982997 A CN 201510982997A CN 105632486 A CN105632486 A CN 105632486A
- Authority
- CN
- China
- Prior art keywords
- speech data
- word
- speech
- snippets
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
Abstract
本发明实施例提供了一种智能硬件的语音唤醒方法和装置,该方法包括:在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;当匹配成功时,唤醒所述智能硬件。本发明实施例避免了用户在智能硬件中多次录入语音的操作,大大提高了操作的简便性,并且,提高了训练的样本的数量,提高了语音模型的性能,提高了唤醒时的识别准确率。
Description
技术领域
本发明涉及智能硬件的技术领域,特别是涉及一种智能硬件的语音唤醒方法和一种智能硬件的语音唤醒装置。
背景技术
随着科技的发展,诸如智能穿戴设备、智能家居等智能硬件逐渐普及。
这些智能硬件,大多是固定位置,例如,客厅中的智能摄像机,体积较小,如果利用实体键唤醒,将大大降低用户体验。
因此,为了方便的唤醒这些智能硬件,目前是使用语音,因为语音是人与人之间最为直接、便利的交流方式。
但是,使用语音唤醒,一般需要用户先在智能硬件中多次录入语音,操作麻烦,并且,由于训练样本稀疏,语音模型性能差,唤醒时的识别准确率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种智能硬件的语音唤醒方法和相应的一种智能硬件的语音唤醒装置。
依据本发明的一个方面,提供了一种智能硬件的语音唤醒方法,包括:
在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
当匹配成功时,唤醒所述智能硬件。
可选地,所述从所述音频数据中提取一段或多段语音数据的步骤包括:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
可选地,所述对所述语音数据进行尾点检测,识别出一段或多段非静音区的步骤包括:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
可选地,所述语音模型为深度神经网络模型,基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。
可选地,所述将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配的步骤包括:
提取每一段语音数据的滤波器组特征;
将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
可选地,所述将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词的步骤包括:
计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
采用所述后验概率计算置信度;
当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
可选地,所述将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词的步骤还包括:
结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率,当前语音数据的后验概率进行平滑处理。
根据本发明的另一方面,提供了一种智能硬件的语音唤醒装置,包括:
语音数据提取模块,适于在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
语音数据匹配模块,适于将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
智能硬件唤醒模块,适于在匹配成功时,唤醒所述智能硬件。
可选地,所述语音数据提取模块还适于:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
可选地,所述语音数据提取模块还适于:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
可选地,所述语音模型为深度神经网络模型,基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。
可选地,所述语音数据匹配模块还适于:
提取每一段语音数据的滤波器组特征;
将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
可选地,所述语音数据匹配模块还适于:
计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
采用所述后验概率计算置信度;
当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
可选地,所述语音数据匹配模块还适于:
结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率,当前语音数据的后验概率进行平滑处理。
本发明实施例从检测到音频数据中提取一段或多段语音数据,与基于唤醒词训练的语音模型进行匹配,在匹配成功时,唤醒智能硬件,不需要用户准备唤醒语音,而是从现有语音中截取唤醒词中的每个单字进行训练,避免了用户在智能硬件中多次录入语音的操作,大大提高了操作的简便性,并且,提高了训练的样本的数量,提高了语音模型的性能,提高了唤醒时的识别准确率。
本发明实施例直接采用基于DNN的语音建模技术,并且在为唤醒词建模时舍弃了HMM,降低了模型复杂度和计算量。
由于直接对唤醒词中的单字建模(DNN的输出表示语音帧属于每个单字的概率),在训练过程中省去了HMM模型参数估计,在使用过程中也省去了根据HMM寻找最优状态序列的问题,节省了计算和存储,也提高了响应速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种智能硬件的语音唤醒方法实施例的步骤流程图;以及
图2示出了根据本发明一个实施例的一种智能硬件的语音唤醒装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种智能硬件的语音唤醒方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
需要说明的是,本发明实施例可以应用于智能硬件中,例如,智能摄像头、智能电饭煲、智能空调等等。
为了节省电源,智能硬件可以进入休眠状态、睡眠模式、省电模式等,减少系统功能,但是,可以通过麦克风等声卡设备采集音频数据,待用户唤醒。
其中,在采集语音数据的采样率可以为16000,编码可以为16bit。
由于智能硬件中所处的环境中可能大多数时间会产生声音,但是,这些声音有可能是用户发出的,有可能是环境噪音。
因此,为了减少后续无效的计算量,降低资源的耗费,可以从检测到的语音数据中识别出语音数据(即人说的话)时,才进行后续的匹配。
在具体实现中,可以对语音数据进行尾点检测,识别出一段或多段非静音区,提取一段或多段非静音区,作为一段或多段语音数据。
进一步而言,对于输入的频数据,可以提取语音特征,将语音特征输入预设的尾点检测模型上,计算每一帧音频数据属于语音数据的概率。
当所述概率高于预设的概率阈值时,确定该音频数据属于语音帧。
在确定非静音区时,可以考虑前后相邻多帧的语音数据及静音概率,以作出判断,当连续的语音帧超过预设的数量阈值(如30帧)时,确定连续的语音帧为一段非静音区。
步骤102,将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
用户在输入法、即时通讯工具、搜索引擎等应用中,经常使用语音操作,如语音输入、语音搜索等等,通常会通过其携带的设备录入语音数据。
其中,该语音数据的采样率可以为16000,编码可以为16bit。
在这些应用的网站中,可以通过语音识别服务对用户提交的语音数据进行语音识别,获得语音文本,进行输入、搜索等操作。
因此,通过全网用户长时间使用这些语音操作,这些网站中可以累积大量的语音数据及其语音文本。
应用本发明实施例,可以预先设定唤醒词,如“你好水滴”,在这些累积的语音数据及其语音文本中,查找属于唤醒词的语音文本及其语音数据(即目标语音数据),以及,查找不属于唤醒词的语音文本(即填充,)及其语音数据(即目标语音数据),作为训练样本,提取其语音特征,训练语音模型。
在本发明实施中,该语音特征可以为滤波器组(filter-bank,fBank)特征,该语言模型以为深度神经网络模型(深度神经网络模型,DeepNeuralNetworks),即语言模型可以基于表征唤醒词和填充词的目标语音数据的滤波器组特征fBank训练生成。
其中,将目标语音数据送入一组按频率值呈对数分布的三角滤波器,再将各滤波器的输出能量值进行对数换算通过离散余弦变换将其映射成对应倒谱系数,在进行离散余弦变换前的一组特征值又称为滤波器组。
该特征在目标语音数据中的地位类似与像素概念对于图像处理的价值,是表征目标语音数据的基本参数。
在实际应用中,每10毫秒的语音对应于一帧特征(使用的是946维),假设,输入有1秒的目标语音数据,将会产生100帧的特征。
将10毫秒的语音转化为一帧特征的过程如下:
1.将10毫秒语音28维fBank特征;
2.对28维fBank特征做两次差分,维度变为28*3;
3.加上2维的pitch特征,维度变为28*3+2;
4.使用前后五帧的窗口,维度变成了(28*3+2)*(5+5+1)。
此外,可以基于梯度下降算法训练DNN模型。
在训练DNN模型时,以目标语音数据的fBank特征为输入,以当前语音帧对应的字为输出。
例如,对于唤醒词“你好水滴”,向DNN输入“你”、“好”、“水”、“滴”对应的目标语音数据的fBank特征,及填充词“Filler”对应的目标语音数据的fBank特征,输出唤醒词“你”、“好”、“水”“、滴”以及填充词“Filler”。
在最大化交叉熵的目标函数下,采用基于mini-batch的梯度下降算法对DNN参数进行训练。
语音模型训练完成后,可以分发到智能硬件中,实现智能硬件的本地唤醒。
在本发明的一种可选实施例中,步骤102可以包括如下子步骤:
子步骤S11,提取每一段语音数据的滤波器组特征;
在本发明实施例中,可以应用基于表征唤醒词和填充词的目标语音数据的fBank特征训练生成的DNN模型,因此,在检测时,可以提取当前语音数据的fBank特征。
子步骤S12,将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
在具体实现中,可以将当前语音数据的fBank特征输入DNN模型中,识别当前的语音数据是唤醒词还是填充词。
在本发明的一种可选实施例中,子步骤S12可以包括如下子步骤:
子步骤S121,计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
后验概率(Posteriorprobability)是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。
“后验”的意思是,考虑相关事件已经被检视并且能够得到一些信息。
在实际应用中,可以进行深度神经网络的前向计算,得到当前帧的后验概率。
子步骤S122,结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率,当前语音数据的后验概率进行平滑处理;
在本发明实施例中,为避免孤立点,可以对后验概率进行平滑处理。
例如,对于唤醒词“你好水滴”,某一帧语音t,它前后多帧属于“好”的概率很高,属于“你”的概率很低。
如果t属于“你”的概率很高,属于“好”的概率很低,显然并不是符合期望的。
因此,可以结合t前后语音帧的概率,对t属于“你”、“好”、“水”、“滴”以及填充词“Filler”的概率进行平滑。
在具体实现中,可以通过如下公式对后验概率进行平滑:
其中,为平滑后的概率,表示第k帧,输出单元wi的后验概率,hsmooth=max(1,j-wsmooth+1),wsmooth取值为30。
子步骤S123,采用所述后验概率计算置信度;
若在先对后验概率进行了平滑处理,则可以利用平滑后的后验概率计算当前帧对应的唤醒置信度,计算公式为:
其中,M指唤醒词的字的个数,如唤醒词“你好水滴”则M=4。
上述公式的意思是,在第1帧至第Ts帧范围内找M帧语音t1,t2,……tM,它们在M个字上的平滑后验概率分别为st1(w1),st2(w2),。。。stM(wM)
将它们的几何平均作为目标,通过寻找一个最优的t1,t2,。。。tM,使几何平均最大,作为唤醒的置信度。
子步骤S124,当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
若置信度高于预设的置信度阈值,表示置信度较高,则可以确定该语言数据是唤醒词还是填充词。
子步骤S13,判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则执行子步骤S14;
子步骤S14,确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
由于填充词用于识别唤醒词之外的词,用于容错,可以忽略。
所谓排序,指的是唤醒词之间相连,并且,唤醒词中的字按照某一顺序排列。
例如,对于唤醒词“你好水滴”,在“你”、“好”、“水”、“滴”之间不存在填充词,“你”、“好”、“水”、“滴”顺序排列。
若表征唤醒词的语音数据是顺序相连,中间不插有表征填充词的语音数据,并且,表征唤醒词的语音数据的排列与唤醒词中的字的排列一致,则可以认为语音数据与语音模型匹配。
例如,若表征“你”、“好”、“水”、“滴”的语音数据是顺序相连,中间不插有表征“Filler”的语音数据,并且,这些语音数据的排列与“你”、“好”、“水”、“滴”一致,则可以认为语音数据与语音模型匹配。
在语言唤醒中,一般多采用HMM(HiddenMarkovModel,隐马尔可夫模型)-DNN或者HMM-GMM(GaussianMixtureModel,高斯混合模型)技术用于语音唤醒。
本发明实施例直接采用基于DNN的语音建模技术,并且在为唤醒词建模时舍弃了HMM,降低了模型复杂度和计算量。
由于直接对唤醒词中的单字建模(DNN的输出表示语音帧属于每个单字的概率),在训练过程中省去了HMM模型参数估计,在使用过程中也省去了根据HMM寻找最优状态序列的问题,节省了计算和存储,也提高了响应速度。
步骤103,当匹配成功时,唤醒所述智能硬件。
若语音数据与基于唤醒词训练的音频模型匹配,则可以认为用户说出了唤醒词,通过指定的唤醒指令唤醒智能硬件,如结束休眠状态、睡眠模式、省电模式等,进行正常工作状态。
本发明实施例从检测到音频数据中提取一段或多段语音数据,与基于唤醒词训练的语音模型进行匹配,在匹配成功时,唤醒智能硬件,不需要用户准备唤醒语音,而是从现有语音中截取唤醒词中的每个单字进行训练,避免了用户在智能硬件中多次录入语音的操作,大大提高了操作的简便性,并且,提高了训练的样本的数量,提高了语音模型的性能,提高了唤醒时的识别准确率。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了根据本发明一个实施例的一种智能硬件的语音唤醒装置实施例的结构框图,具体可以包括如下模块:
语音数据提取模块201,适于在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
语音数据匹配模块202,适于将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
智能硬件唤醒模块203,适于在匹配成功时,唤醒所述智能硬件。
在本发明的一种可选实施例中,所述语音数据提取模块201还可以适于:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
在本发明的一种可选实施例中,所述语音数据提取模块201还可以适于:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
在本发明的一种可选实施例中,所述语音模型为深度神经网络模型,基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。
在本发明的一种可选实施例中,所述语音数据匹配模块202还可以适于:
提取每一段语音数据的滤波器组特征;
将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
在本发明的一种可选实施例中,所述语音数据匹配模块202还可以适于:
计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
采用所述后验概率计算置信度;
当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
在本发明的一种可选实施例中,所述语音数据匹配模块202还可以适于:
结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率,当前语音数据的后验概率进行平滑处理。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的智能硬件的语音唤醒设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明实施例公开了A1、一种智能硬件的语音唤醒方法,包括:
在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
当匹配成功时,唤醒所述智能硬件。
A2、如A1所述的方法,所述从所述音频数据中提取一段或多段语音数据的步骤包括:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
A3、如A2所述的方法,所述对所述语音数据进行尾点检测,识别出一段或多段非静音区的步骤包括:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
A4、如A1或A2或A3所述的方法,所述语音模型为深度神经网络模型,基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。
A5、如A4所述的方法,所述将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配的步骤包括:
提取每一段语音数据的滤波器组特征;
将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
A6、如A5所述的方法,所述将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词的步骤包括:
计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
采用所述后验概率计算置信度;
当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
A7、如A6所述的方法,所述将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词的步骤还包括:
结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率,当前语音数据的后验概率进行平滑处理。
本发明实施例还公开了B8、一种智能硬件的语音唤醒装置,包括:
语音数据提取模块,适于在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
语音数据匹配模块,适于将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
智能硬件唤醒模块,适于在匹配成功时,唤醒所述智能硬件。
B9、如B8所述的装置,所述语音数据提取模块还适于:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
B10、如B9所述的装置,所述语音数据提取模块还适于:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
B11、如B8或B9或B10所述的装置,所述语音模型为深度神经网络模型,基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。
B12、如B11所述的装置,所述语音数据匹配模块还适于:
提取每一段语音数据的滤波器组特征;
将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
B13、如B12所述的装置,所述语音数据匹配模块还适于:
计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
采用所述后验概率计算置信度;
当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
B14、如B13所述的装置,所述语音数据匹配模块还适于:
结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率,当前语音数据的后验概率进行平滑处理。
Claims (10)
1.一种智能硬件的语音唤醒方法,包括:
在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
当匹配成功时,唤醒所述智能硬件。
2.如权利要求1所述的方法,其特征在于,所述从所述音频数据中提取一段或多段语音数据的步骤包括:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
3.如权利要求2所述的方法,其特征在于,所述对所述语音数据进行尾点检测,识别出一段或多段非静音区的步骤包括:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
4.如权利要求1或2或3所述的方法,其特征在于,所述语音模型为深度神经网络模型,基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。
5.如权利要求4所述的方法,其特征在于,所述将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配的步骤包括:
提取每一段语音数据的滤波器组特征;
将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
6.如权利要求5所述的方法,其特征在于,所述将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词的步骤包括:
计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
采用所述后验概率计算置信度;
当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
7.如权利要求6所述的方法,其特征在于,所述将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词的步骤还包括:
结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率,当前语音数据的后验概率进行平滑处理。
8.一种智能硬件的语音唤醒装置,包括:
语音数据提取模块,适于在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
语音数据匹配模块,适于将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
智能硬件唤醒模块,适于在匹配成功时,唤醒所述智能硬件。
9.如权利要求8所述的装置,其特征在于,所述语音数据提取模块还适于:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
10.如权利要求9所述的装置,其特征在于,所述语音数据提取模块还适于:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510982997.XA CN105632486B (zh) | 2015-12-23 | 2015-12-23 | 一种智能硬件的语音唤醒方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510982997.XA CN105632486B (zh) | 2015-12-23 | 2015-12-23 | 一种智能硬件的语音唤醒方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105632486A true CN105632486A (zh) | 2016-06-01 |
CN105632486B CN105632486B (zh) | 2019-12-17 |
Family
ID=56047333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510982997.XA Active CN105632486B (zh) | 2015-12-23 | 2015-12-23 | 一种智能硬件的语音唤醒方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105632486B (zh) |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 |
CN106356077A (zh) * | 2016-08-29 | 2017-01-25 | 北京理工大学 | 一种笑声检测方法及装置 |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
CN107146611A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音响应方法、装置及智能设备 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN107704275A (zh) * | 2017-09-04 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、装置、服务器及智能设备 |
CN107731226A (zh) * | 2017-09-29 | 2018-02-23 | 杭州聪普智能科技有限公司 | 基于语音识别的控制方法、装置及电子设备 |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108122556A (zh) * | 2017-08-08 | 2018-06-05 | 问众智能信息科技(北京)有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN108597506A (zh) * | 2018-03-13 | 2018-09-28 | 广州势必可赢网络科技有限公司 | 一种智能穿戴设备警示方法及智能穿戴设备 |
CN108766420A (zh) * | 2018-05-31 | 2018-11-06 | 中国联合网络通信集团有限公司 | 语音交互设备唤醒词生成方法及装置 |
CN109036412A (zh) * | 2018-09-17 | 2018-12-18 | 苏州奇梦者网络科技有限公司 | 语音唤醒方法和系统 |
CN109360552A (zh) * | 2018-11-19 | 2019-02-19 | 广东小天才科技有限公司 | 一种自动过滤唤醒词的方法及系统 |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
CN109584896A (zh) * | 2018-11-01 | 2019-04-05 | 苏州奇梦者网络科技有限公司 | 一种语音芯片及电子设备 |
CN109672775A (zh) * | 2017-10-16 | 2019-04-23 | 腾讯科技(北京)有限公司 | 调节唤醒灵敏度的方法、装置及终端 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
CN110444210A (zh) * | 2018-10-25 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN110910885A (zh) * | 2019-12-12 | 2020-03-24 | 苏州思必驰信息科技有限公司 | 基于解码网络的语音唤醒方法和装置 |
CN111092798A (zh) * | 2019-12-24 | 2020-05-01 | 东华大学 | 一种基于口语理解的可穿戴系统 |
CN111128138A (zh) * | 2020-03-30 | 2020-05-08 | 深圳市友杰智新科技有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
CN111194439A (zh) * | 2017-08-07 | 2020-05-22 | 搜诺思公司 | 唤醒词检测抑制 |
CN111240634A (zh) * | 2020-01-08 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 音箱工作模式调整方法和装置 |
CN111883181A (zh) * | 2020-06-30 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 音频检测方法、装置、存储介质及电子装置 |
CN112233656A (zh) * | 2020-10-09 | 2021-01-15 | 安徽讯呼信息科技有限公司 | 一种人工智能语音唤醒方法 |
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
US11530930B2 (en) | 2017-09-19 | 2022-12-20 | Volkswagen Aktiengesellschaft | Transportation vehicle control with phoneme generation |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11750969B2 (en) | 2016-02-22 | 2023-09-05 | Sonos, Inc. | Default playback device designation |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11816393B2 (en) | 2017-09-08 | 2023-11-14 | Sonos, Inc. | Dynamic computation of system response volume |
US11817083B2 (en) | 2018-12-13 | 2023-11-14 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11817076B2 (en) | 2017-09-28 | 2023-11-14 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11881222B2 (en) | 2020-05-20 | 2024-01-23 | Sonos, Inc | Command keywords with input detection windowing |
US11881223B2 (en) | 2018-12-07 | 2024-01-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11887598B2 (en) | 2020-01-07 | 2024-01-30 | Sonos, Inc. | Voice verification for media playback |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11934742B2 (en) | 2016-08-05 | 2024-03-19 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
US11973893B2 (en) | 2018-08-28 | 2024-04-30 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11984123B2 (en) | 2021-11-11 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
EP1423846A1 (en) * | 2001-08-09 | 2004-06-02 | Voicesense Ltd. | Method and apparatus for speech analysis |
CN102546953A (zh) * | 2012-02-07 | 2012-07-04 | 深圳市金立通信设备有限公司 | 一种全语音操控移动终端的系统及方法 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN103021411A (zh) * | 2012-11-27 | 2013-04-03 | 威盛电子股份有限公司 | 语音控制装置和语音控制方法 |
US20130268273A1 (en) * | 2012-04-10 | 2013-10-10 | Oscal Tzyh-Chiang Chen | Method of recognizing gender or age of a speaker according to speech emotion or arousal |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN103714815A (zh) * | 2013-12-09 | 2014-04-09 | 何永 | 语音控制方法及其设备 |
GB2515528A (en) * | 2013-06-26 | 2014-12-31 | Wolfson Microelectronics Plc | Speech Recognition |
GB2515527A (en) * | 2013-06-26 | 2014-12-31 | Wolfson Microelectronics Plc | Speech Recognition |
CN104378723A (zh) * | 2013-08-16 | 2015-02-25 | 上海耐普微电子有限公司 | 具有语音唤醒功能的麦克风 |
US20150112690A1 (en) * | 2013-10-22 | 2015-04-23 | Nvidia Corporation | Low power always-on voice trigger architecture |
CN104616653A (zh) * | 2015-01-23 | 2015-05-13 | 北京云知声信息技术有限公司 | 唤醒词匹配方法、装置以及语音唤醒方法、装置 |
CN104658533A (zh) * | 2013-11-20 | 2015-05-27 | 中兴通讯股份有限公司 | 一种终端解锁的方法、装置及终端 |
EP2899955A1 (en) * | 2013-11-15 | 2015-07-29 | Huawei Device Co., Ltd. | Terminal voice control method, device, and terminal |
CN104866274A (zh) * | 2014-12-01 | 2015-08-26 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
US20150245154A1 (en) * | 2013-07-11 | 2015-08-27 | Intel Corporation | Mechanism and apparatus for seamless voice wake and speaker verification |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
-
2015
- 2015-12-23 CN CN201510982997.XA patent/CN105632486B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
EP1423846A1 (en) * | 2001-08-09 | 2004-06-02 | Voicesense Ltd. | Method and apparatus for speech analysis |
CN102546953A (zh) * | 2012-02-07 | 2012-07-04 | 深圳市金立通信设备有限公司 | 一种全语音操控移动终端的系统及方法 |
US20130268273A1 (en) * | 2012-04-10 | 2013-10-10 | Oscal Tzyh-Chiang Chen | Method of recognizing gender or age of a speaker according to speech emotion or arousal |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN103021411A (zh) * | 2012-11-27 | 2013-04-03 | 威盛电子股份有限公司 | 语音控制装置和语音控制方法 |
GB2515528A (en) * | 2013-06-26 | 2014-12-31 | Wolfson Microelectronics Plc | Speech Recognition |
GB2515527A (en) * | 2013-06-26 | 2014-12-31 | Wolfson Microelectronics Plc | Speech Recognition |
US20150245154A1 (en) * | 2013-07-11 | 2015-08-27 | Intel Corporation | Mechanism and apparatus for seamless voice wake and speaker verification |
CN105283836A (zh) * | 2013-07-11 | 2016-01-27 | 英特尔公司 | 利用相同的音频输入的设备唤醒和说话者验证 |
CN104378723A (zh) * | 2013-08-16 | 2015-02-25 | 上海耐普微电子有限公司 | 具有语音唤醒功能的麦克风 |
US20150112690A1 (en) * | 2013-10-22 | 2015-04-23 | Nvidia Corporation | Low power always-on voice trigger architecture |
EP2899955A1 (en) * | 2013-11-15 | 2015-07-29 | Huawei Device Co., Ltd. | Terminal voice control method, device, and terminal |
CN104658533A (zh) * | 2013-11-20 | 2015-05-27 | 中兴通讯股份有限公司 | 一种终端解锁的方法、装置及终端 |
CN103714815A (zh) * | 2013-12-09 | 2014-04-09 | 何永 | 语音控制方法及其设备 |
CN104866274A (zh) * | 2014-12-01 | 2015-08-26 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN104616653A (zh) * | 2015-01-23 | 2015-05-13 | 北京云知声信息技术有限公司 | 唤醒词匹配方法、装置以及语音唤醒方法、装置 |
CN104934028A (zh) * | 2015-06-17 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
Cited By (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US11832068B2 (en) | 2016-02-22 | 2023-11-28 | Sonos, Inc. | Music service selection |
US11750969B2 (en) | 2016-02-22 | 2023-09-05 | Sonos, Inc. | Default playback device designation |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11934742B2 (en) | 2016-08-05 | 2024-03-19 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
CN106356077A (zh) * | 2016-08-29 | 2017-01-25 | 北京理工大学 | 一种笑声检测方法及装置 |
CN106356077B (zh) * | 2016-08-29 | 2019-09-27 | 北京理工大学 | 一种笑声检测方法及装置 |
KR102335717B1 (ko) * | 2016-09-29 | 2021-12-06 | 허페이 후아링 코., 엘티디. | 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서 |
KR20190052144A (ko) * | 2016-09-29 | 2019-05-15 | 허페이 후아링 코., 엘티디. | 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서 |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
WO2018188587A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京猎户星空科技有限公司 | 一种语音响应方法、装置及智能设备 |
CN107146611B (zh) * | 2017-04-10 | 2020-04-17 | 北京猎户星空科技有限公司 | 一种语音响应方法、装置及智能设备 |
CN107146611A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音响应方法、装置及智能设备 |
US10388276B2 (en) * | 2017-05-16 | 2019-08-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for waking up via speech based on artificial intelligence and computer device |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107221326B (zh) * | 2017-05-16 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
TWI692751B (zh) * | 2017-06-29 | 2020-05-01 | 香港商阿里巴巴集團服務有限公司 | 語音喚醒方法、裝置以及電子設備 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN111194439A (zh) * | 2017-08-07 | 2020-05-22 | 搜诺思公司 | 唤醒词检测抑制 |
CN111194439B (zh) * | 2017-08-07 | 2023-07-07 | 搜诺思公司 | 唤醒词检测抑制 |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
CN108122556A (zh) * | 2017-08-08 | 2018-06-05 | 问众智能信息科技(北京)有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN107704275A (zh) * | 2017-09-04 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、装置、服务器及智能设备 |
US11816393B2 (en) | 2017-09-08 | 2023-11-14 | Sonos, Inc. | Dynamic computation of system response volume |
US11530930B2 (en) | 2017-09-19 | 2022-12-20 | Volkswagen Aktiengesellschaft | Transportation vehicle control with phoneme generation |
US11817076B2 (en) | 2017-09-28 | 2023-11-14 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
CN107731226A (zh) * | 2017-09-29 | 2018-02-23 | 杭州聪普智能科技有限公司 | 基于语音识别的控制方法、装置及电子设备 |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
CN109672775A (zh) * | 2017-10-16 | 2019-04-23 | 腾讯科技(北京)有限公司 | 调节唤醒灵敏度的方法、装置及终端 |
CN109672775B (zh) * | 2017-10-16 | 2021-10-29 | 腾讯科技(北京)有限公司 | 调节唤醒灵敏度的方法、装置及终端 |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
CN108010515B (zh) * | 2017-11-21 | 2020-06-30 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108597506A (zh) * | 2018-03-13 | 2018-09-28 | 广州势必可赢网络科技有限公司 | 一种智能穿戴设备警示方法及智能穿戴设备 |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
CN108766420A (zh) * | 2018-05-31 | 2018-11-06 | 中国联合网络通信集团有限公司 | 语音交互设备唤醒词生成方法及装置 |
US11973893B2 (en) | 2018-08-28 | 2024-04-30 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
CN109036412A (zh) * | 2018-09-17 | 2018-12-18 | 苏州奇梦者网络科技有限公司 | 语音唤醒方法和系统 |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
CN110444210B (zh) * | 2018-10-25 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN110444210A (zh) * | 2018-10-25 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、唤醒词检测的方法及装置 |
CN109584896A (zh) * | 2018-11-01 | 2019-04-05 | 苏州奇梦者网络科技有限公司 | 一种语音芯片及电子设备 |
CN109360552A (zh) * | 2018-11-19 | 2019-02-19 | 广东小天才科技有限公司 | 一种自动过滤唤醒词的方法及系统 |
CN109360552B (zh) * | 2018-11-19 | 2021-12-24 | 广东小天才科技有限公司 | 一种自动过滤唤醒词的方法及系统 |
US11881223B2 (en) | 2018-12-07 | 2024-01-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11817083B2 (en) | 2018-12-13 | 2023-11-14 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
CN109872713A (zh) * | 2019-03-05 | 2019-06-11 | 深圳市友杰智新科技有限公司 | 一种语音唤醒方法及装置 |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
CN110610710B (zh) * | 2019-09-05 | 2022-04-01 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
CN110610710A (zh) * | 2019-09-05 | 2019-12-24 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
WO2021042969A1 (zh) * | 2019-09-05 | 2021-03-11 | 晶晨半导体(上海)股份有限公司 | 一种自学习语音识别系统的构建装置和构建方法 |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
CN110838289B (zh) * | 2019-11-14 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN110910885A (zh) * | 2019-12-12 | 2020-03-24 | 苏州思必驰信息科技有限公司 | 基于解码网络的语音唤醒方法和装置 |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
CN111092798A (zh) * | 2019-12-24 | 2020-05-01 | 东华大学 | 一种基于口语理解的可穿戴系统 |
US11887598B2 (en) | 2020-01-07 | 2024-01-30 | Sonos, Inc. | Voice verification for media playback |
CN111240634A (zh) * | 2020-01-08 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 音箱工作模式调整方法和装置 |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
CN111128138A (zh) * | 2020-03-30 | 2020-05-08 | 深圳市友杰智新科技有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
US11881222B2 (en) | 2020-05-20 | 2024-01-23 | Sonos, Inc | Command keywords with input detection windowing |
CN111883181A (zh) * | 2020-06-30 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 音频检测方法、装置、存储介质及电子装置 |
CN112233656A (zh) * | 2020-10-09 | 2021-01-15 | 安徽讯呼信息科技有限公司 | 一种人工智能语音唤醒方法 |
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
US11983463B2 (en) | 2021-10-04 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US11984123B2 (en) | 2021-11-11 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
Also Published As
Publication number | Publication date |
---|---|
CN105632486B (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632486A (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
US10943582B2 (en) | Method and apparatus of training acoustic feature extracting model, device and computer storage medium | |
CN107221326B (zh) | 基于人工智能的语音唤醒方法、装置和计算机设备 | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
CN105529028A (zh) | 语音解析方法和装置 | |
CN105741838A (zh) | 语音唤醒方法及装置 | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN106940998A (zh) | 一种设定操作的执行方法及装置 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
CN111161726B (zh) | 一种智能语音交互方法、设备、介质及系统 | |
CN111312222A (zh) | 一种唤醒、语音识别模型训练方法及装置 | |
CN114038457B (zh) | 用于语音唤醒的方法、电子设备、存储介质和程序 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN113782009A (zh) | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 | |
CN114067786A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN105869622B (zh) | 中文热词检测方法和装置 | |
CN112652306A (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN111653274A (zh) | 唤醒词识别的方法、装置及存储介质 | |
US20220238104A1 (en) | Audio processing method and apparatus, and human-computer interactive system | |
CN110930997B (zh) | 一种利用深度学习模型对音频进行标注的方法 | |
CN112825250A (zh) | 语音唤醒方法、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220728 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |