CN103021409A - 一种语音启动拍照系统 - Google Patents

一种语音启动拍照系统 Download PDF

Info

Publication number
CN103021409A
CN103021409A CN2012104552153A CN201210455215A CN103021409A CN 103021409 A CN103021409 A CN 103021409A CN 2012104552153 A CN2012104552153 A CN 2012104552153A CN 201210455215 A CN201210455215 A CN 201210455215A CN 103021409 A CN103021409 A CN 103021409A
Authority
CN
China
Prior art keywords
word
score
wake
module
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104552153A
Other languages
English (en)
Other versions
CN103021409B (zh
Inventor
朱国正
马冰
舒银东
潘志兵
周健
张凯
王海坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Toycloud Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201210455215.3A priority Critical patent/CN103021409B/zh
Publication of CN103021409A publication Critical patent/CN103021409A/zh
Application granted granted Critical
Publication of CN103021409B publication Critical patent/CN103021409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种语音启动拍照系统,包括:操作系统模块(10)、唤醒词定制模块(11)、拍照模块(12)、音频模块(13)和存储模块(14);其中:操作系统模块(10)中运行语音唤醒模块;所述语音唤醒模块包括语音输入(1)、语音唤醒算法(2)和唤醒执行(3);语音唤醒算法(2)获取语音输入(1)的语音信号,进行语音唤醒处理后,将结果输出给唤醒执行(3),从而完成唤醒操作;所述语音唤醒算法(2)通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)来实现。本发明可以根据用户需求进命令词定制,人机交换更人性化启动的准确度更高,抗干扰性更强。

Description

一种语音启动拍照系统
技术领域
本发明涉及一种语音启动拍照系统,可以用于含有拍照功能的消费类电子产品领域。
背景技术
随着消费类电子产品快速的发展,各种包含拍照功能的设备使用越来越频繁,人们对拍照的人性化要求越越来越高,语音作为人类最基本的方式,将语音识别技术应用到消费类电子产品中,实现通过自然语音来控制此类产品功能是未来发展的趋势。
发明内容
本发明技术解决问题:提供一种语音启动拍照系统,克服了现有按钮式、触控式启动方式带来的不便利,操作方式受限和拍照抖动等不足,具有操作简单更人性化,启动拍照不受限,防抖动等优点。现有的一些语音启动技术,是利用特点语音如口哨,误启动率搞,输入语音命令单一等缺陷,本发明可以根据用户需求进命令词定制,人机交换更人性化启动的准确度更高,抗干扰性更强。
本发明是通过以下技术方案实现的:一种语音启动拍照系统,包括:操作系统模块10、唤醒词定制模块11、拍照模块12、音频模块13和存储模块14;其中:
操作系统模块10中运行语音唤醒模块;所述语音唤醒模块包括语音输入1、语音唤醒算法2和唤醒执行3;语音唤醒算法2获取语音输入1的语音信号,进行语音唤醒处理后,将结果输出给唤醒执行3,从而完成唤醒操作;所述语音唤醒算法2通过声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9来实现,具体实现过程如下:
第一步,声学特征提取4:通过语音输入1获取语音信号输入,提取具有区分性的、并且是基于人耳听觉特性提取的特征,通常选取语音识别中用到的MFCC(Mel-FrequencyCepstrum Coefficient,美尔频率倒谱系数)特征作为声学特征;
第二步,唤醒词检测5:将提取得到的声学特征,采用训练的声学模型8在唤醒词检测网络7上计算声学得分,如果声学得分最优的路径中包含要检测的唤醒词,则确定已检出唤醒词,进入第三步操作,否则回到第一步重新进行提取声学特征4;
第三步,唤醒词确认6:将提取得到的声学特征,采用训练的声学模型8在唤醒词确认网络9上进行唤醒词确认,得到最终确认得分;判断该检出的唤醒词是否为真实的唤醒词,即将该唤醒词的最终确认得分和预先设定的门限,如果最终确认得分大于等于门限,则认为该唤醒词是真实的唤醒词,语音唤醒成功,将结果输出给唤醒执行3,从而完成语音唤醒操作;如果最终确认得分小于门限,则认为该唤醒词为虚假的唤醒词,重新回到第一步重新进行声学特征提取4;
唤醒词定制模块11,语音唤醒模块的资源生成模块接收用户输入的唤醒词,输出操作系统模块10中语音唤醒模块所需的声学模型8和唤醒词检测网络7;
拍照模块12,具有拍照功能的系统模块,接收操作系统模块10的拍照指令,并在拍照后将图像的数字信号发送到存储模块14;
音频模块13,具有录音采集和音频播报功能,录音功能主要是采集环境中音频数据,并传送到操作系统模块10,播音功能主要是接收系统模块10发出提示反馈后,播报提示音功能;
存储模块14,具有永久存储能力的存储介质,对拍照模块生成的数字图像信息进行存储。
所述声学模型8的训练分为两部分,分别为音素声学模型和废料模型(即Garbage模型);音素声学模型采用传统的语音识别中的声学模型训练方法,选取数据库,利用基于MLE(Maximum Likelihood Estimation,最大似然估计)和MPE(Minimum Phone Error,最小音素错误)区分性训练准则下得到;Garbage模型用于吸收除唤醒词之外的无关语音,使用和训练音素模型同样的数据库,通过计算各音素模型之间的相似性,将各音素分为20类,使用每类音素对应的所有训练数据融合起来,采用MLE准则训练对应的Garbage模型,便得到20类Garbage模型。
所述唤醒词检测网络7的实现采用最优得分路径计算得出,所述最优得分路径的计算公式是:
W = arg max W P ( W ) P ( X | W )
其中X代表从输入语音中提取的声学特征向量,W代表得分最大的最优词序列;条件概率P(X|W)为声学模型得分,通过训练好的声学模型8计算得到;先验概率P(W)为语言模型得分,即为对不同的声学模型所加的PenaltyP(X)为全概率,当声学模型和唤醒词检测网络确定下来后即是定值。
所述唤醒词确认网络9实现是:
a.将检出的唤醒词解码到音素一级,并记录所有的得分(Scorephone1,Scorephone2,…,ScorephoneN),其中N为唤醒词中总的音素个数,Scorephone1,Scorephone2,…,ScorephoneN分别表示该唤醒词中所有音素的是解码得分,其中下标表示音素的N个音素的标识;
b.使用和唤醒词检测同样的特征,得到相应的声学得分,并精确到帧一级(Scoreframe1,Scoreframe2,…,ScoreframeM),其中M为该句特征总的时长,以帧为单位;
c.计算得到唤醒词每个音素的确认得分,计算方式如下:
C M phonei = ( Score phonei - Σ k = K istart K iend Score framek ) / ( K iend - K istart )
其中Kistart和Kiend分别为第i个音素的起始时间和结束时间;
CMphonei表示第i个音素的确认得分,下标phonei表示第i个音素,Scorephonei如上面所示第i个phone的解码得分,Scoreframek表示使用唤醒词确认网络解码得到的第k帧的得分;
d.计算得到该唤醒词的最终确认得分,计算方式如下所示:
C M word = 1 N Σ i = 1 N C M phonei
所述操作系统模块中的语音唤醒模块能够被移植到被移植到Windows、Linux、Android、IOS系统平台。
本发明与现有技术相比的优点在于:
(1)本发明通过用户特定的语音唤醒词作为触发源,即使是在嘈杂的环境下,也无需用户利用双手操作,仅通过语音命令快速实现唤醒功能,进行下一步交互操作。
(2)本发明带来的价值是,使用本系统后可通过说约定的语音唤醒词开启语音唤醒功能,无需事先暂停音频播放,同时通过实际测试验证,正确识别唤醒率可以达到90%以上。
(3)本发明实现,成本低,代码移植方便,具有很好的推广应用价值。
(4)本发明中的语音唤醒功能均通过软件算法实现,并且算法可以很方便的被移植到Windows、Linux、Android、IOS等系统平台。
附图说明
图1为本发明的结构示意图;
图2为本发明中的语音唤醒模块实现框图;
图3为本发明的构建唤醒词检测网络示意图;
图4为本发明的构建唤醒词确认网络示意图。
具体实施方式
如图1所示,本发明的语音启动拍照系统包括:操作系统模块10、唤醒词定制模块11、拍照模块12、音频模块13和存储模块14、操作系统模块10中运行语音唤醒模块。
如图2所示,语音唤醒模块包括语音输入1、语音唤醒算法2和唤醒执行3。语音唤醒算法2实现主要由声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9完成,具体实现过程是:
(1)训练声学模型8:声学模型的训练分为两部分,分别为音素声学模型和废料模型(即Garbage模型)。音素声学模型采用传统的语音识别中的声学模型训练方法,选取合适的数据库,利用基于MLE(Maximum Likelihood Estimation,最大似然估计)和MPE(Minimum PhoneError,最小音素错误)区分性训练准则下的得到。Garbage模型用于吸收除唤醒词之外的无关语音,使用和训练音素模型同样的数据库,通过计算各音素模型之间的相似性,将各音素分为20类,使用每类音素对应的所有训练数据融合起来,采用MLE准则训练对应的Garbage模型,这样即得到20类Garbage模型。Garbage模型采用了聚类的音素训练数据混合训练,有两种用途,在唤醒词检测网络中用来吸收除唤醒词之外的其他语音,在唤醒词确认网络中用来计算确认网络的得分。
(2)声学特征提取4:通过语音输入1获取语音信号输入,提取可以具有一定区分性的,并且是基于人耳听觉特性提取的特征,一般选取语音识别中用到的MFCC(Mel-FrequencyCepstrum Coefficient,美尔频率倒谱系数)特征。
(3)唤醒词检测5:将提取得到的声学特征,使用声学模型8在唤醒词检测网络7上计算声学得分,如果得分最优的路径中包含要检测的唤醒词,则检出唤醒词,进入下一步操作;否则重新提取声学特征操作。为了保证唤醒词能够被正常的检出,同时无效的语音又能被有效的吸收。唤醒检测网络的构建主要由用户选定的唤醒词和Garbage模型组成,如图3所示,这种网络在语音识别中也称为识别网络,由于唤醒检测网路结构非常简单,可以通过简单的程序或则手工构建都可以。由于实际使用环境的复杂性,在很多情况下,接收到的唤醒语音被噪声污染了,此时唤醒语音对应的声学的特征在音素声学模型上的得分就会降低的很多,而由于Garbage模型是使用较多音素混合训练得到,其本身不是很精确,声学特征在Garbage模型上的得分降低的幅度有限,此时唤醒语音就被Garbage模型误吸收,系统唤醒率就会降低。
为了防止上述情况的发生,在唤醒词检测网络上解码时,对Garbage所在的弧的解码得分做一定的惩罚,即Penalty,使其不能和音素声学模型公平竞争,以保证有被噪声污染的唤醒语音也能被正常检出。具体的惩罚幅度需要针对不同的唤醒词作经验性的调整。
唤醒词检测网络7的实现方法是采用最优得分路径计算得出。
最优得分路径的获取采用经典的贝叶斯公式,如下所示:
上式中X代表从输入语音中提取的声学特征向量,W代表得分最大的最优词序列。条件概率P(X|W)为声学模型得分,可以通过训练好的音素声学模型和废料模型计算得到,先验概率P(W)为语言模型得分,这里可以理解为对不同的声学模型所加的Penalty。P(X)为全概率,当声学模型和唤醒词检测网络确定下来后就是定值,因此公式(1)可写为:
W = arg max W P ( W ) P ( X | W ) - - - ( 2 )
(4)唤醒词确认6:由于声学模型的本身存在不精确性以及实际使用环境的复杂性,通过唤醒词检测环节得到的唤醒词不一定是真实的唤醒词。为了能降低非唤醒带来的误唤醒以及后面会导致的问题,需要对检测得到的唤醒词作进一步的确认。本发明采用图4的方式构建唤醒词确认网络9,唤醒词确认网络和唤醒词检测网络一样,都属于语音识别中的识别网络,确认网络中只包含Garbage模型,可以使用简单的程序或手工构建。
唤醒词确认的主要步骤如下:
a)将唤醒词检测得到唤醒词解码到音素一级,并记录其所有的得分(Scorephone1,Scorephone2,…,ScorephoneN),其中N为唤醒词中总的音素个数。
b)使用和唤醒词检测同样的特征,在唤醒词确认网络上得到相应的声学得分,并精确到帧一级(Scoreframe1,Scoreframe2,…,ScoreframeM),其中M为该句特征总的时长,以帧为单位。
c)计算得到唤醒词每个音素的确认得分,计算方式如下:
C M phonei = ( Score phonei - Σ k = K istart K iend Score framek ) / ( K iend - K istart ) - - - ( 3 )
其中Kistart和Kiend分别为第i个音素的起始时间和结束时间。
d)计算得到该唤醒词的最终确认得分,计算方式如下所示:
C M word = 1 N Σ i = 1 N C M phonei - - - ( 4 )
e)判断该唤醒词是否为真实的唤醒词,对比该唤醒词的最终确认得分和预先设定的门限,如果确认得分CMword大于门限T则认为该唤醒词为真实的唤醒词,唤醒成功;如果CMword小于门限T则认为该唤醒词为虚假的唤醒词,重新进行声学特征提取。
通过以上工作实现语音唤醒功能,最终将结果反馈给唤醒执行3,执行唤醒操作。
本发明工作过程如下:
第一、部署唤醒词定制模块11,实现训练声学模型8和构建唤醒词检测网络7,该模型部署到服务器中,用户输入命令词文本,如“茄子茄子”,输出构建唤醒词检测网络7和声学模型8。
第二、通过编程语言实现语音唤醒模块,语音唤醒模块实现主要包含如下逻辑模块(图2),语音信号输入接口、语音信号的声学特征提取4、唤醒词检测5、唤醒词确认6和唤醒执行3命令的输出。集成语音唤醒模块代码到操作系统模块10,开启运行,等待音频模块13传入的录音数据。
第三、进入拍照模块12,开启摄像头,等待操作系统模块10传递过来的启动拍照指令,与此同时,音频模块13开启录音设备,并实时将录音数据输入到操作系统模块10,语音唤醒模块在接收操作系统模块10中的录音数据后开始匹配运算。
第四、当用户需要启动拍照时,说出音频模块13采集到“茄子茄子”的录音数据后,语音唤模块法将发出启动指令,操作系统模块10向拍照模块发出拍照指令,并且向音频模块13发出播报提示音指令,拍照模块12进入倒计时,调整焦点,开始拍照,并将采集到的图像数据存储在存储模块14。
本发明的技术核心是通过软件算法实现,成本低、模块移植方便,适合在各类消费类电子产品上使用,具有很高的推广价值。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种语音启动拍照系统,其特征在于包括:操作系统模块(10)、唤醒词定制模块(11)、拍照模块(12)、音频模块(13)和存储模块(14);其中:
操作系统模块(10)中运行语音唤醒模块;所述语音唤醒模块包括语音输入(1)、语音唤醒算法(2)和唤醒执行(3);语音唤醒算法(2)获取语音输入(1)的语音信号,进行语音唤醒处理后,将结果输出给唤醒执行(3),从而完成唤醒操作;所述语音唤醒算法(2)通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)来实现,具体实现过程如下:
第一步,声学特征提取(4):通过语音输入(1)获取语音信号输入,提取具有区分性的、并且是基于人耳听觉特性提取的特征,通常选取语音识别中用到的MFCC(Mel-FrequencyCepstrum Coefficient,美尔频率倒谱系数)特征作为声学特征;
第二步,唤醒词检测(5):将提取得到的声学特征,采用训练的声学模型(8)在唤醒词检测网络(7)上计算声学得分,如果声学得分最优的路径中包含要检测的唤醒词,则确定已检出唤醒词,进入第三步操作,否则回到第一步重新进行提取声学特征(4);
第三步,唤醒词确认(6):将提取得到的声学特征,采用训练的声学模型(8)在唤醒词确认网络(9)上进行唤醒词确认,得到最终确认得分;判断该检出的唤醒词是否为真实的唤醒词,即将该唤醒词的最终确认得分和预先设定的门限,如果最终确认得分大于等于门限,则认为该唤醒词是真实的唤醒词,语音唤醒成功,将结果输出给唤醒执行(3),从而完成语音唤醒操作;如果最终确认得分小于门限,则认为该唤醒词为虚假的唤醒词,重新回到第一步重新进行声学特征提取(4);
唤醒词定制模块(11),接收用户输入的唤醒词,输出操作系统模块(10)中语音唤醒模块所需的声学模型(8)和唤醒词检测网络(7);
拍照模块(12),具有拍照功能的系统模块,接收操作系统模块(10)的拍照指令,并在拍照后将图像的数字信号发送到存储模块(14);
音频模块(13),具有录音采集和音频播报功能,录音功能主要是采集环境中音频数据,并传送到操作系统模块(10),播音功能主要是接收系统模块(10)发出提示反馈后,播报提示音功能;
存储模块(14),具有永久存储能力的存储介质,对拍照模块生成的数字图像信息进行存储。
2.根据权利要求1所述的语音启动拍照系统,其特征在于:所述声学模型(8)的训练分为两部分,分别为音素声学模型和废料模型(即Garbage模型);音素声学模型采用传统的语音识别中的声学模型训练方法,选取数据库,利用基于MLE(Maximum LikelihoodEstimation,最大似然估计)和MPE(Minimum Phone Error,最小音素错误)区分性训练准则下得到;Garbage模型用于吸收除唤醒词之外的无关语音,使用和训练音素模型同样的数据库,通过计算各音素模型之间的相似性,将各音素分为20类,使用每类音素对应的所有训练数据融合起来,采用MLE准则训练对应的Garbage模型,便得到20类Garbage模型。
3.根据权利要求1所述的语音启动拍照系统,其特征在于:所述唤醒词检测网络(7)的实现采用最优得分路径计算得出,所述最优得分路径的计算公式是:
W = arg max W P ( W ) P ( X | W )
其中X代表从输入语音中提取的声学特征向量,W代表得分最大的最优词序列;条件概率P(X|W)为声学模型得分,通过训练好的声学模型(8)计算得到;先验概率P(W)为语言模型得分,即为对不同的声学模型所加的PenaltyP(X)为全概率,当声学模型和唤醒词检测网络确定下来后即是定值。
4.根据权利要求1所述的语音启动拍照系统,其特征在于:所述唤醒词确认网络(9)实现是:
a.将检出的唤醒词解码到音素一级,并记录所有的得分(Scorephone1,Scorephone2,…,ScorephoneN),其中N为唤醒词中总的音素个数,Scorephone1,Scorephone2,…,ScorephoneN分别表示该唤醒词中所有音素的是解码得分,其中下标表示音素的N个音素的标识;
b.使用和唤醒词检测同样的特征,得到相应的声学得分,并精确到帧一级(Scoreframe1,Scoreframe2,…,ScoreframeM),其中M为该句特征总的时长,以帧为单位;
c.计算得到唤醒词每个音素的确认得分,计算方式如下:
C M phonei = ( Score phonei - Σ k = K istart K iend Score framek ) / ( K iend - K istart )
其中Kistart和Kiend分别为第i个音素的起始时间和结束时间;
CMphonei表示第i个音素的确认得分,下标phonei表示第i个音素,Scorephonei如上面所示第i个phone的解码得分,Scoreframek表示使用唤醒词确认网络解码得到的第k帧的得分;
d.计算得到该唤醒词的最终确认得分,计算方式如下所示:
C M word = 1 N Σ i = 1 N C M phonei
5.根据权利要求1所述的语音启动拍照系统,其特征在于:所述操作系统模块(10)中的语音唤醒模块能够被移植到被移植到Windows、Linux、Android、IOS系统平台。
CN201210455215.3A 2012-11-13 2012-11-13 一种语音启动拍照系统 Active CN103021409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210455215.3A CN103021409B (zh) 2012-11-13 2012-11-13 一种语音启动拍照系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210455215.3A CN103021409B (zh) 2012-11-13 2012-11-13 一种语音启动拍照系统

Publications (2)

Publication Number Publication Date
CN103021409A true CN103021409A (zh) 2013-04-03
CN103021409B CN103021409B (zh) 2016-02-24

Family

ID=47969941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210455215.3A Active CN103021409B (zh) 2012-11-13 2012-11-13 一种语音启动拍照系统

Country Status (1)

Country Link
CN (1) CN103021409B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
CN104811595A (zh) * 2015-04-08 2015-07-29 合肥君正科技有限公司 一种网络监控摄像机及其工作方法
CN106020763A (zh) * 2015-03-26 2016-10-12 三星电子株式会社 用于提供内容的方法和电子设备
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106161755A (zh) * 2015-04-20 2016-11-23 钰太芯微电子科技(上海)有限公司 一种关键词语音唤醒系统及唤醒方法及移动终端
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN106847273A (zh) * 2016-12-23 2017-06-13 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106920558A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 关键词识别方法及装置
CN107112017A (zh) * 2015-02-16 2017-08-29 三星电子株式会社 操作语音识别功能的电子设备和方法
CN107127758A (zh) * 2017-06-01 2017-09-05 深圳市悠响声学科技有限公司 基于智能机器人的自动识别拍照方法及其系统
WO2017202016A1 (zh) * 2016-05-26 2017-11-30 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN107767861A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN107767863A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
WO2018086033A1 (en) * 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
CN108074561A (zh) * 2017-12-08 2018-05-25 北京奇虎科技有限公司 语音处理方法及装置
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109102806A (zh) * 2018-09-29 2018-12-28 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
CN109243426A (zh) * 2018-09-19 2019-01-18 易诚博睿(南京)科技有限公司 一种自动化判断语音误唤醒系统及其判断方法
CN109741735A (zh) * 2017-10-30 2019-05-10 阿里巴巴集团控股有限公司 一种建模方法、声学模型的获取方法和装置
CN109753665A (zh) * 2019-01-30 2019-05-14 北京声智科技有限公司 唤醒模型的更新方法及装置
CN110770093A (zh) * 2017-08-07 2020-02-07 微芯片技术股份有限公司 汽车特征部的语音激活致动
CN111386566A (zh) * 2017-12-15 2020-07-07 海尔优家智能科技(北京)有限公司 设备控制方法、云端设备、智能设备、计算机介质及设备
CN112259085A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种基于模型融合框架的两阶段语音唤醒算法
US11087750B2 (en) 2013-03-12 2021-08-10 Cerence Operating Company Methods and apparatus for detecting a voice command
US11437020B2 (en) 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
CN115588435A (zh) * 2022-11-08 2023-01-10 荣耀终端有限公司 语音唤醒方法及电子设备
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
CN117354623A (zh) * 2023-12-04 2024-01-05 深圳市冠旭电子股份有限公司 拍照的控制方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046969A1 (en) * 1999-02-08 2000-08-10 Qualcomm Incorporated Voice recognition user interface for telephone handsets
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN102404330A (zh) * 2011-11-30 2012-04-04 上海博泰悦臻电子设备制造有限公司 多用户同时在线管理方法和系统
CN102632846A (zh) * 2012-03-28 2012-08-15 深圳市领华卫通数码科技有限公司 语音唤醒后视镜的方法和装置
CN102682771A (zh) * 2012-04-27 2012-09-19 厦门思德电子科技有限公司 一种适用于云平台的多语音控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046969A1 (en) * 1999-02-08 2000-08-10 Qualcomm Incorporated Voice recognition user interface for telephone handsets
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN102404330A (zh) * 2011-11-30 2012-04-04 上海博泰悦臻电子设备制造有限公司 多用户同时在线管理方法和系统
CN102632846A (zh) * 2012-03-28 2012-08-15 深圳市领华卫通数码科技有限公司 语音唤醒后视镜的方法和装置
CN102682771A (zh) * 2012-04-27 2012-09-19 厦门思德电子科技有限公司 一种适用于云平台的多语音控制方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US11087750B2 (en) 2013-03-12 2021-08-10 Cerence Operating Company Methods and apparatus for detecting a voice command
US11676600B2 (en) 2013-03-12 2023-06-13 Cerence Operating Company Methods and apparatus for detecting a voice command
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
CN107112017A (zh) * 2015-02-16 2017-08-29 三星电子株式会社 操作语音识别功能的电子设备和方法
CN107112017B (zh) * 2015-02-16 2021-04-27 三星电子株式会社 操作语音识别功能的电子设备和方法
CN106020763B (zh) * 2015-03-26 2019-03-15 三星电子株式会社 用于提供内容的方法和电子设备
US10049662B2 (en) 2015-03-26 2018-08-14 Samsung Electronics Co., Ltd. Method and electronic device for providing content
CN106020763A (zh) * 2015-03-26 2016-10-12 三星电子株式会社 用于提供内容的方法和电子设备
CN104811595A (zh) * 2015-04-08 2015-07-29 合肥君正科技有限公司 一种网络监控摄像机及其工作方法
CN106161755A (zh) * 2015-04-20 2016-11-23 钰太芯微电子科技(上海)有限公司 一种关键词语音唤醒系统及唤醒方法及移动终端
CN106920558A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 关键词识别方法及装置
US11437020B2 (en) 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
WO2017202016A1 (zh) * 2016-05-26 2017-11-30 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
CN106098059B (zh) * 2016-06-23 2019-06-18 上海交通大学 可定制语音唤醒方法及系统
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106297777B (zh) * 2016-08-11 2019-11-22 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN107767863A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN107767861A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
CN111971742A (zh) * 2016-11-10 2020-11-20 赛轮思软件技术(北京)有限公司 与语言无关的唤醒词检测的技术
US11545146B2 (en) 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
WO2018086033A1 (en) * 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
CN106847273B (zh) * 2016-12-23 2020-05-05 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN106847273A (zh) * 2016-12-23 2017-06-13 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN107127758B (zh) * 2017-06-01 2020-04-14 深圳市物朗智能科技有限公司 基于智能机器人的自动识别拍照方法及其系统
CN107127758A (zh) * 2017-06-01 2017-09-05 深圳市悠响声学科技有限公司 基于智能机器人的自动识别拍照方法及其系统
CN110770093A (zh) * 2017-08-07 2020-02-07 微芯片技术股份有限公司 汽车特征部的语音激活致动
CN109741735A (zh) * 2017-10-30 2019-05-10 阿里巴巴集团控股有限公司 一种建模方法、声学模型的获取方法和装置
CN109741735B (zh) * 2017-10-30 2023-09-01 阿里巴巴集团控股有限公司 一种建模方法、声学模型的获取方法和装置
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
CN108074561A (zh) * 2017-12-08 2018-05-25 北京奇虎科技有限公司 语音处理方法及装置
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
CN111386566A (zh) * 2017-12-15 2020-07-07 海尔优家智能科技(北京)有限公司 设备控制方法、云端设备、智能设备、计算机介质及设备
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109243426A (zh) * 2018-09-19 2019-01-18 易诚博睿(南京)科技有限公司 一种自动化判断语音误唤醒系统及其判断方法
CN109102806A (zh) * 2018-09-29 2018-12-28 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
CN109753665B (zh) * 2019-01-30 2020-10-16 北京声智科技有限公司 唤醒模型的更新方法及装置
CN109753665A (zh) * 2019-01-30 2019-05-14 北京声智科技有限公司 唤醒模型的更新方法及装置
CN112259085A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种基于模型融合框架的两阶段语音唤醒算法
CN115588435A (zh) * 2022-11-08 2023-01-10 荣耀终端有限公司 语音唤醒方法及电子设备
CN117354623A (zh) * 2023-12-04 2024-01-05 深圳市冠旭电子股份有限公司 拍照的控制方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103021409B (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN103021409B (zh) 一种语音启动拍照系统
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
JP6463825B2 (ja) 多重話者音声認識修正システム
CN102999161B (zh) 一种语音唤醒模块的实现方法及应用
US11564090B1 (en) Audio verification
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
WO2017071182A1 (zh) 一种语音唤醒方法、装置及系统
US6718303B2 (en) Apparatus and method for automatically generating punctuation marks in continuous speech recognition
CN103943105A (zh) 一种语音交互方法及系统
CN110047481B (zh) 用于语音识别的方法和装置
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN106463112A (zh) 语音识别方法、语音唤醒装置、语音识别装置及终端
CN110689877A (zh) 一种语音结束端点检测方法及装置
CN104464723A (zh) 一种语音交互方法及系统
US11164584B2 (en) System and method for uninterrupted application awakening and speech recognition
CN111028842B (zh) 触发语音交互响应的方法及设备
CN110210310A (zh) 一种视频处理方法、装置和用于视频处理的装置
CN111508511A (zh) 实时变声方法及装置
US20210343270A1 (en) Speech translation method and translation apparatus
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
US11848029B2 (en) Method and device for detecting audio signal, and storage medium
WO2014173325A1 (zh) 喉音识别方法及装置
CN107909995A (zh) 语音交互方法和装置
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee before: Anhui USTC iFLYTEK Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200302

Address after: 230008 Floor 9, building 1, tianyuandike Science Park, No. 66, Qianshui East Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Anhui namoyun Technology Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee before: IFLYTEK Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230008 6th and 23rd floors of scientific research building, No.2 building, zone a, China sound Valley, 3333 Xiyou Road, high tech Zone, Hefei City, Anhui Province

Patentee after: Anhui taoyun Technology Co.,Ltd.

Address before: 9 / F, building 1, tianyuandike science and Technology Park, 66 Qianshui East Road, high tech Zone, Hefei City, Anhui Province

Patentee before: ANHUI TAOYUN TECHNOLOGY Co.,Ltd.