CN106463112B - 语音识别方法、语音唤醒装置、语音识别装置及终端 - Google Patents

语音识别方法、语音唤醒装置、语音识别装置及终端 Download PDF

Info

Publication number
CN106463112B
CN106463112B CN201580023412.XA CN201580023412A CN106463112B CN 106463112 B CN106463112 B CN 106463112B CN 201580023412 A CN201580023412 A CN 201580023412A CN 106463112 B CN106463112 B CN 106463112B
Authority
CN
China
Prior art keywords
voice
information
awakening
monitored
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580023412.XA
Other languages
English (en)
Other versions
CN106463112A (zh
Inventor
周均扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN106463112A publication Critical patent/CN106463112A/zh
Application granted granted Critical
Publication of CN106463112B publication Critical patent/CN106463112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供一种语音识别方法及终端,用户仅需发出一次指令,就能满足用户的要求,不再需要触摸屏的辅助,也不需要多次输入指令。该方法包括:语音唤醒装置监听周围环境中的语音信息;所述语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时,将监听到的第一预设时长的语音信息缓存,并发送触发启动语音识别装置的触发信号,所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。语音识别装置接收语音唤醒装置发送的触发信号;所述语音识别装置在接收到所述触发信号后,启动并监听第二预设时长的第二语音信息;识别所述语音唤醒装置缓存的第一语音信息以及监听到的第二语音信息,得到识别结果。

Description

语音识别方法、语音唤醒装置、语音识别装置及终端
技术领域
本发明涉及移动通信技术领域,尤其涉及一种语音识别方法、语音唤醒装置、语音识别装置及终端。
背景技术
目前,随着移动手持终端,特别是移动手机普及性越来越高,触摸屏技术也越来越成熟。触摸屏技术尽管方便了用户的操作,但是在进行电话交互时,需要触摸多个步骤才能完成,在开车或者不方便触摸的时候,可能错过接听电话。
因此,基于语音识别技术打电话或者发短信等功能随之产生。并且现在语音识别作为一种新的、重要的用户交互技术在移动终端中的应用越来越广泛。
但是现有无论是通过语音识别技术打电话或者发短信等等业务,需要与触摸屏技术配合,才能实现。
发明内容
本发明实施例提供一种语音识别方法、语音唤醒装置、语音识别装置及终端,用户仅需发出一次指令,就能满足用户的要求,不再需要触摸屏的辅助,也不需要多次输入指令。
第一方面,本发明实施例提供了一种语音识别方法,该方法包括:
语音唤醒装置监听周围环境中的语音信息;
所述语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时,将监听到的第一预设时长的语音信息缓存,并发送触发启动语音识别装置的触发信号,所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。
结合第一方面,在第一方面的第一种可能的实现方式中,所述确定监听到的语音信息与语音唤醒模型匹配,包括:
确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
结合第一方面,在第一方面的第二种可能的实现方式中,所述确定监听到的语音信息与语音唤醒模型匹配,包括:
确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征,确定提取到的声纹特征与预定的声纹特征匹配,则确定监听到的语音信息与语音唤醒模型匹配。
第二方面,本发明实施例提供了一种语音识别方法,该方法包括:
语音识别装置接收语音唤醒装置发送的触发信号,所述触发信号用于指示所述语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息;
所述语音识别装置在接收到所述触发信号后,启动并监听第二预设时长的第二语音信息;
识别所述语音唤醒装置缓存的第一语音信息以及监听到的第二语音信息,得到识别结果。
结合第二方面,在第二方面的第一种可能的实现方式中,所述语音识别装置获取到识别结果后,还包括:
所述语音识别装置将获取到的识别结果与预存储的语音指令信息进行匹配;
所述语音识别装置执行匹配的语音指令信息对应的操作。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,还包括:
所述语音识别装置在确定接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时,自动关闭。
第三方面,本发明实施例提供了一种语音识别方法,该方法包括:
语音唤醒装置监听周围环境中的语音信息;
语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时,发出触发启动语音识别装置的触发信号。
结合第三方面,在第三方面的第一种可能的实现方式中,所述确定监听到的语音信息与语音唤醒模型匹配,包括:
确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
结合第三方面,在第三方面的第二种可能的实现方式中,所述确定监听到的语音信息与语音唤醒模型匹配,包括:
确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征,确定提取到的声纹特征与预定的声纹特征匹配,则确定监听到的语音信息与语音唤醒模型匹配。
第四方面,本发明实施例提供了一种语音识别方法,该方法包括:
语音识别装置接收语音唤醒装置发送的触发信号;
所述语音识别装置在接收到所述触发信号后,启动并向用户发送语音提示指令;
所述语音识别装置记录用户根据所述语音提示指令输入的语音信号,并对所述语音信号进行识别,得到识别结果。
第五方面,本发明实施例还提供了一种语音唤醒装置,该装置包括:
监听模块,用于监听周围环境中的语音信息;
确定模块,用于确定所述监听模块监听到的语音信息是否与语音唤醒模型匹配;
缓存模块,用于在所述确定模块确定所述监听模块监听到的语音信息与语音唤醒模型匹配时,将所述监听模块监听到的第一预设时长的语音信息缓存;
发送模块,用于发送触发启动语音识别装置的触发信号,所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。
结合第五方面,在第五方面的第一种可能的实现方式中,所述确定模块,具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
结合第五方面,在第五方面的第二种可能的实现方式中,还包括:
提取模块,用于在所述确定模块确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征;
所述确定模块,还用于在确定所述提取模块提取到的声纹特征与预定的声纹特征匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
第六方面,本发明实施例提供了一种语音识别装置,包括:
接收模块,用于接收语音唤醒装置发送的触发信号,所述触发信号用于指示语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息;
监听模块,用于在所述接收模块接收到所述触发信号后,启动并监听第二预设时长的第二语音信息;
识别模块,用于识别所述语音唤醒装置缓存的第一语音信息以及所述监听模块监听到的第二语音信息,得到识别结果。
结合第六方面,在第六方面的第一种可能的实现方式中,还包括:
匹配模块,用于将识别模块识别后得到的识别结果与预存储的语音指令信息进行匹配;
执行模块,用于执行匹配的语音指令信息对应的操作。
结合第六方面或第六方面的第一种可能的实现方式,在第六方面的第二种可能的实现方式中,还包括:
关闭模块,用于在确定接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时,关闭语音识别模块。
第七方面,本发明实施例提供了一种语音唤醒装置,包括:
监听模块,用于监听周围环境中的语音信息;
确定模块,用于确定监听到的语音信息是否与语音唤醒模型匹配;
发送模块,用于在所述确定模块确定监听到的语音信息与语音唤醒模型匹配时,发出触发启动语音识别装置的触发信号。
结合第七方面,在第七方面的第一种可能的实现方式中,所述确定模块,具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
结合第七方面,在第七方面的第二种可能的实现方式中,还包括:
提取模块,用于在所述确定模块确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征;
所述确定模块,具体用于确定提取到的声纹特征与预定的声纹特征匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
第八方面,本发明实施例提供了一种语音识别装置,包括:
接收模块,用于接收语音唤醒装置发送的触发信号;
发送模块,用于在所述接收模块接收到所述触发信号后,启动并向用户发送语音提示指令;
处理模块,用于记录用户根据所述语音提示指令输入的语音信号,并对所述语音信号进行识别,得到识别结果。
第九方面,本发明实施例提供了一种终端,包括:
语音唤醒装置及语音识别装置;
所述语音唤醒装置,用于监听周围环境中的语音信息;确定监听到的语音信息与语音唤醒模型匹配时,将第一预设时长内监听到的第一语音信息缓存,并发出触发启动语音识别装置的触发信号;
所述语音识别装置,用于在接收到所述语音唤醒装置发送的触发信号后,启动并监听第二预设时长内的第二语音信息,识别所述语音唤醒装置缓存的第一语音信息及监听到的第二语音信息,得到识别结果。
结合第九方面,在第九方面的第一种可能的实现方式中,所述语音唤醒装置为数字信号处理器DSP。
结合第九方面或第九方面的第一种可能的实现方式,在第九方面的第二种可能的实现方式中,所述语音识别装置为应用处理器AP。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。并且通过语音唤醒装置将监听到的语音信息进行缓存,使得语音识别装置在启动后监听第二语音信息,对缓存的第一语音信息以及第二语音信息进行识别,从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时,使得在语音识别装置启动前用户发出的部分语音信息丢失。
附图说明
图1为本发明实施例提供的终端结构示意图;
图2为本发明实施例提供的一种语音识别方法流程图;
图3为本发明实施例提供的另一种语音识别方法流程图;
图4为本发明实施例提供的又一种语音识别方法流程图;
图5为本发明实施例提供的再一种语音识别方法流程图;
图6为本发明实施例提供的一种语音唤醒装置示意图;
图7为本发明实施例提供的一种语音识别装置示意图;
图8为本发明实施例提供的另一种语音唤醒装置示意图;
图9为本发明实施例提供的另一种语音识别装置示意图;
图10为本发明实施例提供的语音识别方法示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种语音识别方法、语音唤醒装置、语音识别装置及终端,用户仅需发出一次指令,就能满足用户的要求,不再需要触摸屏的辅助,也不需要多次输入指令。其中,方法、装置是基于同一发明构思的,由于方法、装置解决问题的原理相似,因此终端、装置与方法的实施可以相互参见,重复之处不再赘述。
本发明实施例中提供了一种终端,如图1所示,该终端包括语音唤醒装置101及语音识别装置102。
其中,语音唤醒装置101可以由数字信号处理器(Digital Signal Processor,简称DSP)实现。语音识别装置102可以由应用处理器(Application Processor,简称AP)实现。语音识别装置102还可以由中央处理器(Central Process Unit,简称CPU)实现。
所述语音唤醒装置101,用于监听周围环境中的语音信息;确定监听到的语音信息与语音唤醒模型匹配时,将第一预设时长内所述监听到的第一语音信息缓存,并发出触发启动语音识别装置的触发信号。
所述语音识别装置102,用于在接收到所述语音唤醒装置发送的触发信号后,启动并监听第二预设时长内的第二语音信息,识别所述语音唤醒装置缓存的第一语音信息即监听到的第二语音信息,得到识别结果。
可选地,所述语音识别装置102在确定接收到所述触发信号后第三预设时长内未再次接收到触发信号时,则自动关闭。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。并且通过语音唤醒装置将监听到的语音信息进行缓存,使得语音识别装置在启动后监听第二语音信息,对缓存的第一语音信息以及第二语音信息进行识别,从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时,使得在语音识别装置启动前用户发出的部分语音信息丢失。
具体的,一般DSP在发起触发信号后,AP启动后就启动录音通路录音;通常,这个录音是在AP启动后才开始的。但是在本方案中,启动AP前,DSP接收到唤醒信息时,开始录音并缓存,AP启动后继续录音得到语音信息,然后对从DSP的缓存中读取语音信息以及启动后得到的语音信息进行识别。在One Shot场景中,唤醒后到说命令词期间,存在一个时间差,如果从AP启动后录音,只能录到启动后的语音信息,上述时间差的语音信息就丢失,而在唤醒时即开始录音并缓存,从而上述时间差的语音信息都能够获取到。
例如,开始说唤醒词的时间点为t0,说完唤醒词的时间点为t1,开始说命令词的时间点为t2,启动AP的时间点为t3;在缓存中,存有t0到t3的语音;而如果只在启动AP的时候录音,则只能录到t3后的语音;t0到t3的语音就不能录制。因此,本发明实施例提供的方案从用于唤醒的语音信息开始后语音信息均能获取到,避免了语音信息的丢失,从而提供了语音识别率。
可选地,确定监听到的语音信息与语音唤醒模型匹配,具体可以通过以下方式:
第一种实现方式:
确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
其中,用户可以预先在语音唤醒装置中根据提示设置唤醒语音信息,例如:Hi,小E。或者终端在出厂时,预设了的唤醒语音信息。当语音唤醒装置检测到周围环境中的语音信息时,将其与存储的唤醒语音信息进行比对,若两者相同则确定与语音唤醒模型匹配,然后发送触发指令到语音识别装置102;如果两者不相同,语音唤醒装置101可以丢弃当前检测到的语音信息,并继续执行检测及判断的工作。
第二种实现方式:
确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征,确定提取到的声纹特征与预定的声纹特征匹配,则确定监听到的语音信息与语音唤醒模型匹配。
所述声纹特征包括以下特征中的一项或者多项:
基音轮廓、线性预测系数、谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱(又称功率倒频谱)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)等反映声纹特征的声学参数,且不限于前述所提及的声纹特征参数。
其中,本发明实施例中还可以包括设置装置,预先提取用户的声纹特征保存在语音唤醒装置中。例如用户可以根据提示录制语音信息在设置模块内部,然后提取声纹特征,并将提取的声纹特征保存在语音唤醒装置中。
利用本发明实施例提供的方案,在唤醒模型增加声纹特征,从而能够过滤周围环境中的噪声,以及其它用户的语音输入,使得语音唤醒装置给用户提供了一个可靠的保障。
可选地,所述语音识别装置获取到识别结果后,还包括:
所述语音识别装置将获取到的识别结果与预存储的语音指令信息进行匹配;所述语音识别装置控制执行匹配的语音指令信息对应的操作。
其中,语音指令信息预先存储在语音识别装置中。语音识别装置包括多种语音指令信息。
本发明实施例中还可以语音指令信息对应的操作的执行模块,则语音识别装置可以向语音指令信息对应的操作的执行模块发送执行指令。比如包括:扬声器或者发光装置等等。
例如,当语音唤醒模块检测到周围环境中的语音信息满足唤醒模型时,将第一预定时长(例如2S)的第一语音信息缓存,并触发语音识别模块启动及监听第二语音信息,然后对缓存的第一语音信息及第二语音信息进行识别,将识别结果与语音指令信息进行模糊比对,确定语音信息是否与语音指令信息中其中一个匹配。例如,语音指令信息包括指示播放铃音或MP3的语音指令信息,如“播放铃音”或“播放MP3”;还可以包括指示应答的语音指令信息,如“你在哪?”;还可以包括指示点亮闪光灯的语音指令信息,如“开启闪光灯”。
可以利用本发明实施例提供的方案找终端设备,例如手机。在家里,一般手机随便放置,在需要使用的时候需要费一番工夫才能找到。利用本发明实施例提供的方案,可以通过喊出例如“你好,小E,你在哪里”,则手机的语音唤醒模块则检测到该语音信息,则将该语音信息与语音唤醒模型进行匹配(比如唤醒语音信息为“你好,小E”),确定匹配时,将该语音信息缓存在Buffer中。并向语音识别模块发送触发信号,则语音识别模块启动并开始监听语音信息,然后对缓存的语音信息及监听的语音信息进行识别,得到识别结果(文本结果为“你好,小E,你在哪里”),并将该文本结果与语音指令信息进行匹配,例如,匹配该“你好,小E,你在哪里”的语音指令信息是播放MP3,则通过播放MP3音乐提示用户。
还可以通过本发明实施例提供的方案打电话。由于无论是待机状态还可以锁屏状态,手机的语音唤醒模块均处于启动状态,则均可以监听到用户发出的语音信息。例如:“你好,小E,打电话给小A”。则能直接拨出电话,不需要其他任何操作。
本发明实施例还提供了一种语音识别方法,如图2所示,该方法包括:
步骤201,语音唤醒装置监听周围环境中的语音信息;
步骤202,所述语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时,将所述监听到的第一预设时长的语音信息缓存,并发送触发启动语音识别装置的触发信号,所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。并且通过将监听到的语音信息进行缓存,使得语音识别装置启动并监听语音信息后,然后对缓存的语音信息以及监听的语音信息进行识别,从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时,可能会造成部分语音信息丢失,提高了语音识别率。
可选地,所述确定监听到的语音信息与语音唤醒模型匹配,具体可以通过以下方式:
第一种实现方式:
确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
第二种实现方式:
确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征,确定提取到的声纹特征与预定的声纹特征匹配,则确定监听到的语音信息与语音唤醒模型匹配。
本发明实施例还提供了一种语音识别方法,如图3所示,包括:
步骤301,语音识别装置接收语音唤醒装置发送的触发信号,所述触发信号用于指示所述语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息。
步骤302,所述语音识别装置在接收到所述触发信号后,启动并并监听第二预设时长的第二语音信息。
步骤303,识别所述语音唤醒装置缓存的第一语音信息以及监听到的第二语音信息,得到识别结果。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。并且通过将监听到的语音信息进行缓存,使得语音识别装置在启动并监听语音信息,对缓存的语音信息以及监听的语音信息进行识别,从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时,可能会造成部分语音信息丢失,提供了语音识别率。
可选地,所述语音识别装置获取到识别结果后,还包括:
所述语音识别装置将获取到的识别结果与预存储的语音指令信息进行匹配;
所述语音识别装置控制执行匹配的语音指令信息对应的操作。
可选地,所述语音识别装置在确定接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时,自动关闭。
本发明实施例还提供了一种语音识别方法,如图4所示,该方法包括:
步骤401,语音唤醒装置监听周围环境中的语音信息;
步骤402,语音唤醒装置确定监听到的语音信息与语音唤醒模型匹配时,发出触发启动语音识别装置的触发信号。
可选地,所述确定监听到的语音信息与语音唤醒模型匹配,具体可以通过以下方式:
第一种实现方式:
确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
第二种实现方式:
确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征,确定提取到的声纹特征与预定的声纹特征匹配,则确定监听到的语音信息与语音唤醒模型匹配。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。并且通过将监听到的语音信息进行缓存,使得语音识别装置在启动并监听语音信息,对缓存的语音信息以及监听的语音信息进行识别,从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时,可能会造成部分语音信息丢失,提供了语音识别率。
本发明实施例还提供了一种语音识别方法,如图5所示,包括:
步骤501,语音识别装置接收语音唤醒装置发送的触发信号;
步骤502,所述语音识别装置在接收到所述触发信号后,启动并向用户发送语音提示指令;
步骤503,所述语音识别装置记录用户根据所述语音提示指令输入的语音信号,并对所述语音信号进行识别得到识别结果。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。
可选地,所述语音识别装置对所述语音信号进行识别得到识别结果后,还包括:
所述语音识别装置将得到的识别结果与预存储的语音指令信息进行匹配;
所述语音识别装置控制执行匹配的语音指令信息对应的操作。
本发明实施例还提供了一种语音唤醒装置,如图6所示,该装置包括:
监听模块601,用于监听周围环境中的语音信息;
确定模块602,用于确定所述监听模块601监听到的语音信息是否与语音唤醒模型匹配;
缓存模块603,用于在所述确定模块602确定所述监听模块601监听到的语音信息与语音唤醒模型匹配时,将所述监听模块601监听到的第一预设时长的语音信息缓存;
发送模块604,用于发送触发启动语音识别装置的触发信号,所述触发信号用于指示所述语音识别装置启动后读取并识别所述语音唤醒装置缓存的语音信息。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。并且通过将监听到的语音信息进行缓存,使得语音识别装置在启动并监听语音信息,对缓存的语音信息以及监听的语音信息进行识别,从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时,可能会造成部分语音信息丢失,提供了语音识别率。
可选地,所述确定模块602,具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
可选地,该装置还包括:
提取模块,用于在所述确定模块602确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征;
所述确定模块602,还用于在确定所述提取模块提取到的声纹特征与预定的声纹特征匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
本发明实施例还提供了一种语音识别装置,如图7所示,该装置包括:
接收模块701,用于接收语音唤醒装置发送的触发信号,所述触发信号用于指示语音识别装置启动并识别所述语音唤醒装置缓存的第一语音信息;
监听模块702,用于在所述接收模块701接收到所述触发信号后,启动并监听第二预设时长的第二语音信息;
识别模块703,用于识别所述语音唤醒装置缓存的第一语音信息以及所述监听模块监听到的第二语音信息,得到识别结果。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。
可选地,该装置还包括:
匹配模块,用于将识别模块703识别后得到的识别结果与预存储的语音指令信息进行匹配;
执行模块,用于执行匹配的语音指令信息对应的操作。
可选地,该装置还包括:
关闭模块,用于在确定所述接收模块接收到所述触发信号后第三预设时长内未再次接收到所述触发信号时,关闭语音识别模块。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。并且通过将监听到的语音信息进行缓存,使得语音识别装置在启动并监听语音信息,对缓存的语音信息以及监听的语音信息进行识别,从而能够避免在唤醒后启动语音识别装置再开始获取语音信息时,可能会造成部分语音信息丢失,提供了语音识别率。
本发明实施例还提供了一种语音唤醒装置,如图8所示,该装置包括:
监听模块801,用于监听周围环境中的语音信息;
确定模块802,用于确定监听到的语音信息是否与语音唤醒模型匹配;
发送模块803,用于在所述确定模块802确定监听到的语音信息与语音唤醒模型匹配时,发出触发启动语音识别装置的触发信号。
可选地,所述确定模块802,具体用于确定监听到的语音信息与预定的唤醒语音信息匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
可选地,该装置还包括:
提取模块,用于在所述确定模块802确定监听到的语音信息与预定的唤醒语音信息匹配时,提取监听到的语音信号中的声纹特征;
所述确定模块802,具体用于确定提取到的声纹特征与预定的声纹特征匹配时,则确定监听到的语音信息与语音唤醒模型匹配。
本发明实施例提供了一种语音识别装置,如图9所示,该装置包括:
接收模块901,用于接收语音唤醒装置发送的触发信号;
发送模块902,用于在所述接收模块901接收到所述触发信号后,启动并向用户发送语音提示指令;
处理模块903,用于记录用户根据所述语音提示指令输入的语音信号,并对所述语音信号进行识别,得到识别结果。
利用本发明实施例提供的方案,用户只需要发出一次指令,就能满足用户的要求,并且无论终端处于待机还是非待机状态下均适用。
下面结合软件实现过程对本发明实施例作具体说明,如图10所示。
语音识别模块从软件上可以划分为驱动层、音频的硬件抽象层(Audio HAL)、框架层(Framework)、语音识别引擎(VA Service)和应用设置(Setting)。
P1:事件上报。具体的,驱动层在接收到DSP的触发信号,将该触发事件上报给Framework。
P2:事件上报。具体的,Audio HAL将上述触发事件上报给VA Service。
P3:参数设置。具体的,设置从buffer中读取数据。
P4:VA Service启动。
P5:VA Service向Framework发送启动录音指示。
P6:Framework在接收到启动录音指示后,向Audio HAL发送读取音频数据指令。
P7:Audio HAL在接收到Framework发送的读取音频数据指示后,启动读取Buffer数据。
P8:Audio HAL向驱动发送获取Buffer数据指令,以使驱动向DSP发送获取Buffer数据指令,然后DSP将Buffer数据发送给驱动。
P9:驱动将接收到的Buffer数据上报给VA Service。
P10:VA Service对Buffer数据以及录音数据进行识别处理。
P11:VA Service向Framework发送停止录音指示。
P12:Framework在接收到停止录音指示后,向Audio HAL发送停止读取音频数据指令。
P13:Audio HAL在接收到Framework发送的停止读取音频数据指示后,关闭读取Buffer数据。
P14:Audio HAL向驱动发送停止获取Buffer数据指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (23)

1.一种语音控制方法,其特征在于,所述方法应用于终端,所述终端包括语音唤醒装置和语音识别装置,所述方法包括:
所述语音唤醒装置监听周围环境中的第一语音信息,所述第一语音信息包括唤醒信息和命令词的第一部分,所述唤醒信息用于启动所述语音识别装置,其中,所述唤醒信息为所述语音唤醒装置在第一时间段监听的,所述命令词的第一部分为所述语音唤醒装置在第二时间段监听的;
所述语音唤醒装置根据所述唤醒信息启动所述语音识别装置;
所述语音识别装置监听第二语音信息,所述第二语音信息包括命令词的第二部分,其中,所述第二语音信息为所述语音识别装置在第三时间段监听的;
所述语音识别装置根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息,所述语音指令信息与所述命令词相匹配,所述命令词包括所述命令词的第一部分和所述命令词的第二部分。
2.如权利要求1所述的方法,其特征在于,所述语音唤醒装置根据所述唤醒信息启动所述语音识别装置包括:
所述语音唤醒装置确定所述唤醒信息与语音唤醒模型匹配时,生成启动所述语音识别装置的触发信号。
3.如权利要求2所述的方法,其特征在于,确定所述唤醒信息与语音唤醒模型匹配,包括:
确定所述唤醒信息与预定的唤醒语音信息匹配时,则确定所述唤醒信息与语音唤醒模型匹配。
4.如权利要求2所述的方法,其特征在于,所述确定所述唤醒信息与语音唤醒模型匹配,包括:
确定所述唤醒信息与预定的唤醒语音信息匹配时,提取监听到的唤醒信息中的声纹特征,确定提取到的声纹特征与预定的声纹特征匹配,则确定监听到的唤醒信息与语音唤醒模型匹配。
5.如权利要求4所述的方法,其特征在于,所述声纹特征包括以下特征中的一项或者多项:
基音轮廓、线性预测系数、谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱、Mel频率倒谱系数。
6.如权利要求1所述的方法,其特征在于,所述语音识别装置根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息包括:
所述语音识别装置根据所述第一语音信息和所述第二语音信息得到识别结果,所述识别结果包括命令词信息;
将所述识别结果与预存储的语音指令信息进行匹配得到与所述识别结果匹配的所述语音指令信息。
7.如权利要求1-6任一项所述的方法,其特征在于,所述监听周围环境中的第一语音信息,包括:
在待机状态下监听周围环境中的所述第一语音信息;或者,
在非待机状态下监听周围环境中的所述第一语音信息;或者,
在锁屏状态下监听周围环境中的所述第一语音信息。
8.如权利要求2所述的方法,其特征在于,所述方法还包括:
所述语音唤醒装置将所述触发信号发送给所述语音识别装置,以启动所述语音识别装置。
9.如权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:所述语音识别装置控制执行匹配的所述语音指令信息对应的操作。
10.如权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
在启动所述语音识别装置后,在预设时长内未再次监听到用于启动语音识别装置的语音信息时,自动关闭所述语音识别装置。
11.如权利要求1-6任一项所述的方法,其特征在于,所述语音唤醒装置为数字信号处理器DSP。
12.如权利要求1-6任一项所述的方法,其特征在于,所述语音识别装置为应用处理器AP。
13.一种终端,其特征在于,包括处理器和存储器;
所述存储器用于存储一个或多个计算机程序;当所述存储器存储的一个或多个计算机程序被所述处理器执行时,使得所述终端能够实现如权利要求1-12任一所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1至12任一所述的方法。
15.一种终端,其特征在于,所述终端包括语音唤醒装置和语音识别装置,其中,
所述语音唤醒装置用于监听周围环境中的第一语音信息,所述第一语音信息包括唤醒信息和命令词的第一部分,所述唤醒信息用于启动所述语音识别装置,其中,所述唤醒信息为所述语音唤醒装置在第一时间段监听的,所述命令词的第一部分为所述语音唤醒装置在第二时间段监听的;
所述语音唤醒装置还用于根据所述唤醒信息启动所述语音识别装置;
所述语音识别装置用于监听第二语音信息,所述第二语音信息包括命令词的第二部分,其中,所述第二语音信息为所述语音识别装置在第三时间段监听的;
所述语音识别装置还用于根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息,所述语音指令信息与所述命令词相匹配,所述命令词包括所述命令词的第一部分和所述命令词的第二部分。
16.如权利要求15所述的终端,其特征在于,所述语音唤醒装置还用于根据所述唤醒信息启动所述语音识别装置包括:
所述语音唤醒装置用于确定所述唤醒信息与预定的唤醒语音信息匹配时,则确定所述唤醒信息与语音唤醒模型匹配。
17.如权利要求15所述的终端,其特征在于,所述根据所述唤醒信息启动所述语音识别装置包括:
所述语音唤醒装置用于确定所述唤醒信息与预定的唤醒语音信息匹配时,提取监听到的唤醒信息中的声纹特征,确定提取到的声纹特征与预定的声纹特征匹配,则确定监听到的唤醒信息与语音唤醒模型匹配。
18.如权利要求17所述的终端,其特征在于,所述声纹特征包括以下特征中的一项或者多项:
基音轮廓、线性预测系数、谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱、Mel频率倒谱系数。
19.如权利要求15所述的终端,其特征在于,所述语音识别装置用于根据所述语音唤醒装置监听的所述第一语音信息和语音识别装置监听的所述第二语音信息获取语音指令信息包括:
所述语音识别装置用于根据所述第一语音信息和所述第二语音信息得到识别结果,所述识别结果包括命令词信息;
所述语音识别装置用于将所述识别结果与预存储的语音指令信息进行匹配得到与所述识别结果匹配的所述语音指令信息。
20.如权利要求15-19任一项所述的终端,其特征在于,所述语音唤醒装置用于监听周围环境中的第一语音信息包括:
所述语音唤醒装置用于在待机状态下监听周围环境中的所述第一语音信息;或者,
所述语音唤醒装置用于在非待机状态下监听周围环境中的所述第一语音信息;或者,
所述语音唤醒装置用于在锁屏状态下监听周围环境中的所述第一语音信息。
21.如权利要求15-19任一项所述的终端,其特征在于,所述语音识别装置还用于,在启动后的预设时长内,未再次监听到用于启动所述语音识别装置的语音信息时,自动关闭所述语音识别装置。
22.如权利要求15-19任一项所述的终端,其特征在于,所述终端还包括执行模块,其中,
所述语音识别装置还用于向所述执行模块发送与所述语音指令信息匹配的执行指令;
所述执行模块用于执行所述执行指令对应的操作。
23.如权利要求15-19任一项所述的终端,其特征在于,所述语音唤醒装置为数字信号处理器DSP,所述语音识别装置为应用处理器AP。
CN201580023412.XA 2015-04-10 2015-04-10 语音识别方法、语音唤醒装置、语音识别装置及终端 Active CN106463112B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/076342 WO2016161641A1 (zh) 2015-04-10 2015-04-10 语音识别方法、语音唤醒装置、语音识别装置及终端

Publications (2)

Publication Number Publication Date
CN106463112A CN106463112A (zh) 2017-02-22
CN106463112B true CN106463112B (zh) 2020-12-08

Family

ID=57071774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580023412.XA Active CN106463112B (zh) 2015-04-10 2015-04-10 语音识别方法、语音唤醒装置、语音识别装置及终端

Country Status (8)

Country Link
US (2) US10943584B2 (zh)
EP (1) EP3282445A4 (zh)
JP (1) JP6564058B2 (zh)
CN (1) CN106463112B (zh)
AU (3) AU2015390534B2 (zh)
BR (1) BR112017021673B1 (zh)
CA (1) CA2982196C (zh)
WO (1) WO2016161641A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254076A (zh) * 2021-12-16 2022-03-29 天翼爱音乐文化科技有限公司 一种多媒体教学的音频处理方法、系统及存储介质

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
CN107181869A (zh) * 2017-06-06 2017-09-19 上海传英信息技术有限公司 移动终端和利用语音识别开启移动终端应用的方法
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN109243431A (zh) * 2017-07-04 2019-01-18 阿里巴巴集团控股有限公司 一种处理方法、控制方法、识别方法及其装置和电子设备
US11361763B1 (en) * 2017-09-01 2022-06-14 Amazon Technologies, Inc. Detecting system-directed speech
WO2019079974A1 (en) * 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION
CN107808670B (zh) 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN108062949A (zh) * 2017-12-11 2018-05-22 广州朗国电子科技有限公司 语音控制跑步机的方法及装置
CN111819626A (zh) * 2018-03-07 2020-10-23 华为技术有限公司 一种语音交互的方法及装置
CN110299137B (zh) * 2018-03-22 2023-12-12 腾讯科技(深圳)有限公司 语音交互方法和装置
US10818288B2 (en) * 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108563468B (zh) * 2018-03-30 2021-09-21 深圳市冠旭电子股份有限公司 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱
CN108492827B (zh) * 2018-04-02 2019-07-30 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
EP3786945B1 (en) * 2018-04-12 2023-07-19 Spotify AB Voice-based authentication
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
CN108735210A (zh) * 2018-05-08 2018-11-02 宇龙计算机通信科技(深圳)有限公司 一种语音控制方法及终端
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10777196B2 (en) * 2018-06-27 2020-09-15 The Travelers Indemnity Company Systems and methods for cooperatively-overlapped and artificial intelligence managed interfaces
CN109215646B (zh) * 2018-08-15 2021-08-17 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
CN110853632A (zh) * 2018-08-21 2020-02-28 蔚来汽车有限公司 基于声纹信息的语音识别方法及智能交互设备
CN109446533B (zh) * 2018-09-17 2020-12-22 深圳市沃特沃德股份有限公司 蓝牙翻译机、蓝牙翻译的交互方式及其装置
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109243447A (zh) * 2018-10-12 2019-01-18 西安蜂语信息科技有限公司 语音发送触发方法及装置
JP7242248B2 (ja) * 2018-10-31 2023-03-20 キヤノン株式会社 電子機器、その制御方法、およびそのプログラム
CN109545207A (zh) * 2018-11-16 2019-03-29 广东小天才科技有限公司 一种语音唤醒方法及装置
CN109243462A (zh) * 2018-11-20 2019-01-18 广东小天才科技有限公司 一种语音唤醒方法及装置
CN109448720A (zh) * 2018-12-18 2019-03-08 维拓智能科技(深圳)有限公司 便民服务自助终端及其语音唤醒方法
CN111383633B (zh) * 2018-12-29 2023-08-01 深圳Tcl新技术有限公司 语音识别连续性控制方法、装置、智能终端及存储介质
CN109448725A (zh) * 2019-01-11 2019-03-08 百度在线网络技术(北京)有限公司 一种语音交互设备唤醒方法、装置、设备及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109979466B (zh) * 2019-03-21 2021-09-17 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
US11776538B1 (en) * 2019-04-01 2023-10-03 Dialog Semiconductor B.V. Signal processing
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
CN110225386B (zh) * 2019-05-09 2021-09-14 海信视像科技股份有限公司 一种显示控制方法、显示设备
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US20200380139A1 (en) * 2019-05-29 2020-12-03 Denso International America, Inc. System and method for enhancing vehicle occupant voice data privacy
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110223687B (zh) * 2019-06-03 2021-09-28 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN112216277A (zh) * 2019-07-12 2021-01-12 Oppo广东移动通信有限公司 通过耳机进行语音识别的方法、耳机、语音识别装置
CN110265031A (zh) * 2019-07-25 2019-09-20 秒针信息技术有限公司 一种语音处理方法及装置
EP3792912B1 (en) * 2019-09-11 2021-11-03 Oracle International Corporation Improved wake-word recognition in low-power devices
CN111292510A (zh) * 2020-01-16 2020-06-16 广州华铭电力科技有限公司 一种城市电缆被外力破坏的识别预警方法
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
IT202000015973A1 (it) * 2020-07-02 2022-01-02 Voiceme S R L Sistema elettronico e metodo per abilitare il pagamento di un bene o servizio per mezzo di comandi vocali
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112037784B (zh) * 2020-08-14 2023-10-20 南京创维信息技术研究院有限公司 显示设备语音控制方法、显示设备和存储介质
CN112363851A (zh) * 2020-10-28 2021-02-12 广东小天才科技有限公司 智能终端的语音唤醒方法、系统、智能手表及存储介质
CN112581956A (zh) * 2020-12-04 2021-03-30 海能达通信股份有限公司 一种双模终端的语音识别方法及双模终端
TWI765485B (zh) * 2020-12-21 2022-05-21 矽統科技股份有限公司 外接式語音喚醒裝置及其控制方法
CN114283793A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 一种语音唤醒方法、装置、电子设备、介质及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013163113A1 (en) * 2012-04-26 2013-10-31 Nuance Communications, Inc Embedded system for construction of small footprint speech recognition with user-definable constraints
EP2669889A2 (en) * 2012-05-29 2013-12-04 Samsung Electronics Co., Ltd Method and apparatus for executing voice command in electronic device
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端
US8775191B1 (en) * 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
JP2015501450A (ja) * 2011-11-01 2015-01-15 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーディオ特徴データの抽出と分析
CN104301109A (zh) * 2014-09-24 2015-01-21 飞天诚信科技股份有限公司 一种语音动态令牌的工作方法
JP2015041123A (ja) * 2013-08-20 2015-03-02 株式会社リコー 画像形成装置

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5857172A (en) * 1995-07-31 1999-01-05 Microsoft Corporation Activation control of a speech recognizer through use of a pointing device
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6591239B1 (en) * 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
EP1346342A1 (en) * 2000-12-20 2003-09-24 Koninklijke Philips Electronics N.V. Speechdriven setting of a language of interaction
US7610199B2 (en) 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
KR100690740B1 (ko) 2004-11-24 2007-03-09 엘지전자 주식회사 이동 통신 단말기의 슬립 모드 전환 방법
US20080140397A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Sequencing for location determination
US8600741B2 (en) * 2008-08-20 2013-12-03 General Motors Llc Method of using microphone characteristics to optimize speech recognition performance
US9070282B2 (en) * 2009-01-30 2015-06-30 Altorr Corp. Smartphone control of electrical devices
KR20110031797A (ko) 2009-09-21 2011-03-29 삼성전자주식회사 휴대 단말기의 입력 장치 및 방법
US20110165541A1 (en) * 2010-01-02 2011-07-07 Yong Liu Reviewing a word in the playback of audio data
CN102196096A (zh) 2011-05-19 2011-09-21 青岛海信移动通信技术股份有限公司 一种移动终端执行特定操作的方法、移动终端及通信系统
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
CN102905029A (zh) * 2012-10-17 2013-01-30 广东欧珀移动通信有限公司 一种手机及智能语音寻找手机的方法
US9646610B2 (en) * 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
KR20140060040A (ko) * 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
CN103095911B (zh) * 2012-12-18 2014-12-17 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
CN103021413A (zh) * 2013-01-07 2013-04-03 北京播思软件技术有限公司 语音控制方法及装置
DE102013001219B4 (de) 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US20150348538A1 (en) * 2013-03-14 2015-12-03 Aliphcom Speech summary and action item generation
US9703350B2 (en) * 2013-03-15 2017-07-11 Maxim Integrated Products, Inc. Always-on low-power keyword spotting
KR101505127B1 (ko) * 2013-03-15 2015-03-26 주식회사 팬택 음성 명령에 의한 오브젝트 실행 장치 및 방법
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9202463B2 (en) * 2013-04-01 2015-12-01 Zanavox Voice-activated precision timing
US20140358535A1 (en) 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
JP2015011170A (ja) 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US9445209B2 (en) * 2013-07-11 2016-09-13 Intel Corporation Mechanism and apparatus for seamless voice wake and speaker verification
CN103338311A (zh) * 2013-07-11 2013-10-02 成都西可科技有限公司 一种智能手机锁屏界面启动app的方法
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
JP6312053B2 (ja) 2013-09-06 2018-04-18 株式会社ユピテル システム及びプログラム
US10134395B2 (en) 2013-09-25 2018-11-20 Amazon Technologies, Inc. In-call virtual assistants
CN103594089A (zh) * 2013-11-18 2014-02-19 联想(北京)有限公司 一种语音识别方法及电子设备
US9443522B2 (en) 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
CN103632667B (zh) * 2013-11-25 2017-08-04 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US11138971B2 (en) * 2013-12-05 2021-10-05 Lenovo (Singapore) Pte. Ltd. Using context to interpret natural language speech recognition commands
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
WO2015094369A1 (en) 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
WO2015116151A1 (en) * 2014-01-31 2015-08-06 Hewlett-Packard Development Company, L.P. Voice input command
US20180108001A1 (en) * 2014-03-24 2018-04-19 Thomas Jason Taylor Voice triggered transactions
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US10770075B2 (en) 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN103929540A (zh) * 2014-04-25 2014-07-16 浙江翼信科技有限公司 一种消息操作方法及装置
US9466290B2 (en) * 2014-05-06 2016-10-11 Honeywell International Inc. Systems and methods for aviation communication monitoring using speech recognition
PT2983065T (pt) * 2014-06-11 2018-10-23 Huawei Tech Co Ltd Método e terminal para iniciar rapidamente um serviço de aplicação
KR102208477B1 (ko) * 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
US20160012827A1 (en) * 2014-07-10 2016-01-14 Cambridge Silicon Radio Limited Smart speakerphone
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9335966B2 (en) * 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9354687B2 (en) * 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US9582296B2 (en) * 2014-09-18 2017-02-28 International Business Machines Corporation Dynamic multi-user computer configuration settings
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US9653079B2 (en) 2015-02-12 2017-05-16 Apple Inc. Clock switching in always-on component
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
CN105204963A (zh) * 2015-09-28 2015-12-30 北京奇虎科技有限公司 数据缓存方法及装置
TWI557599B (zh) * 2015-11-05 2016-11-11 宏碁股份有限公司 語音控制方法及語音控制系統
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015501450A (ja) * 2011-11-01 2015-01-15 クゥアルコム・インコーポレイテッドQualcomm Incorporated オーディオ特徴データの抽出と分析
WO2013163113A1 (en) * 2012-04-26 2013-10-31 Nuance Communications, Inc Embedded system for construction of small footprint speech recognition with user-definable constraints
EP2669889A2 (en) * 2012-05-29 2013-12-04 Samsung Electronics Co., Ltd Method and apparatus for executing voice command in electronic device
JP2015041123A (ja) * 2013-08-20 2015-03-02 株式会社リコー 画像形成装置
US8775191B1 (en) * 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端
CN104301109A (zh) * 2014-09-24 2015-01-21 飞天诚信科技股份有限公司 一种语音动态令牌的工作方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254076A (zh) * 2021-12-16 2022-03-29 天翼爱音乐文化科技有限公司 一种多媒体教学的音频处理方法、系统及存储介质
CN114254076B (zh) * 2021-12-16 2023-03-07 天翼爱音乐文化科技有限公司 一种多媒体教学的音频处理方法、系统及存储介质

Also Published As

Publication number Publication date
CA2982196A1 (en) 2016-10-13
EP3282445A1 (en) 2018-02-14
BR112017021673B1 (pt) 2023-02-14
AU2015390534A1 (en) 2017-11-30
US20210287671A1 (en) 2021-09-16
AU2019268131A1 (en) 2019-12-12
CA2982196C (en) 2022-07-19
AU2021286393B2 (en) 2023-09-21
US10943584B2 (en) 2021-03-09
CN106463112A (zh) 2017-02-22
WO2016161641A1 (zh) 2016-10-13
JP2018517919A (ja) 2018-07-05
AU2021286393A1 (en) 2022-01-20
BR112017021673A2 (zh) 2018-07-10
EP3282445A4 (en) 2018-05-02
US20180033436A1 (en) 2018-02-01
AU2015390534B2 (en) 2019-08-22
US11783825B2 (en) 2023-10-10
JP6564058B2 (ja) 2019-08-21

Similar Documents

Publication Publication Date Title
CN106463112B (zh) 语音识别方法、语音唤醒装置、语音识别装置及终端
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
CN109410952B (zh) 一种语音唤醒方法、装置及系统
US8909537B2 (en) Device capable of playing music and method for controlling music playing in electronic device
US5842161A (en) Telecommunications instrument employing variable criteria speech recognition
CN105210146A (zh) 用于控制语音激活的方法和设备
WO2016127506A1 (zh) 语音处理方法、语音处理装置和终端
US7349844B2 (en) Minimizing resource consumption for speech recognition processing with dual access buffering
CN110910876A (zh) 物品声寻装置及控制方法、语音控制设置方法和系统
JP6817386B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
CN107680592A (zh) 一种移动终端语音识别方法、及移动终端及存储介质
CN111862965A (zh) 唤醒处理方法、装置、智能音箱及电子设备
CN109271480B (zh) 一种语音搜题方法及电子设备
CN111128166A (zh) 连续唤醒识别功能的优化方法和装置
JP7258007B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US10887693B2 (en) Method for switching mode and electronic device employing the method
CN112992133A (zh) 声音信号控制方法、系统、可读存储介质和设备
CN112885341A (zh) 一种语音唤醒方法、装置、电子设备和存储介质
CN111028832B (zh) 麦克风静音模式控制方法、装置及存储介质和电子设备
CN111899722B (zh) 一种语音处理方法及装置、存储介质
CN117953872A (zh) 语音唤醒模型更新方法、存储介质、程序产品及设备
JP2020160430A (ja) 音声入力装置、音声入力方法及びそのプログラム
CN115691479A (zh) 语音检测方法、装置、电子设备及存储介质
WO2019047220A1 (zh) 一种应用程序启动方法及终端、计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210429

Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040

Patentee after: Honor Device Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.