CN105280180A - 一种终端控制方法、装置、语音控制装置及终端 - Google Patents

一种终端控制方法、装置、语音控制装置及终端 Download PDF

Info

Publication number
CN105280180A
CN105280180A CN201410256788.2A CN201410256788A CN105280180A CN 105280180 A CN105280180 A CN 105280180A CN 201410256788 A CN201410256788 A CN 201410256788A CN 105280180 A CN105280180 A CN 105280180A
Authority
CN
China
Prior art keywords
voice segments
voice
segments
terminal main
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410256788.2A
Other languages
English (en)
Inventor
蒋志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410256788.2A priority Critical patent/CN105280180A/zh
Priority to EP14894647.8A priority patent/EP3157003B1/en
Priority to US15/317,760 priority patent/US20170110131A1/en
Priority to PCT/CN2014/085066 priority patent/WO2015188459A1/zh
Publication of CN105280180A publication Critical patent/CN105280180A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种终端控制方法、装置、语音控制装置及终端,该方法包括:在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音,判断是否出现具备开启属性的语音段,若出现,则发送用于开启终端主语音系统的开启信号,并存储在具备开启属性的语音段之后监听到的语音段,在检测到终端主语音系统成功开启后,将存储的语音段传输出去。通过本发明的实施,在终端主语音系统关闭时,检测语音段来判断是否需要开启终端主语音系统,若需要,则发送开启信号,同时,在发送开启信号后,并行存储后续语音段落,用户不需要等待终端主语音系统开启,即可连续说出语音指令,解决了现有技术中语音控制技术操作繁杂的问题。

Description

一种终端控制方法、装置、语音控制装置及终端
技术领域
本发明涉及终端控制领域,尤其涉及一种终端控制方法、装置、语音控制装置及终端。
背景技术
随着智能终端处理能力的增强,用户对智能终端也提出了越来越高的要求,如为了解放用户的双手,现有技术提供了多种多样的语音识别及控制技术,诸如百度谷歌的语音输入、科大讯飞的语音识别及apple的siri等语音系统,这些应用给用户带来较好的便利性,解放双手无需打字输入,也带来很大的娱乐性,其本地的或基于互联网云计算的语音智能识别可以给用户提供互动式交互。
现有的语音系统在提高了用户使用体验的同时,还存在这样的问题:用户首先需要按住语音按钮,进入语音系统,然后才能发出语音指令,当然,若手机处于关闭状态,则需要先唤醒手机,在按语音按钮进行语音系统;如用户在手机关闭的时候,需要查询一下天气,使用现有的产品需要先拿起手机并解锁,激活主操作系统,在按语音按钮,开启语音系统(如siri),在语音系统开启后才能发出语音指令“查一下天气”,步骤比较繁琐。
因此,如何提供一种可以降低用户操作繁杂度的终端控制技术,是本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种终端控制方法、装置、语音控制装置及终端,以解决现有技术中语音控制技术操作繁杂的问题。
本发明提供了一种终端控制方法,在一个实施例中,该终端控制方法包括:在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音,判断是否出现具备开启属性的语音段,若出现,则发送用于开启终端主语音系统的开启信号,并存储在具备开启属性的语音段之后监听到的语音段,在检测到终端主语音系统成功开启后,将存储的语音段传输出去。
进一步的,上述实施例中的判断是否出现具备开启属性的语音段的步骤包括:依次获取监听到的用户语音中各语音段的内容特征参数,分别与预设开启参数匹配,内容特征参数用于识别语音段的内容;若一语音段的内容特征参数与预设开启参数匹配通过,则该语音段具备开启属性。
进一步的,上述实施例在发送开启信号之前还包括:获取各语音段的身份识别参数,并分别与预设合法用户身份识别参数比对,身份识别参数用于识别语音段的说话人身份;仅在出现内容特征参数匹配通过、身份识别参数比对合法的语音段时,发送开启信号,并存储在具备开启属性的语音段之后监听到的语音段。
进一步的,上述实施例在存储在具备开启属性的语音段之后监听到的语音段之前,还包括:存储具备开启属性的语音段。
进一步的,上述实施例在存储具备开启属性的语音段之前,还包括:判断具备开启属性的语音段是否同时具备控制属性,若是,则存储具备开启属性的语音段。
进一步的,上述实施例还包括:在检测到终端主语音系统成功开启后,判断是否正在存储语音段;若是,则继续存储该语音段,并在该语音段中断后,终止后续语音段的存储,若否,则终止后续语音段的存储;在终止后续语音段的存储后,将后续语音段及存储的所有语音段传输出去。
进一步的,在上述实施例中,若后续语音段和/或存储的所有语音段为多个语音段,则终端主语音系统按照各语音段的监听时间先后,依次处理多个语音段或依次传输多个语音段至网络侧。
本发明还提供了一种终端控制装置,在一个实施例中,该终端控制装置包括:用于在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音的语音监听模块;用于判断是否出现具备开启属性的语音段的属性判断模块;用于若出现,则发送用于开启终端主语音系统的开启信号,并存储在具备开启属性的语音段之后监听到的语音段的开启存储模块;以及用于在检测到终端主语音系统成功开启后,将存储的语音段传输出去的数据传输模块。
为将本发明运用于实际生活中,本发明也提供了一种语音控制装置,在一个实施例中,该语音控制装置包括监听模块、检测模块、控制模块及存储模块,其中,监听模块用于在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音,并传输至检测模块;检测模块用于判断监听模块监听到的用户语音中是否出现具备开启属性的语音段,并在出现具备开启属性的语音段时,触发控制模块;控制模块用于在被检测模块触发时发送用于开启终端主语音系统的开启信号,并控制存储模块存储监听模块在具备开启属性的语音段之后监听到的语音段,还用于在检测到终端主语音系统成功开启后,控制存储模块将存储的语音段传输出去;存储模块用于在控制模块的控制下存储或传输语音段。
同时,本发明也提供了一种终端,在一个实施例中,该终端包括终端主语音系统及本发明提供的语音控制装置;语音控制装置用于在终端主语音系统关闭时,监听包括至少一个语音段的用户语音,判断是否出现具备开启属性的语音段,在出现具备开启属性的语音段时,开启终端主语音系统,并存储在具备开启属性的语音段之后监听到的语音段,并在终端主语音系统开启后,将存储的语音段交由终端主语音系统。
本发明的有益效果:
本发明提供的方法,在终端主语音系统处于关闭状态时,持续监听包括至少一个语音段的用户语音,针对用户语音中的每个语音段依次进行检测,当检测到具备开启属性的语音段时,向终端主语音系统发送开启信号,并同时开始存储在具备开启属性的语音段之后监听到的语音段,在终端主语音系统唤醒后,将存储的语音段传输至终端主语音系统,也即,在检测到终端主语音系统关闭后,检测语音来判断是否需要开启终端主语音系统,若需要,则发送开启信号,实现了语音开启终端主语音系统,同时,在发送开启信号后,并行存储后续语音段,用户不需要等待终端主语音系统开启,即可连续说出语音指令,也无需担心语音指令终端主语音系统无法获得,解决了现有技术中语音控制技术操作繁杂的问题,增强了用户的使用体验。
附图说明
图1为本发明第一实施例提供的终端控制方法的流程图;
图2为本发明第二实施例提供的终端控制装置的功能模块示意图;
图3为本发明第三实施例提供的语音控制装置的功能模块示意图;
图4为本发明第四实施例提供的终端控制方法的流程图。
具体实施方式
现通过具体实施方式结合附图的方式对本发明做出进一步的诠释说明。
本发明的核心思想是在终端主语音系统处于关闭状态时,持续监听包括至少一个语音段的用户语音,针对用户语音中的每个语音段依次进行检测,当检测到具备开启属性的语音段时,向终端主语音系统发送开启信号,并同时开始存储在具备开启属性的语音段之后监听到的语音段,在终端主语音系统唤醒后,将存储的语音段传输至终端主语音系统,也即,在检测到终端主语音系统关闭后,检测语音来判断是否需要开启终端主语音系统,若需要,则发送开启信号,实现了语音开启终端主语音系统,同时,在发送开启信号后,并行存储后续语音段,用户不需要等待终端主语音系统开启,即可连续说出语音指令,也无需担心语音指令终端主语音系统无法获得。
第一实施例:
图1为本发明第一实施例提供的终端控制方法的流程图,由图1可知,在本实施例中,本发明提供的终端控制方法包括以下步骤:
S101:在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音;
本步骤可以通过终端内的语音采集装置,如麦克风来采集,对采集到的每个语音段均执行步骤S102;
本发明所涉及的终端主语音系统是指现有手机等智能设备中的语音系统,如苹果手机内的siri应用等,这类语音系统在用户不使用时,一般处于关闭状态,仅在用户需要时,通过按语音按钮等方式来开始;主语音系统关闭包括两种情况:终端主操作系统未休眠时,退出了语音应用,以及主操作系统休眠时,语音应用肯定是关闭的,本发明所涉及的终端主操作系统是指手机等终端设备的主要操作系统,如IOS系统、安卓系统等,这类主操作系统在激活状态时耗电量大,因此在用户未使用手机时,这类终端主操作系统处于休眠状态;
检测终端主语音系统是否关闭这一功能可以是本发明所提供的终端控制装置来实时检测主语音系统是否关闭,或者先检测主操作系统是否休眠(休眠时,主语音系统肯定关闭,在未休眠时进一步检测主语音系统是否关闭),对应的,还可以是主语音系统在关闭时/主操作系统在休眠时,主动发送信号告知终端控制装置其状态;
本发明所涉及的语音段是指用户在说话时两个自然停顿所形成的段落,如用户说一句话“你好小5,请查询天气”,此时“你好小5”与“请查询天气”之间的自然停顿大于各个字节之间的时间间隔,这个时间间隔是终端可以分辨识别的,本发明不做过多说明,而“你好小5”与“请查询天气”则是两个语音段;而用户语音则是用户所说的至少一个语音段连接形成的;
S102:判断是否出现具备开启属性的语音段;若出现,则执行步骤S103,若未出现,则继续执行步骤S101;
在一些实施例中,步骤S102可以由手机等终端内新增加的DSP芯片及芯片内程序来实现,也可以由手机CPU及主操作系统来实现;
在一些实施例中,步骤S102具体的可以包括:依次获取监听到的用户语音中各语音段的内容特征参数,分别与预设开启参数匹配,内容特征参数用于识别语音段的内容;若一语音段的内容特征参数与预设开启参数匹配通过,则该语音段具备开启属性;具体的,在本实施例中,内容特征参数是指与语音段的内容相关的特征参数,如语音段的内容(需要进行模数转换处理)、语音段的长度(持续时间,无需模数转换处理)、语音段的包络(不同的语音内容在发声后,就对应着不同的包络,也即包络特征与内容之间存在较大的对应关系,而获取包络也需要模数转换处理)等参数,预设开启参数可以是用户指定/输入的文字内容,也可以是用户指定的特定长度(满足该长度的语音段均可开启终端主语音系统),自然也可以是用户说一段话,将这段话的包络作为开启参数等等。本实施例所涉及的匹配可以是设置为完全相同以降低误操作,也可以设置一个阈值,相似度大于该阈值的语音段都可以作为满足条件的语音段来开启终端主语音系统,这样可以兼容不同应用环境;例如,用户处于不同状态/场景时,对同一控制语音“你好小5”的发音长度不尽相同,如在早上(用户大脑不清醒,反应较慢)时,用户所用的时间可能为1.2秒,而在中午(用户大脑清醒,反应快)时,用户所用的时间可能为0.95秒,假定用户设置的预设开启参数中的语音段的长度为1秒、阈值为90%,那么用户在早上说出“你好小5”这一语音段的长度相似度为(1.2-1)/1=80%,显然是小于阈值的,则判定为用户在早上说出“你好小5”不具备开启属性,同样的,那么用户在中午说出“你好小5”这一语音段的长度相似度为0.95/1=95%,显然是大于阈值的,则判定为用户在中午说出“你好小5”具备开启属性;本实施例一语音段的长度为例进行了示例性说明,语音段的包络、内容等同样可以采用这类的匹配机制;
在一些实施例中,为了避免终端被非法用户使用,在开启终端主语音系统之前还包括:获取各语音段的身份识别参数,并分别与预设合法用户身份识别参数比对,身份识别参数用于识别语音段的说话人身份;仅在出现内容特征参数匹配通过、身份识别参数比对合法的语音段时,发送开启信号至终端主语音系统,并存储在具备开启属性的语音段之后监听到的语音段;具体的,在本实施例中,身份识别参数可以是语音段的声纹、频率等语音段所表现出来的仅与说话人的发音相关而与语音内容无关的自身特征参数,那么,对应的,预设合法用户身份识别参数就是终端拥有者/合法使用者说话时的声纹、频率等;本实施例对语音段的说话人身份进行识别,避免终端被非法使用;
而本步骤可能涉及的内容特征参数匹配与身份识别参数比对并没有先后顺序,可以根据需要来选择一个或两个参数来实现语音段条件的检测。
S103:发送用于开启终端主语音系统的开启信号,并存储在具备开启属性的语音段之后监听到的语音段;
本步骤所涉及的发送开启信号及存储后续语音段是两个并行的过程,这样,就避免了在终端主语音系统开启的过程中语音段的丢失或者语音段接收不完整等问题的出现;
S104:在检测到终端主语音系统成功开启后,将存储的语音段传输出去;
在一些实施例中,与检测主语音系统是否关闭相对应的,检测终端主语音系统是否成功开启这一功能可以是本发明所提供的终端控制装置在主操作系统未休眠时,发送开启信号后,实时检测主语音系统是否开启成功,或者在主操作系统休眠时,所发送的开启信号还同时具备唤醒主操作系统功能,在发送开启信号后,实时检测主操作系统是否唤醒,若唤醒则进一步检测主语音系统是否开启;对应的,该功能可以是主语音系统在开启后,主动发送信号告知终端控制装置其已经开启成功,或者是主语音系统/主操作系统在开启/唤醒后,主动检测终端控制装置是否存储了语音段,当终端控制装置接收到对应指令后,认为主语音系统开启成功。
本实施例同时执行开启终端主语音系统及存储后续语音段两个操作,避免了在终端主语音系统开启的过程中语音段的丢失或者语音段接收不完整,这样,终端主语音系统在开启后就可以得到完整的语音段进行处理,不会出现因错误语音段导致的执行结果错误等问题。
在一些实施例中,在执行步骤S103中的存储在具备开启属性的语音段之后监听到的语音段之前,还包括:存储具备开启属性的语音段;这样就避免了当某语音段既有开启属性、又有控制属性时,控制指令的丢失;控制属性是指终端需要根据某语音段完成一个操作,如“小5查天气”这一语音段就既有开启属性(开启主语音系统)、又有控制属性(查询天气),若仅作为开启指令,就将导致控制指令的丢失。
在一些实施例中,上述实施例在存储具备开启属性的语音段之前,还包括:判断具备开启属性的语音段是否同时具备控制属性,若是,则存储具备开启属性的语音段;本实施例在存储具备开启属性的语音段之前,判断是否同时具备控制属性,避免了不具备控制属性的语音段的存储,降低了数据存储量。
在一些实施例中,上述实施例还包括:在检测到终端主语音系统成功开启后,判断是否正在存储语音段,若是,则继续存储该语音段,并在该语音段中断后,终止后续语音段的存储,若否,则终止后续语音段的存储;在终止后续语音段的存储后,将后续语音段及存储的所有语音段传输至终端主语音系统;例如,用户所要说的用户语音为“你好小5,帮我查一下交通,我要吃饭”若在终端主语音系统开启成功信号时,正在存储“帮我查一下交通”这一语音段(如存储到“查”),那么,继续存储“帮我查一下交通”,并在存储结束后,终止后续语音段“我要吃饭”的存储(由已经开启的终端主语音系统、如siri接收处理),若在终端主语音系统开启成功信号时,已经完成“帮我查一下交通”的存储,还未开始“我要吃饭”的存储,则直接终止后续语音段“我要吃饭”的存储(由已经开启的终端主语音系统、如siri接收处理);本实施例终端主语音系统开启时/后的语音段是否进行存储给出了具体的方案。
在一些实施例中,若后续语音段和/或存储的所有语音段为多个语音段,则终端主语音系统按照各语音段的监听时间先后,依次处理或依次传输至网络侧处理多个语音段;如,用户需要打电话给***一起吃饭,用户语音为“你好小5,请电话***,下午6点,在某某餐厅吃饭”,该用户语音中的“你好小5”用来开启终端主语音系统,在检测到“你好小5”时,发送主语音系统开启信号,并开始存储“请电话***,下午”,当存储到“下午”时,主语音系统开启成功,此时判断结果为正在存储“下午6点”这一语音段,在继续存储,后续语音段“在某某餐厅吃饭”则由主语音系统的siri接收,用户说完用户语音后,后续语音段和/或存储的所有语音段为“请电话***,下午6点,在某某餐厅吃饭”这三个语音段,终端主语音系统先执行电话操作“请电话***”,然后制定日程安排“下午6点,某某餐厅在吃饭”,而“在某某餐厅吃饭”则需要到网络订餐、查询交通路线等相互配合,终端主语音系统无法独立完成,需要网络侧处理;这样,终端主语音系统或网络侧就可以按照时间先后顺序来及时向用户反馈各语音指令的处理结果。
第二实施例:
图2为本发明第二实施例提供的终端控制装置的功能模块示意图,由图2可知,在本实施例中,本发明提供的终端控制装置2包括以下功能模块:
用于在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音的语音监听模块21;
用于判断是否出现具备开启属性的语音段的属性判断模块22;
用于若出现,则发送用于开启终端主语音系统的开启信号,并存储在具备开启属性的语音段之后监听到的语音段的开启存储模块23;以及
用于在检测到终端主语音系统成功开启后,将存储的语音段传输出去的数据传输模块24。
在一些实施例中,图2所示实施例中的数据传输模块24包括:用于在检测到终端主语音系统成功开启后,判断是否正在存储语音段,若是,则继续存储该语音段,并在该语音段中断后终止后续语音段的存储,若否,则终止后续语音段的存储的存储控制模块;用于在终止后续语音段的存储后,将后续语音段及存储的所有语音段传输出去的传输控制模块。
第三实施例:
图3为本发明第三实施例提供的语音控制装置的功能模块示意图,由图3可知,在本实施例中,本发明提供的语音控制装置3包括监听模块31、检测模块32、控制模块33及存储模块34,其中,
监听模块31用于在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音,并传输至检测模块32;具体的,监听模块31可以是终端设备的麦克风等具备语音接收功能的装置/结构,其在终端在检测到终端主语音系统关闭后,也可以监听外界声音;
检测模块32用于判断监听模块31监听到的用户语音中是否出现具备开启属性的语音段,并在出现具备开启属性的语音段时,触发控制模块33;
控制模块33用于在被检测模块32触发时发送用于开启终端主语音系统的开启信号,并控制存储模块34存储处理模块后续监听到的语音段,还用于在检测到终端主语音系统成功开启后,控制存储模块34将存储的语音段传输出去,一般为传输至终端主语音系统处理,若终端主语音系统不能独自处理,还需要传输至网络侧进行处理;
存储模块34用于在控制模块33的控制下存储或传输语音段。
在一些实施例中,图3所示实施例中的检测模块32具体用于:依次获取监听到的用户语音中各语音段的内容特征参数,分别与预设开启参数匹配,内容特征参数用于识别语音段的内容;若一语音段的内容特征参数与预设开启参数匹配通过,则该语音段具备开启属性。
在一些实施例中,图3所示实施例中的检测模块32还用于在触发控制模块33之前,获取各语音段的身份识别参数,并分别与预设合法用户身份识别参数比对,身份识别参数用于识别语音段的说话人身份;仅在出现内容特征参数匹配通过、身份识别参数比对合法的语音段时,触发控制模块33。
在一些实施例中,图3所示实施例中控制模块33还用于控制存储模块34在存储在具备开启属性的语音段之后监听到的语音段之前,存储具备开启属性的语音段。
在一些实施例中,图3所示实施例中控制模块33还用于控制存储模块34存储具备开启属性的语音段之前,判断具备开启属性的语音段是否同时具备控制属性,若是,则控制存储模块34存储具备开启属性的语音段。
在一些实施例中,图3所示实施例中控制模块33还用于在检测到终端主语音系统成功开启后,判断存储模块是否正在存储任一语音段;若是,则控制存储模块继续存储该语音段,并在该语音段中断后终止后续语音段的存储,若否,则控制存储模块终止后续语音段的存储;在终止后续语音段的存储后,将后续语音段传输至终端主语音系统,并控制存储模块将存储的所有语音段传输至终端主语音系统。
在一些实施例中,本发明还提供了终端来使用本发明提供的控制技术,该终端包括终端主语音系统及如图3所示的语音控制装置3;语音控制装置3用于在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音,判断是否出现具备开启属性的语音段,在出现具备开启属性的语音段时,开启终端主语音系统,并存储在具备开启属性的语音段之后监听到的语音段,并在终端主语音系统开启后,将存储的语音段交由终端主语音系统。
在一些实施例中,终端主语音系统需要处理的语音段有两个来源:语音控制装置存储的语音段及终端主语音系统开启后接收到的后续语音段,因此,若后续语音段和/或存储的所有语音段为多个语音段,则终端主语音系统用于按照各语音段的监听时间先后,依次处理多个语音段或依次传输多个语音段至网络侧。
第四实施例:
现结合一具体应用实例来说明本发明的主要技术方案,在本应用实例中,假定终端为苹果5手机(主语音系统为IOS),用户所说的语音为“……,小A等一下,我通知小B晚上一起吃饭;你好小5,请电话小B,晚上6点,去某某餐厅吃饭。”终端判断某语音段是否具备开启属性的依据是语音段内容,并利用声纹检测用户是否合法;图4为本发明第四实施例提供的终端控制方法的流程图,由图4可知,在本实施例中,本发明提供的终端控制方法包括以下步骤:
S401:用户长时间未操作手机,手机主操作系统进入休眠状态;
如用户5分钟没有操作手机,手机自动进入休眠状态,主语音系统同时进入关闭状态,发送关闭信号到终端控制装置,用户把手机放在电脑旁边;
S402:终端控制装置监听用户语音中的每一个语音段;
用户利用QQ视频与小A通话,发生上述假定的对话,终端控制装置监听到上述对话;
S403:终端控制装置对每一个语音段进行判断,判断是否具备开启属性,是,则执行步骤S404,否,则返回步骤S402;
终端对监听的每一个语音段都进行D/A转换获取语音段内容,预设开启参数为“你好小5”(个性化命名,可以避免通用指令“你好手机”存在的被其他用户无意开启的隐患),对语音段“小A等一下”、“我通知小B晚上一起吃饭”的判断结果为否,返回步骤S402,对语音段“你好小5”的判断结果为是,执行步骤S404;
S404:终端控制装置对具备开启属性的语音段进行判断,判断是否合法,是,则执行步骤S405,否,则返回步骤S402;
判断语音段“你好小5”的声纹与预设合法用户(手机持有者)的声纹是否一致,若一致,则语音段合法,否则,不合法;
S405:终端控制装置发送开启信号,并开始后续语音段的存储;
向终端主语音系统发送开启信号(该开启信号同时用于唤醒主操作系统IOS及语音系统siri),并开始“请电话小B,……”的存储;
S406:终端控制装置接收到开启成功信号,检测是否正在进行某语音段的存储,若是,则执行步骤S407,若否,则执行步骤S408;
若在接收到siri语音系统成功开启后所发送的开启成功信号时,正在存储“晚上6点”这一语音段,则执行步骤S407,若否,则执行步骤S408;
S407:终端控制装置继续该语音段的存储;并在该语音段的存储完成后,执行步骤S408;
承接步骤S406的假设,在“晚上6点”存储完毕后(语音中断大于0.3秒),执行步骤S408;
S408:终端控制装置终止后续语音段的存储,后续语音段交由主语音系统接收处理,并将存储的语音段传输出至主语音系统;
承接步骤S407的假设,后续语音段“去某某餐厅吃饭”由主语音系统siri接收(也可以由主操作系统IOS接收后传输至siri处理);同时将语音段“请电话小B”及“晚上6点”传输至终端主语音系统;
S409:主语音系统以各语音段的监听时间先后依次处理语音段,并向用户展示;
主语音系统接收到的语音段以时间顺序依次为“请电话小B”、“晚上6点”及“去某某餐厅吃饭”,主语音系统在网络侧的配合下依次处理向展示:
针对“请电话小B”,终端主语音系统调用通讯录,并向小B发起呼叫;
针对“晚上6点”,终端主语音系统建立日程安排“晚上6点有活动安排”;
针对“去某某餐厅吃饭”,终端主语音系统配合网络侧在某某餐厅订餐,查询交通路线,并向用户展示订餐结果及路线。
本实施例实现了主语音系统的自动开启、语音段的连续存储等功能,并且仅示例性的给出了本发明的一个应用场景,在这个应用场景中执行步骤S406的时机是主语音系统成功开启后,在其他应用场景内,执行步骤S406的时机是主操作系统成功唤醒后,因为主操作系统的唤醒是在主语音系统开启之前的,这样,在主操作系统成功唤醒后,由主操作系统来进行后续语音段的存储,效果更好(主操作系统接收存储语音段可以降低对DSP芯片的存储要求)。
综上可知,通过本发明的实施,至少存在以下有益效果:
在终端主语音系统处于关闭状态时,持续监听包括至少一个语音段的用户语音,针对用户语音中的每个语音段依次进行检测,当检测到具备开启属性的语音段时,向终端主语音系统发送开启信号,并同时开始存储在具备开启属性的语音段之后监听到的语音段,在终端主语音系统唤醒后,将存储的语音段传输出去,也即在检测到终端主语音系统关闭后,检测语音来判断是否需要开启终端主语音系统,若需要,则发送开启信号,实现了语音开启终端主语音系统,同时在发送开启信号后,并行存储后续语音段,用户不需要等待终端主语音系统开启,即可连续说出语音指令,也无需担心语音指令终端主语音系统无法获得,解决了现有技术中语音控制技术操作繁杂的问题,增强了用户的使用体验。
以上仅是本发明的具体实施方式而已,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任意简单修改、等同变化、结合或修饰,均仍属于本发明技术方案的保护范围。

Claims (17)

1.一种终端控制方法,其特征在于,包括:
在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音;
判断是否出现具备开启属性的语音段;
若出现,则发送用于开启所述终端主语音系统的开启信号,并存储在所述具备开启属性的语音段之后监听到的语音段;
在检测到所述终端主语音系统成功开启后,将存储的语音段传输出去。
2.如权利要求1所述的终端控制方法,其特征在于,所述判断是否出现具备开启属性的语音段的步骤包括:依次获取所述用户语音中各语音段的内容特征参数,分别与预设开启参数匹配,所述内容特征参数用于识别语音段的内容;若一语音段的内容特征参数与所述预设开启参数匹配通过,则该语音段具备开启属性。
3.如权利要求2所述的终端控制方法,其特征在于,在发送所述开启信号之前还包括:获取所述用户语音中各语音段的身份识别参数,并分别与预设合法用户身份识别参数比对,所述身份识别参数用于识别语音段的说话人身份;仅在出现内容特征参数匹配通过、身份识别参数比对合法的语音段时,发送所述开启信号,并存储在所述具备开启属性的语音段之后监听到的语音段。
4.如权利要求1所述的终端控制方法,其特征在于,在存储在所述具备开启属性的语音段之后监听到的语音段之前,还包括:存储所述具备开启属性的语音段。
5.如权利要求4所述的终端控制方法,其特征在于,在存储所述具备开启属性的语音段之前,还包括:判断所述具备开启属性的语音段是否同时具备控制属性,若是,则存储所述具备开启属性的语音段。
6.如权利要求1至5任一项所述的终端控制方法,其特征在于,还包括:
在检测到所述终端主语音系统成功开启后,判断是否正在存储语音段,若是,则继续存储该语音段,并在该语音段中断后,终止后续语音段的存储,若否,则终止后续语音段的存储;
在终止后续语音段的存储后,将后续语音段及存储的所有语音段传输出去。
7.如权利要求6所述的终端控制方法,其特征在于,若后续语音段和/或存储的所有语音段为多个语音段,则所述终端主语音系统按照各语音段的监听时间先后,依次处理所述多个语音段或依次传输所述多个语音段至网络侧。
8.一种终端控制装置,其特征在于,包括:
用于在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音的语音监听模块;
用于判断是否出现具备开启属性的语音段的属性判断模块;
用于若出现,则发送用于开启所述终端主语音系统的开启信号,并存储在所述具备开启属性的语音段之后监听到的语音段的开启存储模块;以及
用于在检测到所述终端主语音系统成功开启后,将存储的语音段传输出去的数据传输模块。
9.如权利要求8所述的终端控制装置,其特征在于,所述数据传输模块包括:
用于在检测到所述终端主语音系统成功开启后,判断是否正在存储语音段,若是,则继续存储该语音段,并在该语音段中断后终止后续语音段的存储,若否,则终止后续语音段的存储的第一子模块的存储控制模块;以及
用于在终止后续语音段的存储后,将后续语音段及存储的所有语音段传输出去的传输控制模块。
10.一种语音控制装置,其特征在于,包括监听模块、检测模块、控制模块及存储模块,其中,
所述监听模块用于在检测到终端主语音系统关闭后,监听包括至少一个语音段的用户语音,并传输至所述检测模块;
所述检测模块用于判断所述监听模块监听到的用户语音中是否出现具备开启属性的语音段,并在出现所述具备开启属性的语音段时,触发所述控制模块;
所述控制模块用于在被所述检测模块触发时发送用于开启所述终端主语音系统的开启信号,并控制所述存储模块存储所述监听模块在所述具备开启属性的语音段之后监听到的语音段,还用于在检测到所述终端主语音系统成功开启后,控制所述存储模块将存储的语音段传输出去;
所述存储模块用于在所述控制模块的控制下存储或传输所述语音段。
11.如权利要求10所述的语音控制装置,其特征在于,所述检测模块具体用于:依次获取监听到的用户语音中各语音段的内容特征参数,分别与预设开启参数匹配,所述内容特征参数用于识别语音段的内容;若一语音段的内容特征参数与所述预设开启参数匹配通过,则该语音段具备开启属性。
12.如权利要求11所述的语音控制装置,其特征在于,所述检测模块还用于在触发所述控制模块之前,获取各语音段的身份识别参数,并分别与预设合法用户身份识别参数比对,所述身份识别参数用于识别语音段的说话人身份;仅在出现内容特征参数匹配通过、身份识别参数比对合法的语音段时,触发所述控制模块。
13.如权利要求10所述的语音控制装置,其特征在于,所述控制模块还用于在控制所述存储模块存储所述监听模块在所述具备开启属性的语音段之后监听到的语音段之前,存储所述具备开启属性的语音段。
14.如权利要求13所述的语音控制装置,其特征在于,所述控制模块还用于在控制所述存储模块存储所述具备开启属性的语音段之前,判断所述具备开启属性的语音段是否同时具备控制属性,若是,则控制所述存储模块存储所述具备开启属性的语音段。
15.如权利要求10至14任一项所述的语音控制装置,其特征在于,所述控制模块还用于在检测到所述终端主语音系统成功开启后,判断所述存储模块是否正在存储任一语音段,若是,则控制所述存储模块继续存储该语音段,并在该语音段中断后终止后续语音段的存储,若否,则控制所述存储模块终止后续语音段的存储;在终止后续语音段的存储后,将后续语音段传输至终端主语音系统,并控制所述存储模块将存储的所有语音段传输出去。
16.一种终端,其特征在于,包括终端主语音系统及如权利要求10至15任一项所述的语音控制装置;所述语音控制装置用于在终端主语音系统休眠时,监听包括至少一个语音段的用户语音,判断是否出现具备开启属性的语音段,在出现所述具备开启属性的语音段时,开启所述终端主语音系统,并存储在所述具备开启属性的语音段之后监听到的语音段,在所述终端主语音系统开启后,将存储的语音段交由所述终端主语音系统。
17.如权利要求16所述的终端,其特征在于,若后续语音段和/或存储的所有语音段为多个语音段,则所述终端主语音系统用于按照各语音段的监听时间先后,依次处理所述多个语音段或依次传输所述多个语音段至网络侧。
CN201410256788.2A 2014-06-11 2014-06-11 一种终端控制方法、装置、语音控制装置及终端 Pending CN105280180A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410256788.2A CN105280180A (zh) 2014-06-11 2014-06-11 一种终端控制方法、装置、语音控制装置及终端
EP14894647.8A EP3157003B1 (en) 2014-06-11 2014-08-22 Terminal control method and device, voice control device and terminal
US15/317,760 US20170110131A1 (en) 2014-06-11 2014-08-22 Terminal control method and device, voice control device and terminal
PCT/CN2014/085066 WO2015188459A1 (zh) 2014-06-11 2014-08-22 一种终端控制方法、装置、语音控制装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410256788.2A CN105280180A (zh) 2014-06-11 2014-06-11 一种终端控制方法、装置、语音控制装置及终端

Publications (1)

Publication Number Publication Date
CN105280180A true CN105280180A (zh) 2016-01-27

Family

ID=54832782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410256788.2A Pending CN105280180A (zh) 2014-06-11 2014-06-11 一种终端控制方法、装置、语音控制装置及终端

Country Status (4)

Country Link
US (1) US20170110131A1 (zh)
EP (1) EP3157003B1 (zh)
CN (1) CN105280180A (zh)
WO (1) WO2015188459A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106272481A (zh) * 2016-08-15 2017-01-04 北京光年无限科技有限公司 一种机器人服务的唤醒方法及装置
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
CN107369445A (zh) * 2016-05-11 2017-11-21 上海禹昌信息科技有限公司 同时支持语音唤醒以及语音控制智能终端的方法
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
CN107861618A (zh) * 2017-11-10 2018-03-30 联想(北京)有限公司 电子设备控制方法和控制系统
CN108269570A (zh) * 2018-01-17 2018-07-10 深圳聚点互动科技有限公司 语音控制背景音乐主机的方法、装置、设备及存储介质
CN109601017A (zh) * 2017-08-02 2019-04-09 松下知识产权经营株式会社 信息处理装置、声音识别系统及信息处理方法
CN110689884A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 智能设备控制方法及装置
CN111124512A (zh) * 2019-12-10 2020-05-08 珠海格力电器股份有限公司 智能设备的唤醒方法、装置、设备和介质
CN112744474A (zh) * 2019-10-29 2021-05-04 上海浦东临港智慧城市发展中心 一种用于公共场所的智能语音分类垃圾系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106898352B (zh) * 2017-02-27 2020-09-25 联想(北京)有限公司 语音控制方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546953A (zh) * 2012-02-07 2012-07-04 深圳市金立通信设备有限公司 一种全语音操控移动终端的系统及方法
CN103327158A (zh) * 2012-03-19 2013-09-25 上海博路信息技术有限公司 一种语音识别的锁定和开锁方法
CN103531201A (zh) * 2013-09-29 2014-01-22 上海云视科技有限公司 终端语音命名唤醒方法和系统
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054819B1 (en) * 2000-02-11 2006-05-30 Microsoft Corporation Voice print access to computer resources
US8060366B1 (en) * 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
CN103187051A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载互动装置
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
CN202584717U (zh) * 2012-03-27 2012-12-05 北京腾瑞万里科技有限公司 语音识别装置及语音控制系统
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN103543814B (zh) * 2012-07-16 2016-12-07 瑞昱半导体股份有限公司 信号处理装置以及信号处理方法
KR102117841B1 (ko) * 2012-10-30 2020-06-02 삼성전자주식회사 전자장치 및 그 제어방법
CN106981290B (zh) * 2012-11-27 2020-06-30 威盛电子股份有限公司 语音控制装置和语音控制方法
US10395651B2 (en) * 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9343068B2 (en) * 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
CN103760969A (zh) * 2013-12-12 2014-04-30 宇龙计算机通信科技(深圳)有限公司 移动终端及语音控制应用程序的方法
US9646607B2 (en) * 2014-03-10 2017-05-09 Dell Products, L.P. Managing wake-on-voice buffer quality based on system boot profiling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546953A (zh) * 2012-02-07 2012-07-04 深圳市金立通信设备有限公司 一种全语音操控移动终端的系统及方法
CN103327158A (zh) * 2012-03-19 2013-09-25 上海博路信息技术有限公司 一种语音识别的锁定和开锁方法
CN103531201A (zh) * 2013-09-29 2014-01-22 上海云视科技有限公司 终端语音命名唤醒方法和系统
CN103595869A (zh) * 2013-11-15 2014-02-19 华为终端有限公司 一种终端语音控制方法、装置及终端

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369445A (zh) * 2016-05-11 2017-11-21 上海禹昌信息科技有限公司 同时支持语音唤醒以及语音控制智能终端的方法
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
CN106272481A (zh) * 2016-08-15 2017-01-04 北京光年无限科技有限公司 一种机器人服务的唤醒方法及装置
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
CN106847285B (zh) * 2017-03-31 2020-05-05 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
CN109601017A (zh) * 2017-08-02 2019-04-09 松下知识产权经营株式会社 信息处理装置、声音识别系统及信息处理方法
CN109601017B (zh) * 2017-08-02 2024-05-03 松下知识产权经营株式会社 信息处理装置、声音识别系统及信息处理方法
CN107861618A (zh) * 2017-11-10 2018-03-30 联想(北京)有限公司 电子设备控制方法和控制系统
CN108269570A (zh) * 2018-01-17 2018-07-10 深圳聚点互动科技有限公司 语音控制背景音乐主机的方法、装置、设备及存储介质
CN110689884A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 智能设备控制方法及装置
CN112744474A (zh) * 2019-10-29 2021-05-04 上海浦东临港智慧城市发展中心 一种用于公共场所的智能语音分类垃圾系统
CN111124512A (zh) * 2019-12-10 2020-05-08 珠海格力电器股份有限公司 智能设备的唤醒方法、装置、设备和介质

Also Published As

Publication number Publication date
WO2015188459A1 (zh) 2015-12-17
US20170110131A1 (en) 2017-04-20
EP3157003A1 (en) 2017-04-19
EP3157003A4 (en) 2017-06-07
EP3157003B1 (en) 2018-10-31

Similar Documents

Publication Publication Date Title
CN105280180A (zh) 一种终端控制方法、装置、语音控制装置及终端
AU2019246868B2 (en) Method and system for voice activation
CN107277754B (zh) 一种蓝牙连接的方法及蓝牙外围设备
TWI489372B (zh) 語音操控方法與行動終端裝置
TWI535258B (zh) 語音接聽方法與行動終端裝置
CN107277272A (zh) 一种基于软件app的蓝牙设备语音交互方法及系统
US10986573B2 (en) Bluetooth mesh network gateway and device data communication
EP3101533A1 (en) Mechanism for retrieval of previously captured audio
CN103440867A (zh) 语音识别方法及系统
US20130085755A1 (en) Systems And Methods For Continual Speech Recognition And Detection In Mobile Computing Devices
CN108182944A (zh) 控制智能终端的方法、装置及智能终端
CN108108142A (zh) 语音信息处理方法、装置、终端设备及存储介质
CN107018228B (zh) 一种语音控制系统、语音处理方法及终端设备
WO2015027789A1 (zh) 语言控制方法、装置及终端
CN103760969A (zh) 移动终端及语音控制应用程序的方法
CN109003609A (zh) 语音设备、智能语音系统、设备控制方法及装置
CN112767936B (zh) 语音对话方法、装置、存储介质及电子设备
US11178280B2 (en) Input during conversational session
CN107731231A (zh) 一种支持多云端语音服务的方法及一种存储设备
CN103021413A (zh) 语音控制方法及装置
CN110175016A (zh) 启动语音助理的方法及具有语音助理的电子装置
CN109637535B (zh) 语音指令的处理方法、装置和智能终端
CN112420044A (zh) 语音识别方法、语音识别装置及电子设备
CN111862965A (zh) 唤醒处理方法、装置、智能音箱及电子设备
CN110727821A (zh) 防止设备被误唤醒的方法、装置、系统和计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160127

WD01 Invention patent application deemed withdrawn after publication