CN108735210A - 一种语音控制方法及终端 - Google Patents
一种语音控制方法及终端 Download PDFInfo
- Publication number
- CN108735210A CN108735210A CN201810434616.8A CN201810434616A CN108735210A CN 108735210 A CN108735210 A CN 108735210A CN 201810434616 A CN201810434616 A CN 201810434616A CN 108735210 A CN108735210 A CN 108735210A
- Authority
- CN
- China
- Prior art keywords
- word
- voice messaging
- instruction
- terminal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种语音控制方法及终端,其中语音控制方法包括:获取输入的第一语音信息,若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统,利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令,根据所述第一执行指令执行对应的操作。采用本发明实施例,可以减少用户与终端的交互次数,从而提高终端的交互效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音控制方法及终端。
背景技术
随着计算机技术的发展,现有的智能终端大多都可以通过语音与用户进行交互。智能终端的语音交互系统通过对用户的语音进行识别,完成用户的指令。在传统的语音交互中,用户通常手动激活语音,比如按下录音键,才可以进行语音交互。为了使用户更加顺畅的切入语音,模拟人与人交互的开始呼唤对方的行为,设计了语音唤醒功能。
目前,现有的语音唤醒方式主要为:用户先提供唤醒词进行系统激活,然后系统接收使用者指令进行相关的交互操作。例如,用户先说“Hi,Siri!”,唤醒智能终端上的语音助手,紧接着说“今天深圳的天气怎么样?”,此时Siri才会为用户播报今天深圳的天气,这整个过程实质上包含了用户与终端的两次交互。如果是在私密性不高的场合下,例如,通过语音询问天气、播放歌曲或者查询路线等,首先需要通过唤醒词唤醒终端上的语音助手,然后智能终端才接收指令进行交互。用户要得到想要的信息至少需要与终端进行两次交互,这种方式降低了智能终端的交互效率,无法满足当今快节奏的生活与工作。
发明内容
本发明实施例提供一种语音控制方法及终端,可以减少用户与终端的交互次数,从而提高终端的交互效率。
第一方面,本发明实施例提供了一种语音控制方法,该方法包括:
获取输入的第一语音信息;
若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统;
利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令;
根据所述第一执行指令执行对应的操作。
在一种可能的设计中,所述方法还包括:
若所述第一语音信息中包括唤醒词,使用所述第一语音信息中的所述唤醒词激活所述语音识别系统,并获取输入的第二语音信息;
若所述第二语音信息中包括指令词,利用激活后的所述语音识别系统对所述第二语音信息进行解析,获得所述指令词在所述第二语音信息中所指示的第二执行指令;
根据所述第二执行指令执行对应的操作。
在一种可能的设计中,所述若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统之前,还包括:
提取所述第一语音信息中的声纹信息;
检测所述第一语音信息中的声纹信息是否与目标声纹信息匹配;
若匹配,检测所述第一语音信息中是否包括唤醒词和指令词。
在一种可能的设计中,所述利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令之前,还包括:
检测所述第一语音信息中的所述指令词是否与目标指令词匹配;
若匹配,执行利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令的步骤。
在一种可能的设计中,所述若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统之前,还包括:
检测目标时间段内是否有语音输入;
若在所述目标时间段内无语音输入,检测所述第一语音信息中是否包括唤醒词和指令词。
第二方面,本发明实施例提供了一种终端,该终端包括:
获取单元,用于获取输入的第一语音信息;
激活单元,用于若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统;
解析单元,用于利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令;
执行单元,用于根据所述第一执行指令执行对应的操作。
在一种可能的设计中,所述激活单元,还用于若所述第一语音信息中包括唤醒词,使用所述第一语音信息中的所述唤醒词激活所述语音识别系统;
所述获取单元还用于获取输入的第二语音信息;
所述解析单元,还用于若所述第二语音信息中包括指令词,利用激活后的所述语音识别系统对所述第二语音信息进行解析,获得所述指令词在所述第二语音信息中所指示的第二执行指令;
所述执行单元,还用于根据所述第二执行指令执行对应的操作。
在一种可能的设计中,所述终端还包括:
提取单元,用于提取所述第一语音信息中的声纹信息;
第一检测单元,用于检测所述第一语音信息中的声纹信息是否与目标声纹信息匹配;
第二检测单元,用于若匹配,检测所述第一语音信息中是否包括唤醒词和指令词。
在一种可能的设计中,所述终端还包括:
第三检测单元,用于检测所述第一语音信息中的所述指令词是否与目标指令词匹配;
所述解析单元还用于若匹配,利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令。
在一种可能的设计中,所述终端还包括:
第四检测单元,用于检测目标时间段内是否有语音输入;
所述第二检测单元,还用于若在所述目标时间段内无语音输入,检测所述第一语音信息中是否包括唤醒词和指令词。
第三方面,本发明实施例提供了另一种终端,包括处理器、输入设备和存储器,所述处理器、输入设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的语音控制方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的语音控制方法。
本发明实施例通过获取输入的第一语音信息,若该第一语音信息中包括唤醒词和指令词,使用该第一语音信息中的该唤醒词激活语音识别系统,再利用激活后的该语音识别系统对该第一语音信息进行解析,获得该指令词在该第一语音信息中所指示的第一执行指令,根据该第一执行指令执行对应的操作。用户与终端只进行了一次交互就得到了用户想要的信息,减少了用户与终端的交互次数,从而提高了终端的交互效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音控制方法的示意流程图;
图2是语音信息中指令词与目标指令词的映射关系示意图;
图3是本发明实施例提供的另一种语音控制方法的示意流程图;
图4是本发明实施例提供的一种终端的示意性框图;
图5是本发明实施例提供的另一种终端示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
终端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
下面将结合附图1-附图5,对本发明实施例提供的语音控制方法及终端进行详细介绍。
参见图1,是本发明实施例提供一种语音控制方法的示意流程图,如图所示,语音控制方法可包括:
S101,获取输入的第一语音信息。
本发明实施例中,终端可以实时监听是否有语音输入,若有,该终端可以采集用户输入的语音信息作为第一语音信息。例如,用户说:“今天深圳的天气怎么样?Hi,Siri”,终端监听到有语音输入,则采集用户输入的语音信息“今天深圳的天气怎么样?Hi,Siri”作为第一语音信息;又如用户说“你知道从深圳西丽到科技园怎么走吗?”终端仍然监听到有语音输入,则采集用户输入的语音信息“你知道从深圳西丽到科技园怎么走吗?”作为第一语音信息。其中,第一语音信息可以是终端采集到的用户说的任意一句语音,例如,可能是用户在和别人交谈时所说的任意一句,也可以是用户自言自语,或者还可以是用户询问终端等等。
S102,若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统。
在本发明实施例中,终端可以采用关键词检测模型检测上述第一语音信息中是否包括唤醒词和指令词,若包括,使用该第一语音信息中的该唤醒词激活语音识别系统。终端在第一语音信息中同时包括唤醒词和指令词时,使用该第一语音信息中的唤醒词激活语音识别系统,可以避免用户在与他人交流时,终端激活语音识别系统的误操作。其中,该语音识别系统可以用于对语音信息进行识别和/或分析。该关键词检测模型可以为隐马尔可夫模型、神经网络模型等。该关键词检测模型中可以包括至少一个预设的唤醒词和至少一个预设的指令词。例如,第一语音信息为“今天深圳的天气怎么样?Hi,Siri”,预设的唤醒词可以为“Hi,Siri”,预设的指令词可以为“天气”,终端可以检测第一语音信息中是否包括唤醒词“Hi,Siri”和指令词“天气”,若包括,使用该第一语音信息中的该唤醒词“Hi,Siri”激活语音识别系统;又如第一语音信息为“Hi,Siri,导航到深圳北”,预设的唤醒词可以为“Hi,Siri”,预设的指令词可以为“导航”,终端可以检测第一语音信息中是否包括唤醒词“Hi,Siri”和指令词“导航”,若包括,使用该第一语音信息中的该唤醒词“Hi,Siri”激活语音识别系统。
可选的,终端可以在使用上述第一语音信息中的该唤醒词激活语音识别系统之前,检测目标时间段内是否有语音输入,若在该目标时间段内无语音输入,说明用户输入的第一语音信息完整,则可以通过关键词检测的方法检测上述第一语音信息中是否包括唤醒词和指令词,若包括,则可以使用上述第一语音信息中的该唤醒词激活语音识别系统;若在该目标时间段内仍有语音输入,说明用户输入的第一语音信息不完整,则等待语音输入完成后,将输入完成后的语音信息作为第一语音信息,再检测该第一语音信息中是否包括唤醒词和指令词,若包括,则可以使用该第一语音信息中的该唤醒词激活语音识别系统。其中,目标时间段可以为终端预设的一个时间间隔,例如,目标时间段可以为2秒(s)。该目标时间段可以用于判断用户输入的语音信息是否完整。终端在检测第一语音信息中是否包括唤醒词和指令词之前,判断输入的第一语音信息是否完整,完整时才对第一语音信息进行关键词检测,避免终端执行错误的操作,提高了终端的交互准确率。例如,若用户说“我想知道今天深圳的天气,Hi,Siri”后不再说话或停顿了大于目标时间段2秒后再说话,说明用户输入的第一语音信息“我想知道今天深圳的天气,Hi,Siri”完整,终端可以检测该语音信息“我想知道今天深圳的天气,Hi,Siri”中是否包括唤醒词和指令词,若包括唤醒词“Hi,Siri”和指令词“天气”,则终端可以使用唤醒词“Hi,Siri”激活语音识别系统。
可选的,终端可以在使用上述第一语音信息中的该唤醒词激活语音识别系统之前,提取上述第一语音信息中的声纹信息,并检测上述第一语音信息中的声纹信息是否与目标声纹信息匹配,若匹配,检测上述第一语音信息中是否包括唤醒词和指令词,若包括,使用上述第一语音信息中的该唤醒词激活语音识别系统;若不匹配,终端可以输出错误提示信息,该错误提示信息可以用于提醒使用者重新输入语音信息。终端在使用唤醒词激活语音识别系统之前,先进行声纹检测,在嘈杂或多人说话的场景下,只有用户本人和/或用户指定的人才能激活语音识别系统,提高了终端的安全性,也减少了终端的误操作。其中,目标声纹信息可以为用户在开启或设置终端的语音服务时,用户本人和/或用户指定的人输入的语音信息,终端对其输入的语音信息进行声纹提取得到的。优选的,用户在开启或设置终端的语音服务时,用户本人和/或用户指定的人输入的语音信息越多,终端识别用户本人和/或用户指定的人的准确率越高,即在检测第一语音信息中的声纹信息与目标声纹信息匹配成功的机率越高。
进一步可选的,终端可以检测目标时间段内是否有语音输入,若在目标时间段内无语音输入,说明上述第一语音信息完整,终端可以提取上述第一语音信息中的声纹信息,再检测上述第一语音信息中的声纹信息是否与目标声纹信息匹配,若匹配,则可以检测上述第一语音信息中是否包括唤醒词和指令词,若包括,则可以使用上述第一语音信息中的唤醒词激活语音识别系统。其中,该目标时间段可以是预设的一段时间间隔,该目标时间段还可以用于判断用户输入的语音信息是否完整。该目标声纹信息可以是预设的用户本人和/或用户指定的人的声纹信息。
S103,利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令。
在本发明实施例中,终端可以利用激活后的上述语音识别系统对上述第一语音信息中的与上述指令词存在关联关系的语音信息进行解析,获得该指令词在上述第一语音信息中所指示的第一执行指令。例如,第一语音信息为“Hi,Siri,导航到科技园”,指令词为“导航”,与指令词“导航”存在关联关系的语音信息为“导航到科技园”,终端可以利用激活后的上述语音识别系统对“导航到科技园”进行解析,获得导航的出发地和/或目的地,第一执行指令可以为“导航+科技园”,我们可以设置终端将指令词“导航”前的表示地理位置的名词作为导航的出发地,设置终端将指令词“导航”后的表示地理位置的名词作为目的地,若指令词“导航”前无表示地理位置的名词,则默认将当前的地理位置作为出发地;或者第一语音信息为“帮我找西丽到科苑北的路线,Hi,Siri”,指令词为“找……路线”,与指令词“找……路线”存在关联关系的语音信息为“帮我找西丽到科苑北的路线”,终端可以利用激活后的上述语音识别系统对“帮我找西丽到科苑北的路线”进行解析,获得第一执行指令“西丽+导航+科苑北”,其中“西丽”表示出发地,“科苑北”表示目的地;或者第一语音信息为“今天深圳的天气Hi,Siri帮我查一下”,指令词为“查、天气”,与指令词“查、天气”存在关联关系的语音信息为“今天深圳的天气帮我查一下”,终端可以利用激活后的上述语音识别系统对“今天深圳的天气帮我查一下”进行解析,获得第一执行指令“查+深圳天气”;或者第一语音信息为“播放王菲的《红豆》,Hi,Siri”,指令词为“播放”,与指令词“播放”存在关联关系的语音信息为“播放王菲的《红豆》”,终端可以利用激活后的上述语音识别系统对“播放王菲的《红豆》”进行解析,获得第一执行指令“播放音乐+王菲+《红豆》”。
可选的,终端可以在利用激活后的上述语音识别系统对上述第一语音信息中的与上述指令词存在关联关系的语音信息进行解析,获得该指令词在上述第一语音信息中所指示的第一执行指令之前,检测上述第一语音信息中的上述指令词是否与目标指令词匹配,若匹配,可以利用激活后的上述语音识别系统对上述第一语音信息中的与上述指令词存在关联关系的语音信息进行解析,获得该指令词在上述第一语音信息中所指示的第一执行指令;若不匹配,终端可以输出错误信息提示用户。通过检测第一语音信息中的指令词是否与目标指令词匹配,可以判断终端是否有权限执行用户的指令,可以提高用户与终端的交互效率,并且可以增加终端的安全性。例如,第一语音信息为“Hi,Siri,帮我支付宝转账给小李”,第一语音信息中的指令词为“转账”,终端检测第一语音信息中的指令词“转账”在目标指令数据库中无匹配的目标指令词,终端输出错误信息“对不起,无法通过语音指令实现转账操作,请见谅”等,可以提高终端的安全性,避免非法分子在终端处于待机状态下模仿用户的声音对终端进行操作。
其中,语音信息中的指令词可以与目标指令词存在映射关系。如图2所示,是语音信息中指令词与目标指令词的映射关系示意图,该映射应关系由语义确定。目标指令词可以与语音信息中的指令词语义相近或相同,如“查/找……到……路线”、“导航……”等等可以映射为目标指令词“导航”;“查/看…..天气”、“……天气”等等可以映射为目标指令词“查天气”;“播放……”“听歌/音乐……”等等可以映射为目标指令词“播放”。进一步可选的,终端若检测到上述第一语音信息中的上述指令词与目标指令词存在映射关系,则确定上述第一语音信息中的上述指令词与目标指令词匹配;若上述第一语音信息中的上述指令词与目标指令词不存在映射关系,则确定上述第一语音信息中的上述指令词与目标指令词不匹配。
S104,根据所述第一执行指令执行对应的操作。
在本发明实施例中,终端可以根据上述第一执行指令执行对应的操作,用户与终端只进行一次人机交互,终端就可以执行用户指令对应的操作,得到用户想要的信息,从而提高了终端的交互效率。例如,第一执行指令为“查+深圳天气”,终端搜索深圳的天气情况,并可以输出深圳的天气情况“晴19-26度,相对湿度50%,北风小于2级,适宜衬衫”等。可选的,终端在根据上述第一执行指令执行对应的操作后,可以输出操作结果,该操作结果可以以文字的形式呈现,也可以以语音的形式播报,或者以其他输出形式呈现,不同的操作结果可以以不同的输出形式呈现,本发明实施例不做限定。
本发明实施例中,终端通过获取输入的第一语音信息,若该第一语音信息中包括唤醒词和指令词,使用该第一语音信息中的该唤醒词激活语音识别系统,再利用激活后的该语音识别系统对该第一语音信息进行解析,获得该指令词在该第一语音信息中所指示的第一执行指令,根据该第一执行指令执行对应的操作。用户与终端只进行了一次交互就得到了用户想要的信息,减少了用户与终端的交互次数,从而提高了终端的交互效率。
参见图3,是本发明实施例提供的另一种语音控制方法的示意流程图,如图所示,语音控制方法可包括:
S301,获取输入的第一语音信息。
S302,若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统。
S303,利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令。
S304,根据所述第一执行指令执行对应的操作。
本发明实施例中的步骤S301-步骤S304请参照图1实施例的步骤S101-步骤S104,在此不再赘述。
S305,若所述第一语音信息中包括唤醒词,使用所述第一语音信息中的所述唤醒词激活所述语音识别系统,并获取输入的第二语音信息。
在本发明实施例中,终端可以通过关键字检测的方法检测上述第一语音信息中是否包括唤醒词和指令词,若上述第一语音信息中包括唤醒词不包括指令词,可以使用上述第一语音信息中的该唤醒词激活上述语音识别系统,并获取用户输入的第二语音信息;若上述第一语音信息中包括指令词不包括唤醒词,终端不进行任何操作。其中,上述第一语音信息与该第二语音信息可以相同,也可以不相同。例如,第一语音信息为“Hi,Siri”,“Hi,Siri”为唤醒词,第二语音信息可以为“查深圳的天气”。
可选的,终端在使用上述第一语音信息中的上述唤醒词激活上述语音识别系统之前,终端可以提取上述第一语音信息中的声纹信息,再检测上述第一语音信息中的声纹信息是否与目标声纹信息匹配,若匹配,则可以通过关键字检测的方法检测上述第一语音信息中是否包括唤醒词和指令词,若上述第一语音信息中包括唤醒词不包括指令词,可以使用上述第一语音信息中的该唤醒词激活上述语音识别系统,并获取用户输入的第二语音信息;若不匹配,终端可以输出错误提示信息,该错误提示信息可以用于提醒使用者重新输入语音信息。通过检测第一语音信息中的声纹信息是否与目标声纹信息匹配,可以防止除用户本人和/或用户指定的人之外的人激活语音识别系统,从而提高终端的私密性,提升用户体验。其中,目标声纹信息可以为用户在开启或设置终端的语音服务时,用户本人和/或用户指定的人输入的语音信息,终端对其输入的语音信息进行声纹提取得到的。
可选的,若上述第一语音信息中包括唤醒词不包括指令词,可以使用上述第一语音信息中的该唤醒词激活上述语音识别系统,激活语音识别系统后,终端可以输出提示信息,该提示信息可以用于提示用户输入包含指令的语音信息,例如,终端在激活语音识别系统后输出语音提示信息“Hello,主人,请问有什么吩咐?”,以此提醒用户。
S306,若所述第二语音信息中包括指令词,利用激活后的所述语音识别系统对所述第二语音信息进行解析,获得所述指令词在所述第二语音信息中所指示的第二执行指令。
在本发明实施例中,终端获取到输入的第二语音信息后,可以通过关键词检测的方法检测该第二语音信息中是否包括指令词,若该第二语音信息中包括指令词,终端可以利用激活后的上述语音识别系统对该第二语音信息进行解析,获得该指令词在该第二语音信息中所指示的第二执行指令。例如,第二语音信息可以为“查深圳的天气”,指令词为“查、天气”,终端可以利用激活后的语音识别系统直接对第二语音信息“查深圳的天气”进行解析,获得第二执行指令“查+深圳天气”;若第二语音信息为“深圳大学城到科兴科学园的路线”,指令词为“到……路线”,终端可以利用激活后的语音识别系统直接对第二语音信息“深圳大学城到科兴科学园的路线”进行解析,获得第二执行指令“深圳大学城+导航+科兴科学园”,其中,“深圳大学城”是出发地,“科兴科学园”目的地;若第二语音信息为“听歌陈奕迅的《十年》”,指令词可以为“听歌”,终端可以利用激活后的语音识别系统直接对第二语音信息“听歌陈奕迅的《十年》”进行解析,获得第二执行指令“播放音乐+陈奕迅+《十年》”。
可选的,终端在检测到该第二语音信息中包括指令词后,该终端可以检测该第二语音信息中的该指令词是否与目标指令词匹配,若匹配,则可以利用激活后的上述语音识别系统对该第二语音信息进行解析,获得该指令词在该第二语音信息中所指示的第二执行指令。若不匹配,终端可以输出错误信息提示用户。通过检测第二语音信息中的指令词是否与目标指令词匹配,可以判断终端是否有权限执行用户的指令,可以提高用户与终端的交互效率,并且可以增加终端的安全性。例如,第二语音信息为“帮我微信转账给小王”,第二语音信息中的指令词为“转账”,终端检测第二语音信息中的指令词“转账”在目标指令数据库中无匹配的目标指令词,终端输出错误信息“对不起,无法通过语音指令实现转账操作,请见谅”等,可以提高终端的安全性,避免非法分子在终端处于待机状态下模仿用户的声音对终端进行操作。
进一步可选的,终端在检测该第二语音信息中是否包括指令词之前,终端可以提取该第二语音信息中的声纹信息,并可以检测该第二语音信息中的声纹信息与目标声纹信息是否匹配,若匹配,则可以检测该第二语音信息中是否包括指令词,若包括,可以检测该第二语音信息中的该指令词是否与目标指令词匹配,若匹配,则可以利用激活后的上述语音识别系统对该第二语音信息进行解析,获得该指令词在该第二语音信息中所指示的第二执行指令。通过检测的第二语音信息中的声纹信息与目标声纹信息是否匹配,可以判断第二语音信息是否为用户本人和/或用户指定的人的语音信息,可以避免用户本人和/或用户指定的人说完包含唤醒词的第一语音信息后,终端采集到除用户本人和/或用户指定的人外的其他人输入的语音信息,提高了终端的私密性和安全性。
S307,根据所述第二执行指令执行对应的操作。
在本发明实施例中,终端可以根据上述第二执行指令执行对应的操作。本发明实施例的终端在检测到上述第一语言信息中包括唤醒词和指令词时,使用该唤醒词激活语音识别系统,并对第一语音信息进行解析,获得第二执行指令,执行该第二执行指令对应的操作;在检测到上述第一语言信息中包括唤醒词不包括指令词时,使用该唤醒词激活语音识别系统,获取第二语音信息,并对第二语音进行解析,得到第二执行指令,执行第二执行指令对应的操作,提供了一个更完备的语音控制方法。例如,第二执行指令为“播放音乐+陈奕迅+《十年》”,终端打开音乐应用,搜索“陈奕迅”和“十年”,搜索成功后,播放陈奕迅的《十年》,其中,终端进行搜索时可以采用关键词搜索的方法。可选的,终端在根据上述第二执行指令执行对应的操作后,可以输出操作结果,该操作结果可以以文字的形式呈现,也可以以语音的形式播报,或者以其他输出形式呈现,不同的操作结果可以以不同的输出形式呈现,本发明实施例不做限定。
本发明实施例中,终端获取输入的第一语音信息,检测该第一语音信息中是否包括唤醒词和指令词,若该第一语音信息中包括唤醒词和指令词,使用该唤醒词激活语音识别系统,并利用激活后的语音识别系统对该第一语音信息进行解析,获得第一执行指令,执行该第一执行指令对应的操作;若该第一语音信息中包括唤醒词不包括指令词,使用该唤醒词激活语音识别系统并获取输入的第二语音信息,若该第二语音信息包括指令词,利用激活后的语音识别系统对该第二语音信息进行解析,获得第二执行指令,执行该第二执行指令对应的操作,不仅可以减少用户与终端的交互次数,从而提高终端的交互效率,还可以完善该终端的语音控制方案。
本发明实施例还提供一种终端,该终端用于执行前述任一项所述语音控制方法的单元。具体地,参见图4,是本发明实施例提供的一种终端的示意性框图。本实施例的终端包括:获取单元10、激活单元20、解析单元30以及执行单元40。
获取单元10,用于获取输入的第一语音信息。
具体地,终端的获取单元10可以实时监听是否有语音输入,若有,该终端可以采集用户输入的语音信息作为第一语音信息。例如,用户说:“今天深圳的天气怎么样?Hi,Siri”,终端监听到有语音输入,则采集用户输入的语音信息“今天深圳的天气怎么样?Hi,Siri”作为第一语音信息;又如用户说“你知道从深圳西丽到科技园怎么走吗?”终端仍然监听到有语音输入,则采集用户输入的语音信息“你知道从深圳西丽到科技园怎么走吗?”作为第一语音信息。其中,第一语音信息可以是终端采集到的用户说的任意一句语音,例如,可能是用户在和别人交谈时所说的任意一句,也可以是用户自言自语,或者还可以是用户询问终端等等。
激活单元20,用于若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统。
具体地,终端可以采用关键词检测模型检测上述第一语音信息中是否包括唤醒词和指令词,若包括,终端的激活单元20使用该第一语音信息中的该唤醒词激活语音识别系统。终端在第一语音信息中同时包括唤醒词和指令词时,使用该第一语音信息中的唤醒词激活语音识别系统,可以避免用户在与他人交流时,终端激活语音识别系统的误操作。其中,该语音识别系统可以用于对语音信息进行识别和/或分析。该关键词检测模型可以为隐马尔可夫模型、神经网络模型等。该关键词检测模型中可以包括至少一个预设的唤醒词和至少一个预设的指令词。例如,第一语音信息为“今天深圳的天气怎么样?Hi,Siri”,预设的唤醒词可以为“Hi,Siri”,预设的指令词可以为“天气”,终端可以检测第一语音信息中是否包括唤醒词“Hi,Siri”和指令词“天气”,若包括,使用该第一语音信息中的该唤醒词“Hi,Siri”激活语音识别系统;又如第一语音信息为“Hi,Siri,导航到深圳北”,预设的唤醒词可以为“Hi,Siri”,预设的指令词可以为“导航”,终端可以检测第一语音信息中是否包括唤醒词“Hi,Siri”和指令词“导航”,若包括,使用该第一语音信息中的该唤醒词“Hi,Siri”激活语音识别系统。
可选的,该终端还包括提取单元50、第一检测单元60以及第二检测单元70。
提取单元50,用于提取所述第一语音信息中的声纹信息。
第一检测单元60,用于检测所述第一语音信息中的声纹信息是否与目标声纹信息匹配。
第二检测单元70,用于若匹配,检测所述第一语音信息中是否包括唤醒词和指令词。
具体可选的,终端可以在使用上述第一语音信息中的该唤醒词激活语音识别系统之前,终端的提取单元50可以提取上述第一语音信息中的声纹信息,上述第一检测单元60可以检测上述第一语音信息中的声纹信息是否与目标声纹信息匹配,若匹配,上述第二检测单元70可以检测上述第一语音信息中是否包括唤醒词和指令词,若包括,终端的激活单元20可以使用上述第一语音信息中的该唤醒词激活语音识别系统;若不匹配,终端可以输出错误提示信息,该错误提示信息可以用于提醒使用者重新输入语音信息。终端在使用唤醒词激活语音识别系统之前,先进行声纹检测,在嘈杂或多人说话的场景下,只有用户本人和/或用户指定的人才能激活语音识别系统,提高了终端的安全性,也减少了终端的误操作。其中,目标声纹信息可以为用户在开启或设置终端的语音服务时,用户本人和/或用户指定的人输入的语音信息,终端对其输入的语音信息进行声纹提取得到的。优选的,用户在开启或设置终端的语音服务时,用户本人和/或用户指定的人输入的语音信息越多,终端识别用户本人和/或用户指定的人的准确率越高,即在检测第一语音信息中的声纹信息与目标声纹信息匹配成功的机率越高。
可选的,该终端还包括第四检测单元80。
第四检测单元80,用于检测目标时间段内是否有语音输入。
上述第二检测单元70,还用于若在所述目标时间段内无语音输入,检测所述第一语音信息中是否包括唤醒词和指令词。
具体可选的,终端可以在使用上述第一语音信息中的该唤醒词激活语音识别系统之前,第四检测单元80可以检测目标时间段内是否有语音输入,若在该目标时间段内无语音输入,说明用户输入的第一语音信息完整,则上述第二检测单元70可以通过关键词检测的方法检测上述第一语音信息中是否包括唤醒词和指令词,若包括,则终端的激活单元20可以使用上述第一语音信息中的该唤醒词激活语音识别系统;若在该目标时间段内仍有语音输入,说明用户输入的第一语音信息不完整,则等待语音输入完成后,将输入完成后的语音信息作为第一语音信息,再检测该第一语音信息中是否包括唤醒词和指令词,若包括,则可以使用该第一语音信息中的该唤醒词激活语音识别系统。其中,目标时间段可以为终端预设的一个时间间隔,例如,目标时间段可以为2秒(s)。该目标时间段可以用于判断用户输入的语音信息是否完整。终端在检测第一语音信息中是否包括唤醒词和指令词之前,判断输入的第一语音信息是否完整,完整时才对第一语音信息进行关键词检测,避免终端执行错误的操作,提高了终端的交互准确率。例如,若用户说“我想知道今天深圳的天气,Hi,Siri”后不再说话或停顿了大于目标时间段2秒后再说话,说明用户输入的第一语音信息“我想知道今天深圳的天气,Hi,Siri”完整,终端可以检测该语音信息“我想知道今天深圳的天气,Hi,Siri”中是否包括唤醒词和指令词,若包括唤醒词“Hi,Siri”和指令词“天气”,则终端可以使用唤醒词“Hi,Siri”激活语音识别系统。
进一步可选的,终端的第四检测单元80可以检测目标时间段内是否有语音输入,若在目标时间段内无语音输入,说明上述第一语音信息完整,终端的提取单元50可以提取上述第一语音信息中的声纹信息,上述第一检测单元60可以检测上述第一语音信息中的声纹信息是否与目标声纹信息匹配,若匹配,则上述第二检测单元70可以检测上述第一语音信息中是否包括唤醒词和指令词,若包括,则终端的激活单元20可以使用上述第一语音信息中的唤醒词激活语音识别系统。其中,该目标时间段可以是预设的一段时间间隔,该目标时间段还可以用于判断用户输入的语音信息是否完整。该目标声纹信息可以是预设的用户本人和/或用户指定的人的声纹信息。
解析单元30,用于利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令。
具体地,终端的解析单元30可以利用激活后的上述语音识别系统对上述第一语音信息中的与上述指令词存在关联关系的语音信息进行解析,获得该指令词在上述第一语音信息中所指示的第一执行指令。例如,第一语音信息为“Hi,Siri,导航到科技园”,指令词为“导航”,与指令词“导航”存在关联关系的语音信息为“导航到科技园”,终端可以利用激活后的上述语音识别系统对“导航到科技园”进行解析,获得导航的出发地和/或目的地,第一执行指令可以为“导航+科技园”,我们可以设置终端将指令词“导航”前的表示地理位置的名词作为导航的出发地,设置终端将指令词“导航”后的表示地理位置的名词作为目的地,若指令词“导航”前无表示地理位置的名词,则默认将当前的地理位置作为出发地;或者第一语音信息为“帮我找西丽到科苑北的路线,Hi,Siri”,指令词为“找……路线”,与指令词“找……路线”存在关联关系的语音信息为“帮我找西丽到科苑北的路线”,终端可以利用激活后的上述语音识别系统对“帮我找西丽到科苑北的路线”进行解析,获得第一执行指令“西丽+导航+科苑北”,其中“西丽”表示出发地,“科苑北”表示目的地;或者第一语音信息为“今天深圳的天气Hi,Siri帮我查一下”,指令词为“查、天气”,与指令词“查、天气”存在关联关系的语音信息为“今天深圳的天气帮我查一下”,终端可以利用激活后的上述语音识别系统对“今天深圳的天气帮我查一下”进行解析,获得第一执行指令“查+深圳天气”;或者第一语音信息为“播放王菲的《红豆》,Hi,Siri”,指令词为“播放”,与指令词“播放”存在关联关系的语音信息为“播放王菲的《红豆》”,终端可以利用激活后的上述语音识别系统对“播放王菲的《红豆》”进行解析,获得第一执行指令“播放音乐+王菲+《红豆》”。
可选的,该终端还包括第三检测单元90。
第三检测单元90,用于检测所述第一语音信息中的所述指令词是否与目标指令词匹配。
上述解析单元30,还用于若匹配,利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令。
具体可选的,终端可以在利用激活后的上述语音识别系统对上述第一语音信息中的与上述指令词存在关联关系的语音信息进行解析,获得该指令词在上述第一语音信息中所指示的第一执行指令之前,上述第三检测单元90可以检测上述第一语音信息中的上述指令词是否与目标指令词匹配,若匹配,上述解析单元30可以利用激活后的上述语音识别系统对上述第一语音信息中的与上述指令词存在关联关系的语音信息进行解析,获得该指令词在上述第一语音信息中所指示的第一执行指令;若不匹配,终端可以输出错误信息提示用户。通过检测第一语音信息中的指令词是否与目标指令词匹配,可以判断终端是否有权限执行用户的指令,可以提高用户与终端的交互效率,并且可以增加终端的安全性。例如,第一语音信息为“Hi,Siri,帮我支付宝转账给小李”,第一语音信息中的指令词为“转账”,终端检测第一语音信息中的指令词“转账”在目标指令数据库中无匹配的目标指令词,终端输出错误信息“对不起,无法通过语音指令实现转账操作,请见谅”等,可以提高终端的安全性,避免非法分子在终端处于待机状态下模仿用户的声音对终端进行操作。
其中,语音信息中的指令词可以与目标指令词存在映射关系。如图2所示,是语音信息中指令词与目标指令词的映射关系示意图,该映射应关系由语义确定。目标指令词可以与语音信息中的指令词语义相近或相同,如“查/找……到……路线”、“导航……”等等可以映射为目标指令词“导航”;“查/看…..天气”、“……天气”等等可以映射为目标指令词“查天气”;“播放……”“听歌/音乐……”等等可以映射为目标指令词“播放”。进一步可选的,终端若检测到上述第一语音信息中的上述指令词与目标指令词存在映射关系,则确定上述第一语音信息中的上述指令词与目标指令词匹配;若上述第一语音信息中的上述指令词与目标指令词不存在映射关系,则确定上述第一语音信息中的上述指令词与目标指令词不匹配。
执行单元40,用于根据所述第一执行指令执行对应的操作。
具体地,终端的执行单元40可以根据上述第一执行指令执行对应的操作,用户与终端只进行一次人机交互,终端就可以执行用户指令对应的操作,得到用户想要的信息,从而提高了终端的交互效率。例如,第一执行指令为“查+深圳天气”,终端搜索深圳的天气情况,并可以输出深圳的天气情况“晴19-26度,相对湿度50%,北风小于2级,适宜衬衫”等。可选的,终端在根据上述第一执行指令执行对应的操作后,可以输出操作结果,该操作结果可以以文字的形式呈现,也可以以语音的形式播报,或者以其他输出形式呈现,不同的操作结果可以以不同的输出形式呈现,本发明实施例不做限定。
可选的,上述激活单元20,还用于若所述第一语音信息中包括唤醒词,使用所述第一语音信息中的所述唤醒词激活所述语音识别系统。
上述获取单元10,还用于获取输入的第二语音信息。
具体可选的,终端可以通过关键字检测的方法检测上述第一语音信息中是否包括唤醒词和指令词,若上述第一语音信息中包括唤醒词不包括指令词,上述激活单元20可以使用上述第一语音信息中的该唤醒词激活上述语音识别系统,上述获取单元10可以获取用户输入的第二语音信息;若上述第一语音信息中包括指令词不包括唤醒词,终端不进行任何操作。其中,上述第一语音信息与该第二语音信息可以相同,也可以不相同。例如,第一语音信息为“Hi,Siri”,“Hi,Siri”为唤醒词,第二语音信息可以为“查深圳的天气”。
进一步可选的,终端在使用上述第一语音信息中的上述唤醒词激活上述语音识别系统之前,终端可以提取上述第一语音信息中的声纹信息,再检测上述第一语音信息中的声纹信息是否与目标声纹信息匹配,若匹配,则可以通过关键字检测的方法检测上述第一语音信息中是否包括唤醒词和指令词,若上述第一语音信息中包括唤醒词不包括指令词,可以使用上述第一语音信息中的该唤醒词激活上述语音识别系统,并获取用户输入的第二语音信息;若不匹配,终端可以输出错误提示信息,该错误提示信息可以用于提醒使用者重新输入语音信息。通过检测第一语音信息中的声纹信息是否与目标声纹信息匹配,可以防止除用户本人和/或用户指定的人之外的人激活语音识别系统,从而提高终端的私密性,提升用户体验。其中,目标声纹信息可以为用户在开启或设置终端的语音服务时,用户本人和/或用户指定的人输入的语音信息,终端对其输入的语音信息进行声纹提取得到的。
进一步可选的,若上述第一语音信息中包括唤醒词不包括指令词,可以使用上述第一语音信息中的该唤醒词激活上述语音识别系统,激活语音识别系统后,终端可以输出提示信息,该提示信息可以用于提示用户输入包含指令的语音信息,例如,终端在激活语音识别系统后输出语音提示信息“Hello,主人,请问有什么吩咐?”,以此提醒用户。
上述解析单元30,还用于若所述第二语音信息中包括指令词,利用激活后的所述语音识别系统对所述第二语音信息进行解析,获得所述指令词在所述第二语音信息中所指示的第二执行指令。
具体可选的,终端获取到输入的第二语音信息后,可以通过关键词检测的方法检测该第二语音信息中是否包括指令词,若该第二语音信息中包括指令词,终端的上述解析单元30可以利用激活后的上述语音识别系统对该第二语音信息进行解析,获得该指令词在该第二语音信息中所指示的第二执行指令。例如,第二语音信息可以为“查深圳的天气”,指令词为“查、天气”,终端可以利用激活后的语音识别系统直接对第二语音信息“查深圳的天气”进行解析,获得第二执行指令“查+深圳天气”;若第二语音信息为“深圳大学城到科兴科学园的路线”,指令词为“到……路线”,终端可以利用激活后的语音识别系统直接对第二语音信息“深圳大学城到科兴科学园的路线”进行解析,获得第二执行指令“深圳大学城+导航+科兴科学园”,其中,“深圳大学城”是出发地,“科兴科学园”目的地;若第二语音信息为“听歌陈奕迅的《十年》”,指令词可以为“听歌”,终端可以利用激活后的语音识别系统直接对第二语音信息“听歌陈奕迅的《十年》”进行解析,获得第二执行指令“播放音乐+陈奕迅+《十年》”。
进一步可选的,终端在检测到该第二语音信息中包括指令词后,该终端可以检测该第二语音信息中的该指令词是否与目标指令词匹配,若匹配,则可以利用激活后的上述语音识别系统对该第二语音信息进行解析,获得该指令词在该第二语音信息中所指示的第二执行指令。若不匹配,终端可以输出错误信息提示用户。通过检测第二语音信息中的指令词是否与目标指令词匹配,可以判断终端是否有权限执行用户的指令,可以提高用户与终端的交互效率,并且可以增加终端的安全性。例如,第二语音信息为“帮我微信转账给小王”,第二语音信息中的指令词为“转账”,终端检测第二语音信息中的指令词“转账”在目标指令数据库中无匹配的目标指令词,终端输出错误信息“对不起,无法通过语音指令实现转账操作,请见谅”等,可以提高终端的安全性,避免非法分子在终端处于待机状态下模仿用户的声音对终端进行操作。
再进一步可选的,终端在检测该第二语音信息中是否包括指令词之前,终端可以提取该第二语音信息中的声纹信息,并可以检测该第二语音信息中的声纹信息与目标声纹信息是否匹配,若匹配,则可以检测该第二语音信息中是否包括指令词,若包括,可以检测该第二语音信息中的该指令词是否与目标指令词匹配,若匹配,则可以利用激活后的上述语音识别系统对该第二语音信息进行解析,获得该指令词在该第二语音信息中所指示的第二执行指令。通过检测的第二语音信息中的声纹信息与目标声纹信息是否匹配,可以判断第二语音信息是否为用户本人和/或用户指定的人的语音信息,可以避免用户本人和/或用户指定的人说完包含唤醒词的第一语音信息后,终端采集到除用户本人和/或用户指定的人外的其他人输入的语音信息,提高了终端的私密性和安全性。
上述执行单元40,还用于根据所述第二执行指令执行对应的操作。
具体地,终端的上述执行单元40可以根据上述第二执行指令执行对应的操作。本发明实施例的终端在检测到上述第一语言信息中包括唤醒词和指令词时,使用该唤醒词激活语音识别系统,并对第一语音信息进行解析,获得第二执行指令,执行该第二执行指令对应的操作;在检测到上述第一语言信息中包括唤醒词不包括指令词时,使用该唤醒词激活语音识别系统,获取第二语音信息,并对第二语音进行解析,得到第二执行指令,执行第二执行指令对应的操作,提供了一个更完备的语音控制方法。例如,第二执行指令为“播放音乐+陈奕迅+《十年》”,终端打开音乐应用,搜索“陈奕迅”和“十年”,搜索成功后,播放陈奕迅的《十年》,其中,终端进行搜索时可以采用关键词搜索的方法。可选的,终端在根据上述第二执行指令执行对应的操作后,可以输出操作结果,该操作结果可以以文字的形式呈现,也可以以语音的形式播报,或者以其他输出形式呈现,不同的操作结果可以以不同的输出形式呈现,本发明实施例不做限定。
本发明实施例中,终端通过获取输入的第一语音信息,若该第一语音信息中包括唤醒词和指令词,使用该第一语音信息中的该唤醒词激活语音识别系统,再利用激活后的该语音识别系统对该第一语音信息进行解析,获得该指令词在该第一语音信息中所指示的第一执行指令,根据该第一执行指令执行对应的操作。用户与终端只进行了一次交互就得到了用户想要的信息,减少了用户与终端的交互次数,从而提高了终端的交互效率。
参见图5,是本发明实施例提供的另一种终端的示意性框图。如图所示的本实施例中的终端可以包括:一个或多个处理器1001,一个或多个输入设备1002和存储器1003。上述处理器1001、输入设备1002和存储器1003通过总线1004连接。存储器1003用于存储计算机程序,所述计算机程序包括程序指令,处理器1001用于执行存储器1002存储的程序指令。其中,上述输入设备1002用于获取输入的第一语音信息;
上述处理器1001被配置用于调用所述程序指令执行:
若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统;
利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令;
根据所述第一执行指令执行对应的操作。
可选的,上述处理器1001还用于若所述第一语音信息中包括唤醒词,使用所述第一语音信息中的所述唤醒词激活所述语音识别系统;
上述输入设备1002还用于获取输入的第二语音信息;
上述处理器1001还用于若所述第二语音信息中包括指令词,利用激活后的所述语音识别系统对所述第二语音信息进行解析,获得所述指令词在所述第二语音信息中所指示的第二执行指令;
根据所述第二执行指令执行对应的操作。
可选的,上述处理器1001还用于提取所述第一语音信息中的声纹信息;
检测所述第一语音信息中的声纹信息是否与目标声纹信息匹配;
若匹配,检测所述第一语音信息中是否包括唤醒词和指令词。
可选的,上述处理器1001还用于检测所述第一语音信息中的所述指令词是否与目标指令词匹配;
若匹配,执行利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令的步骤。
可选的,上述处理器1001还用于检测目标时间段内是否有语音输入;
若在所述目标时间段内无语音输入,检测所述第一语音信息中是否包括唤醒词和指令词。
应当理解,在本发明实施例中,所称处理器1001可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备1002可以包括触控板、语音采集传感器(用于采集用户的语音信息)、麦克风等。
该存储器1003可以包括只读存储器和随机存取存储器,并向处理器1001提供指令和数据。存储器1003的一部分还可以包括非易失性随机存取存储器。例如,存储器1003还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器1001、输入设备1002可执行本发明实施例提供的语音控制方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的终端的实现方式,在此不再赘述。
在本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行图1或图3的语音控制方法,具体细节请参照图1或图3实施例的描述,在此不再赘述。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本发明的实施例可提供为方法、终端、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
本发明是参照本发明实施例的方法、终端和计算机程序产品的流程图和/或示意性框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音控制方法,其特征在于,包括:
获取输入的第一语音信息;
若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统;
利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令;
根据所述第一执行指令执行对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第一语音信息中包括唤醒词,使用所述第一语音信息中的所述唤醒词激活所述语音识别系统,并获取输入的第二语音信息;
若所述第二语音信息中包括指令词,利用激活后的所述语音识别系统对所述第二语音信息进行解析,获得所述指令词在所述第二语音信息中所指示的第二执行指令;
根据所述第二执行指令执行对应的操作。
3.根据权利要求1所述的方法,其特征在于,所述若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统之前,还包括:
提取所述第一语音信息中的声纹信息;
检测所述第一语音信息中的声纹信息是否与目标声纹信息匹配;
若匹配,检测所述第一语音信息中是否包括唤醒词和指令词。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令之前,还包括:
检测所述第一语音信息中的所述指令词是否与目标指令词匹配;
若匹配,执行利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令的步骤。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统之前,还包括:
检测目标时间段内是否有语音输入;
若在所述目标时间段内无语音输入,检测所述第一语音信息中是否包括唤醒词和指令词。
6.一种终端,其特征在于,包括:
获取单元,用于获取输入的第一语音信息;
激活单元,用于若所述第一语音信息中包括唤醒词和指令词,使用所述第一语音信息中的所述唤醒词激活语音识别系统;
解析单元,用于利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令;
执行单元,用于根据所述第一执行指令执行对应的操作。
7.根据权利要求6所述的终端,其特征在于,所述激活单元,还用于若所述第一语音信息中包括唤醒词,使用所述第一语音信息中的所述唤醒词激活所述语音识别系统;
所述获取单元还用于获取输入的第二语音信息;
所述解析单元,还用于若所述第二语音信息中包括指令词,利用激活后的所述语音识别系统对所述第二语音信息进行解析,获得所述指令词在所述第二语音信息中所指示的第二执行指令;
所述执行单元,还用于根据所述第二执行指令执行对应的操作。
8.根据权利要求6所述的终端,其特征在于,所述终端还包括:
提取单元,用于提取所述第一语音信息中的声纹信息;
第一检测单元,用于检测所述第一语音信息中的声纹信息是否与目标声纹信息匹配;
第二检测单元,用于若匹配,检测所述第一语音信息中是否包括唤醒词和指令词。
9.根据权利要求6-8任一项所述的终端,其特征在于,所述终端还包括:
第三检测单元,用于检测所述第一语音信息中的所述指令词是否与目标指令词匹配;
所述解析单元还用于若匹配,利用激活后的所述语音识别系统对所述第一语音信息进行解析,获得所述指令词在所述第一语音信息中所指示的第一执行指令。
10.根据权利要求6-8任一项所述的终端,其特征在于,所述终端还包括:
第四检测单元,用于检测目标时间段内是否有语音输入;
所述第二检测单元,还用于若在所述目标时间段内无语音输入,检测所述第一语音信息中是否包括唤醒词和指令词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810434616.8A CN108735210A (zh) | 2018-05-08 | 2018-05-08 | 一种语音控制方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810434616.8A CN108735210A (zh) | 2018-05-08 | 2018-05-08 | 一种语音控制方法及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108735210A true CN108735210A (zh) | 2018-11-02 |
Family
ID=63937221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810434616.8A Pending CN108735210A (zh) | 2018-05-08 | 2018-05-08 | 一种语音控制方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108735210A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109448720A (zh) * | 2018-12-18 | 2019-03-08 | 维拓智能科技(深圳)有限公司 | 便民服务自助终端及其语音唤醒方法 |
CN109637149A (zh) * | 2018-12-26 | 2019-04-16 | 厦门狄耐克智能交通科技有限公司 | 口诀化语音识别技术操控停车场出入口的系统与方法 |
CN109754787A (zh) * | 2019-01-14 | 2019-05-14 | 维沃移动通信有限公司 | 一种语音识别方法及移动终端 |
CN109785835A (zh) * | 2019-01-25 | 2019-05-21 | 广州富港万嘉智能科技有限公司 | 一种通过移动终端实现声音录制的方法及装置 |
CN109992239A (zh) * | 2019-04-15 | 2019-07-09 | 北京百度网讯科技有限公司 | 语音出行方法、装置、终端及存储介质 |
CN110197663A (zh) * | 2019-06-30 | 2019-09-03 | 联想(北京)有限公司 | 一种控制方法、装置及电子设备 |
CN110989963A (zh) * | 2019-11-22 | 2020-04-10 | 北京梧桐车联科技有限责任公司 | 唤醒词推荐方法及装置、存储介质 |
CN111128201A (zh) * | 2019-12-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 交互方法、装置、系统、电子设备及存储介质 |
CN111326154A (zh) * | 2020-03-02 | 2020-06-23 | 珠海格力电器股份有限公司 | 语音交互的方法、装置、存储介质及电子设备 |
CN112449238A (zh) * | 2019-08-28 | 2021-03-05 | 深圳Tcl新技术有限公司 | 一种短视频制作方法、存储介质及终端 |
CN112581961A (zh) * | 2019-09-27 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 一种语音信息处理方法及装置 |
CN113470642A (zh) * | 2021-06-11 | 2021-10-01 | 广东好太太智能家居有限公司 | 基于智能家居app的语音控制场景的实现方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103595869A (zh) * | 2013-11-15 | 2014-02-19 | 华为终端有限公司 | 一种终端语音控制方法、装置及终端 |
CN104464723A (zh) * | 2014-12-16 | 2015-03-25 | 科大讯飞股份有限公司 | 一种语音交互方法及系统 |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制系统与方法 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN106328132A (zh) * | 2016-08-15 | 2017-01-11 | 歌尔股份有限公司 | 一种智能设备的语音交互控制方法和装置 |
CN106463112A (zh) * | 2015-04-10 | 2017-02-22 | 华为技术有限公司 | 语音识别方法、语音唤醒装置、语音识别装置及终端 |
CN106782554A (zh) * | 2016-12-19 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106887227A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种语音唤醒方法及系统 |
CN106997762A (zh) * | 2017-03-08 | 2017-08-01 | 广东美的制冷设备有限公司 | 家用电器的语音控制方法以及装置 |
CN107680589A (zh) * | 2017-09-05 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音信息交互方法、装置及其设备 |
CN107704275A (zh) * | 2017-09-04 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、装置、服务器及智能设备 |
CN107731231A (zh) * | 2017-09-15 | 2018-02-23 | 福州瑞芯微电子股份有限公司 | 一种支持多云端语音服务的方法及一种存储设备 |
CN107886944A (zh) * | 2017-11-16 | 2018-04-06 | 出门问问信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN107895578A (zh) * | 2017-11-15 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
-
2018
- 2018-05-08 CN CN201810434616.8A patent/CN108735210A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103595869A (zh) * | 2013-11-15 | 2014-02-19 | 华为终端有限公司 | 一种终端语音控制方法、装置及终端 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制系统与方法 |
CN104464723A (zh) * | 2014-12-16 | 2015-03-25 | 科大讯飞股份有限公司 | 一种语音交互方法及系统 |
CN106463112A (zh) * | 2015-04-10 | 2017-02-22 | 华为技术有限公司 | 语音识别方法、语音唤醒装置、语音识别装置及终端 |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN106887227A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种语音唤醒方法及系统 |
CN106328132A (zh) * | 2016-08-15 | 2017-01-11 | 歌尔股份有限公司 | 一种智能设备的语音交互控制方法和装置 |
CN106782554A (zh) * | 2016-12-19 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106997762A (zh) * | 2017-03-08 | 2017-08-01 | 广东美的制冷设备有限公司 | 家用电器的语音控制方法以及装置 |
CN107704275A (zh) * | 2017-09-04 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、装置、服务器及智能设备 |
CN107680589A (zh) * | 2017-09-05 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 语音信息交互方法、装置及其设备 |
CN107731231A (zh) * | 2017-09-15 | 2018-02-23 | 福州瑞芯微电子股份有限公司 | 一种支持多云端语音服务的方法及一种存储设备 |
CN107895578A (zh) * | 2017-11-15 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
CN107886944A (zh) * | 2017-11-16 | 2018-04-06 | 出门问问信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109448720A (zh) * | 2018-12-18 | 2019-03-08 | 维拓智能科技(深圳)有限公司 | 便民服务自助终端及其语音唤醒方法 |
CN109637149A (zh) * | 2018-12-26 | 2019-04-16 | 厦门狄耐克智能交通科技有限公司 | 口诀化语音识别技术操控停车场出入口的系统与方法 |
CN109754787A (zh) * | 2019-01-14 | 2019-05-14 | 维沃移动通信有限公司 | 一种语音识别方法及移动终端 |
CN109785835A (zh) * | 2019-01-25 | 2019-05-21 | 广州富港万嘉智能科技有限公司 | 一种通过移动终端实现声音录制的方法及装置 |
CN109992239A (zh) * | 2019-04-15 | 2019-07-09 | 北京百度网讯科技有限公司 | 语音出行方法、装置、终端及存储介质 |
CN110197663A (zh) * | 2019-06-30 | 2019-09-03 | 联想(北京)有限公司 | 一种控制方法、装置及电子设备 |
CN110197663B (zh) * | 2019-06-30 | 2022-05-31 | 联想(北京)有限公司 | 一种控制方法、装置及电子设备 |
CN112449238A (zh) * | 2019-08-28 | 2021-03-05 | 深圳Tcl新技术有限公司 | 一种短视频制作方法、存储介质及终端 |
CN112449238B (zh) * | 2019-08-28 | 2022-03-01 | 深圳Tcl新技术有限公司 | 一种短视频制作方法、存储介质及终端 |
CN112581961A (zh) * | 2019-09-27 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 一种语音信息处理方法及装置 |
CN110989963A (zh) * | 2019-11-22 | 2020-04-10 | 北京梧桐车联科技有限责任公司 | 唤醒词推荐方法及装置、存储介质 |
CN111128201A (zh) * | 2019-12-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 交互方法、装置、系统、电子设备及存储介质 |
CN111326154A (zh) * | 2020-03-02 | 2020-06-23 | 珠海格力电器股份有限公司 | 语音交互的方法、装置、存储介质及电子设备 |
CN111326154B (zh) * | 2020-03-02 | 2022-11-22 | 珠海格力电器股份有限公司 | 语音交互的方法、装置、存储介质及电子设备 |
CN113470642A (zh) * | 2021-06-11 | 2021-10-01 | 广东好太太智能家居有限公司 | 基于智能家居app的语音控制场景的实现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108735210A (zh) | 一种语音控制方法及终端 | |
US11810562B2 (en) | Reducing the need for manual start/end-pointing and trigger phrases | |
US10878809B2 (en) | Multi-command single utterance input method | |
US11710482B2 (en) | Natural assistant interaction | |
US10339166B1 (en) | Systems and methods for providing natural responses to commands | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
US11595517B2 (en) | Digital assistant integration with telephony | |
CN107506166A (zh) | 信息提示方法及装置、计算机装置及可读存储介质 | |
EP3183728A1 (en) | Orphaned utterance detection system and method | |
US20230197063A1 (en) | Generating emojis from user utterances | |
KR20230142775A (ko) | 지속적인 다이얼로그를 위한 다중 상태 디지털 어시스턴트 | |
DK179559B1 (en) | INTELLIGENT AUTOMATED ASSISTANT FOR MEDIA EXPLORATION | |
TWI752474B (zh) | 無障礙智能語音系統及其控制方法 | |
US20230153061A1 (en) | Hierarchical Context Specific Actions from Ambient Speech | |
US20230112859A1 (en) | Call assistance using contact suggestions | |
WO2023114021A1 (en) | Generating emojis from user utterances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181102 |