CN110827820B - 语音唤醒方法、装置、设备、计算机存储介质及车辆 - Google Patents

语音唤醒方法、装置、设备、计算机存储介质及车辆 Download PDF

Info

Publication number
CN110827820B
CN110827820B CN201911184276.9A CN201911184276A CN110827820B CN 110827820 B CN110827820 B CN 110827820B CN 201911184276 A CN201911184276 A CN 201911184276A CN 110827820 B CN110827820 B CN 110827820B
Authority
CN
China
Prior art keywords
voice
wake
word
awakening
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911184276.9A
Other languages
English (en)
Other versions
CN110827820A (zh
Inventor
王永亮
张新成
任伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing wutong Chelian Technology Co.,Ltd.
Original Assignee
Beijing Wutong Chelian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wutong Chelian Technology Co Ltd filed Critical Beijing Wutong Chelian Technology Co Ltd
Priority to CN201911184276.9A priority Critical patent/CN110827820B/zh
Publication of CN110827820A publication Critical patent/CN110827820A/zh
Application granted granted Critical
Publication of CN110827820B publication Critical patent/CN110827820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

本申请公开了一种语音唤醒方法、装置、设备、计算机存储介质及车辆,属于语音交互领域。所述方法用于语音唤醒系统中,所述语音唤醒系统的唤醒词为第一唤醒词,所述方法包括:向用户提供身份验证;当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词;根据所述第二唤醒词和所述第一唤醒词生成目标唤醒词;将所述目标唤醒词重新确定为所述语音唤醒系统的唤醒词;当接收到语音时,确定所述语音是否包括所述目标唤醒词;当所述语音包括所述目标唤醒词时,则进入语音识别状态。解决了相关技术中语音唤醒方法安全性较低的问题。达到了提高语音唤醒方法安全性的效果。

Description

语音唤醒方法、装置、设备、计算机存储介质及车辆
技术领域
本申请涉及语音交互领域,特别涉及一种语音唤醒方法、装置、设备、计算机存储介质及车辆。
背景技术
用户通过唤醒词唤醒语音唤醒系统。
相关技术中一种语音唤醒方法,用于语音唤醒系统中,语音唤醒系统的唤醒词为第一唤醒词,语音唤醒系统接收语音,当语音包括第一唤醒词时,唤醒语音唤醒系统并进入语音识别状态。
但是,任一用户使用第一唤醒词均能够唤醒语音唤醒系统,这种语音唤醒方法安全性较低。
发明内容
本申请实施例提供了一种语音唤醒方法、装置、设备、计算机存储介质及车辆,能够解决相关技术中语音唤醒方案安全性较低的问题。所述技术方案如下:
根据本申请的第一方面,提供了一种语音唤醒方法,用于语音唤醒系统中,所述语音唤醒系统的唤醒词为第一唤醒词,所述语音唤醒方法包括:
向用户提供身份验证;
当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词;
根据所述第二唤醒词和所述第一唤醒词生成目标唤醒词;
将所述目标唤醒词重新确定为所述语音唤醒系统的唤醒词;
当接收到语音时,确定所述语音是否包括所述目标唤醒词;
当所述语音包括所述目标唤醒词时,则进入语音识别状态。
可选的,所述根据所述第二唤醒词和所述第一唤醒词生成目标唤醒词,包括:
将所述第二唤醒词和所述第一唤醒词叠加,以生成所述目标唤醒词,或者将所述第二唤醒词和所述第一唤醒词中的字符进行重新组合排列,以生成所述目标唤醒词。
可选的,所述将所述第二唤醒词和所述第一唤醒词叠加,以生成所述目标唤醒词,或者将所述第二唤醒词和所述第一唤醒词中的字符进行重新组合排列,以生成所述目标唤醒词,包括:
获取所述用户的指示信息;
根据所述指示信息将所述第二唤醒词和所述第一唤醒词叠加,以生成所述目标唤醒词,或者将所述第二唤醒词和所述第一唤醒词中的字符进行重新组合排列,以生成所述目标唤醒词。
可选的,所述向用户提供身份验证之前,所述方法还包括:
获取所述语音唤醒系统在历史的多个时间段中每个时间段的启动次数;
确定所述多个时间段中的至少一个目标时间段,所述目标时间段的所述启动次数大于指定值;
在当前时刻处于所述目标时间段中时,执行所述向用户提供身份验证的步骤。
可选的,所述当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词,包括:
当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词以及声纹信息;
所述当所述语音包括所述目标唤醒词时,则进入语音识别状态,包括:
所述当所述语音包括所述目标唤醒词时,则验证所述语音是否包括所述声纹信息;
当所述语音包括所述声纹信息时,进入所述语音识别状态。
可选的,所述向用户提供身份验证,包括:
与所述用户的蓝牙设备连接;
获取所述蓝牙设备提供的身份验证信息;
对所述身份验证信息进行所述身份验证。
另一方面,提供了一种语音唤醒装置,用于语音唤醒系统中,所述语音唤醒系统的唤醒词为第一唤醒词,所述语音唤醒装置包括:
验证模块,用于向用户提供身份验证;
获取模块,用于当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词;
目标唤醒词生成模块,用于根据所述第二唤醒词和所述第一唤醒词生成目标唤醒词;
确定模块,用于将所述目标唤醒词重新确定为所述语音唤醒系统的唤醒词;
判断模块,用于当接收到语音时,确定所述语音是否包括所述目标唤醒词;
语音识别模块,用于当所述语音包括所述目标唤醒词时,则进入语音识别状态。
另一方面,提供了一种语音唤醒设备,其特征在于,用于语音唤醒系统中,所述语音唤醒设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的语音唤醒方法。
另一方面,提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的语音唤醒方法。
另一方面,提供了一种车辆,其特征在于,包括语音唤醒系统,所述语音唤醒系统用于执行如第一方面所述的语音唤醒方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
提供了一种语音唤醒方法,用于语音唤醒系统中,该语音唤醒系统的唤醒词为第一唤醒词,该方法通过向用户提供身份验证,当用户通过身份验证时,获取用户提供的第二唤醒词,根据第二唤醒词和第一唤醒词生成目标唤醒词,并将该目标唤醒词重新确定为语音唤醒系统的唤醒词,当接收到语音且该语音包括目标唤醒词时,进入语音识别状态,如此便能够提升语音唤醒方法的安全性。解决了相关技术中语音唤醒方法安全性较低的问题。达到了提高语音唤醒方法安全性的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音唤醒方法流程图;
图2是本申请实施例提供的另一种语音唤醒方法流程图;
图3是图2所示实施例中一种身份验证的示意图;
图4是根据目标唤醒词在目标时间段唤醒语音唤醒系统的流程图;
图5是本申请实施例提供的一种语音唤醒装置的框图;
图6是本申请实施例提供的一种语音唤醒设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
目前的一种语音唤醒方法,用于语音唤醒系统中,语音唤醒系统的唤醒词为第一唤醒词,语音唤醒系统接收语音,当语音包括第一唤醒词时,唤醒语音唤醒系统并进入语音识别状态。
但是,任一用户使用第一唤醒词均能够唤醒语音唤醒系统,这种语音唤醒方法安全性较低。
本申请实施例提供的语音唤醒方法可以应用于各种具有语音唤醒系统的设备中,例如车辆、手机、电脑以及各种智能终端。
本申请实施例提供了一种语音唤醒方法、装置、设备、计算机存储介质及车辆。
图1是本申请实施例提供的一种语音唤醒方法的流程图。该语音唤醒方法可以应用于上述任一设备的语音唤醒系统中,该语音唤醒系统的唤醒词为第一唤醒词。该语音唤醒方法可以包括:
步骤101,向用户提供身份验证。
步骤102,当用户通过身份验证时,获取用户提供的第二唤醒词。
步骤103,根据第二唤醒词和第一唤醒词生成目标唤醒词。
步骤104,将目标唤醒词重新确定为语音唤醒系统的唤醒词。
步骤106,当接收到语音时,确定语音是否包括目标唤醒词。
步骤106,当语音包括目标唤醒词时,则进入语音识别状态。
综上所述,本申请实施例提供了一种语音唤醒方法,用于语音唤醒系统中,语音唤醒系统的唤醒词为第一唤醒词,该方法通过向用户提供身份验证,当用户通过身份验证时,获取用户提供的第二唤醒词,根据第二唤醒词和第一唤醒词生成目标唤醒词,并将该目标唤醒词重新确定为语音唤醒系统的唤醒词,当接收到语音且该语音包括目标唤醒词时,进入语音识别状态,如此便能够提升语音唤醒方法的安全性。解决了相关技术中语音唤醒方法安全性较低的问题。达到了提高语音唤醒方法安全性的效果。
图2是本申请实施例提供的另一种语音唤醒方法的流程图。该语音唤醒方法可以应用于上述任一设备的语音唤醒系统中,该语音唤醒系统的唤醒词为第一唤醒词。该语音唤醒方法可以包括:
步骤201,获取语音唤醒系统在历史的多个时间段中每个时间段的启动次数。
语音唤醒系统可以获取其在历史的多个时间段中每个时间段的启动次数,并且可以根据该启动次数确定用户在某个时间段启动语音唤醒系统的概率。
示例性的,可以采用埋点的方式统计并获取语音唤醒系统在历史的多个时间段中每个时间段的启动次数。埋点也即是对多个时间段中的每个时间段进行统计,得到每个时间段的启动次数。
步骤202,确定多个时间段中的至少一个目标时间段,目标时间段的启动次数大于指定值。
语音唤醒系统可以判断历史的每个时间段中启动次数是否大于指定值,并将启动次数大于指定值的时间段确定为目标时间段。用户在该目标时间段中启动语音唤醒系统的概率较高。
指定值可以包括语音唤醒系统的操作人员指定的一个值,也可以包括每个时间段的启动次数中数值较大的至少一个值。
步骤203,在当前时刻处于目标时间段中时,向用户提供身份验证。
在当前时刻处于目标时间段中时,用户在该目标时间段中使用语音唤醒系统的概率较高,可以执行向用户提供身份验证的步骤,也即是执行步骤204以及之后的步骤,这样可以在用户启动语音唤醒系统概率较高的时间段对语音唤醒系统进行唤醒词叠加等唤醒词加密的操作。
示例性的,可以向用户发送通知,用户选择是否执行后续的步骤。
如图3所示,步骤203可以包括下面几个子步骤:
步骤2031,与用户的蓝牙设备连接。
蓝牙(Bluetooth)是一种无线技术标准,可实现固定设备、移动设备和楼宇个人域网之间的短距离数据交换。每个蓝牙设备的地址一般是唯一的,可以根据蓝牙设备的地址获取对应用户的信息。
步骤2032,获取蓝牙设备提供的身份验证信息。
根据蓝牙设备的地址对应的用户的信息向语音唤醒系统提供用户的身份验证信息。该身份验证信息可以是预先存储在语音唤醒系统中的信息,可以用来判断用户是否是被允许操作的用户。
步骤2033,对身份验证信息进行身份验证。
语音唤醒系统对从蓝牙设备获取到的身份验证信息进行身份验证,判断用户是否是被允许操作的用户。
身份验证还可以通过用户名以及密码的方式进行身份验证,或通过指纹识别的方式进行身份验证,本申请实施例不做任何限制。
步骤204,当用户通过身份验证时,获取用户提供的第二唤醒词以及声纹信息。当用户未通过身份验证时可以执行步骤203或停止执行。
当用户通过身份验证也即是用户是否是被允许操作的用户时,获取用户提供的第二唤醒词以及声纹信息。语音唤醒系统可以将用户提供的第二唤醒词以及声纹信息与目标时间段对应。
声纹信息是每个用户特有的一种信息,也即是每个用户的声纹信息与用户的身份验证信息对应,使用声纹信息可以提高语音唤醒方法的安全性。
可以通过车辆中的麦克风或蓝牙设备获取用户提供的第二唤醒词以及声纹信息。
步骤205,获取用户的指示信息。
语音唤醒系统可以向用户提供生成目标唤醒词的方式,用户的指示信息,用于指示生成目标唤醒词的方式。
示例性的,语音唤醒系统可以向车辆的触摸显示屏或蓝牙设备发送通知,该通知包括生成目标唤醒词的方式,用户可以在车辆的触摸显示屏或蓝牙设备选择生成目标唤醒词的方式,也即是用户的知识信息指示信息。
步骤206,根据指示信息将第二唤醒词和第一唤醒词叠加,以生成目标唤醒词,或者将第二唤醒词和第一唤醒词中的字符进行重新组合排列,以生成目标唤醒词。
语音唤醒系统可以根据指示信息将第二唤醒词和第一唤醒词叠加,以生成目标唤醒词,或者将第二唤醒词和第一唤醒词中的字符进行重新组合排列,以生成目标唤醒词。
示例性的,第一唤醒词为“播放音乐”,第二唤醒词为“吧”,当用户选择重新组合排列的方式时,生成的目标唤醒词可以是“播放音乐吧”,或者第一唤醒词为“播放音乐”,第二唤醒词为“我的”,当用户选择重新组合排列的方式时,生成的目标唤醒词可以是“播放我的音乐”,或者第一唤醒词为“播放音乐”,第二唤醒词为“播放音乐”,当用户选择叠加的方式时,生成的目标唤醒词可以是“播放音乐播放音乐”。
通常,任一用户均可使用第一唤醒词唤醒语音系统,例如任一用户均可使用第一唤醒词“打开微信”唤醒语音唤醒系统,并进入语音识别状态,这种语音唤醒方法安全性较低,而使用本申请实施例提供的语音唤醒方法,用户可以设置“打开我的微信”等目标唤醒词,当用户所说的唤醒词为目标唤醒词时,再进入语音识别状态,提高了语音唤醒方法的安全性。
步骤207,将目标唤醒词重新确定为语音唤醒系统的唤醒词。
将目标唤醒词重新确定为目标时间段的语音唤醒系统的唤醒词。
步骤201至步骤207是更改目标时间段唤醒语音唤醒系统的目标唤醒词的步骤,步骤208以及之后的步骤是根据该目标唤醒词在目标时间段唤醒语音唤醒系统的步骤。
步骤208,当接收到语音时,确定语音是否包括目标唤醒词。
在目标时间段中接收到语音时,确定该目标时间段是否有对应的目标唤醒词且语音是否包括该目标唤醒词。
步骤209,当语音包括目标唤醒词时,则验证语音是否包括声纹信息。
当在目标时间段中接收到的语音包括目标唤醒词且目标唤醒词与该目标时间段对应的目标唤醒词对应时,则验证语音是否包括目标唤醒词对应的用户的声纹信息。
步骤208也可以在步骤209之后执行,本申请实施例不做任何限制。
步骤210,当语音包括声纹信息时,进入语音识别状态。
语音识别状态的目的是将用户语音中的词汇内容转换为语音唤醒系统可读的输入,例如按键、二进制编码或者字符序列。
当语音包括目标唤醒词对应的用户的声纹信息时,进入语音识别状态,也即是根据用户的语音内容执行相应的操作。
综上所述,本申请实施例提供了一种语音唤醒方法,用于语音唤醒系统中,语音唤醒系统的唤醒词为第一唤醒词,该方法通过向用户提供身份验证,当用户通过身份验证时,获取用户提供的第二唤醒词,根据第二唤醒词和第一唤醒词生成目标唤醒词,并将该目标唤醒词重新确定为语音唤醒系统的唤醒词,当接收到语音且该语音包括目标唤醒词时,进入语音识别状态,如此便能够提升语音唤醒方法的安全性。解决了相关技术中语音唤醒方法安全性较低的问题。达到了提高语音唤醒方法安全性的效果。
在一个示例性实施例中,本申请提供的语音唤醒方法应用于车辆的语音唤醒系统中的流程可以包括:
语音唤醒系统通过埋点的方式获取历史的多个时间段中每个时间段的启动次数,确定多个时间段中的至少一个目标时间段目标时间段的启动次数大于指定值,在当前时刻处于目标时间段中时,语音唤醒系统与用户的蓝牙设备连接并获取蓝牙设备提供的身份验证信息,对身份验证信息进行身份验证,当用户通过身份验证时,获取用户提供的第二唤醒词以及声纹信息,语音唤醒系统向用户提供至少一种目标唤醒词生成的方式并在车辆的触摸屏中显示,用户在车辆的触摸屏中选择生成目标唤醒词的方式也即是指示信息,获取用户的指示信息,根据指示信息将第二唤醒词和第一唤醒词叠加,以生成目标唤醒词,第一唤醒词为“播放音乐”,第二唤醒词为“播放音乐”,生成的目标唤醒词可以是“播放音乐播放音乐”,将目标唤醒词重新确定为语音唤醒系统的唤醒词。
上述流程是更改目标时间段唤醒语音唤醒系统的目标唤醒词的步骤,以下流程是根据该目标唤醒词在目标时间段唤醒语音唤醒系统的步骤。
如图4,其为根据目标唤醒词在目标时间段唤醒语音唤醒系统的流程图。当接收到语音时,确定语音是否包括“播放音乐播放音乐”,当该语音包括“播放音乐播放音乐”时,则验证语音是否包括用户的声纹信息,当该语音包括用户的声纹信息时,进入语音识别状态,开始播放音乐。
图5是本申请实施例提供的一种语音唤醒装置的框图。该装置用于语音唤醒系统中,语音唤醒系统的唤醒词为第一唤醒词。参考图5可以看出,该语音唤醒装置500可以包括:
验证模块501,用于向用户提供身份验证。
获取模块502,用于当用户通过身份验证时,获取用户提供的第二唤醒词。
目标唤醒词生成模块503,用于根据第二唤醒词和第一唤醒词生成目标唤醒词。
确定模块504,用于将目标唤醒词重新确定为语音唤醒系统的唤醒词。
判断模块505,用于当接收到语音时,确定语音是否包括目标唤醒词。
语音识别模块506,用于当语音包括目标唤醒词时,则进入语音识别状态。
综上所述,本申请实施例提供了一种语音唤醒装置,用于语音唤醒系统中,语音唤醒系统的唤醒词为第一唤醒词,该装置通过向用户提供身份验证,当用户通过身份验证时,获取用户提供的第二唤醒词,根据第二唤醒词和第一唤醒词生成目标唤醒词,并将该目标唤醒词重新确定为语音唤醒系统的唤醒词,当接收到语音且该语音包括目标唤醒词时,进入语音识别状态,如此便能够提升语音唤醒方法的安全性。解决了相关技术中语音唤醒方法安全性较低的问题。达到了提高语音唤醒方法安全性的效果。
图6是本申请实施例提供的一种语音唤醒设备的结构示意图。该语音唤醒设备600可以是:计算机、平板电脑、智能手机、车载导航仪、多媒体播放器或者可穿戴式设备等。语音唤醒设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,语音唤醒设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如6核心处理器、8核心处理器等。处理器601可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、可编程逻辑阵列(programmable logic array,PLA)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(central processingunit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有图像处理器(graphics processing unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括人工智能(artificial intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的语音唤醒方法。
在一些实施例中,语音唤醒设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏606、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将输入/输出(input/output,I/O)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射射频(radio frequency,RF)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(wireless fidelity,WiFi)网络。在一些实施例中,射频电路604还可以包括近距离无线通信(near field communication,NFC)有关的电路,本申请对此不加以限定。
显示屏605用于显示用户界面(user interface,UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置语音唤醒设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在语音唤醒设备600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在语音唤醒设备600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organiclight-emitting diode,OLED)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在语音唤醒设备的前面板,后置摄像头设置在语音唤醒设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(virtual reality,VR)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在语音唤醒设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位语音唤醒设备600的当前地理位置,以实现导航或基于位置的服务(location based service,LBS)。定位组件608可以是基于美国的全球定位系统(global positioning system,GPS)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为语音唤醒设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,语音唤醒设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以语音唤醒设备600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测语音唤醒设备600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对语音唤醒设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在语音唤醒设备600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在语音唤醒设备600的侧边框时,可以检测用户对语音唤醒设备600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置语音唤醒设备600的正面、背面或侧面。当语音唤醒设备600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在语音唤醒设备600的前面板。接近传感器616用于采集用户与语音唤醒设备600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与语音唤醒设备600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与语音唤醒设备600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对语音唤醒设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如上述方法实施例所提供的语音唤醒方法。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种语音唤醒方法,其特征在于,用于语音唤醒系统中,所述语音唤醒系统的唤醒词为第一唤醒词,所述方法包括:
获取所述语音唤醒系统在历史的多个时间段中每个时间段的启动次数;
确定所述多个时间段中的至少一个目标时间段,所述目标时间段的所述启动次数大于指定值;
在当前时刻处于所述目标时间段中时,向用户提供身份验证;
当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词;
获取所述用户的指示信息;
根据所述指示信息将所述第二唤醒词和所述第一唤醒词叠加,以生成目标唤醒词,或者将所述第二唤醒词和所述第一唤醒词中的字符进行重新组合排列,以所述目标唤醒词,任一用户均可使用所述第一唤醒词唤醒语音系统;
将所述目标唤醒词重新确定为所述语音唤醒系统的唤醒词;
当接收到语音时,确定所述语音是否包括所述目标唤醒词;
当所述语音包括所述目标唤醒词时,则进入语音识别状态。
2.根据权利要求1所述的方法,其特征在于,所述当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词,包括:
当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词以及声纹信息;
所述当所述语音包括所述目标唤醒词时,则进入语音识别状态,包括:
所述当所述语音包括所述目标唤醒词时,则验证所述语音是否包括所述声纹信息;
当所述语音包括所述声纹信息时,进入所述语音识别状态。
3.根据权利要求1所述的方法,其特征在于,所述向用户提供身份验证,包括:
与所述用户的蓝牙设备连接;
获取所述蓝牙设备提供的身份验证信息;
对所述身份验证信息进行所述身份验证。
4.一种语音唤醒装置,其特征在于,用于语音唤醒系统中,所述语音唤醒系统的唤醒词为第一唤醒词,所述装置包括:
验证模块,用于获取所述语音唤醒系统在历史的多个时间段中每个时间段的启动次数;确定所述多个时间段中的至少一个目标时间段,所述目标时间段的所述启动次数大于指定值;在当前时刻处于所述目标时间段中时,向用户提供身份验证;
获取模块,用于当所述用户通过所述身份验证时,获取所述用户提供的第二唤醒词;
目标唤醒词生成模块,用于获取所述用户的指示信息;根据所述指示信息将所述第二唤醒词和所述第一唤醒词叠加,以生成所述目标唤醒词,或者将所述第二唤醒词和所述第一唤醒词中的字符进行重新组合排列,以生成所述目标唤醒词,任一用户均可使用所述第一唤醒词唤醒语音系统;
确定模块,用于将所述目标唤醒词重新确定为所述语音唤醒系统的唤醒词;
判断模块,用于当接收到语音时,确定所述语音是否包括所述目标唤醒词;
语音识别模块,用于当所述语音包括所述目标唤醒词时,则进入语音识别状态。
5.一种语音唤醒设备,其特征在于,用于语音唤醒系统中,所述语音唤醒设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一所述的语音唤醒方法。
6.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4任一所述的语音唤醒方法。
7.一种车辆,其特征在于,包括语音唤醒系统,所述语音唤醒系统用于执行权利要求1-4任一所述的语音唤醒方法。
CN201911184276.9A 2019-11-27 2019-11-27 语音唤醒方法、装置、设备、计算机存储介质及车辆 Active CN110827820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911184276.9A CN110827820B (zh) 2019-11-27 2019-11-27 语音唤醒方法、装置、设备、计算机存储介质及车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911184276.9A CN110827820B (zh) 2019-11-27 2019-11-27 语音唤醒方法、装置、设备、计算机存储介质及车辆

Publications (2)

Publication Number Publication Date
CN110827820A CN110827820A (zh) 2020-02-21
CN110827820B true CN110827820B (zh) 2022-09-27

Family

ID=69542512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911184276.9A Active CN110827820B (zh) 2019-11-27 2019-11-27 语音唤醒方法、装置、设备、计算机存储介质及车辆

Country Status (1)

Country Link
CN (1) CN110827820B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164395A (zh) * 2020-09-18 2021-01-01 北京百度网讯科技有限公司 车载语音启动方法、装置、电子设备和存储介质
CN112216283B (zh) * 2020-09-24 2024-02-23 建信金融科技有限责任公司 一种语音识别方法、装置、设备及存储介质
CN115775560A (zh) * 2021-03-16 2023-03-10 海信视像科技股份有限公司 一种唤醒响应的提示方法和显示设备
CN113335205B (zh) * 2021-06-09 2022-06-03 东风柳州汽车有限公司 语音唤醒方法、装置、设备及存储介质
CN114684047A (zh) * 2022-04-18 2022-07-01 润芯微科技(江苏)有限公司 一种通过语音识别驾驶者身份并配置驾驶座舱参数的方法
CN115314334A (zh) * 2022-07-21 2022-11-08 江苏三嘉行联系统科技有限公司 一种智能家居唤醒交互方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
CN108335695B (zh) * 2017-06-27 2020-10-30 腾讯科技(深圳)有限公司 语音控制方法、装置、计算机设备和存储介质
CN107564517A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及系统、云端服务器与可读介质
CN107969055A (zh) * 2017-08-03 2018-04-27 南京邮电大学盐城大数据研究院有限公司 一种选频电路触发多级多词语音唤醒控制灯具的方法
CN109686368B (zh) * 2018-12-10 2020-09-08 北京梧桐车联科技有限责任公司 语音唤醒应答处理方法及装置、电子设备及存储介质
CN109697980A (zh) * 2018-12-26 2019-04-30 与德科技有限公司 一种唤醒词的响应方法、装置、存储介质及智能音箱
CN109871238A (zh) * 2019-01-02 2019-06-11 百度在线网络技术(北京)有限公司 语音交互方法、装置和存储介质
CN109448725A (zh) * 2019-01-11 2019-03-08 百度在线网络技术(北京)有限公司 一种语音交互设备唤醒方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110827820A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110827820B (zh) 语音唤醒方法、装置、设备、计算机存储介质及车辆
CN110971930B (zh) 虚拟形象直播的方法、装置、终端及存储介质
CN110341627B (zh) 控制车内行为的方法和装置
CN110288689B (zh) 对电子地图进行渲染的方法和装置
CN110784370B (zh) 设备测试的方法、装置、电子设备及介质
CN111241499A (zh) 应用程序登录的方法、装置、终端及存储介质
CN110290191B (zh) 资源转移结果处理方法、装置、服务器、终端及存储介质
CN109783176B (zh) 切换页面的方法和装置
CN109218169B (zh) 即时通讯方法、装置及存储介质
CN111354378A (zh) 语音端点检测方法、装置、设备及计算机存储介质
CN110769120A (zh) 进行消息提醒的方法、装置、设备及存储介质
CN111881423B (zh) 限制功能使用授权方法、装置、系统
CN111128115B (zh) 信息验证方法、装置、电子设备及存储介质
CN113843814A (zh) 机械臂设备的控制系统、方法、装置和存储介质
CN111061369B (zh) 交互方法、装置、设备及存储介质
CN109819308B (zh) 虚拟资源获取方法、装置、终端、服务器及存储介质
CN110992954A (zh) 语音识别的方法、装置、设备及存储介质
CN114595019A (zh) 应用程序的主题设置方法、装置、设备及存储介质
CN112163677B (zh) 应用机器学习模型的方法、装置及设备
CN111708581B (zh) 应用启动方法、装置、设备及计算机存储介质
CN111131619B (zh) 账号切换处理的方法、装置及系统
CN112764824B (zh) 触发应用程序中身份验证的方法、装置、设备及存储介质
CN114550717A (zh) 语音音区切换方法、装置、设备及存储介质
CN114475520A (zh) 汽车的控制方法、装置及计算机存储介质
CN112132472A (zh) 资源管理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221207

Address after: 401121 4-1, No. 6, North Yangliu Road, Dazhulin Street, Liangjiang New District, Yubei District, Chongqing

Patentee after: Chongqing wutong Chelian Technology Co.,Ltd.

Address before: 100089 area B, 5th floor, block a, 8 Haidian Street, Haidian District, Beijing

Patentee before: BEIJING WUTONG CHELIAN TECHNOLOGY Co.,Ltd.