CN115484347A - 一种语音控制方法及电子设备 - Google Patents

一种语音控制方法及电子设备 Download PDF

Info

Publication number
CN115484347A
CN115484347A CN202110603577.1A CN202110603577A CN115484347A CN 115484347 A CN115484347 A CN 115484347A CN 202110603577 A CN202110603577 A CN 202110603577A CN 115484347 A CN115484347 A CN 115484347A
Authority
CN
China
Prior art keywords
earphone
electronic device
voice signal
headset
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110603577.1A
Other languages
English (en)
Inventor
张龙
常青
朱贺轩
田立生
恽毅
缪海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110603577.1A priority Critical patent/CN115484347A/zh
Priority to PCT/CN2022/088052 priority patent/WO2022252858A1/zh
Publication of CN115484347A publication Critical patent/CN115484347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6058Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone
    • H04M1/6066Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone including a wireless connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • H04M1/667Preventing unauthorised calls from a telephone set
    • H04M1/67Preventing unauthorised calls from a telephone set by electronic means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72463User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions to restrict the functionality of the device

Abstract

本申请实施例提供一种语音控制方法及电子设备,涉及多媒体音频技术领域。该方法可以采集用户的语音信号,并根据语音信号中的声纹解锁电子设备。该方法应用于电子设备,包括:接收第一语音信号;确定所述电子设备当前的状态;若所述电子设备当前处于锁定状态,采用第一方式识别所述第一语音信号对应的用户;若所述电子设备当前处于解锁状态,采用第二方式识别所述第一语音信号对应的用户。

Description

一种语音控制方法及电子设备
技术领域
本申请实施例涉及多媒体音频技术领域,尤其涉及一种语音控制方法及电子设备。
背景技术
声纹(voiceprint)是指语音信号中的声波频谱,声纹可以反映出语音信号中的音频特征。示例性的,当用户在讲话时,采集得到用户的语音信号,采用电声学仪器处理该语音信号并显示该语音信号的声波频谱,声波频谱就是该语音信号的声纹。
其中,用户在讲话时使用的发声器官包括,舌、牙齿、喉头、肺、鼻腔等。由于每个用户的发声器官在尺寸和形态方面存在差异,因此,不同用户发出的语音信号中的声波频谱是存在差异的。也就是说,不同的用户的声纹也是不同的。一般而言,成年之后,发声器官完成发育,人发出的语音信号中的声纹是稳定的。基于此,电子设备可以通过声纹识别(speaker recognition,SR)的方式区分不同的用户。在一些实现中,电子设备可以提供根据声纹实现解锁的方案。
发明内容
本申请提供一种语音控制方法及电子设备,可以采集用户的语音信号,并根据语音信号中的声纹解锁电子设备。
为实现上述技术目的,本申请采用如下技术方案:
第一方面,本申请提供一种语音控制方法,应用于电子设备,方法可以包括:
电子设备接收第一语音信号,之后,电子设备可以确定当前的状态。如果电子设备当前处于锁定状态,采用第一方式识别第一语音信号对应的用户。如果电子设备当前处于解锁状态,采用第二方式识别第一语音信号对应的用户。
其中,电子设备确定当前的状态,根据当前状态确定对应的方式。当电子设备处于解锁状态,可以说明用户解锁过手机。那么,解锁状态对应的第二方式可以是更易于识别出第一语音信号对应的用户的方式。例如,可以设置第二方式降低对第一语音信号的识别难度,这样,就可以使得传输给电子设备的声音信号易于被识别。
第一方面一种可能的实施方式中,电子设备预设第一声纹模型。上述采用第一方式识别第一语音信号对应的用户。在具体实施中可以包括:提取第一语音信号的音频特征;第一语音信号的音频特征与第一声纹模型进行匹配,得到第一匹配值,第一匹配值用于表征第一语音信号与第一声纹模型的匹配程度;若第一匹配值大于第一预设阈值,确定第一语音信号是第一用户发出的。在这种情况下,电子设备可以响应第一语音信号。
可以理解的,预设在电子设备中的第一声纹模型,可以是根据第一用户的语音信号生成的。其中,电子设备在识别声音信号时,从第一语音信号中提取该声音信号的音频特征,以便确定该声音信号是否为第一用户发出的声音信号。
第一方面另一种可能的实施方式中,电子设备预设第一声纹模型。上述采用第二方式识别第一语音信号对应的用户。具体实施时可以包括:提取第一语音信号的音频特征;第一语音信号的音频特征与第一声纹模型进行匹配,得到第一匹配值,第一匹配值用于表征第一语音信号与第一声纹模型的匹配程度;若第一匹配值大于第二预设阈值,确定第一语音信号是第一用户发出的;电子设备响应于第一语音信号;其中,第二预设阈值小于第一预设阈值。
第二预设阈值小于第一预设阈值,也就是说,电子设备在采用第二方式识别第一语音信号时,该声音信号更易于被电子设备判断出是否为第一用户发出的。
第一方面另一种可能的实施方式中,在电子设备接收第一语音信号之前,电子设备可以:显示提示信息,提示信息用于提示佩戴无线耳机的用户进行声纹注册。无线耳机采集到注册声音信号,并向电子设备发送注册声音信号;电子设备接收到注册声音信号,并根据声音信号生成第一声纹模型。
其中,第一声纹模型是根据用户的注册声音信号生成的,那么电子设备在初始设置时提示用户注册声音信号。这样,电子设备就可以设置第一方式和第二方式。
第一方面另一种可能的实施方式中,电子设备与无线耳机建立通讯连接,无线耳机包括第一耳机和第二耳机,第一耳机是主耳机,第二耳机是副耳机。接收第一语音信号之前,方法还包括:电子设备接收到第一状态信息和第二状态信息,第一状态信息指示第一耳机被佩戴,第二状态信息指示第二耳机被佩戴。
确定电子设备当前的状态之后,方法还包括:一方面,如果电子设备接收到第三状态信息,第三状态信息指示第一耳机未被佩戴,第二耳机切换为主耳机,电子设备从解锁状态切换为锁定状态。另一方面,如果电子设备接收到第三状态信息,第三状态信息指示第二耳机未被佩戴,电子设备保持解锁状态或锁定状态。
第一方面另一种可能的实施方式中,如果电子设备接收到第三状态信息,第三状态信息指示第一耳机未被佩戴,第二耳机切换为主耳机,电子设备从解锁状态切换为锁定状态之后,方法还包括:如果电子设备接收到第四状态信息,第四状态信息指示第一耳机被佩戴,第一耳机为副耳机,电子设备保持锁定状态。
第一方面另一种可能的实施方式中,电子设备与无线耳机建立通讯连接,无线耳机包括第一耳机和第二耳机,第一耳机是主耳机,第二耳机是副耳机。
接收第一语音信号之前,方法还包括:电子设备接收到第一状态信息和第二状态信息,第一状态信息指示第一耳机被佩戴,第二状态信息指示第二耳机被佩戴;电子设备当前处于解锁状态,采用第二方式识别第一语音信号对应的用户之后,方法还包括:电子设备接收到来自无线耳机的切换信息,切换信息指示第一耳机是副耳机,第二耳机是主耳机;响应于切换信息,电子设备从解锁状态切换为锁定状态。
第一方面另一种可能的实施方式中,解锁电子设备的操作包括:指纹解锁、密码解锁和面容解锁。
第二方面,本申请还提供一种电子设备,该电子设备可以与无线耳机建立通讯连接。电子设备包括存储器和一个或多个处理器,存储器和处理器耦合,存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,当该处理器执行该计算机指令时,处理器可以用于执行上述第一方面,及其任一种可能的实施方式中电子设备的执行步骤。
第三方面,本申请实施例提供一种芯片系统,该芯片系统应用于包括上述触摸屏的电子设备。该芯片系统包括一个或多个接口电路和一个或多个处理器。该接口电路和处理器通过线路互联。该接口电路用于从电子设备的存储器接收信号,并向处理器发送该信号,该信号包括存储器中存储的计算机指令。当处理器执行计算机指令时,电子设备执行如第一方面及其任一种可能的实施方式中所述的方法。
第四方面,本申请实施例提供一种计算机存储介质,该计算机存储介质包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如第一方面及其任一种可能的实施方式中的所述方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面及其任一种可能的实施方式中所述的方法。
可以理解地,上述提供的第二方面中所述的电子设备,第三方面所述的芯片系统,第四方面所述的计算机存储介质,第五方面所述的计算机程序产品所能达到的有益效果,可参考如第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种应用场景的示意图;
图2为本申请实施例提供的一种电子设备的硬件结构示意图;
图3为本申请实施例提供的一种无线耳机的硬件结构示意图;
图4为本申请实施例提供的一种语音控制方法流程图;
图5为本申请实施例提供的一种手机切换认证方式的框图;
图6为本申请实施例提供的另一手机切换认证方式的框图;
图7为本申请实施例提供的一种无线耳机切换佩戴方式时手机中状态位变化框图;
图8为本申请实施例提供的一种芯片系统的结构示意图。
具体实施方式
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
可以理解的,以成年人来说,每个人的声纹是不同的,且声纹是稳定的,电子设备可以通过声纹识别的方式识别不同的人。在一些实现中,基于电子设备具备声纹识别功能,电子设备可以包括声纹解锁的设备解锁方案。如,电子设备采集用户发出的声音信号,并识别声音信号中的声纹,当确定该声纹与电子设备中预设的声纹模型(即电子设备所有者的声纹模型)相符,电子设备响应于该声音信号,解锁。
需要说明的,由于每个人的声纹都是不同的,理论上,不论用户说出什么样的话(即声音信号),电子设备都可以从采集的声音信号中识别出声音信号中的声纹,并根据声纹确定用户的身份(如,该声纹是否与预设声纹模型相同)。具体来说,声纹识别的方式包括两种,文本相关的声纹识别和文本无关的声纹识别。
其中,文本相关的声纹识别为,电子设备采集用户发出的包括特定文本内容的语音,并从该语音中确定出声纹,将该声纹设置作为预设的声纹模型。将采集得到的文本与预设的声纹模型进行匹配,以识别用户的身份。需要说明的,预设的声纹模型也是根据特定文本内容的语音生成的。
如,预设的声纹模型是采集到用户发出文本内容为“小艺,小艺”的语音信号后,根据该语音信号生成的。当电子设备采集到文本内容为“小艺,小艺”的第一语音信号后,根据第一语音信号确定发声者的声纹,将声纹与预设的声纹模型进行匹配,以判断第一语音信号是否为用户发出的。如果第一语音信号的声纹与预设的声纹模型匹配,可以确定第一语音信号是用户发出的。如果第一语音信号的声纹与预设的声纹模型不匹配,可以确定第一语音信号不是用户发出的。
文本无关的声纹识别为,电子设备采集用户发出的至少一条的非特定文本内容的语音,并从这些语音中确定出声纹,将该声纹设置作为预设的声纹模型。其中,至少一条的非特定文本内容的语音是指,用户发出的包括任意文本内容的语音信号。
本申请实施例中的声纹识别方式以文本相关的声纹识别为主,即电子设备采用文本相关的声纹识别方式识别用户身份。在一些实施中,电子设备中可以设置文本无关的声纹识别方式,并根据文本无关的声纹识别方式生成预设的声纹模型,具体不与赘述。
对于文本相关的声纹识别来说,电子设备中预设电子设备所有者(或称为第一用户)的声纹模型。通过声纹匹配的方式,实现识别用户身份的目的,并响应于用户的语音信号,实现与用户进行语音交互。例如,电子设备预设的声纹模型是根据文本内容为“小艺,小艺”生成的,电子设备响应于该文本内容的语音信号,解锁。这样,电子设备采集到与第一用户的声纹模型相同的语音信号,且该语音信号的文本内容包括“小艺,小艺”,响应于该语音信号解锁电子设备。
电子设备在接收到语音信号后,若确定该语音信号是第一用户发出的。识别语音信号中关键词,响应于该关键词对应的操作。如,电子设备接收到第一用户发出的语音信号为“小艺小艺”,响应于该语音信号,电子设备解锁。电子设备接收到第一用户发出的语音信号为“
Figure BDA0003093406010000041
Figure BDA0003093406010000042
支付”,响应于该语音信号,电子设备确定该语音信号中的关键词是
Figure BDA0003093406010000043
支付。则电子设备运行
Figure BDA0003093406010000044
钱包应用,并显示支付对应的界面(如付款二维码)。
当电子设备未解锁时(如电子设备为未解锁灭屏,或电子设备显示锁屏界面等未解锁状况下),获取第一语音信号。电子设备确定第一语音信号包括关键词,并识别出第一语音信号的声纹特征,根据声纹特征可以判断第一语音信号是否为第一用户发出的。
其中,声纹特征可以包括滤波器组特征(filter bank feature)、梅尔倒谱系数(mel-frequency cepstral coefficient,MFCC)、感知线性预测(perceptual linearprediction,PLP)或线性预测编码(linear predictive codes,LPC)等。声纹特征还可以是,采用声纹深度学习算法提取的音频信号瓶颈特征等。
具体地说,电子设备采集到第一语音信号后,确定第一语音信号包括关键词。则电子设备识别第一语音信号,确定第一语音信号的声纹特征。进一步的,电子设备将第一语音信号的声纹特征与预设声纹模型进行对比,以判断第一语音信号是否为第一用户发出的。例如,将第一语音信号的声纹特征与预设声纹模型进行匹配,以得到第一语音信号的得分。第一语音信号的得分可以用于判断第一语音信号是否为第一用户发出的,若第一语音信号的得分小于预设阈值,确定第一语音信号不是第一用户发出的。
如果第一语音信号的得分大于预设阈值,确定第一语音信号是第一用户发出的。因此,电子设备响应于第一语音信号,解锁电子设备。
在一些使用电子设备的场景中,电子设备可以与可穿戴设备交互,如果可穿戴设备具备声音采集功能,则电子设备还可以通过可穿戴设备采集的语音信号,识别用户的身份。
例如,电子设备是手机,可穿戴设备是无线耳机,手机与无线耳机通过蓝牙建立通讯连接。当无线耳机采集到第一语音信号,无线耳机向手机发送第一语音信号,手机判断第一语音信号是否为第一用户发出的。
其中,当电子设备接收到无线耳机传输的语音信号,电子设备还是根据预设阈值判断语音信号是否为第一用户发出的。由于无线耳机被用户佩戴,且耳机和电子设备通过无线连接可以获知耳机佩戴和存在状态,当我们通过其他方式确认目前具有声纹认证的耳机连接的电子设备被安全解锁过之后,则可以利用这种信息和耳机佩戴存在状态适应性的调整电子设备中预设的认证比对阈值等,使得无线耳机传输的语音信号更易被电子设备识别。
本申请实施例提供一种语音控制方法,该方法应可以用于电子设备与可穿戴设备交互的场景中。在确定可穿戴设备被第一用户穿戴的情况下,可穿戴设备采集第一用户发出的语音信号。可穿戴设备将语音信号传输至电子设备,电子设备降低匹配门限(预设门限),使得第一用户的语音信号易于被电子设备识别。这样一来,在保证电子设备安全的情况下,使得第一用户发出的语音信号易于被电子设备识别,使得电子设备为第一用户提供更好的语音交互体验。
例如,以可穿戴设备是无线耳机为例,电子设备确定无线耳机被第一用户穿戴,无线耳机将采集到的语音信号发送至电子设备。当已经确认佩戴耳机的用户通过其他方式解锁过电子设备后,电子设备降低语音信号中的声纹与预设声纹模型的匹配门限,使得第一用户的声音信号易于被电子设备识别,进而电子设备可以为用户提供更好使用体验。
下面将说明本申请实施例的应用场景。
请参考图1,为本申请实施例提供的方法的应用场景示意图。如图1所示,包括电子设备100和无线耳机200,无线耳机200被用户穿戴,电子设备100和无线耳机200存在通讯连接。其中,无线耳机200包括麦克风和骨传导传感器。
需要说明的,骨传导传感器设置在无线耳机200中,使得无线耳机结合为骨传导无线耳机。当穿戴无线耳机200的用户讲话时,无线耳机200可以采集到用户发出的语音。其中,该语音包括第一语音分量和第二语音分量,第一语音分量是麦克风采集到的声音信号,发声器官发出声音引起空气振动,空气振动引起麦克风的振动,使得麦克风采集到的声音信号;第二语音分量是骨传导传感器采集到的声音信号,是发声器官发出声音引起人体骨络的振动,骨传导传感器采集到骨络振动形成的声音信号。
示例性的,电子设备100可以采用短距离通信的方式与无线耳机200建立通信连接,如,电子设备100通过蓝牙与无线耳机200建立通信连接。
在如图1所示的场景中,穿戴无线耳机200的用户讲话时,无线耳机200采集到用户讲话时的语音。无线耳机200采集到的语音包括第一语音分量和第二语音分量,无线耳机200向电子设备100发送该语音,电子设备100确定语音中包括第一语音分量和第二语音分量,则电子设备100可以确定该语音是穿戴无线耳机200的用户发出的语音。
当用户穿戴无线耳机200时,电子设备100可以与无线耳机200交互,以验证穿戴无线耳机200的用户的身份。因为我们需要语音解锁的是设备100,可以设想,当用户佩戴耳机且连接手机后,并通过其他方式解锁过设备100,则可以利用这种信息确认此时佩戴耳机的用户就是设备100的所有者;同时因为耳机一直处于佩戴状态,所以可以利用:其他方式解锁过设备+耳机佩戴存在状态等信息,在保证设备100安全的情况下,通过降低认证门限以及其他信号处理方式等使得voiceid更方便地解锁设备100,提升用户体验。如图6,本专利中我们将初始严苛的认证策略称之为第一认证方式(或称为第一方式);将通过其他方式解锁设备+耳机佩戴存在状态确保设备100安全后更新的认证策略称之为第二认证方式(或称为第二方式)。第二认证方式包含前面描述过的采用降低语音信号中声纹与预设声纹模型的匹配门限等方案。
可以理解的,电子设备100可以预设语音信号中声纹与预设的声纹模型的匹配认证策略为第一认证方式,在用户佩戴耳机用其他方式解锁过手机后,将通过声纹解锁手机的认证策略设置为第二认证方式,使得声音信号易于被电子设备100识别。其中,第一认证方式的第一门限值大于第二认证方式的第二门限值。显然,第二认证方式比第一认证方式会更加容易通过认证,提升用户体验。
示例性的,电子设备100验证穿戴无线耳机200的用户的身份方式包括,密码验证,人脸验证,指纹验证等。此处对于电子设备100验证穿戴无线耳机200的用户身份方式不做具体限定。
以下将结合附图对本申请实施例的实施方式进行说明。
请参考图2,为本申请实施例提供的电子设备100的硬件结构示意图。如图2所示,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
其中,传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,加速度传感器,磁传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
可以理解的,电子设备100可以通过移动通信模块150或无线通信模块160与无线耳机200建立通信连接。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信号时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信号时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
需要说明的,本申请实施例中的电子设备100可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载电脑、车载设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digitalassistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等,本申请实施例对该电子设备的具体形态不作特殊限制。
请参考图3,为本申请实施例提供的无线耳机200的硬件结构示意图。如图3所示,无线200包括处理器210、天线1,射频模块220,通信模块230,音频模块240,扬声器240A,麦克风240B,骨传导传感器240C,按键260和状态检测传感器270等。
其中,图3所示的无线耳机200仅是无线耳机的硬件结构的一个示例。图3所示的结构并不构成对无线耳机200的限定,无线耳机200可以包括比图3更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图3中的部件可以以硬件,软件或软件和硬件的组合实现。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括调制解调处理器,控制器,存储器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以是指挥无线耳机200的各个部件按照指令协调工作的决策者。是无线耳机200的神经中枢和指挥中心。控制器根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器中的存储器为高速缓冲存储器。可以保存处理器刚用过或循环使用的指令或数据。如果处理器需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器的等待时间,因而提高了系统的效率。
在一些实施例中,处理器210可以包括接口。其中接口可以包括集成电路(Inter-Integrated Circuit,I2C)接口,集成电路内置音频(Inter-Integrated Circuit Sound,I2S)接口,脉冲编码调制(Pulse Code Modulation,PCM)接口,通用异步收发传输器(Universal Asynchronous Receiver/Transmitter,UART)接口,和/或通用串行总线(Universal Serial Bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(Serial Data Line,SDA)和一根串行时钟线(Derail Clock Line,SCL)。在一些实施例中,处理器可以包含多组I2C总线。处理器可以通过不同的总线接口分别耦合触摸传感器,充电器等。
I2S接口可以用于音频通信。在一些实施例中,处理器可以包含多组I2S总线。处理器可以通过I2S总线与音频模块耦合,实现处理器与音频模块之间的通信。在一些实施例中,音频模块可以通过I2S
PCMPCM总线接口耦合。在一些实施例中,音频模块也可以通过PCM接口向通信模块传递音频信号,实现通过蓝牙耳机接听电话的功能。I2S接口和PCM接口都可以用于音频通信,两种接口的采样速率不同。
本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对无线耳机200的结构限定。无线耳机200可以使用本申请实施例中不同的接口连接方式,或多种接口连接方式的组合。
无线耳机200的无线通信功能可以通过天线1,射频模块220,通信模块230,调制解调器以及基带处理器等实现。天线1用于发射和接收电磁波信号。无线耳机200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
射频模块220可以提供应用在无线耳机200上的包括2G/3G/4G/5G等无线通信的解决方案的通信处理模块。射频模块由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调器进行解调。射频模块还可以对经调制解调器调制后的信号放大,经天线1转为电磁波辐射出去。
调制解调器可以包括调制器和解调器。调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器,受话器等)输出音频信号。
通信模块230可以提供应用在无线耳机200上的包括无线局域网(Wireless LocalArea Networks,WLAN),(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(BlueTooth,BT),调频(Frequency Modulation,FM),近距离无线通信技术(Near FieldCommunication,NFC),红外技术(Infrared,IR)等无线通信的解决方案的通信处理模块。通信模块230可以是集成至少一个通信处理模块的一个或多个器件。通信模块经由天线1接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器。通信模块230还可以从处理器接收待发送的信号,对其进行调频,放大,经天线1转为电磁波辐射出去。
示例性的,无线耳机200可以通过蓝牙与电子设备100建立通信连接,以实现通过蓝牙耳机传输音频信号的目的。
无线耳机200可以通过音频模块240,扬声器240A,麦克风240B,骨传导传感器240C,以及应用处理器等实现音频功能。例如音乐播放,语音通话,采集语音信号等。
音频模块用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块还可以用于对音频信号编码和解码。在一些实施例中,音频模块可以设置于处理器210中,或将音频模块的部分功能模块设置于处理器210中。
扬声器240A,也称“喇叭”,用于将音频电信号转换为音频信号。无线耳机可以通过扬声器240A播放音频信号。
麦克风240B,也称“话筒”,“传声器”,用于将音频信号转换为电信号。当拨打电话或发送语音信号时,佩戴者可以通过人嘴靠近麦克风240B发声,将音频信号输入到麦克风240B。在一些实现中,麦克风可以设置在无线耳机200的外侧,采集无线耳机所在环境中的声音,以及采集用户发出的语音信号。另一些实现中,麦克风可以设置在无线耳机200靠近人耳一侧,可以采集耦合人耳声道信息的音频信号,以便实现无线耳机200主动降噪的功能。
无线耳机200可以设置至少一个麦克风。示例性的,无线耳机的听筒部分也可以设置麦克风,用于采集环境中的声音,以便耳机实现降噪和透传等功能。在一些实施例中,无线耳机200还可以设置三个,四个或更多麦克风,实现采集音频信号,降噪,还可以识别声音来源,实现定向录音功能等。
骨传导传感器240C可以设置在靠近人耳的一侧,使得骨传导传感器240C可以采集到声带振动时骨块的振动,从而提取到用户的语音信号(如第一语音分量)。
状态检测传感器270用于检测无线耳机200的穿戴状态,例如,用户在耳部穿戴无线耳机,无线耳机根据状态检测传感器的数据可以确定被用户穿戴。在一些实现中,无线耳机200包括左耳机和右耳机,左耳机和右耳机中均包括状态检测传感器。无线耳机200包括左耳机和右耳机,用户的左耳穿戴左耳机,右耳穿戴右耳机,当存在左耳机或右耳机从耳部脱离,根据无线耳机中的状态检测传感器的数据,可以确定左耳机或右耳机脱离用户耳部。
按键260包括开机键,音量键等。按键可以是机械按键。也可以是触摸式按键。无线耳机200接收按键输入,产生与无线耳机200的佩戴者设置以及功能控制有关的键信号输入。
需要说明的,本申请实施例提供的无线耳机可以是入耳式、半入耳式、贴耳式、头戴式耳机等,穿戴在耳部的电子设备。本申请实施例对无线耳机的具体形态不作特殊限制。
以下实施例提供的方法均可以在具备上述硬件结构的听戴式设备实现。
本申请实施例提供一种语音控制方法,该方法可以应用于电子设备与无线耳机存在通信连接的场景中,此处以电子设备是手机,且手机与无线耳机通过蓝牙的方式建立通信为例,说明本申请实施例提供的语音控制方法。可以明白的,电子设备还可以是其他具备声纹识别功能的设备,譬如,平板电脑、笔记本电脑、AR设备、智能电视等。
请参考图4,为本申请实施例提供的音频控制方法的流程图,如图4所示,该方法可以包括步骤401-步骤407。
步骤401:无线耳机和手机通过蓝牙建立通信连接。
其中,无线耳机和手机通过蓝牙建立通信的过程,可以参考已知的蓝牙连接方式。如,手机与无线耳机通过蓝牙连接的步骤可以包括:手机处于蓝牙扫描状态并监听蓝牙报文,无线耳机广播蓝牙报文,手机接收到无线耳机广播的蓝牙报文,手机向无线耳机发送蓝牙配对请求,手机与无线耳机建立蓝牙连接。手机与无线耳机建立蓝牙连接,则手机可以与无线耳机进行通信。
需要说明的,本申请实施例以手机和无线耳机通过蓝牙建立通信,实际应用中,手机还可以采用其他的短距离连接方式与无线耳机建立通信,如,NFC连接、WLAN连接等。
步骤402:手机显示提示信息,以提示佩戴无线耳机的用户进行声纹注册。
其中,步骤402并不是必须执行的步骤。如果手机中预设存储无线耳机采集的声纹信息,则不执行步骤402;如果手机中没有预设存储耳机采集的声纹信息,手机可以显示提示信息,以通过无线耳机采集声纹信息。执行以下步骤403-步骤407时,以手机中存储有无线耳机采集的声纹信息为基础,将不再说明手机没有存储无线耳机采集的声纹信息的情况。
具体地说,手机具备声纹识别(voice ID)功能,即用户通过佩戴耳机说出关键词后实现对手机设备的对应操作包括解锁和对应关键词实现的功能,譬如关键词包括“
Figure BDA0003093406010000101
支付”。其中,手机中预先存储第一用户的声纹信息,当手机收集到耳机侧传输过来的声音信号,从该声音信号确定对应的声纹特征,并将声纹与预先存储的第一用户的声纹信息进行对比。若该声纹与预先存储的第一用户的声纹信息满足第一认证方式要求,确定该声音信号是第一用户发出的。如果确定该声音信号是第一用户发出的,手机解锁并响应于该声音信号对应关键词蕴含的操作指令。
可以理解的,手机与无线耳机通过蓝牙建立通信连接,无线耳机可以采集到穿戴者的语音信号,并向手机发送该语音信号。在这种情况下,手机接收到来自无线耳机的声音信号,如果确认该声音信号是第一用户的声音信号,并响应该声音信号。因此,手机中存储无线耳机采集的第一用户的声纹信号,这样,手机就可以判断无线耳机传输的语音信号是否为第一用户的语音信号。
其中,当用户首次使用voice ID功能时,可以通过注册语音建立属于该用户的声纹模型。例如,手机采集到该用户的声音信号,建立属于该用户的第一声纹模型和第二声纹模型。示例性的,手机与无线耳机建立通信连接,第一用户通过无线耳机在手机上注册语音时,手机提醒佩戴无线耳机的用户说出“小艺,小艺”的注册语音。无线耳机采集到第一用户的发出的“小艺,小艺”的声音信号,由于无线耳机包括骨传导传感器和麦克风,无线耳机可以通过麦克风采集到声音信号中的第一注册分量,通过骨传导传感器采集到声音信号中第二注册分量。无线耳机向手机发送第一注册分量和第二注册分量,手机接收到来自无线耳机的第一注册分量和第二注册分量,根据第一注册分量确定第一声纹模型,第二注册分量确定第二声纹模型。
在一些实现中,手机保存第一声纹模型和第二声纹模型,手机还可以向无线耳机发送第一声纹模型和第二声纹模型,使得无线耳机存储第一声纹模型和第二声纹模型。
示例性的,针对用户首次使用voice ID功能。用户佩戴无线耳机,用户发出“电子支付”的语音信号。无线耳机采集到该语音信号,并向手机发送该语音信号。如果手机中并未存储无线耳机采集的声纹信息,手机可以显示提示信息,以提示佩戴无线耳机的用户进行声纹注册。
例如,手机显示第一界面,第一界面包括提示信息。该提示信息可以为“检测到您还未通过无线耳机注册声纹信息,请确认是否现在通过无线耳机注册声纹信息”,第一界面还可以包括确定选项和取消选项。如果手机接收到用户对确定选项的点击操作,手机显示声纹注册页面。
另外,第一界面上的提示信息还可以为“检测到您还未通过无线耳机注册声纹信息,请前往设置中voice ID注册声纹信息”。这样,用户可以点击手机中的设置,并找到voice ID,并按照voice ID提示的注册步骤完成声纹注册。
可以理解的,当用户通过无线耳机在手机上进行声纹注册时,用户根据手机提示发出语音信号。无线耳机采集用户发出的语音信号,并向手机发送该语音信号,以完成声纹注册。具体声纹注册的过程此处不与赘述。
在一些实现中,用户通过手机注册声纹信息,手机可以显示验证信息,以验证当前佩戴无线耳机的用户的身份。例如,验证信息可以是请求用户输入解锁密码。又或者,手机中存储有第一用户的面容ID,验证信息可以是提醒用户正在采集面容信息。其中,该验证信息可以是手机的解锁方式对应的解锁密码。
步骤403:无线耳机采集到第一语音信号,并向手机发送第一语音信号。
可以理解的,第一语音信号是佩戴无线耳机的用户发出的,第一语音信号包括第一语音分量和第二语音分量。其中,无线耳机采集到第一语音信号后,将第一语音分量和第二语音分量发送到手机。
步骤404:手机接收到来自无线耳机的第一语音信号,采用第一认证方式识别第一语音信号,若确定第一语音信号是第一用户发出的,响应第一语音信号。
其中,第一语音信号包括第一语音分量和第二语音分量。
采用第一认证方式识别包括:手机获取到第一语音信号后,分别提取第一语音分量和第二语音分量中的音频特征,将第一语音分量的音频特征与预设的第一声纹模型进行匹配,将第二语音分量的音频特征与预设的第二声纹模型进行匹配。其中,通过预设匹配算法得到第一声纹模型与第一语音分量的第一匹配度,以及得到第二声纹模型与第二语音分量的第二匹配度。第一匹配度和第二匹配度的融合值为第一语音信号的匹配度,如果第一语音信号的匹配度大于预设第一预设阈值,可以确定第一语音信号是第一用户发出的,手机响应于第一语音信号执行对应的操作。其中,第一匹配度和第二匹配度的融合值可以采用数学方法计算得到的数值,如,融合值是第一匹配度和第二匹配度的线性加权值。
示例性的,第一语音信号为“电子支付”,并且,采用第一认证方式的情况下,手机确定第一语音信号是第一用户发出的。响应于第一语音信号,手机运行华为钱包,并解锁显示华为钱包中电子支付的界面。
步骤405:响应于解锁手机的操作,手机处于安全唤醒状态。
其中,解锁手机的方式包括密码解锁、指纹解锁和面容解锁等。
可以理解的,当手机与无线耳机建立通信连接之后,无线耳机可以采集用户发出的语音信号,并向手机发送该语音信号。手机接收到语音信号之后,采用第一认证方式识别该语音信号,确定语音信号是第一用户发出的,响应该语音信号。值得注意的是,在手机运行的过程中,如果手机处于锁屏状态时,手机依然可以接收到无线耳机发送的语音信号,并采用第一认证方式识别该语音信号。
其中,以手机的解锁方式是密码解锁为例。手机接收到用户输入的解锁密码,该解锁密码就是正确的解锁密码,则响应于解锁手机的操作,手机处于安全唤醒状态(即后续提到的voice ID特征状态位2)。
具体来说,本申请实施例提到的安全唤醒状态,用于表征手机被第一用户使用了,且被正确解锁,手机处于安全使用状态。此处手机处于安全唤醒状态时,手机可以是亮屏也可以是灭屏。在一些实现中,手机被解锁之后,还可以再次被锁屏,此时,手机依然处于安全唤醒状态。
步骤406:无线耳机采集到第二语音信号,并向手机发送第二语音信号。
可以理解的,步骤406的执行与上述步骤403相同,此处不与赘述。即第二语音信号包括第一语音分量和第二语音分量。
步骤407:手机接收到来自无线耳机的第二语音信号,采用第二认证方式识别第二语音信号,若确定第二语音信号是第一用户发出的,响应第二语音信号。
第二语音信号包括第一语音分量和第二语音分量。采用第二认证方式包括:手机获取到第二语音信号,通过预设匹配算法得到第二语音信号的第一声纹模型与第一语音分量的第一匹配度,以及得到第二声纹模型与第二语音分量的第二匹配度。第一匹配度和第二匹配度的融合值(融合值可以是两者的线性加权值或者其他)为第二语音信号与注册预设声纹模型最终匹配度,如果第二语音信号的匹配度大于预设第二预设阈值,可以确定第二语音信号是第一用户发出的,手机响应于第二语音信号执行对应的操作。
另一些实现中,在采用第二认证方式时,手机还可以计算接受到的耳机传送的语音信号的信噪比差异,根据信噪比变化以及信号底噪的差异选择不同的第一语音分量和第二语音分量比例并修正对应门限阈值。
另一些实现中,在采用第二认证方式时,手机还可以调整声纹对比方式。如,融合不同比例的第一语音分量和第二语音分量的得分或者调整相关参数实现更宽松的认证方式。
其中,第一预设阈值大于第二预设阈值。也就是说,相比于第二认证方式,第一认证方式中的阈值的匹配方式更严格。由于手机是接收到解锁手机的操作,手机处于安全唤醒状态。手机可以认为当前佩戴无线耳机的用户大概率是第一用户,采用第二认证方式验证第二语音信号,包括降低声纹匹配值,使得第一用户的声纹信号易于被识别。
示例性的,第一预设阈值为90%,手机接收到来自无线耳机的第一语音信号,将第一语音信号与预设的无线耳机对应的声纹模型进行匹配。如果第一语音信号的声纹与无线耳机对应的声纹模型的匹配度为95%,可以说明第一语音信号是第一用户发出的,手机响应于第一语音信号。如果第一语音信号的声纹与无线耳机对应的声纹模型的匹配度小于90%,可以说明第一语音信号不是第一用户发出的,手机不必响应第一语音信号。
其中,第一预设阈值大于第二预设阈值,如,第一预设阈值为90%,第二预设阈值可以设置为80%。当手机处于第二认证方式时,计算手机接收到的语音信号与存储的对应声纹模型的匹配度时,匹配度大于80%,手机可以确定该语音信号是第一用户发出的。
可以理解的,如图5所示,为手机切换第一认证方式和第二认证方式的过程示意图。如图5所示,手机包括voice ID特性状态位0、voice ID特性状态位1和voice ID特性状态位2。其中,voice ID特性状态位0表示手机未与无线耳机建立连接,未使用无线耳机对应的声纹信息;voice ID特性状态位1表示手机与无线耳机建立连接,采用第一认证方式验证语音信号;voice ID特性状态位2表示手机与无线耳机建立连接,且佩戴无线耳机的用户用其他方式解锁了手机,手机响应于解锁操作,此时手机处于安全唤醒状态,采用第二认证方式验证voiceid特性中语音信号的声纹信息。
请参考图6,为手机切换认证方式的框图。如图6所示,手机与无线耳机建立通讯连接,且无线耳机向手机发送当前状态信息,手机采用第一认证方式处理语音信号。手机响应于解锁操作,处于唤醒状态,则手机采用第二认证方式处理语音信号。
具体地说,在手机与无线耳机建立通信连接之前,手机处于voice ID特性状态位0。当无线耳机第一次与手机建立通信连接时,手机处于特性状态位0。手机和无线耳机的蓝牙均处于开启状态,手机显示蓝牙扫描界面,手机的蓝牙扫描界面上包括无线耳机的蓝牙链接标识。响应于用户对无线耳机的蓝牙链接标识的选择操作,手机与无线耳机建立通信连接。
其中,对于已经在手机上完成注册的无线耳机,手机与无线耳机建立通信连接之后,手机处于voice ID特性状态位1。手机中存储有无线耳机对应的声纹信息。无线耳机采集到无线耳机的佩戴者发出的语音信号(譬如第一语音信号),采用第一认证方式识别第一语音信号。假设此时手机被第一用户解锁过,响应于解锁手机的操作,手机处于安全唤醒状态,对于注册过voiceid的手机和耳机也就是处于voice ID特性状态位2。手机收集到耳机传送的第二语音信号后,voiceid声纹采用第二认证方式识别第二语音信号。
需要说明的是,无线耳机中设置状态检测传感器,状态检测传感器可以向手机发送无线耳机当前的状态数据。如果手机接收到无线耳机当前的状态发生改变,可以重置认证解锁方式为第一认证方式。
值得一提的是,无线耳机中的左耳机和右耳机可以单独使用,左耳机和右耳机中均设置状态检测传感器,每个耳机都可以将状态检测传感器的数据传输至手机,使得手机可以确定每个耳机当前的状态。
此外,无线蓝牙耳机的左、右耳在使用过程中也有主、次耳区分,有一种情况本专利只需要考虑主耳传送的数据时,专利强调的是保证主耳的安全连接,即在使用主耳传送数据时保证voiceid的状态位改变符合设计的安全规则。
示例性的,状态检测传感器可以检测出无线耳机当前的状态,包括是否被用户穿戴。无线耳机与手机建立通信后,无线耳机可以向手机发送无线耳机当前的状态。如,无线耳机当前的状态为,无线耳机被用户穿戴;无线耳机并未被用户穿戴。在一些实现中,无线耳机包括左耳机和右耳机,且两个耳机之间并未通过电线连接,使得两个耳机可以分开使用。这种无线耳机的当前的状态可以包括:左耳机被用户穿戴,右耳机未被用户穿戴(未被使用);左耳机未被用户穿戴(未被使用),右耳机被用户穿戴;左耳机被用户1穿戴,右耳机被用户2穿戴或者反之;左耳机和右耳机均被用户1穿戴等;左耳机和右耳机均未被穿戴等。
本申请实施例中,无线耳机与手机通过蓝牙建立通信后,如果无线耳机的状态检测传感器检测到当前的状态是被用户穿戴,无线耳机向手机发送当前的状态。手机根据获取到的无线耳机的当前的状态,和用户发出的语音信号,选择对应的验证方式实现对无线耳机用户身份的认证,以此提供用户语音信号对应的关键词服务并解锁手机。
请参考图7,为本申请实施例提供的无线耳机穿戴状态,与voicied特性状态位切换图示。例如,以用户仅穿戴左耳机为例。左耳机的状态检测传感器向手机发送当前状态信息,当前状态信息指示左耳机被摘下,也就是说,左耳机由被用户穿戴的状态变化为未被用户穿戴的状态。在这种情况下,voicied特性状态位变为0,重新戴上之后,手机变更voiceid声纹认证策略为第一认证方式(若之前没有变更到第二认证方式则不必变更),可以有效保证手机的安全性。
在第一种情况下,无线耳机包括左耳机和右耳机,无线耳机中的左耳机和右耳机均被穿戴,当然左耳机和右耳机可以被不同用户穿戴(但有一个耳机是主耳给手机发送voiceid关键词语音信号数据),此时对应连接的已经注册过voiceid声纹手机处于voiceid特性状态位为1。
如果手机接收到解锁操作,且手机被解锁,则手机处于安全唤醒状态(即voiceid特性状态位为2)。如果手机没有接收到解锁操作,或者,手机没有被正确解锁,则手机处于voiceid特性状态位为1。
进一步可以理解的,无线耳机的两只均被用户佩戴,且手机被正确解锁,处于安全唤醒状态。这样,手机处于voiceid特性状态位2。当手机存在主耳机和副耳机,如果用户摘下两只耳机中的一只,手机可能依据当前使用的耳机改变状态位。如,用户摘下的耳机是副耳机,则手机的voiceid特性状态位为1。如,用户摘下的耳机是主耳机,则手机的voiceid特性状态位为0。具体过程可以参考图7所示的双耳佩戴无线耳机的图示部分。
上述描述了根据佩戴状态和主副耳信息得到的状态机转移示图,实现了状态遍历闭环,因此可以实现保证安全情况下的认证方式的变更,提升用户体验性能。
需要补充的,另外一些情况下终端设备能够通过蓝牙连接获知耳机目前距离终端的距离,本专利也将这个信息引入:当蓝牙耳机距离手机终端距离超过一定范围之后,我们会变更认证方式为1,保证更强的安全性,因为终端手机等设备一般在用户的视野范围之内,当超出视野距离之后则风险变大所以变更状态位保证更安全使用。
当有任一耳机(如,左耳机)的状态检测传感器确定穿戴状态发生改变,左耳机向手机发送当前状态,则手机可以确定当前只有右耳机被用户穿戴。
如果手机接收到左耳机被用户摘下,经过一段时间又再次被穿戴的信息,则手机要验证左耳机和右耳机是否被一个用户穿戴。
在第二种情况中,以一只无线耳机被用户佩戴为例,且无线耳机包括主耳机和副耳机。如,主耳机被用户佩戴,且当前voiceid特性状态位为1。
如果手机没有被解锁过,则保持voiceid特性状态位为1。其中,如果主耳机也被用户摘下,即用户没有佩戴任何一只耳机,则voiceid特性状态位为0。如果另一只耳机(即副耳机,此时曾经的副耳机变成了新的主耳机)又再次被佩戴,保持voiceid特性状态位为1。
如果手机被解锁,处于安全唤醒状态,则voiceid特性状态位为2。其中,如果另一只耳机(即副耳机)又再次被佩戴,保持voiceid特性状态位为2。如果另一只耳机(即副耳机)又再次被佩戴,但是,主从耳机发生切换。主耳机被切换为副耳机,副耳机被切换为主耳机,则调整voiceid特性状态位为1。如果两只耳机均被摘下,则voiceid特性状态位为0。
以上是以电子设备是手机为例说明本申请实施例提供的方法,当电子设备为其他设备时,也可以采用上述的方法。此处不予赘述。
可以理解的是,本申请实施例提供的电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对上述电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请实施例还提供一种芯片系统,如图8所示,该芯片系统包括至少一个处理器801和至少一个接口电路802。处理器801和接口电路802可通过线路互联。例如,接口电路802可用于从其它装置(例如电子设备的存储器)接收信号。又例如,接口电路802可用于向其它装置(例如处理器801)发送信号。示例性的,接口电路802可读取存储器中存储的指令,并将该指令发送给处理器801。当所述指令被处理器801执行时,可使得电子设备执行上述实施例中的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机存储介质,该计算机存储介质包括计算机指令,当所述计算机指令在上述电子设备上运行时,使得该电子设备执行上述方法实施例中手机执行的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述方法实施例中手机执行的各个功能或者步骤。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种语音控制方法,其特征在于,应用于电子设备,所述方法包括:
接收第一语音信号;
确定所述电子设备当前的状态;
若所述电子设备当前处于锁定状态,采用第一方式识别所述第一语音信号对应的用户;
若所述电子设备当前处于解锁状态,采用第二方式识别所述第一语音信号对应的用户。
2.根据权利要求1所述的方法,其特征在于,所述电子设备预设第一声纹模型;
所述采用第一方式识别所述第一语音信号对应的用户,包括:
提取所述第一语音信号的音频特征;
将所述第一语音信号的音频特征与所述第一声纹模型进行匹配,得到第一匹配值,所述第一匹配值用于表征所述第一语音信号与所述第一声纹模型的匹配程度;
若所述第一匹配值大于第一预设阈值,确定所述第一语音信号是第一用户发出的。
3.根据权利要求2所述的方法,其特征在于,
所述采用第二方式识别所述第一语音信号对应的用户,包括:
提取所述第一语音信号的音频特征;
所述第一语音信号的音频特征与所述第一声纹模型进行匹配,得到第一匹配值,所述第一匹配值用于表征所述第二语音信号与所述第一声纹模型的匹配程度;
若所述第一匹配值大于第二预设阈值,确定所述第一语音信号是第一用户发出的;
其中,所述第二预设阈值小于所述第一预设阈值。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述电子设备接收第一语音信号之前,所述方法还包括:
所述电子设备显示提示信息,所述提示信息用于提示佩戴无线耳机的用户进行声纹注册;
所述无线耳机采集到注册声音信号,并向所述电子设备发送所述注册声音信号;
所述电子设备接收到所述注册声音信号,并根据所述注册声音信号生成第一声纹模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述电子设备与无线耳机建立通讯连接,所述无线耳机包括第一耳机和第二耳机,所述第一耳机是主耳机,所述第二耳机是副耳机;
所述接收第一语音信号之前,所述方法还包括:
所述电子设备接收到所述第一状态信息和所述第二状态信息,所述第一状态信息指示所述第一耳机被佩戴,所述第二状态信息指示所述第二耳机被佩戴;
所述确定所述电子设备当前的状态之后,所述方法还包括:
如果所述电子设备接收到第三状态信息,所述第三状态信息指示所述第一耳机未被佩戴,所述第二耳机切换为主耳机,所述电子设备从解锁状态切换为锁定状态;
如果所述电子设备接收到第三状态信息,所述第三状态信息指示所述第二耳机未被佩戴,所述电子设备保持解锁状态或锁定状态。
6.根据权利要求5所述的方法,其特征在于,所述如果所述电子设备接收到第三状态信息,所述第三状态信息指示所述第一耳机未被佩戴,所述第二耳机切换为主耳机,所述电子设备从解锁状态切换为锁定状态之后,所述方法还包括:
如果电子设备接收到第四状态信息,所述第四状态信息指示所述第一耳机被佩戴,所述第一耳机为副耳机,所述电子设备保持锁定状态。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述电子设备与无线耳机建立通讯连接,所述无线耳机包括第一耳机和第二耳机,所述第一耳机是主耳机,所述第二耳机是副耳机;
所述接收第一语音信号之前,所述方法还包括:
所述电子设备接收到所述第一状态信息和所述第二状态信息,所述第一状态信息指示所述第一耳机被佩戴,所述第二状态信息指示所述第二耳机被佩戴;
所述电子设备当前处于解锁状态,采用第二方式识别所述第一语音信号对应的用户之后,所述方法还包括:
所述电子设备接收到来自无线耳机的切换信息,所述切换信息指示所述第一耳机是副耳机,所述第二耳机是主耳机;
响应于所述切换信息,所述电子设备从解锁状态切换为锁定状态。
8.根据权利要求1-7任一项所述的方法,其特征在于,
解锁所述电子设备的操作包括:指纹解锁、密码解锁和面容解锁。
9.一种电子设备,其特征在于,所述电子设备包括存储器和至少一个的处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器执行所述计算机指令时,使所述电子设备执行如权利要求1-8任一项所述的方法。
10.一种芯片系统,其特征在于,所述芯片系统应用于包括触摸屏的电子设备;所述芯片系统包括一个或多个接口电路和一个或多个处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行所述计算机指令时,所述电子设备执行如权利要求1-8中任一项所述的方法。
11.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-8任一项所述的方法。
CN202110603577.1A 2021-05-31 2021-05-31 一种语音控制方法及电子设备 Pending CN115484347A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110603577.1A CN115484347A (zh) 2021-05-31 2021-05-31 一种语音控制方法及电子设备
PCT/CN2022/088052 WO2022252858A1 (zh) 2021-05-31 2022-04-21 一种语音控制方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110603577.1A CN115484347A (zh) 2021-05-31 2021-05-31 一种语音控制方法及电子设备

Publications (1)

Publication Number Publication Date
CN115484347A true CN115484347A (zh) 2022-12-16

Family

ID=84322753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110603577.1A Pending CN115484347A (zh) 2021-05-31 2021-05-31 一种语音控制方法及电子设备

Country Status (2)

Country Link
CN (1) CN115484347A (zh)
WO (1) WO2022252858A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735217A (zh) * 2018-06-19 2018-11-02 Oppo广东移动通信有限公司 电子设备控制方法、装置、存储介质及电子设备
CN109753777A (zh) * 2018-12-29 2019-05-14 上海瑾盛通信科技有限公司 一种身份识别方法、装置、存储介质及移动终端
CN112420035A (zh) * 2018-06-29 2021-02-26 华为技术有限公司 一种语音控制方法、可穿戴设备及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102488001B1 (ko) * 2018-01-22 2023-01-13 삼성전자주식회사 오디오 신호를 이용하여 사용자를 인증하는 전자 장치 및 그 방법
CN109243445A (zh) * 2018-09-30 2019-01-18 Oppo广东移动通信有限公司 语音控制方法、装置、电子设备以及存储介质
CN111131601B (zh) * 2018-10-31 2021-08-27 华为技术有限公司 一种音频控制方法、电子设备、芯片及计算机存储介质
CN109979438A (zh) * 2019-04-04 2019-07-05 Oppo广东移动通信有限公司 语音唤醒方法及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735217A (zh) * 2018-06-19 2018-11-02 Oppo广东移动通信有限公司 电子设备控制方法、装置、存储介质及电子设备
CN112420035A (zh) * 2018-06-29 2021-02-26 华为技术有限公司 一种语音控制方法、可穿戴设备及终端
CN109753777A (zh) * 2018-12-29 2019-05-14 上海瑾盛通信科技有限公司 一种身份识别方法、装置、存储介质及移动终端

Also Published As

Publication number Publication date
WO2022252858A1 (zh) 2022-12-08

Similar Documents

Publication Publication Date Title
CN112289313A (zh) 一种语音控制方法、电子设备及系统
WO2020037795A1 (zh) 一种语音识别方法、可穿戴设备及电子设备
CN111742361B (zh) 一种终端更新语音助手的唤醒语音的方法及终端
CN112868244A (zh) 一种点对多点的数据传输方法及设备
CN111131601B (zh) 一种音频控制方法、电子设备、芯片及计算机存储介质
WO2021017988A1 (zh) 一种多模态身份识别方法及设备
US20240013789A1 (en) Voice control method and apparatus
US20230091607A1 (en) Psychoacoustics-based audio encoding method and apparatus
CN113830026A (zh) 一种设备控制方法及计算机可读存储介质
CN113504887A (zh) 一种音量设置方法及电子设备
CN113225661A (zh) 扬声器识别方法、装置和电子设备
WO2022213689A1 (zh) 一种音频设备间语音互通的方法及设备
CN113645622B (zh) 设备鉴权方法、电子设备以及存储介质
CN113438364B (zh) 振动调节方法、电子设备、存储介质
CN111065020A (zh) 音频数据处理的方法和装置
US20230239800A1 (en) Voice Wake-Up Method, Electronic Device, Wearable Device, and System
CN111949960A (zh) 数据分享方法、电子设备和系统
WO2023124248A1 (zh) 声纹识别方法和装置
WO2022252858A1 (zh) 一种语音控制方法及电子设备
CN115665632A (zh) 音频电路、相关装置和控制方法
CN114120987B (zh) 一种语音唤醒方法、电子设备及芯片系统
WO2020034104A1 (zh) 一种语音识别方法、可穿戴设备及系统
CN114267323A (zh) 一种用于聋哑人的语音助听ar眼镜及其通信交流方法
CN115731923A (zh) 命令词响应方法、控制设备及装置
CN116261124A (zh) 数据传输方法、装置、电子设备和智能终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination