CN117953872A - 语音唤醒模型更新方法、存储介质、程序产品及设备 - Google Patents
语音唤醒模型更新方法、存储介质、程序产品及设备 Download PDFInfo
- Publication number
- CN117953872A CN117953872A CN202211281004.2A CN202211281004A CN117953872A CN 117953872 A CN117953872 A CN 117953872A CN 202211281004 A CN202211281004 A CN 202211281004A CN 117953872 A CN117953872 A CN 117953872A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- wake
- user
- voiceprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000003993 interaction Effects 0.000 claims abstract description 53
- 238000012795 verification Methods 0.000 claims abstract description 49
- 230000004044 response Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 71
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002618 waking effect Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000007726 management method Methods 0.000 description 25
- 238000012549 training Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 238000010295 mobile communication Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本申请提出一种语音唤醒模型更新方法、存储介质、程序产品及设备,涉及人工智能(artificial interlligence,AI)领域,应用于语音助手,该方法可以应用于语音助手也可以应用于电子设备,该方法包括获取包括唤醒词的第一语音数据,其中唤醒词是预先设置的用于唤醒语音交互功能的词;将第一语音数据输入至语音唤醒模型,以输出唤醒结果;在根据唤醒结果确定第一语音数据的声纹校验失败后,响应于根据非语音指令启动语音交互功能,获取第一数据与第二语音数据;响应于第一数据与预存的第二数据匹配,将第二语音数据用于更新语音唤醒模型,其中,预存的第二数据用于指示目标用户的身份信息。
Description
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种语音唤醒模型更新方法、存储介质、程序产品及设备。
背景技术
目前,用户可以使用语音唤醒安装在电子设备上的语音助手应用程序,以为用户提供语音交互功能。例如,用户为语音助手设置的唤醒词(wake word)为“小艺,小艺”,电子设备实时监听外界的声音,当监听到用户输入包括唤醒词“小艺,小艺”的语音数据时,电子设备启动语音助手。然,经常存在用户使用唤醒词唤醒语音助手却唤醒失败的情形。
发明内容
本申请实施例公开了一种语音唤醒模型更新方法、存储介质、程序产品及设备,可以在用户无感知下更新唤醒模型,提高对用户声纹识别的能力,提升用户使用体验。
第一方面,本申请实施例提供一种语音唤醒模更新方法,应用于具备语音交互功能的电子设备,该语音唤醒模更新方法包括:获取包括唤醒词的第一语音数据,其中唤醒词是预先设置的用于唤醒语音交互功能的词;将第一语音数据输入至语音唤醒模型,以输出唤醒结果;在根据唤醒结果确定第一语音数据的声纹校验失败后,响应于根据非语音指令启动语音交互功能,获取第一数据与第二语音数据;响应于第一数据与预存的第二数据匹配,将第二语音数据用于更新语音唤醒模型,其中,预存的第二数据用于指示目标用户的身份信息。
在本申请实施例中,根据唤醒结果确定第一语音数据的声纹校验失败后,响应于根据非语音指令启动语音交互功能,获取用户的语音数据以及可用于指示用户身份的相关数据(第一数据),在根据相关数据确认用户身份为目标用户后,根据用户的语音数据更新语音唤醒模型。由此无需用户到注册唤醒词界面重新操作注册流程来更新语音唤醒模型,实现在用户无感知情况下,将用户的语音数据用于更新训练语音唤醒模型,以提高语音唤醒率和唤醒体验。
在一种可能实现方式中,根据唤醒结果确定第一语音数据的声纹校验失败包括:当唤醒结果为失败时,检测到第一语音数据通过语音识别校验,且第一声纹置信度小于第一预设值,确定第一语音数据的声纹校验失败,其中第一声纹置信度用于指示第一语音数据的声纹与目标用户的声纹的声学特征相似度。
语音唤醒模型包括声纹校验,若第一声纹置信度小于第一预设值,也即第一语音数据的声纹校验未通过。确定与第一语音数据的声纹校验未通过,获取语音数据同时获取能证明用户身份的第一数据,在根据第一数据验证符合目标用户时,则说明所获得的语音数为目标用户,将目标用户的语音数据用于更新训练语音唤醒模型,以提高语音唤醒率和唤醒体验。
在一种可能实现方式中,当唤醒结果为失败时,检测到第一语音数据通过语音识别校验,且第一声纹置信度小于第一预设值,确定第一语音数据的声纹校验失败还包括:当唤醒结果为失败时,检测到第一语音数据通过语音识别校验,第一声纹置信度小于第一预设值且大于第二预设值时,确定第一语音数据的声纹校验失败,其中第二预设值小于第一预设值。在第一声纹置信度大于第二预设值时,即说明第一语音数据的声纹与目标用户的声纹的声学特征相似度达到一定阈值,可以较大可能保证该第一语音数据来自目标用户。
在一种可能实现方式中,将第二语音数据用于更新语音唤醒模型包括:当第一声纹置信度大于第三预设值时,将第一语音数据与第二语音数据用于更新语音唤醒模型,其中第三预设值大于第二预设值。在第一声纹置信度大于第二预设值时,即说明第一语音数据的声纹与目标用户的声纹的声学特征相似度达到一定阈值,可以保证该第一语音数据来自目标用户,则可以将第一语音数据以及第二语音数据同时用于更新训练语音唤醒模型,以提高语音唤醒率和唤醒体验。
在一种可能实现方式中,响应于根据非语音指令启动语音交互功能,获取第一数据与第二语音数据包括:响应于在预设时间内根据非语音指令启动语音交互功能,获取第二语音数据;当获取第二语音数据或执行第二语音数据对应的指令时,获取第一数据。
在预设时间内根据非语音指令启动语音交互功能,用户会向电子设备输入语音数据,获取用户所输入的第二语音数据。在获得第二语音数据或执行第二语音数据对应的指令时,获取第一数据。将获得的第一数据与预存的第二数据进行匹配,以在第一数据与预存的第二数据匹配时,可以将第二语音数据用于更新训练语音唤醒模型,以提高语音唤醒率和唤醒体验。
在一种可能实现方式中,该语音唤醒模型更新方法还包括:响应于获得第一数据或执行完成第二语音数据对应的指令,将第一数据与第二数据进行匹配。
在一种可能实现方式中,该语音唤醒模型更新方法还包括:响应于语音唤醒功能的开关处于开启状态,将第一数据与第二数据进行匹配。响应于语音唤醒功能的开关处于开启状态,确保用户后续还会继续使用语音唤醒功能,则将第一数据与第二数据进行匹配才有意义,以在第一数据与预存的第二数据匹配时,可以将第二语音数据用于更新训练语音唤醒模型,以提高语音唤醒率和唤醒体验。
在一种可能实现方式中,第一数据包括以下项中的至少一项:指纹数据、人脸数据、声纹数据、密码字符串、手势以及可信设备信息。可以理解,电子设备获取第一数据的时机可以为在注册唤醒词时,也可以为用户日常使用电子设备时,如用户设置手势密码解锁屏幕等。
在一种可能实现方式中,该语音唤醒模型更新方法还包括:显示第一用户界面,其中第一用户界面包括用于输入唤醒词的第一输入控件和用于输入第二数据的第二输入控件;响应于用户对第一输入控件的操作,获取唤醒词。响应于用户对第二输入控件的操作,获取第二数据。
第二方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质包含用于执行根据如上述的语音唤醒模型更新方法的计算机可执行指令。
第三方面,本申请实施例提供一种包含指令的计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如上述语音唤醒模型更新方法。
第四方面,本申请实施例提供一种电子设备,包括:至少一个存储器,用于存储程序;和至少一个处理器,用于执行存储器存储的程序,当程序被处理器执行时,以使得电子设备执行如上述的语音唤醒模型更新方法。
上述其他方面对应的有益效果,可以参见关于方法方面的有益效果的描述,此处不予赘述。
附图说明
图1为本申请实施例提供的一种语音唤醒模型更新系统结构示意图。
图2为本申请实施例提供的一种电子设备与服务器交互示意图。
图3为本申请实施例提供的一种语音唤醒模型更新方法的流程示意图。
图4A至图4F为本申请实施例提供的一种获取唤醒词与第二数据的场景示意图。
图5为本申请实施例提供的一种确定第一语音数据声纹校验失败的示意图。
图6为本申请实施例提供的一种对第一数据与第二数据匹配方法的流程示意图。
图7为本申请实施例提供的一种触发更新语音唤醒模型的示意图。
图8为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请实施例中,“示例性地”、“例如”或“在一些示例中”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”、“例如”或“在一些示例中”等词旨在以具体方式呈现相关概念。
如上述,用户输入了预设的唤醒词却唤醒失败,影响用户的使用体验。发明人在实施本申请时发现唤醒失败的原因是唤醒校验不通过,例如声纹校验不通过,由此降低语音唤醒成功率。现有技术中,电子设备在注册唤醒词界面获取用户录制的语音,将获得的语音输入至语音唤醒模型进行训练,得到训练完成的语音唤醒模型。后续电子设备使用此训练完成的语音唤醒模型实现语音唤醒功能。然,注册唤醒词时用户提供给语音唤醒模型的语音样本较少,导致训练完成的语音唤醒模型的声纹校验不稳定,后续使用过程中该语音唤醒模型的声纹校验容易存在误差。电子设备中已经训练完成的语音唤醒模型一般不会重新训练,除非用户到注册唤醒词界面重新操作注册流程,否则不会更新语音唤醒模型。
鉴于此,本申请提供一种语音唤醒模型更新方法以及相关设备,针对语音唤醒失败的场景,响应于在预设时间内用户通过非语音唤醒方式使用语音助手,获取用户的语音数据以及可用于指示用户身份的相关数据(第一数据),在根据相关数据确认用户身份为目标用户后,则可以根据目标用户的语音数据更新语音唤醒模型。由此无需用户到注册唤醒词界面重新操作注册流程来更新语音唤醒模型,实现在用户无感知情况下,根据用户的语音数据进行语音唤醒模型训练,以提高语音唤醒率和唤醒体验。
请参阅图1,示例性介绍本申请实施例提供的一种语音唤醒模型更新系统的架构。
如图1所示,该语音唤醒模型更新系统100包括电子设备10和服务器20。
在本实施例中,电子设备10可以为便携式计算机(如手机)、笔记本电脑、个人计算机(personal computer,PC)、可穿戴电子设备(如智能手表)、平板电脑、智能家居设备、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)终端(例如智能机器人)、车载电脑等具备语音交互功能的电子设备,以下实施例对电子设备的具体形式不做特殊限制。
其中,电子设备10具备语音交互功能,例如电子设备10安装了可提供语音交互功能的语音助手(例如Siri、小爱同学、小E等)应用程序。用户30唤醒语音助手,以此实现用户30与电子设备10的语音交互。
本申请实施例中涉及的“语音助手”,又可以称之为“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”等。“语音助手”可以理解为一种信息处理系统,其可以识别语音形式和/或文本形式的自然语言输入来推断用户意图并且基于推断出的用户意图来执行相应的动作。该系统可以通过可听(例如,语音)和/或可视形式来输出对用户30的输入的响应。
请一并参阅图2,电子设备10或语音助手至少可以包括数据采集装置11、语音唤醒装置12、语音交互装置13以及更新判断装置14。
其中,数据采集装置11用于采集语音数据、第一数据以及使用记录等。其中第一数据包括可验证用户身份的生物特征数据以及可信持有物(即用户的其他可信设备),示例性地第一数据包括以下项中的至少一项:指纹数据、人脸数据、声纹数据、密码字符串、手势以及可信设备信息。其中,使用记录包括电子设备10语音唤醒功能的开关的状态信息(开启或关闭)、唤醒失败的记录、唤醒失败的时间、使用语音交互功能的过程中用户30所输入的密码字符串是否成功解锁、使用语音交互功能的过程中用户30所输入的手势是否成功解锁、使用语音交互功能的过程中用户30所输入的指纹数据是否成功解锁等。
示例性地,搭载语音助手的电子设备10可将麦克风设置为常开状态(always on),进而,电子设备10可通过麦克风实时检测用户30输入的语音数据,如检测到包括第一语音数据。又例如,在语音唤醒失败(即用户30的第一语音数据输入至语音唤醒模型后,语音唤醒模型输出唤醒结果为失败)后,检测到用户30使用非语音方式启动语音助手,数据采集装置11可以启动摄像头获取人脸数据,或获取用户30输入的指纹数据、第二语音数据(包括声纹数据)、密码字符串、手势等。
语音唤醒装置12可用于识别包括唤醒词信息的语音数据(如第一语音数据)。语音唤醒装置12可以由数字信号处理器(Digital Signal Processor,DSP)实现。具体地,语音唤醒装置12中可存储有语音唤醒模型,语音唤醒装置12用于监听周围环境的语音,将监听到的语音输入语音唤醒模型进行校验,校验通过时,唤醒语音助手,输出唤醒结果为成功,发出触发启动语音交互装置13的触发信号。校验不通过时,输出唤醒结果为失败。
在一些实施例中,语音唤醒装置12可以通过判断采集的语音数据是否包括预设唤醒词、以及对该语音数据进行声纹识别以判断是否为目标用户发出的语音这两种条件来确定是否要唤醒语音助手。若确定唤醒语音助手,则触发语音助手应用程序从休眠状态中被唤醒并作出响应。也即语言唤醒模型可以包括语音识别校验以及声纹校验。
示例性地,在进行语音识别校验时,语音唤醒模型对上述包括唤醒词信息的语音数据进行语音识别。例如,可将包括唤醒词信息的语音数据转化为电子设备10可以理解的文本,如字符序列或者二进制码,以判断该语音数据中是否包括预设的唤醒词。若语音识别判断该语音数据包括唤醒词,则语音识别校验通过,若否,语音识别校验未通过。
示例性地,在进行声纹校验时,通过在上述包括唤醒词信息的语音数据中提取出声纹特征,语音唤醒模型将提取出的声纹特征与用户30注册唤醒词时所录入的语音的声纹特征进行比对,若上述包括唤醒词信息的语音数据的声纹置信度大于或等于第一预设值,即该提取出的声纹特征与目标用户的声纹特征相似度达到一定阈值,可认为该包括唤醒词信息的语音数据为目标用户(即注册唤醒词的用户)输出的语音。若上述包括唤醒词信息的语音数据的声纹置信度小于第一预设值,即该提取出的声纹特征与目标用户的声纹特征相似度未达到一定阈值,可认为该包括唤醒词信息的语音数据不是目标用户输出的语音。
需要说明的,包括唤醒词信息的语音数据可以为一段语音数据(也可称为音频数据),该段语音数据可以为仅包括包含唤醒词信息的语音数据,也可以包括除唤醒词之外的一些其它内容的语音数据,本申请不做具体限定。示例性地,可以是用户30对着电子设备说包含唤醒词信息的语音数据,语音唤醒装置12接收到该段语音数据后,可以从接收到的语音数据中提取出唤醒词。
需要进一步说明的是,语音唤醒模型可以是预先训练的得到的。示例性地,可以是基于隐马尔马可夫模型-高斯混合模型(hidden markov models-gaussian mixturemodel,HMM-GMM)的keyword/filler模式,即首先获取包含唤醒词信息的语音的梅尔频谱倒谱系数(mel frequency cepstral coefficients,MFCC)特征,然后通过MFCC特征训练得到对应的HMM-GMM模型。通过该方式效率较高、且识别的误差较少。在另一种可能的实现方式中,可以是基于深度神经网络,比如深度神经网络(deep neural network,DNN)和循环神经网络(recurrent neural network,RNN)等,通过标注包含唤醒词信息的语音数据直接训练语音唤醒模型。语音唤醒模型为现有成熟技术,在此不再赘述。
其中,语音交互装置13可以由应用处理器(Application Processor,简称AP)实现。语音交互装置13还可以由中央处理器(Central Process Unit,简称CPU)实现。语音交互装置13用于在接收到语音唤醒装置12发送的触发信号后,启动并监听语音数据,识别语音唤醒装置12缓存的语音,得到识别结果。
语音交互装置13可以包括语音识别(automatic speech recognition,ASR)模块131、自然语言理解(Natural language understanding,NLU)模块132以及对话管理(Dialog Management,DM)模块133。
在一些实施例中,语音交互装置13还可以包括前端处理模块(图未示),前端处理模块用于将用户输入的语音数据,处理为后级算法所需的数据格式,如音频特征向量,供语音识别模块131使用。
语音识别模块131用于获取前端处理模块处理得到的音频特征向量,并将音频特征向量转换为文本,供自然语言理解模块132进行理解。
语音识别模块131,用于识别并输出文本识别结果。如语音识别模块131使用一个或多个语音识别模型来处理前端处理模块所提取的音频特征向量以产生中间识别结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串、或符号序列)。其中语音识别模型对音频特征向量的处理为现有成熟技术,在此不再赘述。
自然语言理解模块132用于将用户语音指令对应的文本或符号序列进行语义识别,得到语义信息。即将用户语音对应的文本或符号序列转换为结构化信息,其中结构化信息包括技能、机器可执行的意图信息和可识别的槽位信息。自然语言理解模块132其目的是通过语法、语义和语用的分析,获取用户所输入的自然语言的语义表示。
具体地,自然语言理解模块132可以将用户语音对应的文本或符号序列进行技能分类、意图分类以及槽位提取。一般情况下,语音助手可以集成有多个具体的技能,语音助手可以维护一个技能清单,技能清单包括多个技能,每个技能对应着一种类型的服务或者功能,例如:订餐服务、打车服务、查询天气等。每个技能下可以配置有一个或多个意图。例如“天气查询”技能下可以配置有:问答意图“查天气”。每个意图下可以配置有一个或多个槽位。例如问答意图“查天气”可以配置有时间槽位和城市槽位。其中,自然语言理解模块132中将用户语音对应的文本或符号序列进行技能分类、意图分类以及槽位提取为现有成熟技术,在此不再赘述。
对话管理模块133用于根据自然语言理解模块132输出的语义信息以及对话状态,输出下一步的动作,如包括判断应接入服务/平台、采取的反馈操作或回复的应答信息。
具体地,对话管理模块133根据自然语言理解模块132输出的语义,获得对应语音指令的任务,然后对接业务平台以完成任务;或者,对话管理模块133根据语音指令对应的任务需要的信息,要求用户进一步输入更多的信息;或者,对话管理模块133获取语音指令所请求的信息返回给用户。其中,对话管理模块133输出的不同技能可以对接不同的业务平台,例如语义信息为听歌,则可以对接音乐播放平台,语义信息为看视频,则可以对接视频播放平台。其中对话管理模块133接入服务/平台、采取的反馈操作为现有成熟技术,在此不再赘述。
更新判断装置14用于在语音唤醒模型输出的唤醒结果为失败时,判断是否更新语音唤醒模型。
具体地,语音唤醒装置12输出唤醒结果至更新判断装置14,更新判断装置14在唤醒结果为失败时,判断是否为声纹校验失败,若否,结束判断流程,若是,更新判断装置14判断是否在声纹校验失败后的预设时间内根据非语音指令启动语音交互功能。若否,结束判断流程。若是,即电子设备10在声纹校验失败后的预设时间内,根据非语音指令启动语音交互功能,更新判断装置14判断获取的第一数据与第二数据是否匹配,若否,更新判断装置14判断不更新唤醒语音唤醒模型,若是,更新判断装置14判断更新语音唤醒模型,电子设备10将采集的语音数据(第一语音数据、第二语音数据)用于更新语音唤醒模型。
在一些实施例中,更新判断装置14检测到在唤醒结果为失败时,通过非语音方式使用语音助手的功能,更新判断装置14判断满足以下条件时,更新语音唤醒模型。
第一、用户注册过语音唤醒且语音唤醒功能的开关开启。
第二、唤醒结果为失败的语音数据通过语音识别校验,未通过声纹校验,即唤醒失败的语音数据通过语音唤醒模型的语音识别校验,确认该语音数据包括唤醒词,但是未通过语音唤醒模型的声纹校验(即该语音数据的声纹置信度小于第一预设值)。该语音数据的声纹置信度大于第二预设置。其中第一预设值为通过声纹校验的阈值。第二预设值例如为>=基准值*80%,其中基准值可以为100%。若语音数据的声纹置信度大于第二预设置,也即该语音数据的声纹为目标用户的可能性比较大。
第三、检测到在唤醒结果为失败后的预设时间内通过非语音方式使用语音助手的功能,其中预设时间可以为5秒、10秒等,本申请对此不作具体限定。
第四、成功执行完通过非语音方式使用语音助手所采集到的语音数据(第二语音数据)对应的指令。
第五、采集到的第一数据与预存的第二数据匹配。
在一些实施例中,更新判断装置14判断语音唤醒失败的原因为声纹校验不通过,但该语音数据的声纹置信度大于第三预设值时,根据第一语音数据与第二语音数据更新语音唤醒模型,其中第三预设值大于第二预设值,声纹置信度大于第三预设值也即该语音数据为目标用户发出的可能性更大。
第一数据与预存的第二数据进行匹配可以为进行人脸数据对比、进行声纹数据对比、进行指纹数据对比、进行密码字符串对比、进行手势对比以及进行设备信息对比等,如采集的人脸数据与预存的人脸数据进行对比,采集的设备信息与可信设备信息对比等。
第一数据与预存的第二数据匹配也即上述对比的对比结果为通过。
以目标用户为语音唤醒注册时的一个用户为例,如下表1。
表1
数据类型 | 比对结果 |
人脸数据 | 通过 |
人脸数据+声纹数据 | 通过 |
可信设备信息+声纹数据 | 通过 |
指纹数据+声纹数据 | 通过 |
密码字符串+声纹数据 | 通过 |
手势+声纹数据 | 通过 |
以目标用户为电子设备系统中存储的两个或两个以上的用户为例,如下表2。
表2
数据类型 | 对比结果 |
人脸数据 | 通过 |
可信设备信息+声纹数据 | 通过 |
指纹数据 | 通过 |
密码字符串 | 通过 |
手势 | 通过 |
表1中,预存的第二数据为目标用户在注册语音唤醒时所采集到的可验证用户身份的数据。表2中,预存的第二数据可以为电子设备10中存储的数据,例如用户在登录电子设备诶10的账号(如华为账户)时所采集到的人脸数据、指纹数据、手势、密码字符串等。可信设备信息为同一账户的电子设备的设备标识。
可以理解,上述第一至第五个条件仅是示例,更新判断装置14可以在上述条件均符合时更新语音唤醒模型,也可以仅在部分条件符合时更新语音唤醒模型,例如仅第二、第三以及第五符合时,更新语音唤醒模型。上述条件可以变更为其他条件。上述表1和表2仅是示例,具体可以根据实际情况设定,本申请对此不作具体限定。
在本实施例中,服务器20可以为电子设备10提供数据支持、计算服务以及一些管理服务。在本实施例中,并不限定服务器20的实现形态,例如服务器20可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中,服务器设备的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类型。服务器20可以包含一台网站服务器,也可以包含多台网站服务器。
在本申请实施例中,服务器20可以包括模型训练装置21,电子设备10将采集的语音数据上传至模型训练装置21,模型训练装置21用于训练更新语音唤醒模型。
其中模型训练装置21根据获得电子设备10上传的语音数据,提取出该语音数据的声纹样本,将提取出的声纹样本与历史声纹样本进行对比、训练声纹样本、追加该新提取出的声纹样本,将旧的声纹样本替换为该新提取出的声纹样本。模型训练装置21为现有成熟技术,在此不再赘述。
在一些实施例中,服务器20可以实现为边缘计算设备系统或各种终端计算设备,例如:笔记本电脑、个人台式电脑等。模型训练装置21也可以运行在边缘计算设备系统(包括至少一个边缘计算设备,例如:服务器、台式电脑等),也可以运行在各种终端计算设备上,例如:笔记本电脑、个人台式电脑等。
在本实施例中,电子设备10与服务器20通过无线或有线建立通信连接。可选地,电子设备10可以采用WIFI、蓝牙、红外等通信方式与服务器20建立通信连接,或者,电子设备10也可以通过移动网络与服务器20建立通信连接。其中,移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax和5G等中的任意一种。
在本实施例中,用户30向电子设备10输入语音数据,电子设备10将接收到的语音数据输入至语音唤醒模型唤醒语音助手。在唤醒失败时,也即语音助手未启动,用户30使用非语音方式启动语音助手。电子设备10检测到唤醒失败后的预设时间内通过非语音指令启动语音助手(语音交互功能),电子设备10获取启动语音交互功能后所接收到的语音数据(第二语音数据),将接收到的语音数据上传至服务器30,服务器30根据语音数据对电子设备20当前使用的语音唤醒模型进行训练,获得为用户提供语音唤醒功能的新的语音唤醒模型;服务器20将新的语音唤醒模型下发至电子设备10,电子设备10利用新的语音唤醒模型更新当前使用的语音唤醒模型。以此实现用户30无感知下更新语音唤醒模型。再次利用用户30自身的语音数据对语音唤醒模型进行训练,从而获得与用户适配的新的语音唤醒模型,用户30使用与自己适配的语音唤醒模型,有利于提高模型运算结果的精度。
请参阅图3,为本申请实施例提供的一种语音唤醒模型更新方法流程。该方法可以应用于电子设备。
步骤S31,电子设备获取包括唤醒词的第一语音数据,其中唤醒词是预先设置的用于唤醒语音交互功能的词。
在本申请实施例中,电子设备具备语音交互功能,电子设备上安装可提供语音交互功能的语音助手。电子设备在息屏、锁屏状态下,电子设备处于待机状态,在此状态下电子设备中的采音设备(如麦克风)和语音唤醒装置保持开启。当用户发出语音时,麦克风采集用户发出的声音(第一语音数据),并且将声音信号转换成电子信号。麦克风将转换得到的电子信号发送给语音唤醒装置,由语音唤醒装置对电子语音信号进行处理。
在用户使用唤醒词唤醒语音助手前,用户可先获得该语音助手对应的唤醒词。
示例性地,以电子设备为手机为例,用户可以点击手机的设置图标(图未示),手机响应于用户点击设置图标的操作,进入如图4A所示的用户界面410(即系统设置界面)。用户界面410包括唤醒设置控件401。用户界面410还可以包括多个用于其他功能的设置选项,例如登录账号、移动网络、声音和振动等。用户点击唤醒设置控件401,手机响应于用户对唤醒设置控件401的操作,显示如图4B所示的用户界面420(即唤醒设置界面),用户界面420包括语音唤醒控件421,该语音唤醒控件421用于配置该电子设备的语音唤醒功能的开启(ON)或关闭(OFF)。用户界面420还可以包括添加身份数据(即第二数据)控件422,添加身份数据控件422用于供用户输入第二数据,即指示其身份信息的数据。
可以理解,也可以通过其他方式进入唤醒设置界面,本申请对此不作具体限定。
如图4B,用户点击语语音唤醒控件421,手机响应于用户对语音唤醒控件421的操作,显示如图4C所示的用户界面430,用户界面430中包括虚拟按钮431,手机响应于用户将虚拟按钮431设置ON,即开启手机的语音唤醒功能的开关,启动手机的语音唤醒功能。手机响应于用户将虚拟按钮431设置OFF,即关闭手机的语音唤醒功能的开关,关闭手机的语音唤醒功能。
在用户初次使用该语音唤醒功能时,手机将提示用户录入唤醒词。手机响应于用户初次开启语音唤醒功能,显示如图4D所示用户界面440,用户界面440显示唤醒词,唤醒词可以包括预先设置好的唤醒词“小艺小艺”以及由用户自定义的唤醒词。用户点击控件441,则选择预先设置好的唤醒词“小艺小艺”,用户点击自定义控件442,则供用户自行输入自定义唤醒词。
如图4D所示,用户点击控件441,手机响应于用户点击控件441,显示如图4E所示的用户界面450,用户界面450包括提示框451以及控件452,提示框451用于提示用户录入三次语音“小艺小艺”,用户按住控件452以输入语音“小艺小艺”。手机接收到用户录入的语音,手机根据用户录入的语音获取用户的声纹特征数据,并存储该声纹特征数据,该声纹特征数据也即第二数据。手机可以将用户录入的语音输入至语音唤醒模型进行训练,训练完成的语音唤醒模型用于后续语音唤醒。
在本申请实施例中,用户可以点击图4B的添加身份数据控件422,手机响应于用户点击身份数据控件422,显示如图4F所示的用户界面460,用户界面460包括添加人脸控件461、添加指纹控件462、设置密码控件463、添加手势控件464以及添加可信设备控件465。用户点击上述相应控件后,即可以添加对应的可用于指示用户身份的第二数据。
例如,用户点击添加人脸控件461,则手机可以调用摄像头采集用户的人脸,并保存所采集的人脸数据为目标用户的人脸数据。相应地,用户点击添加指纹控件462,则手机可以调用传感器采集用户的指纹,并保存所采集的指纹为目标用户的指纹数据。相应地,用户点击设置密码控件463,如检测到用户输入的密码与预先存储的用户解锁手机屏幕的锁屏密码匹配,则手机保存所采集的密码字符串。若在后续检测到用户输入的密码能解锁屏幕,可证明该用户为目标用户。相应地,用户点击添加手势控件464,如检测到用户输入的手势与预先存储的用户解锁手机屏幕的手势密码匹配,则手机保存所采集的手势数据。若在后续检测到用户输入的手势能解锁屏幕,可证明该用户为目标用户。相应地,用户点击添加可信设备控件465,手机响应于用户点击添加可信设备控件465,手机可以获取同一个用户账号下所有电子设备的设备标识,或同一个网络下与手机备所连接的所有电子设备的设备标识,将获得的设备标识保存为可信设备信息,以在后续搜索到的其他电子设备的设备标识与该可信设备信息匹配,则可认为该用户为目标用户。其中,手机可以访问远端或云端的服务器或其他电子设备以获取其他电子设备的设备标识,可以访问本端的内部存储器以获取上述设备标识,也可以访问外部存储器接口以获取上述设备标识,对此不作具体限制。
在本申请实施例中,电子设备可以显示第一用户界面,该第一用户界面包括用于输入唤醒词的第一输入控件(如控件441和自定义控件442)和用于输入第二数据的第二输入控件(如人脸控件461、添加指纹控件462、设置密码控件463、添加手势控件464以及添加可信设备控件465),电子设备响应于用户对第一输入控件输入的操作,获取所输入的唤醒词。电子设备响应于用户对第二输入控件的操作,获取第二数据。
可以理解,用户可以对上述人脸控件461、添加指纹控件462、设置密码控件463、添加手势控件464以及添加可信设备控件465均进行操作,也可以仅对部分控件进行操作,也即用户输入的第二数据可以包括以下项中的至少一项:指纹数据、人脸数据、声纹数据、密码字符串、手势以及可信设备信息。
可以理解,第一输入控件和第二输入控件可以同时显示在同一用户界面如第一用户界面,也可以分别显示在不同用户界面,如分别显示在上述用户界面440和460,本申请对此不作具体限定。
在一些实施例中,第二数据可以如上述为用户在进行唤醒词注册时采集的。在另一些实施例中,第二数据可以为系统预存的,例如上述的手势数据、指纹数据以及密码字符串可以为用户在使用电子设备时就存储的数据。后续电子设备检测到用户输入的手势数据、指纹数据以及密码字符串能解锁屏幕或解锁相关的应用,也能证明用户的身份。
在本申请实施例中,电子设备可以不通过第二输入控件获取第二数据,电子设备可以直接获取预存在本机的可指示用户身份的数据,例如,获取手机解锁屏幕的密码字符串、手势等,以在后续检测到用户能解锁屏幕时,认为该用户即为目标用户。目标用户即电子设备存储的第二数据所指示的用户,例如可以为机主。若电子设备存储有多个用户的数据,则该多个用户均为目标用户。如存储了用户A和用户B的人脸数据,用户A和用户B均可以解锁手机屏幕,则用户A和用户B均为目标用户。
步骤S32,电子设备将第一语音数据输入至语音唤醒模型,以输出唤醒结果。
在本申请实施例中,电子设备上的语音唤醒装置存储有语音唤醒模型,语音唤醒装置通过语音唤醒模型对采集到的语音数据进行校验,校验通过时,唤醒结果为成功,唤醒语音助手,校验不通过时,唤醒结果为失败。
上述语音唤醒装置用于对语音信号处理以实现语音唤醒。其中,语音唤醒装置具体可以通过硬件或者硬件和计算机软件的结合形式来实现。在一种可能的方式中,语音唤醒装置可以基于处理器运行。当电子设备待机时,处理器保持低功耗运行模式,如保持睡眠模式。在该模式下语音唤醒装置保持开启,并在检测到满足唤醒要求的语音信号时向处理器发送唤醒信号。在另一种可能的方式中,处理器包括控制器和语音处理器,语音处理器例如可以是DSP。当电子设备处于待机状态时,控制器保持低功耗模式,语音唤醒装置在语音处理器中保持开启。当语音唤醒装置检测到满足唤醒要求的语音信号时,如识别出预设的唤醒词,且该语音信号的声纹与预先存储的声纹数据匹配,向控制器发送唤醒信号,启动语音助手,电子设备启动语音交互功能进入工作状态。当电子设备的语音交互功能处于工作状态时,电子设备在接收到用户输入的语音信号后,可通过语音识别算法识别该语音信号中的语义内容,从而响应该语音信号实现对应的功能。
如上述示例,用户设置唤醒词为“小艺小艺”,用户向手机输入包括唤醒词“小艺小艺”的第一语音数据。手机的采音设备采集到第一语音数据,将第一语音数据传输给语音唤醒装置。语音唤醒装置通过语音唤醒模型对第一语音数据进行校验,输出唤醒结果。语音唤醒装置可以通过判断第一语音数据是否包括预设唤醒词,以及对该第一语音数据进行声纹识别的结果输出唤醒结果。若该第一语音数据包括预设唤醒词且该第一语音数据与预存的声纹一致,则唤醒结果为成功。若该第一语音数据包括预设唤醒词但该第一语音数据的声纹与预存的声纹(即注册唤醒词所录入的声纹)不一致,或者,若该第一语音数据不包括预设唤醒词,或,若该第一语音数据不包括预设唤醒词且该第一语音数据的声纹与预存的声纹不一致,输出唤醒结果为失败。
步骤S33,在根据唤醒结果确定声纹校验失败后,电子设备响应于根据非语音指令启动语音交互功能,获取第一数据与第二语音数据。
在本申请实施例中,在唤醒结果为成功时,结束流程。
在本申请实施例中,电子设备根据唤醒结果确定声纹校验失败包括:当唤醒结果为失败时,电子设备检测到第一语音数据通过语音识别校验,且第一声纹置信度小于第一预设值,确定第一语音数据的声纹校验失败,其中第一声纹置信度用于指示第一语音数据的声纹与目标用户的声纹的声学特征相似度。其中第一预设值为声纹校验通过的阈值,第一声纹的声纹置信度小于第一预设值,即判定该第一声纹与预存的目标用户的声纹不一致。目标用户的声纹可以为用户在注册唤醒词时所录入的语音数据中所提取出的声纹,如图4E中用户录入“小艺小艺”的语音数据中所提取出的声纹。
在一些实施例中,若语音助手支持多个用户录入唤醒词,则该目标用户的数量可以包括多个。
在另一些实施例中,当唤醒结果为失败时,电子设备检测到第一语音数据通过语音识别校验,第一声纹置信度小于第一预设值且大于第二预设值时,确定第一语音数据的声纹校验失败,其中第二预设值小于第一预设值,其中第二预设值用于保证第一语音数据为目标用户的可能性。第一预设值、第二预设值的具体取值根据实际情况确定,对此不作具体限定。
请一并参阅图5,用户使用第一语音数据进行语音唤醒,语音唤醒模型对该第一语音数据进行校验,输出唤醒结果。电子设备的更新判断装置分析唤醒结果为失败还是成功,若唤醒结果为成功,则结束流程。若唤醒结果为失败,更新判断装置判断第一语音数据进行语音识别校验是否成功,若失败,则判断第一语音数据为误唤醒,结束流程。也即用户可能并非想要唤醒语音助手,该第一语音数据未包括唤醒词。若成功,更新判断装置判断第一声纹置信度是否大于第二预设值,若否,也即该第一语音数据可能并非是用户输入的语音,结束流程。若是,更新判断装置启动数据采集装置采集数据,采集并保存唤醒失败的记录、时间和相关的数据,其中相关数据例如包括第一语音数据的第一声纹置信度。
请一并参阅图6,步骤响应于根据非语音指令启动语音交互功能,获取第一数据与第二语音数据具体可以包括:
步骤S61:电子设备响应于在预设时间内根据非语音指令启动语音交互功能,获取第二语音数据。
在本申请实施例中,电子设备的采音设备可以实时获得外界的声音,电子设备响应于确定第一语音数据的声纹校验失败后的预设时间内,检测到根据非语音指令启动语音交互功能,电子设备获得第二语音数据,该第二语音数据为确定第一语音数据的声纹校验失败后的预设时间内电子设备所采集到的语音数据。
其中,根据非语音指令启动语音交互功能即语音助手并非是根据语音指令启动的,而是根据除了语音指令之外的其他指令启动。非语音指令例如可以为以预设方式按压电源键所对应的指令、点击语音助手(如小艺应用程序)的图标所对的指令或以预设方式启动蓝牙耳机的功能键所对的指令等,本申请对此不作具体限定。
步骤S62:当获取第二语音数据或执行第二语音数据对应的指令时,电子设备获取第一数据。
在本申请实施例中,电子设备获得第二语音数据时或在电子设备执行第二语音数据对应的指令时,电子设备同时获取第一数据。
示例性地,电子设备响应于在预设时间内根据非语音指令启动语音交互功能,电子设备可以启动摄像头采集用户的人脸数据进而获得第一数据。又例如,第二语音数据对应的指令为打开银行应用程序,若该银行应用程序的启动需要用户输入指纹,获取用户输入的指纹数据进而获得第一数据。又例如,电子设备可以响应于在预设时间内根据非语音指令启动语音交互功能,搜索到附近设备的设备标识,判断搜索到的设备标识是否为可信设备的设备标识,若是,则获得可信设备信息(可信设备标识)。
可以理解,电子设备获取第一数据的方式包括但不限于上述,本申请对此不作具体限定。
步骤S63:电子设备响应于获得第一数据或执行完成第二语音数据对应的指令,将第一数据与预存的第二数据进行匹配。
在本申请实施例中,电子设备可以在获得第一数据时就将第一数据与预存的第二数据进行匹配,如电子设备获得人脸数据,电子设备就将获得的人脸数据与预存的人脸数据(可以为在注册唤醒时采集的人脸数据也可以为系统中预存的机主的人脸数据)进行匹配。
在另一实施例中,电子设备可以在执行完第二语音数据对应的指令后,确定该第二语音数据是能正确被执行的,也即该第二语音数据的语音质量有所保证,再将第一数据与预存的第二数据进行匹配。
在一些实施例中,步骤S63还可以为:响应于语音唤醒功能的开关处于开启状态,将第一数据与预存的第二数据进行匹配。
在本申请实施例中,电子设备响应于语音唤醒功能的开关处于开启状态,也即确定用户后续还会继续使用语音唤醒功能,为此将第一数据与预存的第二数据进行匹配,以确定是否进行语音唤醒模型更新才有意义。
步骤S34,电子设备响应于第一数据与预存的第二数据匹配,将第二语音数据用于更新语音唤醒模型,其中,预存的第二数据用于指示目标用户的身份信息。
在本申请实施例中,第一数据与预存的第二数据匹配,也即当前采集到的第二语音数据出自目标用户的可能性很大,为此电子设备的更新判断装置响应于第一数据与预存的第二数据匹配,将第二语音数据用于更新语音唤醒模型,也即更新判断装置确定将第二语音数据上传至模型训练装置,使得模型训练装置根据第二语音数据更新语音唤醒模型。
在一些实施例中,若模型训练装置安装于电子设备上,电子设备可以响应于第一数据与预存的第二数据匹配,根据第二语音数据更新语音唤醒模型。
具体地,请一并参阅图7,在第一语音数据的声纹校验失败后,在预设时间内,用户以预设方式对电源键进行操作、或对语音助手图标进行操作或以预设方式对蓝牙耳机的功能键进行操作,电子设备响应于用户的操作,启动语音助手。在启动语音助手后,用户向电子设备输入第二语音数据。电子设备采集用户的第二语音数据。以语音交互装置的部分功能部署至语音助手的云服务器,将第二语音数据上传至语音助手云服务器,由语音助手云服务器中的语音交互装置的部分功能对第二语音数据进行识别,确定第二语音数据对应的指令,部署在电子设备上的对话管理模块执行第二语音数据对应的指令,同时数据采集装置记录使用记录,例如所输入的密码字符串是否成功解锁、使用语音交互功能的过程中所输入的手势是否成功解锁、使用语音交互功能的过程中所输入的指纹数据是否成功解锁。在执行完第二语音数据对应的指令后,触发更新判断装置判断是否更新语音唤醒模型。更新判断装置判断开启了语音唤醒功能的开关、存在二级语音唤醒失败的记录(也即上述第一语音数据的声纹校验失败)、存在可信设备以及根据数据采集装置所采集的使用记录中指纹采集比对通过、人脸采集比对通过、用户输入的密码解锁确定更新语音唤醒模型。电子设备将第一语音数据以及其语音识别结果、第二语音数据及其语音识别结果上传至模型训练装置。模型训练装置对接收到的第一语音数据以及其语音识别结果、第二语音数据及其语音识别结果进行处理,获取第一语音数据以及第二语音数据中的声纹数据,并将获得的声纹数据用于训练更新语音唤醒模型。如将提取出的声纹样本与历史声纹样本进行对比、训练声纹样本、追加该新提取出的声纹样本,将旧的声纹样本替换为该新提取出的声纹样本等。模型训练装置再将重新训练好的语音唤醒模型下发至电子设备。
在本申请实施例中,在语音唤醒失败时,检测到在预设时间内通过非语音指令启动语音交互功能,获取启动语音交互功能后的语音数据,将获得语音数据用于更新语音唤醒模型,实现在用户无感知情况下,根据用户的语音数据进行语音唤醒模型训练,以提高语音唤醒率和唤醒体验。
示例性的,图8示出了电子设备的结构示意图。
电子设备10可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备10的具体限定。在本申请另一些实施例中,电子设备10可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
在本申请实施例中,DSP可以实时监测语音数据,当DSP监测到的语音数据与电子设备中注册的唤醒词的相似度满足预设条件时,便可以将该语音数据交给AP。由AP对上述语音数据进行文本校验和声纹校验。当AP确定该语音数据与用户注册的唤醒词匹配时,电子设备便可以开启语音助手。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备10的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141可接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。
电源管理模块141可用于监测电池容量,电池循环次数,电池充电电压,电池放电电压,电池健康状态(例如漏电,阻抗)等性能参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备10的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备10中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备10上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括一个或多个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备10上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成一个或多个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备10的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备10可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备10通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。在一些实施例中,电子设备10可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备10可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。在一些实施例中,手机100可以包括1个或N个摄像头,N为大于1的正整数。摄像头193可以是前置摄像头也可以是后置摄像头。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备10的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备10的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储一个或多个计算机程序,该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令,从而使得电子设备10执行本申请一些实施例中所提供的语音交互的方法,以及各种功能应用和数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统;该存储程序区还可以存储一个或多个应用程序(比如语音识别、图库、联系人等)等。存储数据区可存储电子设备使用过程中所创建的数据等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。在另一些实施例中,处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,来使得电子设备10执行本申请实施例中所提供的语音交互的方法,以及各种功能应用和数据处理。
电子设备10可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备10可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备10接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备10可以设置一个或多个麦克风170C。在另一些实施例中,电子设备10可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备10还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。
传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等,本申请实施例对此不做任何限制。
当然,本申请实施例提供的电子设备10还可以包括按键190、马达191、指示器192以及SIM卡接口195等一项或多项器件,本申请实施例对此不做任何限制。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质包含用于执行上述任一的语音唤醒模型更新方法的计算机可执行指令。
本申请实施例提供一种包含指令的计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如上任一的语音唤醒模型更新方法。
本申请实施例提供一种电子设备,包括:至少一个存储器,用于存储程序;和至少一个处理器,用于执行存储器存储的程序,当程序被处理器执行时,以使得电子设备执行如上任一的语音唤醒模型更新方法。
虽然已经示出并描述了本发明构思的一些示例实施例,但是本领域普通技术人员之一将理解,在不脱离由所附权利要求限定的精神和范围的情况下,可对其作出各种形式和细节上的修改。因此,以上公开的主题内容应该理解为示出性而非限制性的,并且所附权利要求旨在覆盖落入本发明构思的实质精神和范围内的所有这种修改、改进和其它实施例。因此,在法律允许的最大程度内,通过对所附权利要求及其等同物的允许的最宽解释确定本发明构思的范围,并且范围不应由以上具体实施方式限制或局限。
上述各个附图对应的流程的描述各有侧重,某个流程中没有详述的部分,可以参见其他流程的相关描述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。实现车牌号码识别的计算机程序产品包括一个或多个进行车牌号码识别的计算机指令,在计算机上加载和执行这些计算机程序指令时,全部或部分地产生按照本申请实施例图3的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(digital subscriber line,DSL))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(digital versatile disc,DVD))、或者半导体介质(例如:固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种语音唤醒模型更新方法,应用于具备语音交互功能的电子设备,其特征在于,所述方法包括:
获取包括唤醒词的第一语音数据,其中所述唤醒词是预先设置的用于唤醒所述语音交互功能的词;
将所述第一语音数据输入至语音唤醒模型,以输出唤醒结果;
在根据所述唤醒结果确定所述第一语音数据的声纹校验失败后,响应于根据非语音指令启动所述语音交互功能,获取第一数据与第二语音数据;
响应于所述第一数据与预存的第二数据匹配,将所述第二语音数据用于更新所述语音唤醒模型,其中,所述预存的第二数据用于指示目标用户的身份信息。
2.根据权利要求1所述的语音唤醒模型更新方法,其特征在于,所述根据所述唤醒结果确定所述第一语音数据的声纹校验失败包括:
当所述唤醒结果为失败时,检测到所述第一语音数据通过语音识别校验,且第一声纹置信度小于第一预设值,确定所述第一语音数据的所述声纹校验失败,其中所述第一声纹置信度用于指示所述第一语音数据的声纹与所述目标用户的声纹的声学特征相似度。
3.根据权利要求2所述的语音唤醒模型更新方法,其特征在于,所述当所述唤醒结果为失败时,检测到所述第一语音数据通过语音识别校验,且第一声纹置信度小于第一预设值,确定所述第一语音数据的所述声纹校验失败还包括:
当所述唤醒结果为失败时,检测到所述第一语音数据通过语音识别校验,所述第一声纹置信度小于第一预设值且大于第二预设值时,确定所述第一语音数据的所述声纹校验失败,其中所述第二预设值小于所述第一预设值。
4.根据权利要求3所述的语音唤醒模型更新方法,其特征在于,所述将所述第二语音数据用于更新所述语音唤醒模型包括:
当所述第一声纹置信度大于第三预设值时,将所述第一语音数据与所述第二语音数据用于更新所述语音唤醒模型,其中所述第三预设值大于所述第二预设值。
5.根据权利要求1至4任一项所述的语音唤醒模型更新方法,其特征在于,所述响应于根据非语音指令启动所述语音交互功能,获取第一数据与第二语音数据包括:
响应于在预设时间内根据非语音指令启动所述语音交互功能,获取所述第二语音数据;
当获取所述第二语音数据或执行所述第二语音数据对应的指令时,获取所述第一数据。
6.根据权利要求5所述的语音唤醒模型更新方法,其特征在于,所述方法还包括:
响应于获得所述第一数据或执行完成所述第二语音数据对应的指令,将所述第一数据与所述第二数据进行匹配。
7.根据权利要求1至6任一项所述的语音唤醒模型更新方法,其特征在于,所述方法还包括:
响应于语音唤醒功能的开关处于开启状态,将所述第一数据与所述第二数据进行匹配。
8.根据权利要求1至7任一项所述的语音唤醒模型更新方法,其特征在于,所述第一数据包括以下项中的至少一项:
指纹数据、人脸数据、声纹数据、密码字符串、手势以及可信设备信息。
9.根据权利要求1至8任一项所述的语音唤醒模型更新方法,其特征在于,所述方法还包括:
显示第一用户界面,其中所述第一用户界面包括用于输入所述唤醒词的第一输入控件和用于输入所述第二数据的第二输入控件;
响应于用户对所述第一输入控件的操作,获取所述唤醒词;
响应于用户对所述第二输入控件的操作,获取所述第二数据。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包含用于执行根据权利要求1至9中任一项所述的语音唤醒模型更新方法的计算机可执行指令。
11.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如权利要求1至9中任一项所述的语音唤醒模型更新方法。
12.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储程序;和
至少一个处理器,用于执行所述存储器存储的程序,当所述程序被所述处理器执行时,以使得所述电子设备执行如权利要求1至9任一所述的语音唤醒模型更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211281004.2A CN117953872A (zh) | 2022-10-19 | 2022-10-19 | 语音唤醒模型更新方法、存储介质、程序产品及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211281004.2A CN117953872A (zh) | 2022-10-19 | 2022-10-19 | 语音唤醒模型更新方法、存储介质、程序产品及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117953872A true CN117953872A (zh) | 2024-04-30 |
Family
ID=90802259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211281004.2A Pending CN117953872A (zh) | 2022-10-19 | 2022-10-19 | 语音唤醒模型更新方法、存储介质、程序产品及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953872A (zh) |
-
2022
- 2022-10-19 CN CN202211281004.2A patent/CN117953872A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
WO2022033556A1 (zh) | 电子设备及其语音识别方法和介质 | |
WO2020088483A1 (zh) | 一种音频控制方法及电子设备 | |
WO2020073248A1 (zh) | 一种人机交互的方法及电子设备 | |
US11626104B2 (en) | User speech profile management | |
CN115312068B (zh) | 语音控制方法、设备及存储介质 | |
WO2014173325A1 (zh) | 喉音识别方法及装置 | |
CN115881118B (zh) | 一种语音交互方法及相关电子设备 | |
WO2023040658A1 (zh) | 语音交互方法及电子设备 | |
EP4293664A1 (en) | Voiceprint recognition method, graphical interface, and electronic device | |
WO2023124248A1 (zh) | 声纹识别方法和装置 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
CN117953872A (zh) | 语音唤醒模型更新方法、存储介质、程序产品及设备 | |
CN114444042A (zh) | 一种电子设备解锁方法和装置 | |
CN114765026A (zh) | 一种语音控制方法、装置及系统 | |
CN112885341A (zh) | 一种语音唤醒方法、装置、电子设备和存储介质 | |
CN115331672B (zh) | 设备控制方法、装置、电子设备及存储介质 | |
WO2022233239A1 (zh) | 一种升级方法、装置及电子设备 | |
CN117153166B (zh) | 语音唤醒方法、设备及存储介质 | |
CN110083392A (zh) | 音频唤醒预录的方法、存储介质、终端及其蓝牙耳机 | |
WO2022199405A1 (zh) | 一种语音控制方法和装置 | |
CN114093357A (zh) | 控制方法、智能终端及可读存储介质 | |
CN117809625A (zh) | 一种终端设备及双模型校验的唤醒方法 | |
CN115691479A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN116665635A (zh) | 语音合成方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |