CN116052692A - 声纹注册方法及电子设备 - Google Patents
声纹注册方法及电子设备 Download PDFInfo
- Publication number
- CN116052692A CN116052692A CN202111266367.4A CN202111266367A CN116052692A CN 116052692 A CN116052692 A CN 116052692A CN 202111266367 A CN202111266367 A CN 202111266367A CN 116052692 A CN116052692 A CN 116052692A
- Authority
- CN
- China
- Prior art keywords
- electronic device
- voice signal
- parameter information
- voiceprint
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 24
- 230000007613 environmental effect Effects 0.000 claims description 21
- 238000013459 approach Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 description 37
- 238000004891 communication Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 238000010295 mobile communication Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000001413 cellular effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了声纹注册方法及电子设备,涉及声纹注册技术领域,可以提高声纹认证的准确性。该方法包括:获取第一语音信号和用于指示第二电子设备采集语音信号的参数的第一参数信息,根据第一参数信息调整所述第一语音信号,得到第二语音信号,根据第二语音信号生成第一声纹模型,根据第一声纹模型对第二电子设备采集的语音信号进行认证,或者向第二电子设备发送第一声纹模型。
Description
技术领域
本申请涉及声纹注册技术领域,尤其涉及声纹注册方法及电子设备。
背景技术
近年来,电子设备的发展极为迅速,多数电子设备都具备了语音交互功能。通过语音交互功能,用户可以与电子设备对话,或者可以使得电子设备执行用户的命令,十分便捷。因此,语音交互功能逐渐成为了电子设备不可或缺的功能。
通常,在用户与电子设备进行语音交互之前,需要进行声纹注册。也就是说,电子设备可以采集用户的语音信号,根据采集的语音信号提取声纹,并进行注册。后续,在用户与电子设备进行语音交互时,电子设备可以根据声纹对用户进行认证。若认证成功,则该用户可以与电子设备进行语音交互。若认证失败,则该用户不能与电子设备进行语音交互。
目前,为了提高语音交互的安全性,对声纹认证的准确性要求越来越高。然而,不同电子设备的硬件存在差异,并且不同电子设备所处的环境也可能相差较大,所以会导致不同电子设备采集的同一用户的语音信号提取出来的声纹也有一定差异。因此,在多个电子设备协同工作的环境中,若一台电子设备采集的语音信号需要其他电子设备来进行认证的情况下,会导致声纹认证的准确性较低。
发明内容
本申请实施例提供声纹注册方法及电子设备,可以提高声纹认证的准确性。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种声纹注册方法,应用于第一电子设备,该方法包括:获取第一语音信号和用于指示第二电子设备采集语音信号的参数的第一参数信息;根据该第一参数信息调整该第一语音信号,得到第二语音信号;根据该第二语音信号生成第一声纹模型,向该第二电子设备发送该第一声纹模型,或者根据该第一声纹模型对该第二电子设备采集的语音信号进行认证。
基于上述第一方面提供的方法,第一电子设备可以获取第一语音信号和第二电子设备对应的第一参数信息,根据第一参数信息调整第一语音信号,得到适用于第二电子设备的第二语音信号(该第二语音信号可以相当于第二电子设备采集的语音信号,也就是说,第一电子设备可以根据第一语音信号和第一参数信息模拟第二电子设备采集的语音信号),并根据第二语音信号生成第一声纹模型。如此,可以实现采集一次语音信号,根据该语音信号模拟出第二电子设备采集的语音信号,根据模拟出的语音信号(即第二语音信号)进行声纹注册。其中,第一电子设备是根据第二电子设备采集语音信号的参数模拟出的第二语音信号,因此,第二语音信号与第二电子设备真实采集的语音信号的相似度非常高,所以根据第二语音信号生成的第一声纹模型对第二电子设备采集的语音信号进行声纹认证,可以提高声纹认证的准确性。
在一种可能的实现方式中,该第一参数信息包括以下至少一项:该第二电子设备的麦克类型、该第二电子设备的采样率、该第二电子设备的编码方式或该第二电子设备所处的环境信息。基于上述方法,可以根据上述至少一种参数调整第一语音信号,得到第二语音信号,提高了调整第一语音信号的灵活性和多样性。
在一种可能的实现方式中,根据该第一参数信息调整第一语音信号,得到第二语音信号,包括:通过第一算法使得该第一语音信号的参数趋近该第一参数信息指示的参数,得到该第二语音信号。基于上述方法,可以使得第一语音信号的参数趋近该第一参数信息指示的参数,从而实现第二语音信号与第二电子设备真实采集的语音信号的相似度较高。
在一种可能的实现方式中,获取第一语音信号,包括:接收来自第三电子设备的该第一语音信号;或者,采集该第一语音信号。基于上述方法,第一电子设备可以从第三电子设备处获得第一语音信号,也可以自己采集第一语音信号。
在一种可能的实现方式中,根据该第一声纹模型对该第二电子设备采集的语音信号进行认证,包括:接收来自该第二电子设备的第二电子设备采集的语音信号;将该第二电子设备采集的语音信号输入该第一声纹模型进行声纹认证。基于上述方法,可以使用第二电子设备对应的第一声纹模型对第二电子设备采集的语音信号进行声纹认证,提高了声纹认证的准确性。
在一种可能的实现方式中,该方法还包括:获取第二参数信息,该第二参数信息用于指示该第一电子设备采集语音信号的参数;根据该第二参数信息调整该第一语音信号,得到第三语音信号;根据该第三语音信号生成第二声纹模型,根据该第二声纹模型对该第一电子设备采集的语音信号进行认证。基于上述方法,第一电子设备可以获取第一电子设备对应的第二参数信息,根据第二参数信息调整第一语音信号,得到适用于第一电子设备的第三语音信号(该第三语音信号可以相当于第一电子设备采集的语音信号,也就是说,第一电子设备可以根据第一语音信号和第二参数信息模拟第一电子设备采集的语音信号),并根据第三语音信号生成第二声纹模型。如此,可以实现采集一次语音信号,根据该语音信号模拟出第一电子设备采集的语音信号,根据模拟出的语音信号(即第三语音信号)进行声纹注册。其中,第一电子设备是根据第一电子设备采集语音信号的参数模拟出的第三语音信号,因此,第三语音信号与第一电子设备真实采集的语音信号的相似度非常高,所以根据第三语音信号生成的第二声纹模型对第一电子设备采集的语音信号进行声纹认证,可以提高声纹认证的准确性。另外,若第一语音信号为第一电子设备采集的,通过第二参数信息调整第一语音信号,可以丰富用于声纹注册的语音信号,进一步提高声纹认证的准确性。
在一种可能的实现方式中,该第二参数信息包括以下至少一项:该第一电子设备的麦克类型、该第一电子设备的采样率、该第一电子设备的编码方式或该第一电子设备所处的环境信息。基于上述方法,可以根据上述至少一种参数调整第一语音信号,得到第三语音信号,提高了调整第一语音信号的灵活性和多样性。
在一种可能的实现方式中,根据该第二参数信息调整第一语音信号,得到第三语音信号,包括:通过第二算法使得该第一语音信号的参数趋近该第二参数信息指示的参数,得到该第三语音信号,第二算法和第一算法相同或不同。基于上述方法,可以使得第一语音信号的参数趋近该第二参数信息指示的参数,从而实现第三语音信号与第一电子设备真实采集的语音信号的相似度较高。
在一种可能的实现方式中,根据该第二声纹模型对该第一电子设备采集的语音信号进行认证,包括:采集语音信号;将该第一电子设备采集的语音信号输入该第二声纹模型进行声纹认证。基于上述方法,可以使用第一电子设备对应的第二声纹模型对第一电子设备采集的语音信号进行声纹认证,提高了声纹认证的准确性。
在一种可能的实现方式中,该方法还包括:获取第三参数信息,该第三参数信息用于指示第四电子设备采集语音信号的参数;根据该第三参数信息调整该第一语音信号,得到第四语音信号;根据该第四语音信号生成第三声纹模型,向该第四电子设备发送该第三声纹模型,或者根据该第三声纹模型对第四电子设备采集的语音信号进行认证。基于上述方法,第一电子设备可以获取第四电子设备对应的第三参数信息,根据第三参数信息调整第一语音信号,得到适用于第四电子设备的第四语音信号(该第四语音信号可以相当于第四电子设备采集的语音信号,也就是说,第一电子设备可以根据第一语音信号和第三参数信息模拟第四电子设备采集的语音信号),并根据第四语音信号生成第三声纹模型。如此,可以实现采集一次语音信号,根据该语音信号模拟出第四电子设备采集的语音信号,根据模拟出的语音信号(即第四语音信号)进行声纹注册。其中,第一电子设备是根据第四电子设备采集语音信号的参数模拟出的第四语音信号,因此,第四语音信号与第四电子设备真实采集的语音信号的相似度非常高,所以根据第四语音信号生成的第三声纹模型对第四电子设备采集的语音信号进行声纹认证,可以提高声纹认证的准确性。
在一种可能的实现方式中,该第三参数信息包括以下至少一项:该第四电子设备的麦克类型、该第四电子设备的采样率、该第四电子设备的编码方式或该第四电子设备所处的环境信息。基于上述方法,可以根据上述至少一种参数调整第一语音信号,得到第四语音信号,提高了调整第一语音信号的灵活性和多样性。
在一种可能的实现方式中,根据该第三参数信息调整第一语音信号,得到第四语音信号,包括:通过第三算法使得该第一语音信号的参数趋近该第三参数信息指示的参数,得到该第四语音信号,第三算法和第一算法相同或不同,第三算法和第二算法相同或不同。基于上述方法,可以使得第一语音信号的参数趋近该第三参数信息指示的参数,从而实现第四语音信号与第四电子设备真实采集的语音信号的相似度较高。
在一种可能的实现方式中,根据该第三声纹模型对该第四电子设备采集的语音信号进行认证,包括:接收来自该第四电子设备的第四电子设备采集的语音信号;将第四电子设备采集的语音信号输入该第三声纹模型进行声纹认证。基于上述方法,可以使用第四电子设备对应的第三声纹模型对第四电子设备采集的语音信号进行声纹认证,提高了声纹认证的准确性。
第二方面,本申请实施例提供一种电子设备,该电子设备包括:获取模块、处理模块和发送模块;获取模块,用于获取第一语音信号和用于指示第二电子设备采集语音信号的参数的第一参数信息;处理模块,用于根据该第一参数信息调整该第一语音信号,得到第二语音信号;处理模块,还用于根据该第二语音信号生成第一声纹模型;发送模块,用于向该第二电子设备发送该第一声纹模型。或者,该电子设备包括:获取模块和处理模块;获取模块,用于获取第一语音信号和用于指示第二电子设备采集语音信号的参数的第一参数信息;处理模块,用于根据该第一参数信息调整该第一语音信号,得到第二语音信号;处理模块,还用于根据该第二语音信号生成第一声纹模型;处理模块,还用于根据该第一声纹模型对该第二电子设备采集的语音信号进行认证。
在一种可能的实现方式中,该第一参数信息包括以下至少一项:该第二电子设备的麦克类型、该第二电子设备的采样率、该第二电子设备的编码方式或该第二电子设备所处的环境信息。
在一种可能的实现方式中,处理模块,具体用于通过第一算法使得该第一语音信号的参数趋近该第一参数信息指示的参数,得到该第二语音信号。
在一种可能的实现方式中,获取模块,具体用于接收来自第三电子设备的该第一语音信号;或者,获取模块,具体用于采集该第一语音信号。
在一种可能的实现方式中,处理模块,具体用于接收来自该第二电子设备的第二电子设备采集的语音信号;处理模块,还具体用于将该第二电子设备采集的语音信号输入该第一声纹模型进行声纹认证。
在一种可能的实现方式中,获取模块,还用于获取第二参数信息,该第二参数信息用于指示该第一电子设备采集语音信号的参数;处理模块,还用于根据该第二参数信息调整该第一语音信号,得到第三语音信号;处理模块,还用于根据该第三语音信号生成第二声纹模型,处理模块,还用于根据该第二声纹模型对该第一电子设备采集的语音信号进行认证。
在一种可能的实现方式中,该第二参数信息包括以下至少一项:该第一电子设备的麦克类型、该第一电子设备的采样率、该第一电子设备的编码方式或该第一电子设备所处的环境信息。
在一种可能的实现方式中,处理模块,具体用于通过第二算法使得该第一语音信号的参数趋近该第二参数信息指示的参数,得到该第三语音信号,第二算法和第一算法相同或不同。
在一种可能的实现方式中,处理模块,具体用于采集语音信号;处理模块,还具体用于将该第一电子设备采集的语音信号输入该第二声纹模型进行声纹认证。
在一种可能的实现方式中,获取模块,还用于获取第三参数信息,该第三参数信息用于指示第四电子设备采集语音信号的参数;处理模块,还用于根据该第三参数信息调整该第一语音信号,得到第四语音信号;处理模块,还用于根据该第四语音信号生成第三声纹模型,发送模块,还用于向该第四电子设备发送该第三声纹模型,或者处理模块,还用于根据该第三声纹模型对第四电子设备采集的语音信号进行认证。
在一种可能的实现方式中,该第三参数信息包括以下至少一项:该第四电子设备的麦克类型、该第四电子设备的采样率、该第四电子设备的编码方式或该第四电子设备所处的环境信息。
在一种可能的实现方式中,处理模块,还用于通过第三算法使得该第一语音信号的参数趋近该第三参数信息指示的参数,得到该第四语音信号,第三算法和第一算法相同或不同,第三算法和第二算法相同或不同。
在一种可能的实现方式中,处理模块,还用于接收来自该第四电子设备的第四电子设备采集的语音信号;处理模块,还用于将第四电子设备采集的语音信号输入该第三声纹模型进行声纹认证。
第三方面,提供了一种电子设备,包括:处理器;该处理器用于与存储器耦合,并读取存储器中的指令之后,根据该指令执行如上述任一方面所述的方法。该电子设备可以为上述第一方面中的第一电子设备。
结合上述第三方面,在一种可能的实现方式中,该电子设备还包括存储器,该存储器,用于保存必要的程序指令和数据。
结合上述第三方面,在一种可能的实现方式中,该电子设备为芯片或芯片系统。可选的,该电子设备是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。
第四方面,提供了一种电子设备,包括:处理器和接口电路;接口电路,用于接收计算机程序或指令并传输至处理器;处理器用于执行所述计算机程序或指令,以使该电子设备执执行如上述第一方面所述的方法。
结合上述第四方面,在一种可能的实现方式中,该电子设备为芯片或芯片系统。可选的,该电子设备是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面所述的方法。
第六方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面所述的方法。
其中,第二方面至第六方面中任一种可能的实现方式所带来的技术效果可参见上述第一方面或第一方面中不同可能的实现方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的声纹注册系统架构示意图;
图2为本申请实施例提供的手机的结构示意图;
图3为本申请实施例提供的声纹注册方法的流程示意图一;
图4为本申请实施例提供的声纹注册方法的流程示意图二;
图5为本申请实施例提供的声纹注册方法的流程示意图三;
图6为本申请实施例提供的一种电子设备的结构组成示意图。
具体实施方式
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接,除非另外说明。
需要说明的是,本申请下述实施例中各个电子设备之间的消息名字或消息中各参数的名字等只是一个示例,具体实现中也可以是其他的名字,本申请实施例对此不作具体限定。
为了便于描述本申请实施例的技术方案,在本申请实施例中,可以采用“第一”、“第二”等字样对功能相同或相似的技术特征进行区分。该“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。在本申请实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明,被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。此外,在本申请实施例中,对于一种技术特征,通过“第一”、“第二”、“第三”等区分该种技术特征中的技术特征,该“第一”、“第二”、“第三”描述的技术特征间无先后顺序或者大小顺序。
可以理解的,本申请实施例中同一个步骤或者具有相同功能的步骤或者技术特征在不同实施例之间可以互相参考借鉴。
通过背景技术中的描述可以知道,由于不同电子设备的硬件存在差异,并且不同电子设备所处的环境也可能相差较大,所以导致了不同电子设备采集的同一用户的语音信号提取出来的声纹也有一定差异。因此,在多个电子设备协同工作的环境中,若一台电子设备采集的语音信号需要其他电子设备来进行认证的情况下,会导致声纹认证的准确率较低。
为了解决声纹认证的准确率较低的问题,本申请实施例提供了如下三种方法:
方法1:可以在电子设备中预置声纹注册算法。该声纹注册算法是根据不同环境下,不同收声硬件,不同说话人的语音信号训练得到的。电子设备获取到用于注册的语音信号后,可以使用该声纹注册算法对用于注册的语音信号进行声纹注册,建立声纹模型。后续,电子设备可以根据该声纹模型对用户进行认证。因为声纹注册算法是根据不同环境,不同收声硬件,不同说话人的语音信号训练得到的,所以该算法可以提取更加全面和深层次的声纹信息,鲁棒性更好,可以提高声纹模型进行声纹认证的准确性。
方法2:可以在多个电子设备中的每个电子设备分别进行声纹注册。后续,用户可以在各个电子设备进行认证。因为用户进行注册和认证的设备是同一个设备,所以可以提高声纹认证的准确率。
方法3:第一电子设备可以获取第一语音信号和第一参数信息,根据第一参数信息调整第一语音信号,得到第二语音信号,根据第二语音信号生成第一声纹模型,向第二电子设备发送第一声纹模型或者根据第一声纹模型对第二电子设备采集的语音信号进行认证。其中,第一参数信息可以用于指示第二电子设备采集语音信号的参数。方法3的具体过程将在下述图3所示的方法中具体阐述,在此不做赘述。
可以理解的,与方法1相比,方法3不需要采集不同环境下,不同收声硬件,不同说话人的语音信号,训练成本较低,模型的复杂度也较低。另外,在方法1中,声纹注册算法是预置在电子设备中的,当电子设备的环境、硬件等条件改变时,不易更新,用户体验较差。而方法3可以随时更新第一参数信息,根据更新后的第一参数信息调整第一语音信号,较为灵活,用户体验好。与方法2相比,方法3不需要在多个电子设备中的每个电子设备上进行声纹注册,用户体验好。而且,对于不支持声纹注册的电子设备,方法3也可以协助其对用户进行认证,以提高语音交互的安全性。
下面将结合附图对本申请实施例的实施方式进行详细描述。
如图1所示,为本申请实施例提供的声纹注册系统的架构示意图。该声纹注册系统至少可以包括:电子设备101和电子设备102。可选的,该声纹注册系统还可以包括电子设备103和/或电子设备104。
图1中的电子设备之间(如电子设备101和电子设备102之间,电子设备101和电子设备103之间)可以通过有线(如通用串行总线(universal serial bus,USB)数据线)或无线的方式建立连接,本申请实施例对具体的连接方式不作限定。图1中的电子设备之间通过无线方式建立连接时,所采用的无线通信协议可以为无线保真(wireless fidelity,Wi-Fi)协议、各种蜂窝网(如第四代(4th generation,4G)通信网络或第五代(5thgeneration,5G)通信网络)协议等,在此不做具体限制。
在一些实施例中,图1中的电子设备可以形成超级终端。例如,图1中的电子设备之间可以基于任一种认证机制(如HiChian机制)进行身份认证,认证通过的电子设备可以形成超级终端。可以理解的,超级终端可以包括多个电子设备,该多个电子设备为组网连接状态,该多个电子设备互为可信设备。
在具体实现时,图1中的电子设备,例如电子设备101、电子设备102、电子设备103或电子设备104,可以为手机,平板电脑,手持计算机,个人计算机(personal computer,PC),蜂窝电话,个人数字助理(personal digital assistant,PDA),可穿戴式设备(如智能手表、智能手环等),游戏机,或增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备等电子设备。本申请实施例对图1中的电子设备的具体设备形态不做特殊限制。例如,图1中的电子设备还可以为智能家居设备(如电视机,智能音箱),车载电脑(或者称为车机)等。且在本申请实施例中,图1中的电子设备的设备形态可以相同。例如,电子设备101和电子设备102均为手机。图1中的电子设备的设备形态也可以不同。例如,电子设备101为手机,电子设备102为平板电脑。又例如,电子设备101为智能手表,电子设备102为PC。
图1中的电子设备可以是触屏设备,也可以是非触屏设备。触屏设备可以通过手指、触控笔等在屏幕上点击、滑动等方式对电子设备进行控制。非触屏设备可以连接鼠标、键盘、触控面板等输入设备,通过输入设备对电子设备进行控制。在本申请实施例中,图1中的电子设备均是可以运行操作系统,安装应用的电子设备。其中,图1中的电子设备的操作系统可以是鸿蒙系统、Android系统、ios系统、windows系统、mac系统、Linux系统等,本申请实施例在此不做具体限制。图1中的电子设备的操作系统可以相同,也可以不同。作为一种示例,图1中的电子设备分别可以包括内存和处理器。其中,内存可以用于存储操作系统,处理器可以用于运行内存中存储的操作系统。
本申请实施例中,内存也可以称为存储器,用于存储操作系统和处理器运算的数据,内存还可以用于运行电子设备上安装的应用的程序。作为一种示例,内存可以是图2中的内部存储器121。
本申请实施例中,图1所示的电子设备上可以部署分布式系统。部署了该分布式系统的电子设备可以执行本申请实施例提供的声纹注册方法,使得一个电子设备可以根据另一个电子设备采集语音信号的参数,调整语音信号,根据调整后的语音信号生成声纹模型,并根据生成的声纹模型对另一个电子设备采集的语音信号进行声纹认证,可以提高声纹认证的准确率,或者,将生成的声纹模型发送给另一个电子设备,使得另一个电子设备可以根据生成的声纹模型对应其采集的语音信号进行声纹认证。
图1所示的声纹注册系统仅用于举例,并非用于限制本申请实施例的技术方案。本领域的技术人员应当明白,在具体实现过程中,该声纹注册系统还可以包括其他设备,同时也可根据具体需要来确定电子设备的数量,不予限制。
在本申请实施例中,以电子设备为手机为例。请参考图2,为本申请实施例提供的一种手机的结构示意图。以下实施例中的方法可以在具有下述硬件结构的手机中实现。
如图2所示,手机可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180等。
可以理解的是,本申请实施例示意的结构并不构成对手机的具体限定。在本申请另一些实施例中,手机可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
手机的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在手机上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块160可以提供应用在手机上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,手机的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得手机可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
手机通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,手机可以包括1个或N个显示屏194,N为大于1的正整数。
手机可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,手机可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当手机在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。手机可以支持一种或多种视频编解码器。这样,手机可以播放或录制多种编码格式的视频,例如:动态图像专家组(movingpicture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
手机可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。手机可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当手机接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。手机可以设置至少一个麦克风170C。在另一些实施例中,手机可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,手机还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
传感器模块180中可以包括以下一种或多种传感器:压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
当然,手机还可以包括充电管理模块、电源管理模块、电池、按键、指示器以及1个或多个SIM卡接口等,本申请实施例对此不做任何限制。
下面将结合附图,对本申请实施例提供的声纹注册方法进行描述。
可以理解的,本申请实施例中,第一电子设备可以执行本申请实施例中的部分或全部步骤,这些步骤仅是示例,本申请实施例还可以执行其它步骤或者各种步骤的变形。此外,各个步骤可以按照本申请实施例呈现的不同的顺序来执行,并且有可能并非要执行本申请实施例中的全部步骤。
如图3所示,为本申请实施例提供的一种声纹注册方法,该声纹注册方法包括S301-S304a或S301-S304b。
S301:第一电子设备获取第一语音信号和第一参数信息。
其中,第一电子设备可以是图1中的任一电子设备。例如,第一电子设备为图1中的电子设备101或电子设备102。
本申请实施例中,第一语音信号可以是第一电子设备采集的,也可以不是第一电子设备采集的。
示例性的,若第一语音信号是第一电子设备采集的,则第一电子设备通过第一电子设备的语音采集模块采集第一语音信号。其中,该语音采集模块可以为第一电子设备中的芯片、电路或芯片系统,用于采集语音信号,如将用户说的话进行录音并存储,得到语音信号。若第一语音信号不是第一电子设备采集的,则第一电子设备接收来自第三电子设备的第一语音信号。其中,第三电子设备可以是除第一电子设备之外的电子设备。以图1所示的声纹注册系统为例,若第一电子设备为图1中的电子设备101,则第三电子设备为图1中的电子设备102-电子设备104中的至少一个。
作为一种示例,第三电子设备通过第三电子设备的语音采集模块采集第一语音信号,并向第一电子设备发送第一语音信号。第三电子设备的语音采集模块可以为第三电子设备中的芯片、电路或芯片系统,用于采集语音信号。
本申请实施例中,第一参数信息可以用于指示第二电子设备采集语音信号的参数。第二电子设备和第三电子设备可以相同也可以不同。
一种可能的实现方式,第一参数信息包括以下至少一项:第二电子设备的麦克类型、第二电子设备的采样率、第二电子设备的编码方式或第二电子设备所处的环境信息。
示例性的,第二电子设备的麦克类型包括动圈式麦克或电容式麦克。第二电子设备的采样率可以理解为第二电子设备对语音信号的采样率,如8000Hz或16000Hz等。第二电子设备的编码方式可以理解为第二电子设备对语音信号的编码方式,如线性脉冲编码、非线性脉冲编码或自适应线性编码等。第二电子设备所处的环境可以是第二电子设备经常所处的环境,或第二电子设备一段时间内(如一个月内)所处过的环境。例如,第二电子设备所处的环境可以为客厅、卧室、书房、厨房、小区、街道、商场或汽车中的一种或多种。
作为一种示例,第二电子设备所处的环境信息可以包括n比特,该n比特用于指示第二电子设备所处的环境,n为正整数。以n为2为例,若该环境信息的值为“00”,则第一参数信息指示第二电子设备所处的环境为客厅,若该环境信息的值为“01”,则第一参数信息指示第二电子设备所处的环境为卧室,若该环境信息的值为“10”,则第一参数信息指示第二电子设备所处的环境为小区,若该环境信息的值为“11”,则第一参数信息指示第二电子设备所处的环境为汽车中。
可以理解的,上述第一参数信息包括的内容仅是示例性的。在具体应用中,第一参数信息还可以包括其他参数,本申请实施例不进行具体限制。
可以理解的,第一电子设备可以同时获取第一语音信号和第一参数信息,也可以分别获取第一语音信号和第一参数信息。
作为一种示例,若第一语音信号为第二电子设备采集的,则第二电子设备在向第一电子设备发送第一语音信号的同时,可以向第一电子设备发送第一参数信息,也就是说,第一电子设备可以同时获取第一语音信号和第一参数信息。
作为另一种示例,第一电子设备获取到第一语音信号后,可以再获取第一参数信息。例如,第一电子设备获取到第一语音信号后,向第二电子设备发送获取第一参数的指示信息,第二电子设备接收到该指示信息后,向第一电子设备发送第一参数信息。又例如,第一电子设备和第二电子设备建立连接之后,第二电子设备向第一电子设备发送第一参数信息,第一电子设备接收到第一参数信息后,将第一参数信息存储在本地。后续,第一电子设备获取到第一语音信号后,从本地获取第一参数信息。
S302:第一电子设备根据第一参数信息调整第一语音信号,得到第二语音信号。
可选的,第一电子设备获取采集第一语音信号的电子设备采集语音信号的参数。如此,第一电子设备可以获取第一语音信号的参数,即采集第一语音信号的麦克类型、采集第一语音信号的采样率、第一语音信号的编码方式或采集第一语音信号的电子设备所处的环境信息中的一种或多种。其中,采集第一语音信号的麦克类型、采集第一语音信号的采样率、第一语音信号的编码方式和采集第一语音信号的电子设备所处的环境信息的介绍,可以参考前文对第二电子设备的麦克类型、第二电子设备的采样率、第二电子设备的编码方式和第二电子设备所处的环境信息的描述,在此不做赘述。
一种可能的实现方式,第一电子设备通过第一算法使得第一语音信号的参数趋近于第一参数信息指示的参数,得到第二语音信号。
示例性的,以第一参数信息包括第二电子设备的麦克类型为例,第一电子设备可以通过第一算法模拟该麦克类型对应的麦克对语音信号造成的影响,来对第一语音信号进行调整,得到第二语音信号。
示例性的,以第一参数信息包括第二电子设备的采样率为例,第一电子设备可以通过音频处理算法将第一语音信号的采样率调整为第二电子设备的采样率,得到第二语音信号。
示例性的,以第一参数信息包括第二电子设备的编码方式为例,第一电子设备可以根据第二电子设备的编码方式,对第一语音信号的编码格式重新进行编解码,得到第二语音信号。
示例性的,以第一参数信息包括第二电子设备所处的环境信息为例,第一电子设备可以根据第二电子设备所处的环境信息,叠加环境噪声信号和/或空间混响信号,得到第二语音信号。其中,环境噪声信号和空间混响信号可以是预配置在第一电子设备中的。
示例性的,以第一参数信息包括第二电子设备的麦克类型和第二电子设备的采样率为例,第一电子设备可以通过算法模拟该麦克类型对应的麦克对语音信号造成的影响,来对第一语音信号进行调整,并通过音频处理算法将第一语音信号的采样率调整为第二电子设备的采样率,得到第二语音信号。
示例性的,以第一参数信息包括第二电子设备的麦克类型、第二电子设备的采样率和第二电子设备所处的环境信息为例,第一电子设备可以通过算法模拟该麦克类型对应的麦克对语音信号造成的影响,来对第一语音信号进行调整,并通过音频处理算法将第一语音信号的采样率调整为第二电子设备的采样率,再根据第二电子设备所处的环境信息,叠加环境噪声信号和/或空间混响信号,得到第二语音信号。其中,环境噪声信号和空间混响信号可以是预配置在第一电子设备中的。
可以理解的,在具体应用中,调整第一语音信号的电子设备还可以是除第一电子设备之外的电子设备。例如,第一电子设备获取到第一语音信号和第一参数信息后,可以向第五电子设备发送第一语音信号和第一参数信息。第五电子设备接收到第一语音信号和第一参数信息后,可以根据第一参数信息调整第一语音信号,得到第二语音信号,并向第一电子设备发送第二语音信号。其中,第五电子设备与第一电子设备不同。
S303:第一电子设备根据第二语音信号生成第一声纹模型。
一种可能的实现方式,第一电子设备对第二语音信号进行特征提取,根据提取的特征生成第一声纹模型。可以理解的,第一声纹模型生成后即完成了声纹注册。后续,可以通过第一声纹模型对用户进行认证。例如,可以将一个语音信号作为输入,输入到第一声纹模型中,该第一声纹模型可以输出该语音信号和第一语音信号是否是来自同一个用户。
可以理解的,生成第一声纹模型的电子设备还可以是除了第一电子设备之外的电子设备。例如,第一电子设备得到第二语音信号后,可以向第六电子设备发送第二语音信号。第六电子设备接收到第二语音信号后,可以根据第二语音信号生成第一声纹模型,并向第一电子设备发送第一声纹模型。第六电子设备和第五电子设备可以相同或不同。可选的,若第六电子设备与第五电子设备不同,第五电子设备可以不向第一电子设备发送第二语音信号,而是将第二语音信号发送给第六电子设备,以便第六电子设备根据第二语音信号生成第一声纹模型,向第一电子设备发送第一声纹模型。
S304a:第一电子设备根据第一声纹模型对第二电子设备采集的语音信号进行认证。
一种可能的实现方式,第一电子设备可以接收来自第二电子设备的第二电子设备采集的语音信号,将第二电子设备采集的语音信号输入第一声纹模型进行声纹认证。
作为一种示例,第二电子设备通过第二电子设备的语音采样模块采集语音信号1,并将语音信号1发送给第一电子设备。第一电子设备接收到语音信号1后,将该语音信号1输入第一声纹模型进行声纹认证。若第一声纹模型输出为0,则表示该语音信号1和第一语音信号不是来自同一个用户,认证失败,若第一声纹模型输出为1,则表示该语音信号1和第一语音信号来自同一个用户,认证成功。由于上述第一声纹模型是根据第二语音信号(即第一电子设备根据第一语音信号和第一参数信息模拟的第二电子设备采集的语音信号)生成的,所以用该第一声纹模型对第二电子设备采集的语音信号进行认证,可以提高声纹认证的准确性。
本申请实施例中,上述S304a还可以替换为S304b。
S304b:第一电子设备向第二电子设备发送第一声纹模型。对应的,第二电子设备接收来自第一电子设备的第一声纹模型。
可以理解的,第一电子设备可以直接向第二电子设备发送第一声纹模型,也可以经一个或多个电子设备将第一声纹模型发送给第二电子设备。第二电子设备接收到第一声纹模型后,可以根据第一声纹模型对第二电子设备采集的语音信号进行认证。如:第二电子设备将自己采集的语音信号输入第一声纹模型进行声纹认证。
可以理解的,第一电子设备还可以向除第二电子设备之外的电子设备发送第一声纹模型,使得除第二电子设备之外的电子设备也可以根据第一声纹模型对第二电子设备采集的语音信号进行认证。
基于图3所示的方法,第一电子设备可以获取第一语音信号和第二电子设备对应的第一参数信息,根据第一参数信息调整第一语音信号,得到适用于第二电子设备的第二语音信号(该第二语音信号可以相当于第二电子设备采集的语音信号,也就是说,第一电子设备可以根据第一语音信号和第一参数信息模拟第二电子设备采集的语音信号),并根据第二语音信号生成第一声纹模型。如此,可以实现采集一次语音信号,根据该语音信号模拟出第二电子设备采集的语音信号,根据模拟出的语音信号(即第二语音信号)进行声纹注册。其中,第一电子设备是根据第二电子设备采集语音信号的参数模拟出的第二语音信号,因此,第二语音信号与第二电子设备真实采集的语音信号的相似度非常高,所以根据第二语音信号生成的第一声纹模型对第二电子设备采集的语音信号进行声纹认证,可以提高声纹认证的准确性。
可以理解的,上述图3所示的方法中,第一电子设备模拟了第二电子设备的采集的语音信号,并根据该语音信号进行了声纹注册。在具体应用中,除了第二电子设备之外,第一电子设备还可以根据第一语音信号模拟其他至少一个电子设备采集的语音信号,根据模拟的语音信号进行声纹注册。例如,第一电子设备还可以根据第一语音信号模拟第一电子设备采集的语音信号,根据模拟的第一电子设备采集的语音信号进行声纹注册。具体的,可以参考下述图4所示的方法中所述。又例如,第一电子设备还可以根据第一语音信号模拟第四电子设备采集的语音信号,根据模拟的第四电子设备采集的语音信号进行声纹注册。具体的,可以参考下述图5所示的方法中所述。
可选的,如图4所示,图3所示的方法还包括S305-S308。
S305:第一电子设备获取第二参数信息。
其中,第二参数信息可以用于指示第一电子设备采集语音信号的参数。例如,第二参数信息包括以下至少一项:第一电子设备的麦克类型、第一电子设备的采样率、第一电子设备的编码方式或第一电子设备所处的环境信息。第二参数信息的具体介绍可以参考上述对第一参数信息的描述,在此不做赘述。
一种可能的实现方式,第一电子设备从本地获取第二参数信息。
S306:第一电子设备根据第二参数信息调整第一语音信号,得到第三语音信号。
S307:第一电子设备根据第三语音信号生成第二声纹模型。
S306-S307的具体过程可以参考上述S302-S303中对应的描述,在此不做赘述。
S308:第一电子设备根据第二声纹模型对第一电子设备采集的语音信号进行认证。
一种可能的实现方式,第一电子设备通过第一电子设备的语音采集模块采集语音信号,并将采集的语音信号输入第二声纹模型进行声纹认证。具体的,可以参考上述S304a中对应的描述,在此不做赘述。
可以理解的,第一电子设备获取到第一语音信号后,可以先生成第一声纹模型,如:获取第一参数信息,根据第一参数信息调整第一语音信号,得到第二语音信号,根据第二语音信号生成第一声纹模型,再生成第二声纹模型,如:获取第二参数信息,根据第二参数信息调整第一语音信号,得到第三语音信号,根据第三语音信号生成第二声纹模型。第一电子设备也可以先生成第二声纹模型,再生成第一声纹模型,还可以同时执行上述两个过程,不予限制。
可以理解的,第一电子设备还可以向除第一电子设备之外的电子设备发送第一声纹模型,使得除第一电子设备之外的电子设备也可以根据第二声纹模型对第一电子设备采集的语音信号进行认证。
可选的,如图5所示,图3所示的方法还包括S309-S312a或S309-S312b。
S309:第一电子设备获取第三参数信息。
其中,第三参数信息用于指示第四电子设备采集语音信号的参数。例如,第三参数信息包括以下至少一项:第四电子设备的麦克类型、第四电子设备的采样率、第四电子设备的编码方式或第四电子设备所处的环境信息。第三参数信息的具体介绍可以参考上述对第一参数信息的描述,在此不做赘述。
其中,第四电子设备与第一电子设备、第二电子设备不同。例如,若第一电子设备为图1中的电子设备101,第二电子设备为图1中的电子设备102,则第四电子设备为图1中的电子设备103或电子设备104。
S310:第一电子设备根据第三参数信息调整第一语音信号,得到第四语音信号;
S311:第一电子设备根据第四语音信号生成第三声纹模型。
S312a:第一电子设备根据第三声纹模型对第四电子设备采集的语音信号进行认证。
本申请实施例中,S312a还可以替换为S312b。
S312b:第一电子设备向第四电子设备发送第三声纹模型。对应的,第四电子设备接收来自第一电子设备的第三声纹模型。
S310-S312b的具体过程可以参考上述S302-S304b中对应的描述,在此不做赘述。
可以理解的,第一电子设备还可以向除第四电子设备之外的电子设备发送第三声纹模型,使得除第四电子设备之外的电子设备也可以根据第三声纹模型对第四电子设备采集的语音信号进行认证。
可以理解的,第一电子设备获取到第一语音信号后,可以先生成第一声纹模型,如:可以先获取第一参数信息,根据第一参数信息调整第一语音信号,得到第二语音信号,根据第二语音信号生成第一声纹模型,再生成第三声纹模型,如:获取第三参数信息,根据第三参数信息调整第一语音信号,得到第四语音信号,根据第四语音信号生成第三声纹模型。第一电子设备也可以先生成第三声纹模型,再生成第一声纹模型,还可以同时执行上述两个过程,不予限制。
可以理解的,上述S309-S312b也可以在图4所示方法中执行,例如,在第一电子设备获取第一语音信号之后执行,或者在S303之后执行,或者在S308之后执行,或者和S305-S308同时执行,不予限制。
可以理解的,以上各个实施例中,由第一电子设备实现的方法和/或步骤,也可以由可用于第一电子设备的部件(例如芯片或者电路)实现。
可以理解的是,上述电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对上述电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图6所示,本申请实施例公开了一种电子设备600,该电子设备可以为上述实施例中的第一电子设备。该电子设备600具体可以包括:输入设备601(例如鼠标、键盘或触摸屏等);一个或多个处理器602;存储器603;一个或多个应用程序(未示出);以及一个或多个计算机程序604,上述各器件可以通过一个或多个通信总线605连接。可选的,电子设备还包括语音采集设备(如录音设备),用于采集语音信号。其中,上述一个或多个计算机程序604被存储在上述存储器603中并被配置为被该一个或多个处理器602执行,该一个或多个计算机程序604包括指令,该指令可以用于执行上述实施例中的相关步骤。在一种示例中,该电子设备600可以为图1中电子设备101、电子设备102、电子设备103或电子设备104。
本申请实施例还提供了一种芯片系统,包括:至少一个处理器和接口,该至少一个处理器通过接口与存储器耦合,当该至少一个处理器执行存储器中的计算机程序或指令时,使得上述任一方法实施例中的方法被执行。在一种可能的实现方式中,该芯片系统还包括存储器。可选的,该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序代码,当处理器执行该计算机程序代码时,电子设备执行上述实施例中的方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述实施例中的方法。
其中,本申请实施例提供的电子设备600、计算机可读存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以使用硬件的形式实现,也可以使用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种声纹注册方法,其特征在于,应用于第一电子设备,所述方法包括:
获取第一语音信号和第一参数信息,所述第一参数信息用于指示第二电子设备采集语音信号的参数;
根据所述第一参数信息调整所述第一语音信号,得到第二语音信号;
根据所述第二语音信号生成第一声纹模型;
向所述第二电子设备发送所述第一声纹模型,或者,根据所述第一声纹模型对所述第二电子设备采集的语音信号进行认证。
2.根据权利要求1所述的方法,其特征在于,所述第一参数信息包括以下至少一项:所述第二电子设备的麦克类型、所述第二电子设备的采样率、所述第二电子设备的编码方式或所述第二电子设备所处的环境信息。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一参数信息调整所述第一语音信号,得到第二语音信号,包括:
通过第一算法使得所述第一语音信号的参数趋近所述第一参数信息指示的参数,得到所述第二语音信号。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取第一语音信号,包括:
接收来自第三电子设备的所述第一语音信号;或者,
采集所述第一语音信号。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述第一声纹模型对所述第二电子设备采集的语音信号进行认证,包括:
接收来自所述第二电子设备的所述第二电子设备采集的语音信号;
将所述第二电子设备采集的语音信号输入所述第一声纹模型进行声纹认证。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
获取第二参数信息,所述第二参数信息用于指示所述第一电子设备采集语音信号的参数;
根据所述第二参数信息调整所述第一语音信号,得到第三语音信号;
根据所述第三语音信号生成第二声纹模型;
根据所述第二声纹模型对所述第一电子设备采集的语音信号进行认证。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
获取第三参数信息,所述第三参数信息用于指示第四电子设备采集语音信号的参数,所述第四电子设备与所述第二电子设备不同;
根据所述第三参数信息调整所述第一语音信号,得到第四语音信号;
根据所述第四语音信号生成第三声纹模型;
向所述第四电子设备发送所述第三声纹模型,或者,根据所述第三声纹模型对所述第四电子设备采集的语音信号进行认证。
8.一种电子设备,其特征在于,包括:包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序或指令,当所述程序或指令被所述处理器执行时,使得所述电子设备执行如权利要求1至7中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被执行时使得计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111266367.4A CN116052692A (zh) | 2021-10-28 | 2021-10-28 | 声纹注册方法及电子设备 |
PCT/CN2022/123912 WO2023071730A1 (zh) | 2021-10-28 | 2022-10-08 | 声纹注册方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111266367.4A CN116052692A (zh) | 2021-10-28 | 2021-10-28 | 声纹注册方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052692A true CN116052692A (zh) | 2023-05-02 |
Family
ID=86113746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111266367.4A Pending CN116052692A (zh) | 2021-10-28 | 2021-10-28 | 声纹注册方法及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116052692A (zh) |
WO (1) | WO2023071730A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103685185B (zh) * | 2012-09-14 | 2018-04-27 | 上海果壳电子有限公司 | 移动设备声纹注册、认证的方法及系统 |
KR102339657B1 (ko) * | 2014-07-29 | 2021-12-16 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN109378006B (zh) * | 2018-12-28 | 2022-09-16 | 三星电子(中国)研发中心 | 一种跨设备声纹识别方法及系统 |
CN113470653B (zh) * | 2020-03-31 | 2024-10-18 | 华为技术有限公司 | 声纹识别的方法、电子设备和系统 |
US20240095329A1 (en) * | 2021-02-04 | 2024-03-21 | Huawei Technologies Co., Ltd. | Cross-Device Authentication Method and Electronic Device |
-
2021
- 2021-10-28 CN CN202111266367.4A patent/CN116052692A/zh active Pending
-
2022
- 2022-10-08 WO PCT/CN2022/123912 patent/WO2023071730A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023071730A1 (zh) | 2023-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112312366B (zh) | 一种通过nfc标签实现功能的方法、电子设备及系统 | |
CN111010693B (zh) | 一种提供无线保真网络接入服务的方法及电子设备 | |
CN113393856B (zh) | 拾音方法、装置和电子设备 | |
CN112954251B (zh) | 视频处理方法、视频处理装置、存储介质与电子设备 | |
EP3917182A1 (en) | Automatic routing method for se, and electronic device | |
CN114422340B (zh) | 日志上报方法、电子设备及存储介质 | |
WO2021017988A1 (zh) | 一种多模态身份识别方法及设备 | |
CN113473013A (zh) | 图像美化效果的显示方法、装置和终端设备 | |
CN114339698A (zh) | 设备间触碰建立无线连接的方法、电子设备及芯片 | |
CN111598919A (zh) | 运动估计方法、运动估计装置、存储介质与电子设备 | |
CN112037157B (zh) | 数据处理方法及装置、计算机可读介质及电子设备 | |
CN111626931B (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN113407076A (zh) | 启动应用的方法及电子设备 | |
WO2023071730A1 (zh) | 声纹注册方法及电子设备 | |
CN116261124A (zh) | 数据传输方法、装置、电子设备和智能终端 | |
CN111526321B (zh) | 语音通话方法、语音通话装置、存储介质与电子设备 | |
CN113099734B (zh) | 天线切换方法及装置 | |
CN114120950A (zh) | 一种人声屏蔽方法和电子设备 | |
CN114157412A (zh) | 信息验证的方法、电子设备及计算机可读存储介质 | |
CN115393676A (zh) | 手势控制优化方法、装置、终端和存储介质 | |
CN114093368A (zh) | 跨设备声纹注册方法、电子设备及存储介质 | |
CN114844542A (zh) | 天线选择方法、装置、电子设备及可读存储介质 | |
CN111626929B (zh) | 深度图像的生成方法及装置、计算机可读介质和电子设备 | |
CN114500725B (zh) | 目标内容传输方法、主设备、从设备和存储介质 | |
CN115019803B (zh) | 音频处理方法、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |