CN115906033A

CN115906033A - 声纹认证应答方法、系统及电子设备

Info

Publication number: CN115906033A
Application number: CN202110932392.5A
Authority: CN
Inventors: 才宇东
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-04-04
Also published as: WO2023016347A1

Abstract

本申请提供一种声纹认证应答方法、系统及电子设备。该方法应用于第一电子设备，第一电子设备为声纹认证应答系统中的一个电子设备，声纹认证应答系统中的电子设备间通信互连。该方法包括：获取用户的语音交互数据；对语音交互数据进行声纹认证，得到第一电子设备的认证分数；获取声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数；基于声纹认证应答系统中的全部电子设备各自的认证分数，确定第一电子设备是否为声纹认证应答系统中的应答电子设备；在确定第一电子设备为应答电子设备时，对语音交互数据进行认证应答。从而，选择出了声纹认证应答系统中的最合适的电子设备对用户的语音交互数据进行认证应答。

Description

声纹认证应答方法、系统及电子设备

技术领域

本申请涉及电子技术领域，尤其涉及一种声纹认证应答方法、系统及电子设备。

背景技术

随着电子设备不断地智能化发展，语音交互已成为用户与电子设备间便捷的交互媒介。并且，电子设备常常采用声纹认证来识别和认证用户，在交互便捷的同时保证了语音交互的安全性。

然而，在多电子设备的场景中，用户与多电子设备进行语音交互时，所有可回应的电子设备均会应答用户。可见，多电子设备完全没有识别和认证用户，缺乏良好的认证方式，且体验上仍是单电子设备的回应，严重影响用户的使用体验。

发明内容

本申请提供一种声纹认证应答方法、系统及电子设备，可选择出声纹认证应答系统中的最合适的电子设备对用户的语音交互数据进行认证应答，实现了声纹认证应答系统中的电子设备间的协同互助式认证，提升了声纹认证应答系统在使用上的便捷性且安全性。

第一方面，本申请提供一种声纹认证应答方法，应用于第一电子设备，第一电子设备为声纹认证应答系统中的一个电子设备，声纹认证应答系统中的电子设备间通信互连。

该方法包括：

获取用户的语音交互数据；

对语音交互数据进行声纹认证，得到第一电子设备的认证分数，第一电子设备的认证分数用于表示第一电子设备认证语音交互数据属于用户的匹配度；

获取声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数，其余电子设备中的每个电子设备的认证分数是每个电子设备对语音交互数据进行声纹认证得到的，每个电子设备的认证分数用于表示每个电子设备认证语音交互数据属于用户的匹配度；

基于声纹认证应答系统中的全部电子设备各自的认证分数，确定第一电子设备是否为声纹认证应答系统中的应答电子设备；

在确定第一电子设备为应答电子设备时，对语音交互数据进行认证应答。

通过第一方面提供的声纹认证应答方法，第一电子设备作为声纹认证应答系统中的一个电子设备，可获取用户的语音交互数据，并对用户的语音交互数据进行声纹认证，得到第一电子设备的认证分数。由于声纹认证应答系统中的电子设备间通信互连。因此，第一电子设备可获取声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数。第一电子设备基于声纹认证应答系统中的全部电子设备各自的认证分数，可确定出第一电子设备是否为声纹认证应答系统中的应答电子设备。在确定第一电子设备为应答电子设备时，第一电子设备可对用户的语音交互数据进行认证应答。从而，通过同步声纹认证应答系统中的每个电子设备的认证分数，完成了多电子设备的场景下的更为准确地对用户的识别和认证，选择出了声纹认证应答系统中的最合适的电子设备，使得最适合的电子设备能够对用户的语音交互数据进行认证应答，不仅实现了声纹认证应答系统中的电子设备间的协同互助式认证，也无需考虑由于声纹认证应答系统中存在处于离线状态的电子设备而导致无法实现用户的识别和认证的问题，提升了声纹认证应答系统在使用上的便捷性且安全性，还使得声纹认证应答系统中的电子设备识别和认证用户的效果更佳，提升了使用声纹认证应答系统的用户体验。

在一种可能的设计中，获取声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数，包括：

向第二电子设备发送第一电子设备的设备标识和认证分数，且接收第二电子设备发送的其余电子设备各自的设备标识和认证分数，第二电子设备为其余电子设备中的至少一个电子设备。

从而，声纹认证应答系统中的每个电子设备可同步全部电子设备的认证分数，实现声纹认证应答系统中的电子设备间的协同互助式认证，保障了电子设备识别和认证用户的准确性，也无需考虑由于声纹认证应答系统中存在处于离线状态的电子设备而导致无法识别和认证用户的问题。

在一种可能的设计中，基于声纹认证应答系统中的全部电子设备各自的认证分数，确定应答电子设备，包括：

在声纹认证应答系统中的全部电子设备各自的认证分数中，确定最高认证分数；

在最高认证分数对应的电子设备包括声纹认证应答系统中的一个电子设备时，将最高认证分数对应的电子设备确定为应答电子设备。

从而，在声纹认证应答系统中选择出了最合适的电子设备对用户的语音交互数据进行认证应答，使得声纹认证应答系统中的电子设备识别和认证用户的效果更佳，提升了使用声纹认证应答系统的用户体验。

在一种可能的设计中，该方法还包括：

在最高认证分数对应的电子设备包括声纹认证应答系统中的多个电子设备时，从最高认证分数对应的电子设备中，确定与用户距离最近的电子设备，并将与用户距离最近的电子设备确定为应答电子设备。

从而，结合声纹认证应答系统中的全电子设备各自的认证分数和与用户的距离，选择出了最合适的电子设备对用户的语音交互数据进行认证应答，使得声纹认证应答系统中的电子设备识别和认证用户的效果更佳，提升了使用声纹认证应答系统的用户体验。

在一种可能的设计中，该方法还包括：

在确定第一电子设备不为应答电子设备时，对语音交互数据屏蔽认证应答。

从而，保障了声纹认证应答系统中的电子设备实现声纹认证应答方法的完整性。

在一种可能的设计中，该方法还包括：

接收用户的语音注册数据；

对用户的语音注册数据进行声纹训练，生成用户的声纹认证模型；

将用户的声纹认证模型存储在第一电子设备中，以使第一电子设备采用用户的声纹认证模型对语音交互数据进行声纹认证。

从而，声纹认证应答系统中的每个电子设备借助用户的声纹认证模型，可准确地识别和认证用户，使得每个电子设备具备识别和认证用户的能力，来获得准确的认证分数，有利于从声纹认证应答系统中选择出最合适的电子设备。

第二方面，本申请提供一种声纹认证应答系统，声纹认证应答系统中的电子设备间通信互连。

针对声纹认证应答系统中的每个电子设备而言，包括：

电子设备，用于获取用户的语音交互数据；

电子设备，还用于对语音交互数据进行声纹认证，得到电子设备的认证分数，电子设备的认证分数用于表示电子设备认证语音交互数据属于用户的匹配度；

电子设备，还用于获取声纹认证应答系统中的除了电子设备之外的其余电子设备各自的认证分数，其余电子设备中的每个电子设备的认证分数是每个电子设备对语音交互数据进行声纹认证得到的，每个电子设备的认证分数用于表示每个电子设备认证语音交互数据属于用户的匹配度；

电子设备，还用于基于声纹认证应答系统中的全部电子设备各自的认证分数，确定电子设备是否为声纹认证应答系统中的应答电子设备；

电子设备，还用于在确定电子设备为应答电子设备时，对语音交互数据进行认证应答。

在一种可能的设计中，电子设备，具体用于向其余电子设备中的至少一个电子设备发送电子设备的设备标识和认证分数，且接收其余电子设备中的至少一个电子设备发送的其余电子设备各自的设备标识和认证分数。

在一种可能的设计中，电子设备，具体用于在声纹认证应答系统中的全部电子设备各自的认证分数中，确定最高认证分数；在最高认证分数对应的电子设备包括声纹认证应答系统中的一个电子设备时，将最高认证分数对应的电子设备确定为应答电子设备。

在一种可能的设计中，电子设备，还用于在最高认证分数对应的电子设备包括声纹认证应答系统中的多个电子设备时，从最高认证分数对应的电子设备中，确定与用户距离最近的电子设备，并将与用户距离最近的电子设备确定为应答电子设备。

在一种可能的设计中，电子设备，还用于在确定电子设备不为应答电子设备时，对语音交互数据屏蔽认证应答。

在一种可能的设计中，电子设备，还用于接收用户的语音注册数据；对用户的语音注册数据进行声纹训练，生成用户的声纹认证模型；将用户的声纹认证模型存储在电子设备中，以使电子设备采用用户的声纹认证模型对语音交互数据进行声纹认证。

在一种可能的设计中，声纹认证应答系统中的电子设备间通过登录相同账号、采用近距离无线通信NFC或扫描相同二维码中的任意一种方式通信互连。

上述第二方面以及上述第二方面的各可能的设计中所提供的声纹认证应答系统，其有益效果可以参见上述第一方面和第一方面的各可能的实施方式所带来的有益效果，在此不再赘述。

第三方面，本申请提供一种电子设备，包括：存储器和处理器；存储器用于存储程序指令；处理器用于调用存储器中的程序指令使得电子设备执行第一方面及第一方面任一种可能的设计中的声纹认证应答方法。

第四方面，本申请提供一种芯片系统，芯片系统应用于包括存储器和传感器的电子设备；芯片系统包括：处理器；当处理器执行存储器中存储的计算机指令时，电子设备执行第一方面及第一方面任一种可能的设计中的声纹认证应答方法。

第五方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器使得电子设备执行时实现第一方面及第一方面任一种可能的设计中的声纹认证应答方法。

第六方面，本申请提供一种计算机程序产品，包括：执行指令，执行指令存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取执行指令，至少一个处理器执行执行指令使得电子设备实现第一方面及第一方面任一种可能的设计中的声纹认证应答方法。

附图说明

图1为本申请一实施例提供的一种电子设备的结构示意图；

图2为本申请一实施例提供的一种电子设备的软件结构框图；

图3为本申请一实施例提供的一种声纹认证应答系统的结构示意图；

图4为图3所示声纹认证应答系统中的每个电子设备的软硬件结构示意图；

图5A-图5C为图4所示电子设备中的认证结果一致性模块同步全部电子设备各自的认证分数的流程示意图；

图6为本申请一实施例提供的一种声纹认证应答系统的场景示意图；

图7为本申请一实施例提供的一种声纹认证应答方法的流程示意图。

具体实施方式

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，单独a，单独b或单独c中的至少一项(个)，可以表示：单独a，单独b，单独c，组合a和b，组合a和c，组合b和c，或组合a、b和c，其中a，b，c可以是单个，也可以是多个。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本申请提供一种声纹认证应答方法、装置、系统及电子设备，可在多电子设备的场景中，每个电子设备可对用户的语音交互数据进行声纹认证，得到每个电子设备的认证分数，并通过同步全部电子设备各自的认证分数，选择出多电子设备中的最适合的电子设备，使得最适合的电子设备对用户的语音交互数据进行认证应答，不仅实现了多电子设备的协同互助式认证，保证了在识别和认证用户上较高的便捷性和安全性，还提升了电子设备认证应答的效果，有助于提升使用电子设备的用户体验。

其中，电子设备可以是手机(如折叠屏手机、大屏手机等)、平板电脑、笔记本电脑、可穿戴电子设备、车载电子设备、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)电子设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、智能电视、智慧屏、高清电视、4K电视、智能音箱、智能投影仪等电子设备，本申请对电子设备的具体类型不作任何限制。

下面以电子设备为手机为例，结合图1，介绍本申请涉及的电子设备。

图1为本申请一实施例提供的一种电子设备的结构示意图。如图1所示，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universalserial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请示意的结构并不构成对电子设备100的具体限定。在另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。I2S接口和PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围电子设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR电子设备等。

可以理解的是，本申请示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频电子设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他电子设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请以分层架构的Android系统为例，示例性说明电子设备100的软件结构。其中，本申请对电子设备的操作系统的类型不做限定。例如，Android系统、Linux系统、Windows系统、iOS系统、鸿蒙操作系统(harmony operating system，鸿蒙OS)等。

图2为本申请一实施例提供的一种电子设备的软件结构框图。如图2所示，分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层(APP)，应用程序框架层(APP framework)，安卓运行时(Android runtime)和系统库(libraries)，以及内核层(kernel)。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，游戏，聊天，购物，出行，即时通信(如短信息)，智能家居，电子设备控制等应用程序(application，APP)。

其中，智能家居应用可用于对具有联网功能的家居电子设备进行控制或管理。例如，家居电子设备可以包括电灯、电视和空调。又如，家居电子设备还可以包括防盗门锁、音箱、扫地机器人、插座、体脂秤、台灯、空气净化器、电冰箱、洗衣机、热水器、微波炉、电饭锅、窗帘、风扇、电视、机顶盒、门窗等。

另外，应用程序包还可以包括：主屏幕(即桌面)，负一屏，控制中心，通知中心等应用程序。

其中，负一屏，又可称为“-1屏”，是指在电子设备的主屏幕向右滑动屏幕，直至滑动至最左侧分屏的用户界面(user interface，UI)。例如，负一屏可以用于放置一些快捷服务功能和通知消息，比如全局搜索、应用程序某个页面的快捷入口(付款码、微信等)、即时信息及提醒(快递信息、支出信息、通勤路况、打车出行信息、日程信息等)及关注动态(足球看台、篮球看台、股票信息等)等。控制中心为电子设备的上滑消息通知栏，即当用户在电子设备的底部开始进行向上滑动的操作时电子设备所显示出的用户界面。通知中心为电子设备的下拉消息通知栏，即当用户在电子设备的顶部开始进行向下操作时电子设备所显示出的用户界面。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器(window manager)用于管理窗口程序，如管理窗口状态、属性、视图(view)增加、删除、更新、窗口顺序、消息收集和处理等。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。并且，窗口管理器为外界访问窗口的入口。

内容提供器用于存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器(resource manager)为应用程序提供各种资源，比如本地化字符串，图标，图片，用户界面的布局文件(layout xml)，视频文件，字体，颜色，用户界面组件(userinterface module，UI组件)的身份证标识号(identity document，ID)等。并且，资源管理器用于统一管理前述资源。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

安卓运行时包括核心库和虚拟机。安卓运行时负责Android系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是Android系统的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(media libraries)，三维图形处理库(例如：OpenGLES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合利用智能音箱播放声音的场景，示例性说明电子设备100的软件和硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为智能音箱图标的控件为例，智能音箱应用调用应用框架层的接口，启动智能音箱应用，进而通过调用内核层启动音频驱动，通过扬声器170A将音频电信号转换成声音信号。

基于前述描述，本申请以下实施例将以具有图1和图2所示结构的电子设备为例，结合附图和应用场景，对本申请提供的声纹认证应答系统进行详细阐述。

请参阅图3，图3为本申请一实施例提供的一种声纹认证应答系统的结构示意图。如图3所示，声纹认证应答系统中可以包括多个电子设备，且声纹认证应答系统中的电子设备间安全且可靠地通信互连(即可信互连)。其中，本申请对电子设备间的连接方式不做限定。在一些实施例中，声纹认证应答系统中的电子设备间可通过登录相同账号、采用近距离无线通信NFC(如电子设备间碰一碰)或扫描相同二维码中的任意一种方式通信互连。

为了便于说明，图3中的声纹认证应答系统中以包括：音箱、大屏、平板、手机和PC为例进行示意。

另外，本申请对声纹认证应答系统中的每个电子设备的如数量、类型、系统等参数不做限定。需要说明的是，声纹认证应答系统中的每个电子设备处于离线状态(即关机状态)或处于非离线状态(即开机状态)也不做限定。

下面，结合图4，介绍声纹认证应答系统中的每个电子设备的软硬件结构示意图。

请参阅图4，图4为图3所示声纹认证应答系统中的每个电子设备的软硬件结构示意图。如图4所示，针对声纹认证应答系统中的每个电子设备而言，每个电子设备的软硬件结构可以包括：音频处理模块、认证词采集模块、声纹认证模块、声纹注册模块和认证结果一致性模块。其中，前述提及的模块可采用软件代码和/或硬件元器件来实现模块相应的功能。

声纹注册模块，用于接收用户的语音注册数据，并对用户的语音注册数据进行声纹训练，生成用户的声纹认证模型。

其中，语音注册数据可为用户对电子设备提示的与文本相关和无关的内容进行朗读得到的声纹数据，也可为用户基于电子设备的用户界面设计(user interface design，UI)导入的用户的声纹数据，本申请对此不做限定。用户的声纹认证模型是基于用户的语音注册数据得到的，可通过分析用户的语音交互数据中的如音质、音长、音响等物理口腔特征，输出电子设备的认证分数。

其中，电子设备的认证分数用于表示电子设备认证语音交互数据属于用户的匹配度，可表征语音交互数据进行声纹认证中的如音质、音长、音响等物理口腔特征越接近用户的物理口腔特征。即，电子设备的认证分数越高，电子设备认证用户的语音交互数据属于用户的匹配度越高。本申请对电子设备的认证分数的具体实现方式不做限定。另外，电子设备可采用键值(key-value)的形式对电子设备的认证分数进行存储。

声纹注册模块，还用于将用户的声纹认证模型存储在电子设备中，使得电子设备采用用户的声纹认证模型对语音交互数据进行声纹认证。需要说明的是，电子设备可存储一个或多个用户的声纹认证模块。另外，电子设备还可对一个用户的声纹认证模块进行优化或更新。

音频处理模块，用于接收用户的语音交互数据。由于用户的语音交互数据不可避免的会夹杂周围环境音数据，因此，音频处理模块，还用于对用户的语音交互数据进行消噪处理、声电转换和格式匹配，得到处理后的数据，并将处理后的数据发送给认证词采集模块。其中，处理后的数据可采用如脉冲编码调制(pulse code modulation，PCM)等格式。

认证词采集模块，用于对处理后的数据进行裁剪处理，得到用户的语音交互数据，并将用户的语音交互数据发送给声纹认证模块。

声纹认证模块，用于通过用户的声纹认证模块，对用户的语音交互数据进行声纹认证，得到电子设备的认证分数，并将电子设备的认证分数发送给认证结果一致性模块。

认证结果一致性模块，用于接收声纹认证应答系统中的除了电子设备之外的其余电子设备各自的认证分数。从而，电子设备可获取到声纹认证应答系统中的全部电子设备各自的认证分数。另外，电子设备可采用键值(key-value)的形式对其余电子设备各自的认证分数进行存储。

在一些实施例中，认证结果一致性模块可通过如流行病协议(gossip protocol)，向声纹认证应答系统中的除了电子设备之外的其余电子设备发送电子设备的认证分数，即将电子设备的认证分数传播给与电子设备通信互连的其余电子设备，并接收声纹认证应答系统中的除了电子设备之外的其余电子设备发送的其余电子设备各自的认证分数，即等待接收其余电子设备传播的其余电子设备各自的认证分数，使得电子设备可接收到声纹认证应答系统中的除了电子设备之外的其余电子设备各自的认证分数。

认证结果一致性模块，还用于基于声纹认证应答系统中的全部电子设备各自的认证分数，确定电子设备自身是否为应答电子设备，即电子设备是否需要对用户的语音交互数据进行认证应答。

下面，结合图5A-图5C，介绍认证结果一致性模块同步全部电子设备各自的认证分数的详细实现过程。

请参阅图5A-图5C和图6，图5A-图5C为图4所示电子设备中的认证结果一致性模块同步全部电子设备各自的认证分数的流程示意图，图6为本申请一实施例提供的一种声纹认证应答系统的场景示意图。

为了便于说明，图5A-图5C和图6中，以声纹认证应答系统中包括：音箱、大屏、平板、手机和PC，且多电子设备的场景为家居场景为例进行示意。其中，音箱可看作为A节点，大屏可看作B节点，平板可看作C节点，手机可看作D节点，PC可看作E节点。并且，A节点分别与B节点和C节点通信互连，C节点分别与D节点和E节点通信互联。

如图5A所示，在A节点已确定出音箱的认证分数后，设定A节点作为传播音箱的认证分数的源头，且设定A节点包括两条传播路径，即A节点可分别向与A节点通信互联的B节点和C节点传播音箱的认证分数。需要说明的是，除了数量2之外，本申请对A节点的传播路径的数量不做限定。另外，A节点的传播复杂度为：O(Log5)(base2)。

在A节点完成音箱的认证分数的传播后，B节点和C节点会被“传播”，即B节点和C节点已接收到音箱的认证分数。

在下一次传播音箱的认证分数的过程中，A节点、B节点和C节点中的每个节点均包括两条传播路径。此时，C节点可分别向与C节点通信互联的D节点和E节点传播音箱的认证分数。

在C节点完成音箱的认证分数的传播后，D节点和E节点会被“传播”，即D节点和E节点已接收到音箱的认证分数。

综上，音箱的认证分数已传输给所有节点(即A节点、B节点、C节点、D节点和E节点)，即声纹认证应答系统中的全部电子设备均已接收到音箱的认证分数。

需要说明的是，除了传播电子设备的认证分数之外，声纹认证应答系统中的每个电子设备还可传播电子设备的设备标识。其中，电子设备的设备标识用于唯一标识电子设备的认证分数所对应的电子设备。本申请对电子设备的设备标识的具体实现方式不做限定。例如，电子设备的设备标识可采用身份证标识号(identity document，ID)、设备型号或者设备编号等方式进行表示。

另外，在接收到电子设备的认证分数后，由于声纹认证应答系统中可能存在电子设备处于离线状态，因此，声纹认证应答系统中的其余电子设备可向电子设备发送已接收到电子设备的认证分数的通知消息，使得电子设备获知其余电子设备已接收到电子设备的认证分数。

同理，除了音箱之外，声纹认证应答系统中的其余电子设备均可采用上述方式将各自的认证分数传播到全部电子设备。进而，声纹认证应答系统中的每个电子设备均已获知全部电子设备各自的认证分数，即处于非离线状态的每个电子设备均已接收到处于非离线状态的全部电子设备各自的认证分数。

从而，每个电子设备中的认证结果一致性模块可基于全部电子设备各自的认证分数，确定出电子设备自身是否为应答电子设备。

在一些实施例中，认证结果一致性模块可在声纹认证应答系统中的全部电子设备各自的认证分数中，确定出最高认证分数。

在最高认证分数对应的电子设备包括声纹认证应答系统中的一个电子设备时，认证结果一致性模块可将最高认证分数对应的电子设备确定为应答电子设备。

例如，假设手机和PC处于离线状态，则音箱、大屏和平板均已接收到：音箱的认证分数为90，大屏的认证分数为80，平板的认证分数为85。那么，由于90>85>80。因此，音箱、大屏和平板中的每个电子设备的认证结果一致性模块可选举出应答电子设备为音箱。

另外，认证结果一致性模块，还用于测量电子设备在用户发出用户的语音交互数据时与用户间的距离。或者，每个电子设备可新增用于测量电子设备在用户发出用户的语音交互数据时与用户间的距离的测距模块(图4中未示意)。其中，测距模块可采用软件代码和/或硬件元器件来实现测距的功能。

在最高认证分数对应的电子设备包括声纹认证应答系统中的多个电子设备时，认证结果一致性模块可从最高认证分数对应的电子设备中，确定与用户距离最近的电子设备，并将与用户距离最近的电子设备确定为应答电子设备。

例如，假设手机和PC处于离线状态，则音箱、大屏和平板均已接收到：音箱的认证分数为90，大屏的认证分数为90，平板的认证分数为85。那么，由于90>85，且音箱比大屏更接近用户。因此，音箱、大屏和平板中的每个电子设备的认证结果一致性模块可选举出应答电子设备为音箱。

综上，在图6所示的多电子设备的家居场景中，音箱可发出“我在”的语音应答数据来认证应答用户发出的“小艺小艺”的语音交互数据。

从而，声纹认证应答系统中的每个电子设备可确定出了识别用户精度最高的电子设备，即选择出最适合认证应答的电子设备。

基于图3、图4和图5A-图5C实施例的描述，结合图7，介绍本申请的声纹认证应答方法的详细实现过程。

为了便于说明，图7中，本申请的声纹认证应答方法由第一电子设备来执行，第一电子设备为声纹认证应答系统中的处于非离线状态的一个电子设备，且第一电子设备中至少存储有用户的声纹认证模型。此处的第一电子设备的具体实现方式可参见图1-图5C所示的电子设备的描述，此处不做赘述。

请参阅图7，图7为本申请一实施例提供的一种声纹认证应答方法的流程示意图。如图7所示，本申请的声纹认证应答方法可以包括：

S101、第一电子设备获取用户的语音交互数据。

第一电子设备可采用音频处理模块和认证词采集模块，获取用户的语音交互数据。其中，用户的语音交互数据可为用户处于多电子设备的场景中所发出的语音数据。例如，用户的语音交互数据可包括唤醒词和/或命令语，唤醒词用于唤醒第一电子设备，命令语为指示第一电子设备执行相应操作的语音数据。例如，用户发出的“小艺小艺，今天天气如何”的语音交互数据中，“小艺小艺”为唤醒词，“今天天气如何”为命令语。

S102、第一电子设备对语音交互数据进行声纹认证，得到第一电子设备的认证分数，第一电子设备的认证分数用于表示第一电子设备认证语音交互数据属于用户的匹配度。

第一电子设备可采用声纹认证模块，调用存储在第一电子设备中的用户的声纹认证模块。从而，第一电子设备可通过用户的声纹认证模块，对语音交互数据进行声纹认证，得到第一电子设备的认证分数。

需要说明的是，在对用户的语音交互数据进行声纹认证之前，第一电子设备需要检测第一电子设备自身是否与声纹认证应答系统中的其余电子设备建立通信互连，即第一电子设备与其余电子设备间是否能够安全且可靠地传输数据。

其中，本申请对第一电子设备检测通信互连的方式不做限定。

在一些实施例中，服务器(如云服务器)中可存储有声纹认证应答系统中的可通信互连的电子设备。从而，第一电子设备可向服务器发送第一请求，第一请求用于询问第一电子设备自身是否与声纹认证应答系统中的其余电子设备建立了通信互连。服务器可基于服务器存储的声纹认证应答系统中的电子设备间是否通信互连的情况，可向第一电子设备发送第一响应，第一响应用于表示第一电子设备自身是否与其余电子设备中的每个电子设备建立了通信互连。其中，本申请对第一请求和第一响应的具体实现方式不做限定。

从而，在第一电子设备自身与声纹认证应答系统中的其余电子设备建立了通信互连的情况下，第一电子设备可对用户的语音交互数据进行声纹认证。在第一电子设备自身未与声纹认证应答系统中的其余电子设备建立了通信互连时的情况下，第一电子设备可屏蔽用户的语音交互数据，即不作认证应答。

在另一些实施例中，第一电子设备可向其余电子设备中的每个电子设备发送第二请求，第二请求用于询问第一电子设备自身是否与对应的电子设备建立了通信互连。其余电子设备中的每个电子设备基于第一电子设备与对应的电子设备自身是否通信互连的情况，可向第一电子设备发送第二响应，第二响应用于表示第一电子设备自身是否与对应的电子设备建立了通信互连。其中，本申请对第二请求和第二响应的具体实现方式不做限定。

S103、第一电子设备获取声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数，其余电子设备中的每个电子设备的认证分数是每个电子设备对语音交互数据进行声纹认证得到的，每个电子设备的认证分数用于表示每个电子设备认证语音交互数据属于用户的匹配度。

第一电子设备可采用认证结果一致性模块，接收到声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数。从而，第一电子设备可获取到声纹认证应答系统中的全部电子设备各自的认证分数。

S104、第一电子设备基于声纹认证应答系统中的全部电子设备各自的认证分数，确定第一电子设备是否为声纹认证应答系统中的应答电子设备。

第一电子设备还可采用认证结果一致性模块，基于声纹认证应答系统中的全部电子设备各自的认证分数，确定出声纹认证应答系统中的应答电子设备。其中，应答电子设备为声纹认证应答系统中的一个电子设备。

在确定第一电子设备为应答电子设备时，第一电子设备执行步骤S1051。在确定第一电子设备不为应答电子设备时，第一电子设备执行步骤S1052。

S1051、第一电子设备对语音交互数据进行认证应答。

第一电子设备可对用户的语音交互数据进行认证应答。其中，本申请对第一电子设备认证应答用户的语音交互数据的方式不做限定。在一些实施例中，第一电子设备可向用户提示第一电子设备所具备的功能，也可向用户询问第一电子设备所需执行的操作内容，也可以向用户回复用户的语音交互数据对应的答复。

S1052、第一电子设备对语音交互数据屏蔽认证应答。

第一电子设备可对用户的语音交互数据不作认证应答，而由声纹认证应答系统中的应答电子设备对用户的语音交互数据进行认证应答。

本申请的声纹认证应答方法，第一电子设备作为声纹认证应答系统中的一个电子设备，可获取用户的语音交互数据，并对用户的语音交互数据进行声纹认证，得到第一电子设备的认证分数。由于声纹认证应答系统中的电子设备间通信互连。因此，第一电子设备可获取声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数。第一电子设备基于声纹认证应答系统中的全部电子设备各自的认证分数，可确定出第一电子设备是否为声纹认证应答系统中的应答电子设备。在确定第一电子设备为应答电子设备时，第一电子设备可对用户的语音交互数据进行认证应答。从而，通过同步声纹认证应答系统中的每个电子设备的认证分数，完成了多电子设备的场景下的更为准确地对用户的识别和认证，选择出了声纹认证应答系统中的最合适的电子设备，使得最适合的电子设备能够对用户的语音交互数据进行认证应答，不仅实现了声纹认证应答系统中的电子设备间的协同互助式认证，也无需考虑由于声纹认证应答系统中存在处于离线状态的电子设备而导致无法实现用户的识别和认证的问题，提升了声纹认证应答系统在使用上的便捷性且安全性，还使得声纹认证应答系统中的电子设备识别和认证用户的效果更佳，提升了使用声纹认证应答系统的用户体验。基于步骤S103实施例的描述，除了第一电子设备之外，声纹认证应答系统中还可以包括第二电子设备，第二电子设备为声纹认证应答系统中除了第一电子设备之外的其余电子设备中的处于非离线状态的至少一个电子设备。

一方面，第一电子设备可向第二电子设备发送第一电子设备的设备标识和认证分数。另一方面，在第二电子设备为其余电子设备中的一个电子设备时，第一电子设备可接收第二电子设备的设备标识和认证分数。在第二电子设备为其余电子设备中的多个电子设备时，第一电子设备可接收第二电子设备中的一个电子设备发送的第二电子设备中的全部电子设备各自的设备标识和认证分数，或者，第一电子设备可接收第二电子设备中的多个电子设备发送的第二电子设备中的一个或多个电子设备各自的设备标识和认证分数。

从而，声纹认证应答系统中的每个电子设备可同步全部电子设备各自的认证分数。其中，前述提及的设备标识和认证分数的具体实现方式分别可参见前文实施例的设备标识和认证分数的描述，此处不做赘述。

基于步骤S104实施例的描述，第一电子设备可采用多种方式，基于声纹认证应答系统中的全部电子设备各自的认证分数，确定出声纹认证应答系统中的应答电子设备。

在一些实施例中，第一电子设备可在声纹认证应答系统中的全部电子设备各自的认证分数中，确定出最高认证分数。从而，第一电子设备可判断最高认证分数对应的电子设备在声纹认证应答系统中的电子设备的数量。

在最高认证分数对应的电子设备包括声纹认证应答系统中的一个电子设备时，第一电子设备可将最高认证分数对应的电子设备确定为应答电子设备。

在最高认证分数对应的电子设备包括声纹认证应答系统中的多个电子设备时，第一电子设备可从最高认证分数对应的电子设备中，确定与用户距离最近的电子设备，并将与用户距离最近的电子设备确定为应答电子设备。

从而，声纹认证应答系统中的每个电子设备可确定出电子设备自身是否需要对用户的语音交互数据进行认证应答，选择出了声纹认证应答系统中的最适合认证应答的电子设备。

示例性地，本申请提供一种电子设备，包括：存储器和处理器；存储器用于存储程序指令；处理器用于调用存储器中的程序指令使得电子设备执行前文实施例中的声纹认证应答方法。

示例性地，本申请提供一种芯片系统，芯片系统应用于包括存储器和传感器的电子设备；芯片系统包括：处理器；当处理器执行存储器中存储的计算机指令时，电子设备执行前文实施例中的声纹认证应答方法。

示例性地，本申请提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器使得电子设备执行时实现前文实施例中的声纹认证应答方法。

示例性地，本申请提供一种计算机程序产品，包括：执行指令，执行指令存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取执行指令，至少一个处理器执行执行指令使得电子设备实现前文实施例中的声纹认证应答方法。

在上述实施例中，全部或部分功能可以通过软件、硬件、或者软件加硬件的组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储电子设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid statedisk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种声纹认证应答方法，其特征在于，应用于第一电子设备，所述第一电子设备为声纹认证应答系统中的一个电子设备，所述声纹认证应答系统中的电子设备间通信互连；所述方法包括：

获取用户的语音交互数据；

对所述语音交互数据进行声纹认证，得到所述第一电子设备的认证分数，所述第一电子设备的认证分数用于表示所述第一电子设备认证所述语音交互数据属于所述用户的匹配度；

获取所述声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数，所述其余电子设备中的每个电子设备的认证分数是所述每个电子设备对所述语音交互数据进行声纹认证得到的，所述每个电子设备的认证分数用于表示所述每个电子设备认证所述语音交互数据属于所述用户的匹配度；

基于所述声纹认证应答系统中的全部电子设备各自的认证分数，确定所述第一电子设备是否为所述声纹认证应答系统中的应答电子设备；

在确定所述第一电子设备为所述应答电子设备时，对所述语音交互数据进行认证应答。

2.根据权利要求1所述的方法，其特征在于，获取所述声纹认证应答系统中的除了第一电子设备之外的其余电子设备各自的认证分数，包括：

向第二电子设备发送所述第一电子设备的设备标识和认证分数，且接收所述第二电子设备发送的所述其余电子设备各自的设备标识和认证分数，所述第二电子设备为所述其余电子设备中的至少一个电子设备。

3.根据权利要求1或2所述的方法，其特征在于，基于所述声纹认证应答系统中的全部电子设备各自的认证分数，确定所述应答电子设备，包括：

在所述声纹认证应答系统中的全部电子设备各自的认证分数中，确定最高认证分数；

在所述最高认证分数对应的电子设备包括所述声纹认证应答系统中的一个电子设备时，将所述最高认证分数对应的电子设备确定为所述应答电子设备。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述最高认证分数对应的电子设备包括所述声纹认证应答系统中的多个电子设备时，从所述最高认证分数对应的电子设备中，确定与所述用户距离最近的电子设备，并将与所述用户距离最近的电子设备确定为所述应答电子设备。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

在确定所述第一电子设备不为所述应答电子设备时，对所述语音交互数据屏蔽认证应答。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

接收所述用户的语音注册数据；

对所述用户的语音注册数据进行声纹训练，生成所述用户的声纹认证模型；

将所述用户的声纹认证模型存储在所述第一电子设备中，以使所述第一电子设备采用所述用户的声纹认证模型对所述语音交互数据进行声纹认证。

7.一种声纹认证应答系统，所述声纹认证应答系统中的电子设备间通信互连，其特征在于，针对所述声纹认证应答系统中的每个电子设备而言，包括：

所述电子设备，用于获取用户的语音交互数据；

所述电子设备，还用于对所述语音交互数据进行声纹认证，得到所述电子设备的认证分数，所述电子设备的认证分数用于表示所述电子设备认证所述语音交互数据属于所述用户的匹配度；

所述电子设备，还用于获取所述声纹认证应答系统中的除了所述电子设备之外的其余电子设备各自的认证分数，所述其余电子设备中的每个电子设备的认证分数是所述每个电子设备对所述语音交互数据进行声纹认证得到的，所述每个电子设备的认证分数用于表示所述每个电子设备认证所述语音交互数据属于所述用户的匹配度；

所述电子设备，还用于基于所述声纹认证应答系统中的全部电子设备各自的认证分数，确定所述电子设备是否为所述声纹认证应答系统中的应答电子设备；

所述电子设备，还用于在确定所述电子设备为所述应答电子设备时，对所述语音交互数据进行认证应答。

8.根据权利要求7所述的系统，其特征在于，所述电子设备，具体用于向所述其余电子设备中的至少一个电子设备发送所述电子设备的设备标识和认证分数，且接收所述其余电子设备中的至少一个电子设备发送的所述其余电子设备各自的设备标识和认证分数。

9.根据权利要求7或8所述的系统，其特征在于，所述电子设备，具体用于在所述声纹认证应答系统中的全部电子设备各自的认证分数中，确定最高认证分数；在所述最高认证分数对应的电子设备包括所述声纹认证应答系统中的一个电子设备时，将所述最高认证分数对应的电子设备确定为所述应答电子设备。

10.根据权利要求9所述的系统，其特征在于，所述电子设备，还用于在所述最高认证分数对应的电子设备包括所述声纹认证应答系统中的多个电子设备时，从所述最高认证分数对应的电子设备中，确定与所述用户距离最近的电子设备，并将与所述用户距离最近的电子设备确定为所述应答电子设备。

11.根据权利要求7-10任一项所述的系统，其特征在于，所述电子设备，还用于在确定所述电子设备不为所述应答电子设备时，对所述语音交互数据屏蔽认证应答。

12.根据权利要求7-11任一项所述的系统，其特征在于，所述电子设备，还用于接收所述用户的语音注册数据；对所述用户的语音注册数据进行声纹训练，生成所述用户的声纹认证模型；将所述用户的声纹认证模型存储在所述电子设备中，以使所述电子设备采用所述用户的声纹认证模型对所述语音交互数据进行声纹认证。

13.根据权利要求7-12任一项所述的系统，其特征在于，所述声纹认证应答系统中的电子设备间通过登录相同账号、采用近距离无线通信NFC或扫描相同二维码中的任意一种方式通信互连。

14.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令使得所述电子设备执行权利要求1-6任一项所述的声纹认证应答方法。

15.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6任一项所述的声纹认证应答方法。

16.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-6任一项所述的声纹认证应答方法。