CN111768771B

CN111768771B - 用于唤醒电子设备的方法和装置

Info

Publication number: CN111768771B
Application number: CN201910462512.2A
Authority: CN
Inventors: 白二伟
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2023-08-04
Anticipated expiration: 2039-05-30
Also published as: CN111768771A

Abstract

本申请实施例公开了用于唤醒电子设备的方法和装置。该方法的一具体实施方式包括：获取用于设置自定义唤醒词的第一音频数据，以及对该第一音频数据进行时频变换生成第一频谱数据；根据该第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，其中，频谱转换参数用于表征指示相同语义的不同频谱数据之间的转换关系；对该第二频谱数据进行时频逆变换，生成该第二音频数据；基于该第二音频数据，建立该自定义唤醒词对应的音频数据集合，其中，该音频数据集合用于确定是否唤醒电子设备。该实施方式实现了用户自定义设置唤醒词，从而可以提供新的唤醒电子设备的方式。

Description

用于唤醒电子设备的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于唤醒电子设备的方法和装置。

背景技术

随着物联网技术的飞速发展，越来越多的电子设备接入到网络中。语音交互渐渐代替了鼠标、手机等输入设备，成为控制电子设备的主流方式。目前具有语音交互功能的电子设备多种多样，例如智能音箱等。

在语音交互技术中，首先进入人机交互的是唤醒技术。一般情况下，电子设备可以由厂家设定唤醒词。用户使用的时候，需要发出厂家设定的唤醒词的语音，以唤醒电子设备。

发明内容

本申请实施例提出了用于唤醒电子设备的方法和装置。

第一方面，本申请实施例提供了一种用于唤醒电子设备的方法，该方法包括：获取用于设置自定义唤醒词的第一音频数据，以及对上述第一音频数据进行时频变换生成第一频谱数据；根据上述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，其中，频谱转换参数用于表征指示相同语义的不同频谱数据之间的转换关系；对上述第二频谱数据进行时频逆变换，生成上述第二音频数据；基于上述第二音频数据，建立上述自定义唤醒词对应的音频数据集合，其中，上述音频数据集合用于确定是否唤醒电子设备。

在一些实施例中，上述方法包括：响应于获取到待确定音频数据，确定上述待确定音频数据是否与上述音频数据集合中的音频数据匹配；响应于确定上述待确定音频数据与上述音频数据集合中的音频数据匹配，唤醒上述电子设备。

在一些实施例中，获取第三音频数据集合，其中，上述第三音频数据集合中的第三音频数据与声源距离对应，声源距离为声源与第一采集端之间的距离；对上述第三音频数据集合中的第三音频数据进行时频变换，生成第三频谱数据集合；根据上述第三频谱数据集合，生成频谱转换参数集合。

在一些实施例中，上述根据上述第三频谱数据集合，生成频谱转换参数集合，包括：从上述第三音频数据集合中的第三音频数据对应的声源距离中，获取声源距离对，其中，所获取的声源距离对包括第一声源距离和第二声源距离；根据上述第一声源距离对应的第三频谱数据和上述第二声源距离对应的第三频谱数据，生成上述声源距离对的频谱转换参数。

在一些实施例中，上述根据上述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，包括：根据上述第一音频数据进行声源定位，确定上述第一音频数据对应的声源与第二采集端之间的定位距离；从频谱转换参数集合中，查找与上述定位距离相匹配的声源距离对的频谱转换参数；根据查找出的频谱转换参数和上述第一频谱数据，生成第二频谱数据。

在一些实施例中，上述第三音频数据集合包括近场第三音频数据和远场第三音频数据；以及上述根据上述第三频谱数据集合，生成频谱转换参数集合，包括：根据近场第三频谱数据和远场声源距离对应的远场第三频谱数据，生成与上述远场声源距离对应的频谱转换参数，其中，近场第三频谱数据由近场第三音频数据时频变换生成。

在一些实施例中，上述获取用于设置自定义唤醒词的第一音频数据，以及对上述第一音频数据进行时频变换生成第一频谱数据包括：获取用于设置自定义唤醒词的近场第一音频数据，以及根据上述近场第一音频数据生成的近场第一频谱数据；以及上述根据上述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，包括：根据上述近场第一频谱数据和与远场声源距离对应的频谱转换参数，生成与上述远场声源距离对应的远场第二音频数据。

第二方面，本申请实施例提供了一种用于唤醒电子设备的装置，该装置包括：获取单元，被配置成获取用于设置自定义唤醒词的第一音频数据，以及对上述第一音频数据进行时频变换生成第一频谱数据；第一生成单元，被配置成根据上述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，其中，频谱转换参数用于表征指示相同语义的不同频谱数据之间的转换关系；第二生成单元，被配置成对上述第二频谱数据进行时频逆变换，生成上述第二音频数据；建立单元，被配置成基于上述第二音频数据，建立上述自定义唤醒词对应的音频数据集合，其中，上述音频数据集合用于确定是否唤醒电子设备。

在一些实施例中，上述装置包括：确定单元，被配置成响应于获取到待确定音频数据，确定上述待确定音频数据是否与上述音频数据集合中的音频数据匹配；唤醒单元，被配置成响应于确定上述待确定音频数据与上述音频数据集合中的音频数据匹配，唤醒上述电子设备。

在一些实施例中，上述频谱转换参数集合通过以下生成方式生成：获取第三音频数据集合，其中，上述第三音频数据集合中的第三音频数据与声源距离对应，声源距离为声源与第一采集端之间的距离；对上述第三音频数据集合中的第三音频数据进行时频变换，生成第三频谱数据集合；根据上述第三频谱数据集合，生成频谱转换参数集合。

在一些实施例中，上述第一生成单元，还被配置成：根据上述第一音频数据进行声源定位，确定上述第一音频数据对应的声源与第二采集端之间的定位距离；从频谱转换参数集合中，查找与上述定位距离相匹配的声源距离对的频谱转换参数；根据查找出的频谱转换参数和上述第一频谱数据，生成第二频谱数据。

在一些实施例中，上述获取单元，还被配置成：获取用于设置自定义唤醒词的近场第一音频数据，以及根据上述近场第一音频数据生成的近场第一频谱数据；以及上述第一生成单元，还被配置成：根据上述近场第一频谱数据和与远场声源距离对应的频谱转换参数，生成与上述远场声源距离对应的远场第二音频数据。

第三方面，本申请实施例提供了一种用于唤醒电子设备的电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得该一个或多个处理器实现如上述用于唤醒电子设备的方法中任一实施例的方法。

第四方面，本申请实施例提供了一种用于唤醒电子设备的计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述用于唤醒电子设备的方法中任一实施例的方法。

本申请实施例提供的用于唤醒电子设备的方法和装置，本实施例示出的方法，通过预先生成的频谱转换参数集合，对设置自定义唤醒的第一音频数据进行扩展，得到自定义唤醒的对应的多种音频数据，由此，用户可以自定义设置唤醒词，从而可以提供新的唤醒电子设备的方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于唤醒电子设备的方法的一个实施例的流程图；

图3是根据本申请的用于唤醒电子设备的方法的一个应用场景的示意图；

图4是采集第三音频数据集合的示例性示意图；

图5是采集第三音频数据的示例性示意图；

图6是根据本申请的频谱转换参数集合的生成方式的流程图；

图7是根据本申请的步骤603的一种可选的实现方式的流程图；

图8是根据本申请的用于唤醒电子设备的方法的再一个实施例的流程图；

图9是根据本申请的用于唤醒电子设备的方法的又一个实施例的流程图；

图10是根据本申请的用于唤醒电子设备的装置的一个实施例的结构示意图；

图11是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的应用于唤醒电子设备的提醒方法或应用于唤醒电子设备的提醒装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如语音识别类应用、闹钟类应用、图像处理类应用、即时通信工具等。

终端设备101、102、103可以是硬件，可以是具有移动单元的各种电子设备，包括但不限于能够移动的智能音箱、智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上的语音识别类应用提供支持的后台服务器。后台服务器可以对接收到的语音等数据进行分析等处理。

需要说明的是，本申请实施例所提供的应用于唤醒电子设备的提醒方法可以由终端设备101、102、103执行，相应地，应用于唤醒电子设备的提醒装置可以设置于终端设备101、102、103中。本申请实施例所提供的应用于唤醒电子设备的提醒方法可以由服务器105执行，相应地，应用于唤醒电子设备的提醒装置可以设置于服务器105中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当应用于唤醒电子设备的提醒方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括应用于唤醒电子设备的提醒方法运行于其上的电子设备。

继续参考图2，其示出了根据本申请的用于唤醒电子设备的方法的一个实施例的流程200。该用于唤醒电子设备的方法，包括以下步骤：

步骤201，获取用于设置自定义唤醒词的第一音频数据，以及对第一音频数据进行时频变换生成第一频谱数据。

在本实施例中，用于唤醒电子设备的方法的第一执行主体(例如图1所示的终端或者服务器)可以获取用于设置自定义唤醒词的第一音频数据，以及对第一音频数据进行时频变换生成第一频谱数据。

在本实施例中，用户可以发出设置自定义唤醒词的第一语音，然后由具有音频采集功能的电子设备采集第一语音，可得到第一音频数据。

在本实施例中，可以由上述第一执行主体自己采集第一语音得到第一音频数据。也可以由其它电子设备采集第一语音得到第一音频数据，再将第一音频数据发送给上述第一执行主体。

在本实施例中，上述第一执行主体可以对第一音频数据进行时频变换生成第一频谱数据。在这里，可以通过各种时频变换方法，对第一音频数据进行时频变换，例如傅里叶变换、快速傅里叶变换、拉普拉斯变换等，在此不做限定。

在本实施例中，第一音频数据是时域空间的数据。第一频谱数据可以是频域空间的数据。

步骤202，根据第一频谱数据和预先生成的频谱转换参数，生成第二频谱数据。

在本实施例中，上述第一执行主体可以根据第一频谱数据和预先生成的频谱转换参数，生成第二频谱数据。

在这里，频谱转换参数可以用于表征指示相同语义的不同频谱数据之间的转换关系。

作为示例，用户设置的自定义唤醒词可以是“小花”。可以理解，同一用户在不同位置，发出的“小花”这一语音，采集端采集到的音频数据是不同的。不同用户在同一位置，发出“小花”这一语音，采集端采集到的音频数据也是不同的。

步骤203，对第二频谱数据进行时频逆变换，生成第二音频数据。

在本实施例中，上述第一执行主体可以对上述第二频谱数据进行时频逆变换，生成第二音频数据。

在本实施例中，可以利用与上述时频变换对应的时频逆变换，对上述第二频谱数据进行处理，生成第二音频数据。例如，对第一音频数据使用快速傅里叶变换，生成第一频谱数据；利用与快速傅里叶变换对应的快速傅里叶逆变换，对第二频谱数据进行处理，生成第二音频数据。

步骤204，基于第二音频数据，建立自定义唤醒词对应的音频数据集合。

在本实施例中，上述第一执行主体可以基于上述第二音频数据，建立上述自定义唤醒词对应的音频数据集合。

在这里，上述音频数据集合可以用于确定是否唤醒电子设备。

在这里，上述音频数据集合可以包括第二音频数据。可选的，上述音频数据集合还可以包括上述第一音频数据。

在一些实施例中，上述第一执行主体，可以是待唤醒的电子设备；这种情况下，上述第一执行主体(也就是待唤醒的电子设备)可以利用音频数据集合，确定是否自我唤醒。上述第一执行主体，可以不是待唤醒的电子设备；在这种情况下，上述第一执行主体可以将上述音频数据集合发送给待唤醒的电子设备，待唤醒的电子设备可以利用音频数据集合，确定是否自我唤醒。

继续参见图3，图3是根据本实施例的用于唤醒电子设备的方法的一个应用场景的示意图。如图3所示：

首先，上述智能音箱302可以采集用户301发出的第一语音，生成第一音频数据。第一语音用于设置用户的自定义唤醒词“小花”。

然后，上述智能音箱302可以将第一音频数据发送至服务器303。

然后，服务器303可以获取用于设置自定义唤醒词的第一音频数据，以及对第一音频数据进行时频变换生成第一频谱数据。

然后，服务器303可以根据第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据。例如，

再后，服务器可以基于第二音频数据，建立自定义唤醒词对应的音频数据集合。在这里，上述音频数据集合可以用于确定是否唤醒电子设备。

再后，上述服务器可以向上述智能音箱发送上述音频数据集合。

最后，上述智能音箱可以采集用于发出的待确定语音，生成待确定音频数据；利用音频数据集合，确定待确定音频数据是否指示上述自定义唤醒词。上述执行音箱可以响应于待确定音频数据指示上述自定义唤醒词，启动智能音箱的预定义功能(例如语音交互功能)。

本实施例示出的方法，通过预先生成的频谱转换参数集合，对设置自定义唤醒的第一音频数据进行扩展，得到自定义唤醒的对应的多种音频数据，技术效果至少可以包括：

第一，用户可以自定义设置唤醒词，从而可以提供新的唤醒电子设备的方式。

第二，对用户自定义唤醒词的音频数据进行扩展，可以得到指示用户设置的唤醒词的多个音频数据，以多个音频数据为基础，判断待确定音频数据是否指示上述自定义唤醒词。由此，可以提高识别用户发出的语音是否是自定义唤醒词的准确度。

第三，需要说明的是，在用户自定义设置唤醒词的实施过程中，会产生技术问题：采集到的用户的音频数据单一，单一的音频数据作为匹配样本的话，当用户与待唤醒的电子设备的距离方位等不定时，对用户发出的唤醒词识别率较低。本实施例提出的音频数据扩展方式，可以在较为单一的音频数据的基础上，利用频谱转换参数集合扩展出大量的唤醒词的音频数据，提高对用户发出的唤醒词的识别率。

在一些实施例中，上述方法还包括：响应于获取到待确定音频数据，确定上述待确定音频数据是否与上述音频数据集合中的音频数据匹配；响应于确定上述待确定音频数据与上述音频数据集合中的音频数据匹配，唤醒上述电子设备。

可选的，可以设置如下：如果确定待确定音频设备与预定数目个(一个或多个)音频数据匹配，则唤醒上述电子设备。

请参考图4，其示例性地示出了采集端采集第三音频数据集合的过程。通常，可以由第一采集端采集第三语音，

作为示例，测试人员401可以在距离智能音响404的1米处，发出第三语音(例如语音“茄子”)，智能音响404采集得到1米对应的第三音频数据；测试人员402可以在距离智能音响404的2米处，发出第三语音(例如语音“茄子”)，智能音响404采集得到2米对应的第三音频数据；测试人员403可以在距离智能音响404的3米处，发出第三语音(例如语音“茄子”)，智能音响404采集得到3米对应的第三音频数据。测试人员405可以在距离智能音响404小于预设距离阈值(例如0.5米)的地方(可以认为是近场)，发出第三语音(例如语音“茄子”)，智能音响404采集得到近场对应的第三音频数据。

可选的，位于某一位置的测试人员的数量，可以是1个，也可以是多个。如果是多个，多个测试人员可以在不同的时间在此位置发声。

可选的，测试人员401、测试人员402、测试人员403和测试人员405可以是同一人员，此人可以在不同时刻出现在不同位置。

可选的，请参考图5，可以将与智能音箱的距离为目标距离的一个或者多个位置，作为测试人员发声时所在的位置。例如，将与智能音箱404距离为1米处的四个位置，作为测试人员的位置；测试人员401可以包括测试人员4011、测试人员4012、测试人员4013和测试人员4014，测试人员4011、测试人员4012、测试人员4013和测试人员4014可以分别位于上述四个位置上。

请参考图6，其示出了生成频谱转换参数的生成方式的流程600，流程600可以包括：

步骤601，获取第三音频数据集合。

在本实施例中，生成频谱转换参数的生成方式的第二执行主体，可以与上述流程200的第一执行主体相同，也可以不同。

在本实施例中，上述第二执行主体(例如服务器)，可以获取第三音频数据集合。

作为示例，第一采集端(例如智能音响)可以将第三音频数据集合发送给上述第二执行主体(例如服务器)。

在这里，上述第三音频数据集合中的第三音频数据与声源距离对应。

在这里，声源距离为声源与第一采集端之间的距离。

步骤602，对第三音频数据集合中的第三音频进行时频变换，生成第三频谱数据集合。

在本实施例中，上述第二执行主体可以对第三音频数据集合中的第三音频数据进行时频变换，生成第三频谱数据集合。

可以理解，由第三音频数据进行时频变换得到的第三频谱数据，与此第三音频数据的声源距离对应。

步骤603，根据第三频谱数据集合，生成频谱转换参数。

在本实施例中，上述第二执行主体，可以根据第三频谱数据集合，生成频谱转换参数。

在一些实施例中，第三音频数据集合可以包括近场第三音频数据和远场第三音频数据。远场第三音频数据与远场声源距离对应。

在一些实施例中，步骤603可以包括：上述第二执行主体可以根据近场第三频谱数据和远场声源距离对应的远场第三频谱数据，生成与远场声源距离对应的频谱转换参数。

作为示例，可以将远场第三频谱数据与近场第三频谱数据的比值，作为远场声源距离对应的频谱转换参数。

在这里，近场第三频谱数据由近场第三音频数据时频变换而生成。

作为示例，请参考图4，可以将测试人员405发出的第三语音对应的第三音频数据，作为近场第三音频数据。将位于距离智能音箱1米、2米和3米处的测试人员发出的第三语音对应的第三音频数据，作为远场音频数据。具体地，将测试人员401发出的第三语音对应的第三音频数据，确定为远场声源距离1米对应的第三音频数据；将测试人员402发出的第三语音对应的第三音频数据，确定为远场声源距离2米对应的第三音频数据；将测试人员403发出的第三语音对应的第三音频数据，确定为远场声源距离3米对应的第三音频数据。

作为示例，可以将远场声源距离3米对应的第三音频数据进行时频变换，生成远场声源距离3米对应的远场第三频谱数据；将近场第三音频数据进行时频变换，生成近场第三频谱数据。然后，将远场声源距离3米对应的远场第三频谱数据与近场第三频谱数据的比值，确定为远场声源距离3米对应的频谱转换参数。

在一些实施例中，步骤603可以包括流程700，流程700可以包括：

步骤701，从第三音频数据集合中的第三音频数据对应的声源距离中，获取声源距离对。

在本实施例中，上述第二执行主体，可以从第三音频数据集合中的第三音频数据对应的声源距离中，获取声源距离对。

作为示例，请参考图4，声源距离可以包括0米(近场算作0米)、1米、2米和3米。声源距离对可以包括{1米，2米}、{2米，3米}等等。

在这里，所获取的声源距离对可以包括第一声源距离和第二声源距离。换句话说，可以将所获取的声源距离对，称为第一声源距离和第二声源距离。

在一些实施例中，声源距离对应的第三频谱数据，可以是一项也可以是多项。请参考图5，声源距离1米对应的第三频谱数据，可以包括：测试人员4011发出的第三语音对应的第三频谱数据、测试人员4012发出的第三语音对应的第三频谱数据、测试人员4013发出的第三语音对应的第三频谱数据和测试人员4014发出的第三语音对应的第三频谱数据。

步骤702，根据第一声源距离对应的第三频谱数据和第二声源距离对应的第三频谱数据，生成声音距离对的频谱转换参数。

在本实施例中，上述第二执行主体可以根据第一声源距离对应的第三频谱数据和第二声源距离对应的第三频谱数据，生成声源距离对的频谱转换参数。

作为示例，第一声源距离为2米，第二声源距离为3米。可以将第一声源距离对应的第三频谱数据进行加和，第一和；可以将第二声源距离对应的第三频谱数据进行加和，得到第二和。将第一和与第二和的比值，作为声源距离对{2米，3米}的频谱转换参数；将第二和与第一和的比值，作为声源距离对{3米，2米}的频谱转换参数。

可以理解，声源距离对是有顺序的，声源距离对{2米，3米}与声源距离对{3米，2米}是不同的。

进一步参考图8，其示出了用于唤醒电子设备的方法的又一个实施例的流程800。该用于唤醒电子设备的方法的流程800，包括以下步骤：

步骤801，获取用于设置自定义唤醒词的近场第一音频数据，以及对近场第一音频数据进行时频变换生成近场第一频谱数据。

在本实施例中，用于唤醒电子设备的方法的第一执行主体(例如图1所示的终端设备或者服务器)可以获取用于设置自定义唤醒词的近场第一音频数据，以及对上述近场第一音频数据进行时频变换生成近场第一频谱数据。

在这里，用户设置自定义唤醒词时，通常在用户使用的用户电子设备旁边，可以默认用户在近场发出语音，由此，可以采集到近场第一音频数据。

在本实施例中，频谱转换参数集合中的频谱转换参数与远场声源距离对应。

步骤802，根据近场第一频谱数据和与远场声源距离对应的频谱转换参数，生成与远场声源距离对应的第二频谱数据。

在本实施例中，上述执行主体可以根据近场第一频谱数据和与远场声源距离对应的频谱转换参数，生成与远场声源距离对应的远场第二频谱数据。

步骤803，对所生成的远场第二频谱数据进行时频逆变换，生成与上述远场声源距离对应的远场第二音频数据。

在本实施例中，上述第一执行主体可以对所生成的第二频谱数据进行时频逆变换，生成第二音频数据。

在这里，如果远场声源距离是多个，则可以生成多个远场第二音频数据。

步骤804，基于所生成的远场第二音频数据，建立自定义唤醒词对应的音频数据集合。

在本实施例中，上述第一执行主体可以基于所生成的一个或多个远场第二音频数据，建立自定义唤醒词对应的音频数据集合。

在这里，音频数据集合可以包括近场第一音频数据和与远场声源距离对应的远场第二音频数据。

从图8中可以看出，与图2对应的实施例相比，本实施例中的用于唤醒电子设备的方法的流程800突出了获取近场第一音频数据的步骤以及生成远场第二音频数据的步骤，由此，对于自定义唤醒词，可以在获取近场音频数据的情况下，生成远场音频数据，扩展了自定义唤醒词的音频数据量，从而可以进一步提高对于唤醒词的识别率。

进一步参考图9，其示出了用于唤醒电子设备的方法的又一个实施例的流程900。该用于唤醒电子设备的方法的流程900，包括以下步骤：

步骤901，获取用于设置自定义唤醒词的第一音频数据，以及对第一音频数据进行时频变换生成第一频谱数据。

在本实施例中，用于唤醒电子设备的方法的第一执行主体(例如图1所示的终端设备或者服务器)可以获取用于设置自定义唤醒词的第一音频数据。

步骤902，根据第一音频数据进行声源定位，确定第一音频数据对应的声源与第二采集端之间的定位距离。

在本实施例中，上述第一执行主体可以根据第一音频数据进行声源定位，确定第一音频数据对应的声源与第二采集端之间的定位距离。

作为示例，作为声源的用户，可以在与第二采集端距离较远的地方，发出用于设置自定义唤醒词的第一语音。

步骤903，从频谱转换参数集合中，查找与定位距离相匹配的声源距离对的频谱转换参数。

在本实施例中，上述第一执行主体，可以从频谱转换参数集合中，查找与定位距离相匹配的声源距离对的频谱转换参数。

在本实施例中，频谱转换参数集合中的频谱转换参数与声源距离对对应。

在这里，如果频谱转换参数的对应的声源距离对中，包括与定位距离相同的声源距离；则确定定位距离与此声源距离对相匹配；则将此频谱转换参数从频谱转换参数集合中取出。

步骤904，根据查找出的频谱转换参数和第一频谱数据，生成第二频谱数据。

在本实施例中，上述第一执行主体，可以根据查找出的频谱转换参数和第一频谱数据，生成第二频谱数据。

作为示例，定位距离是2米，请参考图4给出的示例，与定位距离相匹配的声源距离对可以包括{0米，2米}{2米，0米}{1米，2米}{2米，1米}{3米，2米}{2米，3米}。上述六个声源距离对中，每个声源距离对的频谱转换参数与上述第一频谱数据结合，生成第二频谱数据。作为示例，将上述第一频谱数据与{0米，2米}对应的频谱转换参数相乘，可以得到0米对应的第二频谱数据；将上述第一频谱数据与{2米，0米}对应的频谱转换参数相除，也可以得到0米对应的第二频谱数据。

步骤905，对第二频谱数据进行时频逆变换，生成第二音频数据。

在本实施例中，可以利用与上述时频变换对应的时频逆变换，对上述第二频谱数据进行操作，生成第二音频数据。

步骤906，基于第二音频数据，建立自定义唤醒词对应的音频数据集合。

在本实施例中，上述第一执行主体可以基于第二音频数据，建立上述自定义唤醒词对应的音频数据集合。

在这里，上述音频数据集合用于确定是否唤醒电子设备。

步骤905和步骤906的实施细节和技术效果，可以参考步骤203和步骤204中的说明，在此不再赘述。

从图9中可以看出，与图2对应的实施例相比，本实施例中的用于唤醒电子设备的方法的流程900突出了对第一音频数据进行声源定位步骤以及根据声源定位和频谱转换参数生成第二频谱数据的步骤，由此，技术效果至少可以包括：对用户设置自定义唤醒词时相对于电子设备的位置，不做限制。

进一步参考图10，作为对上述各图所示方法的实现，本申请提供了一种用于唤醒电子设备的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征。该装置具体可以应用于各种电子设备中。

如图10所示，本实施例的用于唤醒电子设备的装置1000包括：获取单元1001、第一生成单元1002、第二生成单元1003和建立单元1004。其中，获取单元，被配置成获取用于设置自定义唤醒词的第一音频数据，以及对上述第一音频数据进行时频变换生成第一频谱数据；第一生成单元，被配置成根据上述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，其中，频谱转换参数用于表征指示相同语义的不同频谱数据之间的转换关系；第二生成单元，被配置成对上述第二频谱数据进行时频逆变换，生成上述第二音频数据；建立单元，被配置成基于上述第二音频数据，建立上述自定义唤醒词对应的音频数据集合，其中，上述音频数据集合用于确定是否唤醒电子设备。

在本实施例中，用于唤醒电子设备的装置1000的获取单元1001、第一生成单元1002、第二生成单元1003和建立单元1004的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在一些实施例中，上述装置包括：确定单元(未示出)，被配置成响应于获取到待确定音频数据，确定上述待确定音频数据是否与上述音频数据集合中的音频数据匹配；唤醒单元(未示出)，被配置成响应于确定上述待确定音频数据与上述音频数据集合中的音频数据匹配，唤醒上述电子设备。

下面参考图11，其示出了适于用来实现本申请实施例的电子设备的计算机系统1100的结构示意图。图11示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(CPU，Central ProcessingUnit)1101，其可以根据存储在只读存储器(ROM，Read Only Memory)1102中的程序或者从存储部分1106加载到随机访问存储器(RAM，Random Access Memory)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O，Input/Output)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括硬盘等的存储部分1106；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分1107。通信部分1107经由诸如因特网的网络执行通信处理。驱动器1108也根据需要连接至I/O接口1105。可拆卸介质1109，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1108上，以便于从其上读出的计算机程序根据需要被安装入存储部分1106。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1107从网络上被下载和安装，和/或从可拆卸介质1109被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、第一生成单元、第二生成单元和建立单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取第一音频数据的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取用于设置自定义唤醒词的第一音频数据，以及对上述第一音频数据进行时频变换生成第一频谱数据；根据上述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，其中，频谱转换参数用于表征指示相同语义的不同频谱数据之间的转换关系；对上述第二频谱数据进行时频逆变换，生成上述第二音频数据；基于上述第二音频数据，建立上述自定义唤醒词对应的音频数据集合，其中，上述音频数据集合用于确定是否唤醒电子设备。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于唤醒电子设备的方法，包括：

获取用于设置自定义唤醒词的第一音频数据，以及对所述第一音频数据进行时频变换生成第一频谱数据；

根据所述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，其中，频谱转换参数用于表征指示相同语义的不同频谱数据之间的转换关系；

其中，所述频谱转换参数集合通过以下生成方式生成：获取第三音频数据集合，其中，所述第三音频数据集合中的第三音频数据与声源距离对应，声源距离为声源与第一采集端之间的距离；对所述第三音频数据集合中的第三音频数据进行时频变换，生成第三频谱数据集合；根据所述第三频谱数据集合，生成频谱转换参数集合，包括：将远场声源距离对应的远场第三频谱数据和近场第三频谱数据的比值，作为与所述远场声源距离对应的频谱转换参数，其中，近场第三频谱数据由近场第三音频数据时频变换生成；

对所述第二频谱数据进行时频逆变换，生成第二音频数据；

基于所述第二音频数据，建立所述自定义唤醒词对应的音频数据集合，其中，所述音频数据集合用于确定是否唤醒电子设备。

2.根据权利要求1所述的方法，其中，所述方法还包括：

响应于获取到待确定音频数据，确定所述待确定音频数据是否与所述音频数据集合中的音频数据匹配；

响应于确定所述待确定音频数据与所述音频数据集合中的音频数据匹配，唤醒所述电子设备。

3.根据权利要求1所述的方法，其中，所述根据所述第三频谱数据集合，生成频谱转换参数集合，还包括：

从所述第三音频数据集合中的第三音频数据对应的声源距离中，获取声源距离对，其中，所获取的声源距离对包括第一声源距离和第二声源距离；

根据所述第一声源距离对应的第三频谱数据和所述第二声源距离对应的第三频谱数据，生成所述声源距离对的频谱转换参数。

4.根据权利要求3所述的方法，其中，所述根据所述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，包括：

根据所述第一音频数据进行声源定位，确定所述第一音频数据对应的声源与第二采集端之间的定位距离；

从频谱转换参数集合中，查找与所述定位距离相匹配的声源距离对的频谱转换参数；

根据查找出的频谱转换参数和所述第一频谱数据，生成第二频谱数据。

5.根据权利要求1所述的方法，其中，所述获取用于设置自定义唤醒词的第一音频数据，以及对所述第一音频数据进行时频变换生成第一频谱数据，包括：

获取用于设置自定义唤醒词的近场第一音频数据，以及根据所述近场第一音频数据生成的近场第一频谱数据；以及

所述根据所述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，包括：

根据所述近场第一频谱数据和与远场声源距离对应的频谱转换参数，生成与所述远场声源距离对应的远场第二音频数据。

6.一种用于唤醒电子设备的装置，包括：

获取单元，被配置成获取用于设置自定义唤醒词的第一音频数据，以及对所述第一音频数据进行时频变换生成第一频谱数据；

第一生成单元，被配置成根据所述第一频谱数据和预先生成的频谱转换参数集合，生成第二频谱数据，其中，频谱转换参数用于表征指示相同语义的不同频谱数据之间的转换关系；

其中，所述频谱转换参数集合通过以下生成方式生成：获取第三音频数据集合，其中，所述第三音频数据集合中的第三音频数据与声源距离对应，声源距离为声源与第一采集端之间的距离；对所述第三音频数据集合中的第三音频数据进行时频变换，生成第三频谱数据集合；根据所述第三频谱数据集合，生成频谱转换参数集合，包括：根将远场声源距离对应的远场第三频谱数据和近场第三频谱数据的比值，作为与所述远场声源距离对应的频谱转换参数，其中，近场第三频谱数据由近场第三音频数据时频变换生成；

第二生成单元，被配置成对所述第二频谱数据进行时频逆变换，生成第二音频数据；

建立单元，被配置成基于所述第二音频数据，建立所述自定义唤醒词对应的音频数据集合，其中，所述音频数据集合用于确定是否唤醒电子设备。

7.根据权利要求6所述的装置，其中，所述装置还包括：

确定单元，被配置成响应于获取到待确定音频数据，确定所述待确定音频数据是否与所述音频数据集合中的音频数据匹配；

唤醒单元，被配置成响应于确定所述待确定音频数据与所述音频数据集合中的音频数据匹配，唤醒所述电子设备。

8.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。