CN111816178A

CN111816178A - 语音设备的控制方法、装置和设备

Info

Publication number: CN111816178A
Application number: CN202010648079.4A
Authority: CN
Inventors: 侯雯珺; 曹阳
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-23
Anticipated expiration: 2040-07-07
Also published as: CN111816178B

Abstract

本发明提供一种语音设备及其控制方法、装置、设备和存储介质，方法包括：获取预设时间段内语音设备的唤醒失败次数；若所述唤醒失败次数大于或等于第一预设次数，减小所述语音设备的唤醒信息对应的唤醒阈值；若所述唤醒失败次数小于或等于第二预设次数，增大所述语音设备的唤醒信息对应的唤醒阈值；若所述唤醒失败次数小于所述第一预设次数，且大于所述第二预设次数，维持所述语音设备的唤醒信息对应的唤醒阈值，从而实现了在任何用户的使用场景、用户习惯的说话音量下，自动调整语音设备的唤醒阈值。采用本发明的技术方案，能够在较低的误唤醒率下，提高语音设备的唤醒率。

Description

语音设备的控制方法、装置和设备

技术领域

本发明涉及语音设备技术领域，尤其涉及一种语音设备及其控制方法、装置、设备和存储介质。

背景技术

语音识别技术在近些年取得了显著的进步，该技术已进入工业、家电、智能家居等各个领域。语音唤醒即是语音识别技术的一种形式，其不直接接触语音设备，通过语音即可将语音设备唤醒运行。语音唤醒就是让语音设备(智能音箱、手机、玩具、家电等)在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令，即唤醒词)，让处于休眠状态下的语音设备直接进入到等待指令状态，开启语音交互第一步。

通常情况下，可以针对通过对语音模型进行训练，设置合适的唤醒阈值，当用户输入得到的唤醒阈值大于预设的唤醒阈值时，唤醒成功，否则唤醒失败。

但是，现有技术中，语音设备的唤醒阈值大多是固定数值，而语音设备在用户的使用场景、用户习惯的说话音量是存在很大差异的，这就造成唤醒阈值设置过低时，设备容易被误唤醒，唤醒阈值设置过高时，唤醒率下降，用户唤醒设备困难。

因此，如何在较低的误唤醒率下，提高语音设备的唤醒率，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提出一种语音设备及其控制方法、装置、设备和存储介质，以在较低的误唤醒率下，提高语音设备的唤醒率。

基于上述目的，本发明提供了一种语音设备的控制方法，包括：

获取预设时间段内语音设备的唤醒失败次数；

若所述唤醒失败次数大于或等于第一预设次数，减小所述语音设备的唤醒信息对应的唤醒阈值；

若所述唤醒失败次数小于或等于第二预设次数，增大所述语音设备的唤醒信息对应的唤醒阈值；

若所述唤醒失败次数小于所述第一预设次数，且大于所述第二预设次数，维持所述语音设备的唤醒信息对应的唤醒阈值。

进一步地，上述所述的语音设备的控制方法中，所述减小所述语音设备的唤醒信息对应的唤醒阈值，包括：

按照预设的减小幅度，减小所述语音设备的唤醒信息对应的唤醒阈值；

其中，减小后的目标唤醒阈值大于或等于与所述唤醒阈值相对应的预设下限值。

确定所述唤醒失败次数与所述第一预设次数的差值；

根据预设的差值与减小幅度的关联关系库，确定与所述差值相关联的减小幅度；

按照与所述差值相关联的减小幅度，减小所述语音设备的唤醒信息对应的唤醒阈值；

进一步地，上述所述的语音设备的控制方法中，所述增大所述语音设备的唤醒信息对应的唤醒阈值，包括：

按照预设的增大幅度，增大所述语音设备的唤醒信息对应的唤醒阈值；

其中，增大后的目标唤醒阈值小于或等于与所述唤醒阈值相对应的预设上限值。

进一步地，上述所述的语音设备的控制方法中，所述获取预设时间段内语音设备的唤醒失败次数，包括：

在所述预设时间段内，若采集到所述唤醒信息，确定所述唤醒信息的实时唤醒阈值；

若检测到所述实时唤醒阈值小于所述唤醒阈值，确定唤醒所述语音设备失败，并将所述唤醒失败次数加一。

进一步地，上述所述的语音设备的控制方法中，所述确定唤醒所述语音设备失败之前，还包括：

检测所述实时唤醒阈值是否大于预设的计数阈值；

对应地，所述确定唤醒所述语音设备失败，包括：

若所述实时唤醒阈值大于所述预设的计数阈值，确定唤醒所述语音设备失败。

本发明还提供一种语音设备的控制装置，包括：

获取模块，用于获取预设时间段内语音设备的唤醒失败次数；

调整模块，用于若所述唤醒失败次数大于或等于第一预设次数，减小所述语音设备的唤醒信息对应的唤醒阈值；若所述唤醒失败次数小于或等于第二预设次数，增大所述语音设备的唤醒信息对应的唤醒阈值；若所述唤醒失败次数小于所述第一预设次数，且大于所述第二预设次数，维持所述语音设备的唤醒信息对应的唤醒阈值。

本发明还提供一种语音设备的控制设备，包括存储器、控制器及存储在存储器上并可在控制器上运行的计算机程序，所述控制器执行所述程序时实现如上任意一项所述的方法。

本发明还提供一种语音设备，设置有上述所述的语音设备的控制设备。

本发明还提供一种存储介质，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述意一项所述的方法。

从上面所述可以看出，本发明提供的语音设备及其控制方法、装置、设备和存储介质，通过获取预设时间段内语音设备的唤醒失败次数，根据语音设备的唤醒失败次数来判断语音设备被唤醒的难易程度，并在语音设备较难被唤醒的情况下，减小语音设备的唤醒信息对应的唤醒阈值；在语音设备容易被唤醒情况下，增大语音设备的唤醒信息对应的唤醒阈值；在语音设备较容易被唤醒情况下，维持语音设备的唤醒信息对应的唤醒阈值，实现了在任何用户的使用场景、用户习惯的说话音量下，自动调整语音设备的唤醒阈值。采用本发明的技术方案，能够在较低的误唤醒率下，提高语音设备的唤醒率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音设备的控制方法实施例的流程图；

图2为本发明的语音设备的控制装置实施例的结构示意图；

图3为本发明的语音设备的控制设备实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1为本发明的语音设备的控制方法实施例的流程图，如图1所示，本实施例的语音设备的控制方法，具体可以包括如下步骤：

100、获取预设时间段内语音设备的唤醒失败次数N；

本实施例中，可以通过对语音模型进行训练，得到与语音设备的唤醒信息相对应的初始唤醒阈值作为语音设备的唤醒阈值，并可以设置唤醒阈值的调整周期，以便对语音设备的唤醒阈值进行动态调整，这样，每个调整周期即可作为预设时间段，在预设时间段内，若采集到唤醒信息，确定唤醒信息的实时唤醒阈值；若检测到实时唤醒阈值小于唤醒阈值，确定唤醒语音设备失败，并将唤醒失败次数加一，从而可以统计并获取到预设时间段内语音设备的唤醒失败次数N。其中，每个调整周期为24小时。

需要说明的是，在实际应用中，用户输入的唤醒信息的实时唤醒阈值小于语音设备的唤醒阈值的情况下，可能是用户并不是想唤醒语音设备，此时，若对失败次数进行计数，则使得计数结果不准确，导致后续对语音设备的唤醒阈值进行调整，最终可能导致误唤醒率较大，因此，本实施例中，若检测到用户输入的唤醒信息的实时唤醒阈值小于语音设备的唤醒阈值，还可以检测用户输入的唤醒信息的实时唤醒阈值是否大于预设的计数阈值，这样，当实时唤醒阈值大于所述预设的计数阈值时，可以确定唤醒语音设备失败，从而提高了统计失败次数的准去率。例如，预设的计数阈值为70，语音设备的唤醒阈值为90，用户输入的唤醒信息的实时唤醒阈值为60，此时，虽然检测到用户输入的唤醒信息的实时唤醒阈值小于语音设备的唤醒阈值，但是，用户输入的唤醒信息的实时唤醒阈值小于预设的计数阈值，可以认为用户不需要唤醒语音设备。若用户输入的唤醒信息的实时唤醒阈值为80，则可以认为用户需要唤醒语音设备。

101、分别比较唤醒失败次数N与第一预设次数A和第二预设次数B的大小；若N≥A，执行步骤102，若N≥B，执行步骤103，若B≤N≤A，执行步骤104；

本实施例中，在获取预设时间段内语音设备的唤醒失败次数后，可以分别比较唤醒失败次数N与第一预设次数A和第二预设次数B的大小，得到比较结果，若N≥A，执行步骤102，若N≥B，执行步骤103，若B≤N≤A，执行步骤104。其中，第一预设次数A优选为5次，第二预设次数B优选为0次。

102、减小语音设备的唤醒信息对应的唤醒阈值；

若N≥A，说明用户比较难唤醒语音设备，此时，可以减小语音设备的唤醒信息对应的唤醒阈值，以便提高语音设备的唤醒率。

在一个具体实现过程中，可以按照预设的减小幅度，减小语音设备的唤醒信息对应的唤醒阈值(假设将唤醒阈值由87提高到86)；其中，减小后的目标唤醒阈值大于或等于与唤醒阈值相对应的预设下限值(如最低80)。例如，预设的减小幅度优选为1，这样，每次可以将语音设备的唤醒阈值减小1，但是，减小后的目标唤醒阈值赢大于或等于与语音设备的唤醒阈值相对应的预设下限值，以防止语音设备的唤醒阈值过低，导致语音设备的误唤醒率较高。

在实际应用中，如果用户唤醒语音设备时，语音设备的唤醒失败次数越多，说明用户唤醒语音设备的难度越大，也就说明语音设备的唤醒阈值设置的较高，即语音设备的唤醒失败次数与第一预设次数的差值越大，用户唤醒语音设备的难度越大，因此，为了能够快速将语音设备的唤醒阈值调整至合适的值，本实施例中，可以根据语音设备的唤醒失败次数与第一预设次数的差值大小，设置不同的减小幅度，即差值越大，减小幅度越大，差值越小，减小幅度越小，从而构建一个差值与减小幅度的关联关系库。因此，本实施例中，还可以确定唤醒失败次数与第一预设次数的差值，此时，可以根据预设的差值与减小幅度的关联关系库，确定与差值相关联的减小幅度，并按照与差值相关联的减小幅度，减小语音设备的唤醒信息对应的唤醒阈值，从而快速的将语音设备的唤醒阈值减小到合适的值；其中，减小后的目标唤醒阈值大于或等于与唤醒阈值相对应的预设下限值。

103、增大语音设备的唤醒信息对应的唤醒阈值；

若N≤B，说明用户比较容易唤醒语音设备，此时，为降低语音设备的误唤醒率，可以增大语音设备的唤醒信息对应的唤醒阈值。

具体地，可以按照预设的增大幅度，增大语音设备的唤醒信息对应的唤醒阈值；其中，增大后的目标唤醒阈值小于或等于与唤醒阈值相对应的预设上限值。例如，当检测到语音设备在预设时间段内的唤醒失败次数N＝0次时，则自动将唤醒阈值小幅提高(假设将唤醒阈值由86提高到87)，但不能超出参考阈值的上限(如最高100)。

104、维持语音设备的唤醒信息对应的唤醒阈值。

若B≤N≤A，说明用户唤醒语音设备时，语音设备的唤醒率很高，此时，可以维持语音设备的唤醒信息对应的唤醒阈值即可。

本实施例语音设备的控制方法，通过获取预设时间段内语音设备的唤醒失败次数，根据语音设备的唤醒失败次数来判断语音设备被唤醒的难易程度，并在语音设备较难被唤醒的情况下，减小语音设备的唤醒信息对应的唤醒阈值；在语音设备容易被唤醒情况下，增大语音设备的唤醒信息对应的唤醒阈值；在语音设备较容易被唤醒情况下，维持语音设备的唤醒信息对应的唤醒阈值，实现了在任何用户的使用场景、用户习惯的说话音量下，自动调整语音设备的唤醒阈值。采用本发明的技术方案，能够在较低的误唤醒率下，提高语音设备的唤醒率。

在一个具体实现过程中，若连续M次检测到唤醒语音设备失败，可以临时减小语音设备的唤醒阈值，以便在第M+1次时能够使用户将语音设备唤醒，并延迟一段时间后，将语音设备的唤醒阈值恢复至原唤醒阈值。其中，M优选为2。

例如，语音设备可能临时更换使用场景，从安静的地方移动至比较嘈杂的环境，这样，语音设备的唤醒阈值则可能不在适用，可能造成用户需要进行多次唤醒，但是语音设备并不会一直在嘈杂环境中使用，此时，若连续2次未能唤醒语音设备，则可以直接减小语音设备的唤醒阈值，并延迟一段时间后，将语音设备的唤醒阈值恢复至原唤醒阈值。

再例如，可能会存在多个用户使用语音设备，不同用户可能对应不同的语音设备的唤醒阈值，为了减少语音设备被误唤醒的概率，可以根据每个语音设备的唤醒阈值的使用频率进行排序，优先将使用频率最大的作为语音设备默认的唤醒阈值，但是该默认的唤醒阈值可能并不适合另外一个用户，另外一个用户若连续2次未能唤醒语音设备，则可以直接减小语音设备的唤醒阈值，并延迟一段时间后，将语音设备的唤醒阈值恢复至默认的唤醒阈值。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的语音设备的控制装置实施例的结构示意图，如图2所示，本实施例的通行装置包括获取模块20和调整模块21。

获取模块20，用于获取预设时间段内语音设备的唤醒失败次数；

具体地，在预设时间段内，若采集到唤醒信息，确定唤醒信息的实时唤醒阈值；若检测到实时唤醒阈值小于唤醒阈值，确定唤醒语音设备失败，并将唤醒失败次数加一。

需要说明的是，在确定唤醒语音设备失败之前，还可以检测实时唤醒阈值是否大于预设的计数阈值，这样，若实时唤醒阈值大于预设的计数阈值，确定唤醒语音设备失败。

调整模块21，用于若唤醒失败次数大于或等于第一预设次数，减小语音设备的唤醒信息对应的唤醒阈值；若唤醒失败次数小于或等于第二预设次数，增大语音设备的唤醒信息对应的唤醒阈值；若唤醒失败次数小于第一预设次数，且大于第二预设次数，维持语音设备的唤醒信息对应的唤醒阈值。

具体地，在减小语音设备的唤醒信息对应的唤醒阈值时，可以按照预设的减小幅度，减小语音设备的唤醒信息对应的唤醒阈值；其中，减小后的目标唤醒阈值大于或等于与唤醒阈值相对应的预设下限值。或者，可以确定唤醒失败次数与第一预设次数的差值；根据预设的差值与减小幅度的关联关系库，确定与差值相关联的减小幅度；按照与差值相关联的减小幅度，减小语音设备的唤醒信息对应的唤醒阈值；其中，减小后的目标唤醒阈值大于或等于与唤醒阈值相对应的预设下限值。

在增大语音设备的唤醒信息对应的唤醒阈值时，可以按照预设的增大幅度，增大语音设备的唤醒信息对应的唤醒阈值；其中，增大后的目标唤醒阈值小于或等于与唤醒阈值相对应的预设上限值。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3为本发明的语音设备的控制设备实施例的结构示意图，如图3所示，本实施例的语音设备的控制设备可以包括：处理器1010、存储器1020。本领域技术人员可知的，语音设备的控制设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种语音设备，该语音设备设置有上述实施例的语音设备的控制设备。

本发明还提供一种存储介质，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施例的语音设备的控制方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音设备的控制方法，其特征在于，包括：

获取预设时间段内语音设备的唤醒失败次数；

2.根据权利要求1所述的语音设备的控制方法，其特征在于，所述减小所述语音设备的唤醒信息对应的唤醒阈值，包括：

3.根据权利要求1所述的语音设备的控制方法，其特征在于，所述减小所述语音设备的唤醒信息对应的唤醒阈值，包括：

确定所述唤醒失败次数与所述第一预设次数的差值；

4.根据权利要求1所述的语音设备的控制方法，其特征在于，所述增大所述语音设备的唤醒信息对应的唤醒阈值，包括：

5.根据权利要求1-4任一项所述的语音设备的控制方法，其特征在于，所述获取预设时间段内语音设备的唤醒失败次数，包括：

6.根据权利要求5所述的语音设备的控制方法，其特征在于，所述确定唤醒所述语音设备失败之前，还包括：

检测所述实时唤醒阈值是否大于预设的计数阈值；

对应地，所述确定唤醒所述语音设备失败，包括：

7.一种语音设备的控制装置，其特征在于，包括：

8.一种语音设备的控制设备，包括存储器、控制器及存储在存储器上并可在控制器上运行的计算机程序，其特征在于，所述控制器执行所述程序时实现如权利要求1至6任意一项所述的方法。

9.一种语音设备，其特征在于，设置有权利要求8所述的语音设备的控制设备。

10.一种存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至6任意一项所述的方法。