CN111028830B

CN111028830B - 一种本地热词库更新方法、装置及设备

Info

Publication number: CN111028830B
Application number: CN201911364589.2A
Authority: CN
Inventors: 王夏鸣
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-07-15
Anticipated expiration: 2039-12-26
Also published as: CN111028830A

Abstract

本发明实施例公开了一种本地热词库更新方法、装置及设备。其中，本地热词库更新方法，包括：在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息；获取用户语音信息中与热词匹配的备选词，并使用热词的备选词更新备选词集；当所述备选词集中包含的备选词满足替换条件时，根据所述备选词集更新所述本地热词库。本发明实施例的技术方案，通过对用户习惯的自学习，更新本地热词库，在不增加热词数量的情况下，提高热词命中率。

Description

一种本地热词库更新方法、装置及设备

技术领域

本发明实施例涉及语音识别技术，尤其涉及一种本地热词库更新方法、装置及设备。

背景技术

随着语音识别技术的发展，语音助手类应用在人们日常生活中的应用越来越普遍，从手机中安装的各类应用程序到车机处理器中安装的各类车载应用，很多都用到了语音识别技术，而现有的语音识别技术中，需要用户输入预先设定的唤醒用语来唤醒语音识别系统，使用过程较为繁琐，为了使语音助手类产品更好的服务大众，一种称为热词的技术应运而生，热词技术可以让用户不需要输入唤醒用语，直接说出命令词就可以控制应用程序进行与命令词对应的操作。

本地的热词模型存在正向和负向两个评价指标，正向指唤醒率，负向指误唤醒率。由于当前技术限制，随着热词数量的增加，误唤醒率会显著增高，给用户带来跟多不便，所以语音识别系统中一般都不会内置数量过多的热词，这导致用户在没有系统引导的情况下，难以命中默认内置的热词，可能需要尝试多次才会命中预置的热词，一段时间后再使用，可能又会忘记之前命中的词，还需要进行多次尝试，导致产品体验不佳。

发明内容

本发明实施例提供一种本地热词库更新方法、装置及设备，通过对用户习惯的自学习，更新本地热词库，在不增加热词数量的情况下，提高热词命中率。

第一方面，本发明实施例提供了一种本地热词库更新方法，所述方法包括：

在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息；

获取所述用户语音信息中与所述热词匹配的备选词，并使用所述热词的备选词更新备选词集，所述备选词集包括备选词的累计输入次数和输入时间；

当所述备选词集中包含的备选词满足替换条件时，根据所述备选词集更新所述本地热词库。

第二方面，本发明实施例还提供了一种本地热词库更新装置，所述装置包括：

用户语音信息获取模块，用于在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息；

备选词集更新模块，用于获取所述用户语音信息中与所述热词匹配的备选词，并使用所述热词的备选词更新备选词集，所述备选词集包括备选词的累计输入次数和输入时间；

本地热词库更新模块，用于当所述备选词集中包含的备选词满足替换条件时，根据所述备选词集更新所述本地热词库。

第三方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的本地热词库更新方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的本地热词库更新方法。

本发明实施例的技术方案，在检测到用户输入语音服务终端的本地热词库中的热词时，以热词的开始输入时间为时间终点，获取设定时长的用户语音信息，然后获取用户语音信息中与热词匹配的备选词，并使用热词的备选词更新备选词集，当所述备选词集中包含的备选词满足替换条件时，根据所述备选词集更新所述本地热词库，通过对用户习惯的自学习，更新本地热词库，实现了在不增加热词数量的情况下，提高热词命中率。

附图说明

图1是本发明实施例一中的一种本地热词库更新方法的流程图；

图2是本发明实施例二中的一种本地热词库更新方法的流程图；

图3是本发明实施例三中的一种本地热词库更新方法的流程图；

图4是本发明实施例四中的一种本地热词库更新装置示意图；

图5是本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的一种本地热词库更新方法的流程图，本实施例的技术方案适用于根据用户习惯更新本地热词库的情况，该方法可以由本地热词库更新装置执行，该装置可以由软件和/或硬件来实现，并可以集成在各种通用计算机设备中。

为了便于理解，首先对热词技术进行简要解释，热词技术是指不需要用户输入设定的唤醒用语，而是在用户输入本地热词库中包含的热词时，就可以直接识别用户指令的技术。示例性的，在热词技术出现之前，如果用户需要通过语音指令控制终端，需要首先输入特定的唤醒用语来唤醒语音识别系统，例如，输入唤醒用语“Hi小娜”进行语音识别系统唤醒后，才能够识别用户后续输入的语音指令，而使用热词技术后，用户不需要用户输入唤醒用语进行语音识别系统的唤醒，而是在检测到用户输入到本地热词库中的热词后，直接能够识别相应命令，例如，本地热词库中包含“暂停”这个热词，则在终端正在进行音乐播放时，用户可以直接输入“暂停”的语音指令，进行终端控制。

本实施例提供的方法具体包括如下步骤：

步骤110、在检测到用户输入语音服务终端的本地热词库中的热词时，以热词的开始输入时间为时间终点，获取设定时长的用户语音信息。

其中，本地热词库是指预先存储在语音服务终端，服务于热词技术的热词集合，当本地热词库中的热词被触发时，在唤醒语音识别系统的同时，指示语音服务终端执行与该热词对应的操作。

本实施例中，为了获取用户的习惯用语，在终端开启状态下，语音识别系统始终保持待唤醒模式，持续对麦克风进行监听，一旦检测到用户输入语音服务终端的用户语音信息中包含本地热词库中的热词时，获取热词输入前设定时长的用户语音信息，因为在用户输入热词之前的用户语音信息中可能会包含用户为了命中热词而进行的尝试性用语，而这些尝试性用语则是用户更加习惯使用的用语。

示例性的，本地热词库中包含“暂停”这个热词，在用户使用语音服务中的进行音乐播放过程中，用户希望暂停音乐，但用户在开始时输入的是自己习惯的用语，例如，“停止”和“别播了”，在第三次尝试时，才命中了本地热词库中包含的热词“暂停”，为了获取用户的习惯用语，则需要获取输入热词之前的尝试性用语，例如，选取设定时长为15秒，相应的，若检测到第30秒时用户输入了本地热词库中包含的热词，则获取第15秒～第30秒的用户语音信息，在第15秒～第30秒的用户语音信息中提取用户的习惯用语。

步骤120、获取用户语音信息中与热词匹配的备选词，并使用热词的备选词更新备选词集，备选词集包括备选词的累计输入次数和输入时间。

其中，与热词匹配的备选词是指用户为了命中一个热词而输入的一系列尝试性用语，仍以热词为“暂停”为例，用户为了命中该热词，首先输入了“停止”和“别播了”进行尝试，在第三次才命中了热词，则这些尝试性用语即为与该热词匹配的能够表征用户习惯的备选词。

本实施例中，在获取到以热词的开始输入时间为时间终点的设定时长的用户语音信息后，需要提取出用户语音信息中包含的与热词匹配的备选词，然后将这些备选词，以及备选词的输入时间和累计输入次数对应存储至备选词集。示例性的，对用户语音信息进行识别，并识别语音信息中包含的与最终命中热词语义相同的词语作为备选词，即这些与热词语义相同的词语相对于热词来说更符合用户用语习惯，可以作为替换相应热词的备选词，最终将备选词以及该备选词的累计输入次数和输入时间对应存储至备选词集，其中，备选词集中的备选词在满足一定条件的情况下，可以替换本地热词库中的热词，以使本地热词库更符合用户个人用语习惯。

步骤130、当备选词集中包含的备选词满足替换条件时，根据备选词集更新本地热词库。

本实施例中，在获取到包含多个备选词的备选词集后，持续监测备选词是否满足替换条件，当满足替换条件时，使用该备选词集更新本地热词库。示例性的，可以持续监测备选词集中包含的备选词的使用次数，选择与某一热词匹配的备选词中累计使用次数最多，且累计使用次数超过设定次数阈值的备选词来替换相应的热词，实现本地热词库更新。又示例性的，还可以监测在设定时间段内的备选词的使用次数，例如，监控各备选词最近一个月的使用次数，选择与热词1匹配的各备选词中，在最近一个月使用次数最多的备选词替换热词1，完成本地热词库的更新，达到了根据近期用户使用习惯更新本地热词库的效果。

可选的，当所述备选词集中包含的备选词满足替换条件时，根据所述备选词集更新所述本地热词库，包括：

当确定所述备选词集中目标替换词的累计输入次数，和/或输入时间满足预替换条件时，根据所述目标替换词和所述本地热词库，生成预替换词集，其中，所述预替换词集和所述本地热词库共同存在；

在使用所述本地热词库进行热词识别的过程中，当所述预替换词集满足设定条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库。

其中，累计输入次数是在设定时间段内目标替换词的输入次数，示例性的，累计输入次数可以是一周内目标替换词的输入次数。

本可选的实施例中，在将备选词以及备选词的累计输入次数和输入时间对应存储至备选词集的基础上，监控设定时间段内，例如，一周中备选词集中各备选词的累计输入次数以及输入时间，并判断备选词集中包含的各替换词的累计输入次数，和/或输入时间是否满足预先设定预替换条件，将满足预替换条件的替换词作为目标替换词，最终根据目标替换词和本地热词库，生成预替换词集。在后续语音服务系统使用过程中，以预替换词集为单位，判断该预替换词集是否满足替换条件，当满足替换条件时，使用预替换词集替换本地热词库。

示例性的，上述预先设定的预替换条件可以是替换词在一周内使用次数大于设定的次数阈值，或者是替换词最近一次输入时间与上一次输入时间的间隔小于设定间隔阈值，也可以是同时满足上述两个条件。

其中，预替换词集是作为本地备选的热词库存在的，当预替换词集满足预设的替换条件时，可以替换本地热词库，其中，预替换词集是根据目标替换词和本地热词库生成的，例如，预替换词集中包含目标替换词和本地热词库中除去与目标替换词词义相同的热词。

可选的，当所述预替换词集满足设定条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库，包括：

在使用本地热词库进行热词识别的过程中，计算与预替换词集对应的识别评价参数，并在识别评价参数满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库。

本可选的实施例中，为了保证本地热词库的稳定性，在生成预替换词集后，依然使用本地热词库进行语音服务，与此同时，在使用本地热词库进行热词识别的过程中，还会计算与预替换词集对应的识别评价参数，只有当上述预替换词集的识别评价参数满足预先设定的替换条件时，才会使用预替换词集替换当前使用的本地热词库。

一般情况下，评价热词库性能时会有正向和负向两个指标，正向是唤醒率，负向对应误唤醒率。因此，识别评价参数可以包括预替换词集的误唤醒率和其中包含的各目标替换词的唤醒率，相应的，预先设定的替换条件可以是预替换词集的唤醒率不小于设定阈值，以及误唤醒率不高于设定阈值。

本发明实施例的技术方案，在检测到用户输入语音服务终端的本地热词库中的热词时，以热词的开始输入时间为时间终点，获取设定时长的用户语音信息，然后获取用户语音信息中与热词匹配的备选词，并使用热词的备选词更新备选词集，当确定备选词集中目标替换词的累计输入次数，和/或输入时间满足预替换条件时，根据目标替换词和本地热词库，生成预替换词集，最终在使用本地热词库进行热词识别的过程中，计算与预替换词集对应的识别评价参数，并在识别评价参数满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库，通过对用户习惯的自学习，更新本地热词库，实现了在不增加热词数量的情况下，提高热词命中率。

实施例二

图2为本发明实施例二中的一种本地热词库更新方法的流程图，本实施例在上述实施例的基础上进一步细化，提供了当确定所述备选词集中目标替换词的累计输入次数，和/或输入时间满足预替换条件时，根据所述目标替换词和所述本地热词库，生成预替换词集的具体步骤。下面结合图2对本发明实施例二提供的一种本地热词库更新方法进行说明，包括以下步骤：

步骤210、在检测到用户输入语音服务终端的本地热词库中的热词时，以热词的开始输入时间为时间终点，获取设定时长的用户语音信息。

可选的，在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息，包括：

接收用户输入的用户语音信息，并将设定时长的用户语音信息存储至音频数据缓冲区；

当检测到所述用户语音信息中包含本地热词库中的热词时，从所述音频数据缓冲区中获取以所述热词的开始输入时间为时间终点的设定时长的用户语音信息。

本可选的实施例中，提供了一种获取设定时长的用户语音信息的方式，具体的，在语音服务终端开启状态下，语音识别系统始终保持待唤醒模式，持续对麦克风进行监听，当采集到用户语音信息后，将设定时长的用户语音信息存储至音频数据缓冲区，示例性的，所述音频数据缓冲区中始终存储最近15秒的用户语音信息，同时还需要实时对用户语音信息进行语音识别，一旦识别到用户语音信息中包含本地热词库中的热词时，就从音频数据缓冲区中取出以热词的开始输入时间为时间终点的设定时长的用户语音信息，用于获取其中包含的用户的习惯用语。

步骤220、获取用户语音信息中与热词匹配的备选词，并使用热词的备选词更新备选词集，备选词集包括备选词的累计输入次数和输入时间。

可选的，获取所述用户语音信息中与所述热词匹配的备选词，并使用所述热词的备选词更新备选词集，包括：

通过静音检测模型，将所述用户语音信息分为至少一个声音片段；

对所述声音片段进行语音识别，获取与所述声音片段对应的命令词；

通过语义模型，将所述命令词与所述热词进行语义对比，将与所述热词语义相同的命令词，作为所述热词的备选词；

根据所述备选词、所述备选词的累计输入次数以及所述备选词的当前输入时间，更新所述备选词集。

本可选的实施例中，提供了一种从用户语音信息中提取备选词并进行备选词集更新的具体方式，首先通过静音检测模型对设定时长的用户语音信息进行语音边缘检测，以静音期为分割线，将用户语音信息切分为多个声音片段，然后对各声音片段进行语音识别，获取与各声音片段对应的命令词，再通过语义模型将命令词与热词进行语义对比，将与热词语义相同的备选词作为与该热词匹配的备选词，最终根据备选词、备选词的累计输入次数以及备选词的当前输入时间更新备选词集。示例性的，在确定以某一热词匹配的备选词后，首先判断该备选词是否已经存在于备选词集，若是，则将该备选词的累计输入次数进行更新，并记该热词的录本次输入时间，若否，则将该备选词存储至备选词集中，并将累计输入次数计为1，同时记录该热词第一次输入时间。

步骤230、根据备选词集中存储的与热词匹配的备选词的累计输入次数以及输入时间，确定备选词的预替换指标参数。

其中，预替换指标参数是用于表征备选词集中包含的各备选词是否能够用于预替换与其匹配的热词的参数。

本实施例中，在设定时间段内，根据备选词集中记录的与热词匹配的备选词的累计输入次数和输入时间，计算备选词的预替换指标参数，其中，预替换指标参数可以是在设定时间内备选词的累计输入次数，或者输入频率。示例性的，设定时间段可以是一周，即将备选词在一周内的累计输入次数作为预替换指标参数，或者将根据备选词在一周内的累计输入次数以及输入时间计算的备选词的输入频率作为预替换指标参数。

可选的，根据所述备选词集中存储的与所述热词匹配的备选词的累计输入次数以及输入时间，确定所述备选词的预替换指标参数，包括：

通过所述备选词的本次输入时间和上一次输入时间，确定所述备选词的输入间隔时间；

将所述备选词的累计输入次数与所述备选词的输入间隔时间的比值，作为所述备选词的预替换指标参数。

本可选的实施例中，提供一种具体的确定备选词的预替换指标参数的方式，首先通过备选词集中记录的备选词的本次输入时间和上一次输入时间，计算备选词的输入时间间隔，然后计算在设定时间段内备选词的累计输入次数与输入间隔时间的比值，将该比值作为预替换指标参数。其中，预替换指标参数越大，表示用户越习惯于使用该替换词。

步骤240、当备选词的预替换指标参数满足预替换条件时，将备选词作为目标替换词，并根据目标替换词和本地热词库，生成所述预替换词集。

本实施例中，在计算出备选词的预替换指标参数后，判断预替换指标参数是否满足预先设定的预替换条件，将满足预替换条件的备选词作为目标替换词，最终根据目标替换词和本地热词库共同生成预替换词集。

可选的，当所述备选词的预替换指标参数满足所述预替换条件时，将所述备选词作为目标替换词，并根据所述目标替换词和所述本地热词库，生成所述预替换词集，包括：

选择所述备选词集中与各热词匹配的对应预替换指标参数最大的预替换词，作为所述目标替换词；

在所述本地热词库中，获取与所述目标替换词对应的待替换热词；

根据所述本地热词库中，除去所述待替换热词之外的热词，以及所述目标替换词，生成所述预替换词集。

本可选的实施例中，提供了一种具体的预替换条件和具体的生成预替换词集的方式，其中，预替换条件为选择备选词集中与各热词匹配的至少一个预替换词中对应预替换指标指标参数最大的替换词作为目标替换词。在确定目标替换词的基础上，首先在本地热词库中获取与各目标替换词对应的待替换热词，然后由目标替换词和本地热词库中包含的除去待替换热词之外的热词，生成预替换词集，预替换词集是处于待评价过程的词集，在正式替换本地热词库之前，该预替换词集不用于热词识别过程。

步骤250、在使用本地热词库进行热词识别的过程中，计算与预替换词集对应的识别评价参数，并在识别评价参数满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库。

本发明实施例的技术方案，在使用热词的备选词更新备选词集后，根据备选词集中存储的与热词匹配的备选词的累计输入次数以及输入时间，确定备选词的预替换指标参数，当备选词的预替换指标参数满足预替换条件时，将备选词作为目标替换词，并根据目标替换词和本地热词库，生成预替换词集，最终在使用本地热词库进行热词识别的过程中，计算与预替换词集对应的识别评价参数，并在识别评价参数满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库，通过对用户习惯的自学习，确定目标替换词，最终更新本地热词库，使本地热词库更符合用户的使用习惯。

实施例三

图3为本发明实施例三中的一种本地热词库更新方法的流程图，本实施例在上述实施例的基础上，进一步进行细化，提供了在使用所述本地热词库进行热词识别的过程中，计算与所述预替换词集对应的识别评价参数，并在所述识别评价参数满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库的具体步骤。下面结合图3对本发明实施例三中的一种本地热词库更新方法进行说明，还包括以下步骤：

步骤310、在检测到用户输入语音服务终端的本地热词库中的热词时，以热词的开始输入时间为时间终点，获取设定时长的用户语音信息。

步骤320、获取用户语音信息中与热词匹配的备选词，并使用热词的备选词更新备选词集，备选词集包括备选词的累计输入次数和输入时间。

步骤330、当确定备选词集中目标替换词的累计输入次数，和/或输入时间满足预替换条件时，根据目标替换词和本地热词库，生成预替换词集。

步骤340、在使用本地热词库进行热词识别的过程中，根据识别过程使用的用户语音信息，计算与预替换词集对应的识别评价参数，其中，识别评价参数包括预替换词集的误唤醒率和预替换词集中包含的目标替换词的唤醒率。

其中，识别评价参数是用于表征预替换词集是否满足替换本地热词库的标准的参数。

本实施例中，在生成预替换词集后的设定时间段内，该预替换词集不用于热词识别过程，仍以本地热词库为准进行热词识别，但在此过程中，会根据用户语音信息，计算与预替换词集对应的识别评价参数，用于判断预替换词集是否满足替换本地热词库的标准，其中，识别评价参数包括预替换词集的误唤醒率和预替换词集中包含的目标替换词的唤醒率。

可选的，计算所述预替换词集的误唤醒率和所述预替换词集中包含的目标替换词的唤醒率，包括：

将所述预替换词集的误唤醒次数与设定时间段的比值，确定为所述预替换词集的误唤醒率；

将所述预替换词集中包含的各目标替换词的命中次数和用户输入的与所述目标替换词语义相同的命令词数量的比值，确定为所述预替换词集中包含的各目标替换词的唤醒率。

本可选的实施例中，提供了计算预替换词集的误唤醒率和预替换词集中包含的目标替换词的唤醒率的方式，具体的，预替换词集的误唤醒率通过在设定时间段内预替换词集的误唤醒次数与设定时间段的比值来确定，目标替换词的唤醒率通过在设定时间段内目标替换词的命中次数与用户语音信息中包含的与该目标替换词语义相同的命令词累计输入次数的比值来确定。

步骤350、当唤醒率和误唤醒率满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库。

本实施例中，在计算出唤醒率和误唤醒率的基础上，根据预先设定的替换条件判断预替换词集是否满足提换本地热词集的标准，当唤醒率和误唤醒率满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库。

示例性的，预先设定唤醒率和误唤醒率的阈值，当预替换词集的误唤醒率不高于误唤醒率阈值时，认为误唤醒率满足替换条件，当预替换词集包含的目标替换词的唤醒率不低于唤醒率阈值，则认为唤醒率满足替换条件，当唤醒率和误唤醒率均满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库。

可选的，当所述唤醒率和所述误唤醒率满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库，包括：

当所述预替换词集的误唤醒率不高于所述本地热词库的误唤醒率的设定范围时，确定所述预替换词集的误唤醒率满足替换条件；

当所述预替换词集中包含的全部目标替换词的唤醒率不低于所述本地热词库中与其对应的本地热词库中包含的热词的唤醒率的设定范围，则确定所述预替换词集中的目标替换词的唤醒率满足替换条件；

当所述预替换词集的误唤醒率以及所述预替换词集中的全部目标替换词的唤醒率同时满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库。

本可选的实施例中，提供了一种具体的本地热词库的替换条件，包括，预替换词集的误唤醒率不高于本地热词库的误唤醒率的设定范围时，确定预替换词集的误唤醒率满足替换条件；预替换词集中包含的各目标替换词的唤醒率不低于本地热词库中与其对应的本地热词库中包含的热词的唤醒率的设定范围，则确定预替换词集中的目标替换词的唤醒率满足替换条件。

也就是说，在预替换阶段，满足预替换词集的误唤醒率≤本地热词库的误唤醒率+B％，则确定预替换词集的误唤醒率满足替换条件；满足目标替换词的唤醒率≥与目标替换词匹配的热词的正向唤醒率-A％，则确定目标替换词的唤醒率满足替换条件，最终当预替换词集的误唤醒率以及预替换词集中的全部目标替换词的唤醒率同时满足替换条件时，将预替换词集更新为语音服务终端中的本地热词库，完成最终的本地热词库更新。

本发明实施例的技术方案，在根据目标替换词和本地热词库，生成预替换词集后，在使用本地热词库进行热词识别的过程中，根据识别过程使用的用户语音信息，计算与预替换词集对应的识别评价参数，当识别评价参数中包含的唤醒率和误唤醒率满足替换条件时，才会将预替换词集更新为语音服务终端中的本地热词库，保证了本地热词库更新的稳定性，在不影响用户使用的情况下实现本地热词库的更新。

实施例四

图4为本发明实施例四提供的一种本地热词库更新装置的结构示意图，该本地热词库更新装置，包括：用户语音信息获取模块410、备选词集更新模块420、和本地热词库更新模块430。

用户语音信息获取模块410，用于在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息；

备选词集更新模块420，用于获取所述用户语音信息中与所述热词匹配的备选词，并使用所述热词的备选词更新备选词集，所述备选词集包括备选词的累计输入次数和输入时间；

本地热词库更新模块430，用于当所述备选词集中包含的备选词满足替换条件时，根据所述备选词集更新所述本地热词库。

可选的，所述本地热词库更新模块430，包括：

预替换词集生成子模块，用于当确定所述备选词集中目标替换词的累计输入次数，和/或输入时间满足预替换条件时，根据所述目标替换词和所述本地热词库，生成预替换词集，其中，所述预替换词集和所述本地热词库共同存在；

本地热词库更新子模块，用于在使用所述本地热词库进行热词识别的过程中，当所述预替换词集满足设定条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库。

可选的，所述本地热词库更新子模块，包括：

本地热词库更新单元，用于在使用所述本地热词库进行热词识别的过程中，计算与所述预替换词集对应的识别评价参数，并在所述识别评价参数满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库。

可选的，所述用户语音信息获取模块410，包括：

用户语音信息接收子模块，用于接收用户输入的用户语音信息，并将设定时长的用户语音信息存储至音频数据缓冲区；

用户语音信息获取子模块，用于当检测到所述用户语音信息中包含本地热词库中的热词时，从所述音频数据缓冲区中获取以所述热词的开始输入时间为时间终点的设定时长的用户语音信息。

可选的，所述备选词集更新模块420，包括：

用户语音信息切分子模块，用于通过静音检测模型，将所述用户语音信息分为至少一个声音片段；

命令词获取子模块，用于对所述声音片段进行语音识别，获取与所述声音片段对应的命令词；

备选词确定子模块，用于通过语义模型，将所述命令词与所述热词进行语义对比，将与所述热词语义相同的命令词，作为所述热词的备选词；

备选词集更新子模块，用于根据所述备选词、所述备选词的累计输入次数以及所述备选词的当前输入时间，更新所述备选词集。

可选的，所述预替换词集生成子模块，包括：

预替换指标参数确定单元，用于根据所述备选词集中存储的与所述热词匹配的备选词的累计输入次数以及输入时间，确定所述备选词的预替换指标参数；

预替换词集生成单元，用于当所述备选词的预替换指标参数满足所述预替换条件时，将所述备选词作为目标替换词，并根据所述目标替换词和所述本地热词库，生成所述预替换词集。

可选的，所述预替换指标参数确定单元，包括：

输入时间间隔确定子单元，用于通过所述备选词的本次输入时间和上一次输入时间，确定所述备选词的输入间隔时间；

预替换指标参数确定子单元，用于将所述备选词的累计输入次数与所述备选词的输入间隔时间的比值，作为所述备选词的预替换指标参数。

可选的，所述预替换词集生成单元，包括：

目标替换词确定子单元，用于选择所述备选词集中与各热词匹配的对应预替换指标参数最大的预替换词，作为所述目标替换词；

待替换热词获取子单元，用于在所述本地热词库中，获取与所述目标替换词对应的待替换热词；

预替换词集生成子单元，用于根据所述本地热词库中，除去所述待替换热词之外的热词，以及所述目标替换词，生成所述预替换词集。

可选的，所述本地热词库更新单元，包括：

识别评价参数计算子单元，用于在使用所述本地热词库进行热词识别的过程中，根据识别过程使用的用户语音信息，计算与所述预替换词集对应的识别评价参数，其中，识别评价参数包括所述预替换词集的误唤醒率和所述预替换词集中包含的目标替换词的唤醒率；

本地热词库更新子单元，用于当所述唤醒率和所述误唤醒率满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库。

可选的，所述识别评价参数计算子单元，具体用于：

可选的，所述本地热词库更新子单元，具体用于：

本发明实施例所提供的本地热词库更新装置可执行本发明任意实施例所提供的本地热词库更新方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种电子设备的结构示意图，如图5所示，该电子设备包括处理器50和存储器51；设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50和存储器51可以通过总线或其它方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种本地热词库更新方法对应的程序指令/模块(例如，本地热词库更新装置中的用户语音信息获取模块410、备选词集更新模块420和本地热词库更新模块430)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的本地热词库更新方法。

该方法包括：

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其它非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本发明实施例六还提供一种其上存储有计算机程序的计算机可读存储介质，所述计算机程序在由计算机处理器执行时用于执行一种本地热词库更新方法，该方法包括：

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述一种本地热词库更新装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其它等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种本地热词库更新方法，其特征在于，包括：

在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息；所述热词为免唤醒命令词；

当所述备选词集中包含的备选词满足替换条件时，以备选词替换与所述备选词匹配的热词。

2.根据权利要求1所述的方法，其特征在于，当所述备选词集中包含的备选词满足替换条件时，以备选词替换与所述备选词匹配的热词，包括：

3.根据权利要求2所述的方法，其特征在于，当所述预替换词集满足设定条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库，包括：

在使用所述本地热词库进行热词识别的过程中，计算与所述预替换词集对应的识别评价参数，并在所述识别评价参数满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库。

4.根据权利要求3所述的方法，其特征在于，在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息，包括：

5.根据权利要求4所述的方法，其特征在于，获取所述用户语音信息中与所述热词匹配的备选词，并使用所述热词的备选词更新备选词集，包括：

6.根据权利要求2所述的方法，其特征在于，当确定所述备选词集中目标替换词的累计输入次数，和/或输入时间满足预替换条件时，根据所述目标替换词和所述本地热词库，生成预替换词集，包括：

根据所述备选词集中存储的与所述热词匹配的备选词的累计输入次数以及输入时间，确定所述备选词的预替换指标参数；

当所述备选词的预替换指标参数满足所述预替换条件时，将所述备选词作为目标替换词，并根据所述目标替换词和所述本地热词库，生成所述预替换词集。

7.根据权利要求6所述的方法，其特征在于，根据所述备选词集中存储的与所述热词匹配的备选词的累计输入次数以及输入时间，确定所述备选词的预替换指标参数，包括：

8.根据权利要求7所述的方法，其特征在于，当所述备选词的预替换指标参数满足所述预替换条件时，将所述备选词作为目标替换词，并根据所述目标替换词和所述本地热词库，生成所述预替换词集，包括：

9.根据权利要求8所述的方法，其特征在于，在使用所述本地热词库进行热词识别的过程中，计算与所述预替换词集对应的识别评价参数，并在所述识别评价参数满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库，包括：

在使用所述本地热词库进行热词识别的过程中，根据识别过程使用的用户语音信息，计算与所述预替换词集对应的识别评价参数，其中，识别评价参数包括所述预替换词集的误唤醒率和所述预替换词集中包含的目标替换词的唤醒率；

当所述唤醒率和所述误唤醒率满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库。

10.根据权利要求9所述的方法，其特征在于，计算所述预替换词集的误唤醒率和所述预替换词集中包含的目标替换词的唤醒率，包括：

11.根据权利要求10所述的方法，其特征在于，当所述唤醒率和所述误唤醒率满足替换条件时，将所述预替换词集更新为所述语音服务终端中的所述本地热词库，包括：

12.一种本地热词库更新装置，其特征在于，包括：

用户语音信息获取模块，用于在检测到用户输入语音服务终端的本地热词库中的热词时，以所述热词的开始输入时间为时间终点，获取设定时长的用户语音信息；所述热词为免唤醒命令词；

本地热词库更新模块，用于当所述备选词集中包含的备选词满足替换条件时，以备选词替换与所述备选词匹配的热词。

13.根据权利要求12所述的装置，其特征在于，所述本地热词库更新模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述本地热词库更新子模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述用户语音信息获取模块，包括：

16.根据权利要求15所述的装置，其特征在于，所述备选词集更新模块，包括：

17.根据权利要求13所述的装置，其特征在于，所述预替换词集生成子模块，包括：

18.根据权利要求17所述的装置，其特征在于，所述预替换指标参数确定单元，包括：

19.根据权利要求18所述的装置，其特征在于，所述预替换词集生成单元，包括：

20.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的本地热词库更新方法。