CN113658593B

CN113658593B - 基于语音识别的唤醒实现方法及装置

Info

Publication number: CN113658593B
Application number: CN202110933173.9A
Authority: CN
Inventors: 赵茂祥; 李全忠; 何国涛; 蒲瑶
Original assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Current assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date: 2021-08-14
Filing date: 2021-08-14
Publication date: 2024-03-12
Anticipated expiration: 2041-08-14
Also published as: CN113658593A

Abstract

本发明涉及一种基于语音识别的唤醒实现方法及装置，所述方法包括获取语音数据并对所述语音数据进行特征提取和前向计算；将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。本发明通过语音数据，将备选列表中的内容尽可能多地列入考虑之中，本申请提供的技术方案是通过唤醒实现，因此有效屏蔽了用户的无效输入；将于备选列表的内容尽可能多地列入考虑之中，而不局限于特定词，还能够增加考虑用户说的内容，使得在筛选时更加精确。

Description

基于语音识别的唤醒实现方法及装置

技术领域

本发明属于人工智能技术领域，具体涉及一种基于语音识别的唤醒实现方法及装置。

背景技术

目前，语音识别愈加广泛地应用于车载系统中。在车载系统中，语音识别最常用的场景是导航、打电话和听音乐。这三种场景都不可避免地存在列表筛选。在列表筛选流程中，传统的方式是通过“第一个”、“第二个”等特定词语来进行筛选。这样的筛选词较为固定，因此较容易实现，但也限制了用户的筛选方式。因此，更好的方式是在固定词语之外，允许用户通过列表中的内容进行数据筛选。通过列表内容筛选数据既可以使用语音唤醒实现，也可以用语音识别实现。但是在通过语音识别进行筛选时，由于语音的候选空间较大，因此很难保证当前流程不会被不相干的内容打断。且通过语音唤醒的方式实现时，由于列表的内容千变万化，且长短不一，因此常规的语音唤醒技术无法直接应用。

相关技术中，市面上大部分语音产品在列表选择场景下通过列表内容筛选数据并不理想，主要由于大家对列表数据通用的处理方式只是做了简单的分词，之后再对词表做个性化加载。按照这种处理方式，用户能说的内容局限在某些常见的特定词，如果提取出的词语区分度不足或者有缺失，用户就无法准确通过列表内容筛选结果。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于语音识别的唤醒实现方法及装置，以解决现有技术中用户无法准确通过列表内容筛选结果的问题。

为实现以上目的，本发明采用如下技术方案：一种基于语音识别的唤醒实现方法，包括：

获取语音数据并对所述语音数据进行特征提取和前向计算；

将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；

将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

进一步的，还包括：构建唤醒模型；所述构建唤醒模型，包括：

获取场景对话，根据所述场景对话获取当前场景下的列表数据；

对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词，根据所述唤醒词构建唤醒词备选项；

将所述唤醒词备选项加入生效的唤醒词列表中，生成唤醒模型。

进一步的，所述唤醒模型等待唤醒结果时，如果判断输出唤醒结果或计算超时无法输出唤醒结果则清除新增的唤醒词。

进一步的，对所述列表数据进行分析之前，还包括：

判断所述列表数据中是否存在有效数据；

如果存在则对所述列表数据进行预处理，否则，结束流程。

进一步的，所述对所述列表数据进行预处理，包括：

将获取的场景对话转换为文字；

对所述文字进行特殊符号和/或数字转换处理。

进一步的，所述对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词，包括：

对所述列表数据中的每条数据进行分词和标音；

根据每条数据得到的分词结果和标音结果的词头构建多个唤醒词。

进一步的，根据词典对所述列表数据中的每条数据进行分词。

进一步的，所述将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果，包括：

将所述置信度与预设阈值进行对比；

如果所述置信度大于等于预设阈值，则输出该置信度对应的唤醒词备选项；否则，继续获取语音数据.

本申请实施例提供一种基于语音识别的唤醒实现装置，包括：

获取模块，用于获取语音数据并对所述语音数据进行特征提取和前向计算；

计算模块，用于将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；

输出模块，用于将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

进一步的，还包括：构建模块，用于构建唤醒模型；所述构建唤醒模型，包括：

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种基于语音识别的唤醒实现方法及装置，所述方法包括获取语音数据并对所述语音数据进行特征提取和前向计算；将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。本发明通过语音数据，将备选列表中的内容尽可能多地列入考虑之中，本申请提供的技术方案是通过唤醒实现，因此有效屏蔽了用户的无效输入；将于备选列表的内容尽可能多地列入考虑之中，而不局限于特定词，还能够增加考虑用户说的内容，使得在筛选时更加精确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于语音识别的唤醒实现方法的步骤示意图；

图2为本发明基于语音识别的唤醒实现方法的流程示意图；

图3为本发明基于语音识别的唤醒实现装置的结构示意图；

图4为本发明基于语音识别的唤醒实现方法的涉及的硬件运行环境的计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的基于语音识别的唤醒实现方法及装置。

如图1所示，本申请实施例中提供的基于语音识别的唤醒实现方法，包括：

S101，获取语音数据并对所述语音数据进行特征提取和前向计算；

本申请实时获取用户发出的语音，例如用户可以说“导航到XXX(其中， XXX表示为某个地名)”，从而得到语音数据。然后对语音数据进行特征提取和前向计算。

其中，特征提取是提取语音数据中的声学特征，采用的方法是如Filterbank，MFCC等，前向计算是根据声学特征和声学模型(如DNN，TDNN，CTC等)，本申请中使用TDNN模型，前向计算主要是计算音频与声学模型中建模单元的相似性，计算后验概率。其中，后验概率是信息理论的基本概念之一。在一个通信系统中，在收到某个消息之后，接收端所了解到的该消息发送的概率称为后验概率。

S102，将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；

根据所述后验概率计算语音数据对应唤醒词备选项对应的置信度。本申请预先构建了唤醒模型，唤醒模型用于在收到语音数据后，将语音数据与唤醒词备选项进行对比，计算唤醒模型中唤醒词备选项的置信度，可以理解的是，本申请中计算置信度的方法采用现有技术实现，本申请在此不再赘述。

S103，将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

将置信度与预设阈值进行对比，当置信度大于等于预设阈值时，说明该置信度对应的唤醒词备选项符合输出条件则输出该唤醒词作为唤醒结果，当置信度小于预设阈值时，说明该置信度对应的唤醒词备选项不符合输出条件，不予输出。

基于语音识别的唤醒实现方法的工作原理为：首先获取用户的语音数据并对所述语音数据进行特征提取和前向计算；将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

本申请提供的技术方案专门针对一些特定的场景，将给定列表数据转换为唤醒词列表，加入当前的备选唤醒词列表中，从而允许用户自由使用列表中的内容筛选数据，同时因为限制了用户筛选的范围，避免不相干内容打断的筛选流程。

一些实施例中，还包括：构建唤醒模型；所述构建唤醒模型，包括：

优选的，所述唤醒模型等待唤醒结果时，如果判断输出唤醒结果或计算超时无法输出唤醒结果则清除新增的唤醒词。

优选的，所述对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词，包括：

对所述列表数据中的每条数据进行分词和标音；

具体的，本申请获取的场景对话是从上次对话的上下文中获取，如上次发话说“导航到XXX”，在搜索之后，会有一个XXX的列表，这就构成了当前场景下的数据列表，就是XXX的搜索列表。对获取到的每条数据进行分词和标音，从每条数据分词结果的词头开始，构建若干唤醒词备选项。比如，导航搜索得到的目的地列表如下：

(1)渤海大学滨海校区；

(2)渤海大学培训学院；

(3)锦州渤海大学民宿；

第一条数据分词之后，得到“渤海大学”、“滨海”和“校区”三部分，那么这条数据中，将产生三个唤醒词作为唤醒词备选项，分别为“渤海大学”、“滨海”和“校区”。与此同时，这类词允许：1，只说词的一部分来唤醒，比如，当用户说了“渤海”，即可唤醒“渤海大学”；2，说出连续的两个词来唤醒，比如“滨海校区”，而“滨海”声音较轻，可以唤醒“滨海校区”。同样的，对第二条和第三条数据，也做同样处理。最后，将得到的唤醒词备选项加入当前生效的唤醒词列表之中，生成唤醒模型。优选的，本申请根据词典对所述列表数据中的每条数据进行分词。本申请中提供的技术方案标音是以标音词典为基础的，标音词典中每一行都是对具体的文本进行发音指导，如渤海大学b o2 h ai3 d a4 x ue2声学模型是根据发音来建模的，可以建成上下文相关与不相关等声学发音模型，表示的是发音的相似性标音的过程，就是把输入的汉字与声学模型进行关联的过程。

可以理解的是，本申请提供的唤醒模型在使用过程中，如果判断输出唤醒结果或计算超时无法输出唤醒结果则清除新增的唤醒词。

一些实施例中，对所述列表数据进行分析之前，还包括：

判断所述列表数据中是否存在有效数据；

如果存在则对所述列表数据进行预处理，否则，结束流程。

具体的，唤醒模型的生成阶段，在获取到对话上下文得到列表数据后，要先判断列表数据中是否存在有效数据，有效数据为具有唤醒词备选项中分词的列表数据，例如：列表数据为“导航去XXX”，则其中XXX在唤醒词备选项中存在，则认为该列表数据中存在有效数据。如“我们去那”，则认为不存在有效数据。

优选的，所述对所述列表数据进行预处理，包括：

将获取的场景对话转换为文字；

对所述文字进行特殊符号和/或数字转换处理。

具体的，预处理包含特殊符号处理、数字转换等操作，如搜索结果为 “XXX178号”，需要处理成“XXX一百七十八号”和“XXX一七八号“，以及“XXX幺七八号”。

优选的，所述将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果，包括：

将所述置信度与预设阈值进行对比；

如果所述置信度大于等于预设阈值，则输出该置信度对应的唤醒词备选项；否则，继续获取语音数据。

本申请的预设阈值可根据实际需要进行设置，本申请在此不做限定。

作为一个优选的实施方式，参见图2，本申请存在生成阶段以及测试阶段，生成阶段用于生成唤醒模型，测试阶段用于测试唤醒模型。首先在生成阶段，通过用户的对话上下文获取列表数据，判断列表数据中是否存在有效数据，如果不存在则结束流程，如果存在，则对有效数据进行预处理，然后对预处理后的有效数据根据现有词典进行分词处理及标音处理，将所述列表数据转换为唤醒词，根据所述唤醒词构建唤醒词备选项；将所述唤醒词备选项加入生效的唤醒词列表中，生成唤醒模型。在测试阶段，用户输入语音，对语音数据进行特征提取和前向计算，将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度，将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

如图3所示，本申请提供一种基于语音识别的唤醒实现装置，包括：

获取模块301，用于获取语音数据并对所述语音数据进行特征提取和前向计算；

计算模块302，用于将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；

输出模块303，用于将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

本申请提供的基于语音识别的唤醒实现装置的工作原理为，获取模块301 获取语音数据并对所述语音数据进行特征提取和前向计算；计算模块302将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；输出模块303将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

优选的，还包括：构建模块，用于构建唤醒模型；所述构建唤醒模型，包括：

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的基于语音识别的唤醒实现方法；

处理器用于调用并执行存储器中的计算机程序。存储器可以包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。该计算机设备存储有操作系统，存储器是计算机可读介质的示例。所述计算机程序被所述处理器执行时，使得所述处理器执行基于语音识别的唤醒实现方法，如图4示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于语音识别的唤醒实现方法可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。

一些实施例中，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取语音数据并对所述语音数据进行特征提取和前向计算；将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

本申请还提供一种计算机存储介质，计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光光盘(DVD)或其他光学存储、磁盒式磁带存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

一些实施例中，本发明还提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：获取语音数据并对所述语音数据进行特征提取和前向计算；将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。

综上所述，本发明提供一种基于语音识别的唤醒实现方法及装置，所述方法包括获取语音数据并对所述语音数据进行特征提取和前向计算；将计算后的语音数据输入到预构建的唤醒模型中，得到所述唤醒模型中唤醒词备选项的置信度；将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果。本发明通过语音数据，将备选列表中的内容尽可能多地列入考虑之中，本申请提供的技术方案是通过唤醒实现，因此有效屏蔽了用户的无效输入；将于备选列表的内容尽可能多地列入考虑之中，而不局限于特定词，还能够增加考虑用户说的内容，使得在筛选时更加精确。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于语音识别的唤醒实现方法，其特征在于，包括：

获取语音数据并对所述语音数据进行特征提取和前向计算；

将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果；

还包括：构建唤醒模型；所述构建唤醒模型，包括：

将所述唤醒词备选项加入生效的唤醒词列表中，生成唤醒模型；

所述唤醒模型等待唤醒结果时，如果判断输出唤醒结果或计算超时无法输出唤醒结果则清除新增的唤醒词；

对所述列表数据进行分析之前，还包括：

判断所述列表数据中是否存在有效数据；

如果存在则对所述列表数据进行预处理，否则，结束流程。

2.根据权利要求1所述的方法，其特征在于，所述对所述列表数据进行预处理，包括：

将获取的场景对话转换为文字；

对所述文字进行特殊符号和/或数字转换处理。

3.根据权利要求1所述的方法，其特征在于，所述对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词，包括：

对所述列表数据中的每条数据进行分词和标音；

4.根据权利要求3所述的方法，其特征在于，

根据词典对所述列表数据中的每条数据进行分词。

5.根据权利要求1所述的方法，其特征在于，所述将所述置信度与预设阈值进行对比，根据对比结果判断是否输出唤醒结果，包括：

将所述置信度与预设阈值进行对比；

6.一种基于语音识别的唤醒实现装置，执行包括如权利要求1-5任一项所述的方法，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：构建模块，用于构建唤醒模型；所述构建唤醒模型，包括：