CN110838289B

CN110838289B - 基于人工智能的唤醒词检测方法、装置、设备及介质

Info

Publication number: CN110838289B
Application number: CN201911124453.4A
Authority: CN
Inventors: 陈杰; 苏丹; 金明杰; 朱振岭
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2023-08-11
Anticipated expiration: 2039-11-14
Also published as: CN110838289A; WO2021093449A1; US20220013111A1; US11848008B2

Abstract

本申请公开了一种基于人工智能的唤醒词检测方法、装置、设备及其存储介质。该方法包括：获取待识别语音数据，并提取待识别语音数据中每个语音帧的语音特征；将语音特征输入到预先构建的深度神经网络模型，输出语音特征对应于音节标识的后验概率向量，该深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元；根据音节组合序列从后验概率向量中确定目标概率向量，该音节组合序列是基于输入的唤醒词文本构建的；再根据目标概率向量计算置信度，且在置信度大于等于阈值时确定语音帧包含唤醒词文本。本申请实施例提供的方案，计算复杂度低，且响应速度快，无需针对固定唤醒词进行专门优化改进，有效地提升了唤醒检测效率。

Description

基于人工智能的唤醒词检测方法、装置、设备及介质

技术领域

本申请一般涉及语音识别技术领域，尤其涉及基于人工智能的唤醒词检测方法、装置、设备及介质。

背景技术

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。将语音技术应用于电子设备，实现唤醒电子设备的功能，即语音唤醒技术。通常语音唤醒(KeyWord Spotting，KWS)是通过设定一个固定的唤醒词，在用户说出唤醒词之后，终端上的语音识别功能，才会处于工作状态，否则处于休眠状态。例如，通过基于深度神经网络构建的声学模型输出识别结果，该声学模型是按照固定设置的唤醒词对应的音节或音素训练的，但其不支持唤醒词的修改。

为了满足用户对唤醒词自定义的需求，现有技术也存在基于自定义唤醒方案，例如基于隐马尔可夫模型(Hidden Markov Model，HMM)模型的自定义唤醒词方案，该方案包括声学模型和HMM解码网络两部分，在唤醒词检测过程中，语音感召固定窗大小输入解码网络，然后利用维特比解码算法查找最优解码路径，其存在计算量大、延迟响应慢的缺点。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种基于人工智能的唤醒词检测方法、装置、设备及介质，在满足用户对唤醒词自定义的需求时，有效地降低计算复杂度提升响应速度。

第一方面，本申请实施例提供了一种基于人工智能的唤醒词检测方法，该方法包括：

获取待识别语音数据，并提取待识别语音数据中每个语音帧的语音特征；

将语音特征输入到预先构建的深度神经网络模型，输出语音特征对应于音节标识的后验概率向量，该深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元；

根据音节组合序列从后验概率向量中确定目标概率向量，该音节组合序列是根据输入的唤醒词文本构建的；

再根据目标概率向量计算置信度，且在置信度大于等于阈值时确定语音帧包含唤醒词文本。

第二方面，本申请实施例提供了一种基于人工智能的唤醒词检测装置，该装置包括：

语音特征提取单元，用于获取待识别语音数据，并提取待识别语音数据中每个语音帧的语音特征；

语音特征识别单元，用于将语音特征输入到预先构建的深度神经网络模型，输出语音特征对应于音节标识的后验概率向量，该深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元；

置信度判决单元，用于根据音节组合序列从后验概率向量中确定目标概率向量，该音节组合序列是根据输入的唤醒词文本构建的；再根据目标概率向量计算置信度，且在置信度大于等于阈值时确定语音帧包含唤醒词文本。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于：

该计算机程序被处理器执行时实现如本申请实施例描述的方法。本申请实施例提供的基于人工智能的唤醒词检测方法、装置、设备及介质，其通过构建覆盖发音字典的全部音节的深度神经网络模型来对语音数据进行识别，然后根据预先输入的唤醒词文本从识别结果中抽取与唤醒词文本的音节标识对应的后验概率值作为目标概率向量，再根据目标概率向量计算置信度后，对置信度进行判决以确定语音数据中是否包含唤醒词文本对应的内容。本申请实施例提供的方法，其计算复杂度低，且响应速度快，无需针对固定唤醒词进行专门优化改进，有效地提升了唤醒检测效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请实施例提供的唤醒词应用场景示意图；

图2示出了本申请实施例提供的唤醒词检测方法的流程示意图；

图3示出了本申请实施例提供的步骤105的流程示意图；

图4示出了本申请又一实施例提供的步骤105的流程示意图；

图5示出了本申请实施例提供的唤醒词文本输入界面的示意图；

图6示出了本申请实施例提供的音节组合序列的示意图；

图7示出了本申请实施例提供的唤醒词检测装置700的结构示意图；

图8示出了本申请实施例提供的置信度判断单元703的结构示意图；

图9示出了本申请又一实施例提供的置信度判断单元703的结构示意图；

图10示出了本申请实施例提供的唤醒词检测系统1000；

图11示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与公开相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，图1示出了本申请实施例提供的唤醒词应用场景示意图。如图1所示，终端设备自动地检测其附近周围的语音数据，从语音数据中识别是否存在唤醒词，在存在唤醒词时，终端设备可以从不完全工作的状态(例如休眠状态)，切换至工作状态，实现对终端设备的唤醒，使得终端设备正常工作。

其中，终端设备可以是手机、平板、笔记本、无线音箱、智能机器人、智能家电设备等。其可以是固定终端，也可以是移动终端。

终端设备可以至少包括语音接收装置。其中，语音接收装置可以接收用户输出的声音数据，对声音数据进行处理后得到可以识别分析的数据。

终端设备还可以包括其他装置，例如处理装置，该处理装置用于对语音数据进行智能识别处理。在智能识别处理过程中，如果语音数据包含预先设置的唤醒词，则唤醒终端设备。通过上述语音唤醒技术，可以减少终端的功耗，节省电力。进一步地，还可以通过语音唤醒技术，对预先安装在终端设备内的应用程序执行唤醒操作，从而实现对应用程序的方便快捷的启动，减少终端操作系统的操作程序。

在基于深度神经网络实现语音唤醒的场景中，深度神经网络是按照固定的唤醒词进行训练构建的。在检测到终端设备周围存在语音数据时，终端设备可以提取语音数据的语音特征，将其输入到深度神经网络模型，然后输出语音特征对应于固定的唤醒词的标签类别的后验概率。根据后验概率计算置信度，在通过置信度来判断语音数据是否包含固定的唤醒词。但是上述方法中如果要修改唤醒词，则需要对深度神经网络进行重新训练，以致用户不能随意地更改唤醒词。

为了解决上述问题，本申请提出了一种新的基于人工智能的唤醒词检测方法。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

请参考图2，图2示出了本申请实施例提供的唤醒词检测方法的流程示意图。该方法可以由处理器执行。如图2所示，该方法包括：

步骤101，获取待识别语音数据，并提取待识别语音数据中每个语音帧的语音特征。

在本步骤中，可以通过实时或定时监听终端设备周围的语音数据，也可以在接收到语音唤醒触发指令之后来获取语音数据。在检测到有语音数据之后，提取语音数据的语音特征。例如，按照FilterBank算法，对语音数据的每个语音帧提取语音特征。然后将提取到语音特征，输入到已经训练好的深度神经网络模型进行语音识别。

步骤103，将语音特征输入到预先构建的深度神经网络模型，输出语音特征对应于音节标识的后验概率向量，该深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元。

在本步骤中，预先构建的深度神经网络模型，是利用预先构建的发音字典所包含的全部音节对训练数据集进行标注后，按照深度学习算法训练得到的。该深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元。预先构建的发音字典所包含的全部音节，可以是按照发音规则可以收集到的所有发音，例如普通话发音规则，按照拼音字母组合发音，常用字的发音可以大约1500种。将每个字的发音作为音节标识，对待训练的语音数据进行逐个标注之后，作为训练数据集，其中音节标识是一种类别标识，用于标识该字符的读音。

本申请实施例的深度神经网络，例如可以是深度神经网络(DNN，Deep NeuralNetworks)、卷积神经网络(CNN，Convolution Neural Network)、长短时记忆网络(LSTM，Long Short Term Memory)等。

其中，预先训练深度神经网络模型可以包括以下步骤：

获取待训练的语音数据集，

对语音数据集中每个语音数据按照发音字典所包含的音节进行标注，得到训练数据集；

利用训练数据集对深度神经网络进行训练，以得到深度神经网络模型，该深度神经网络模型的输入是每个语音帧的语音特征，每个音节输出单元输出的是每个语音特征相对于音节输出单元对应的音节标识的后验概率值。

上述深度神经网络模型输出的后验概率向量包括与发音字典所包含的音节标识的数量相同的后验概率值。例如，输入的语音数据中包含“开心”，则每个音节“开”或“心”分别相对于发音字典所包含的每个音节标识的后验概率值。以发音字典存有1500种发音为例，则每个语音特征输入到深度神经网络之后，输出的后验概率向量为1500维，其每一维与发音字典中的一个音节标识相对应。

步骤105，根据音节组合序列从后验概率向量中确定目标概率向量，其中，音节组合序列是根据输入的唤醒词文本构建的。再根据目标概率向量计算置信度，且在置信度大于等于阈值时确定语音帧包含唤醒词文本。

在本步骤中，音节组合序列是根据输入的唤醒词文本构建的。如图5所示，图5示出了本申请实施例提供的唤醒词文本输入界面的示意图。用户可以在该界面中对唤醒词文本进行任意修改。在获取输入的唤醒词文本之后，通过查找发音字典将唤醒词文本所包含的每个字符转换成音节标识；构建音节标识与唤醒词文本所包含的字符之间的映射关系，该映射关系作为音节组合序列。其中，音节组合序列如图6所示，图6示出了本申请实施例提供的音节组合序列的示意图。其包括唤醒词文本所包含的字符，和该字符对应的音节标识。如果唤醒词文本为中文，则每个汉字为一个字符，每个字符的读音对应音节标识。例如，图6中示出的“好”字，其读音可以是第三声，也可以是第四声，每个读音分配一个标识ID(Identifier)用于作为音节标识。如图6所示，唤醒词文本为“你好开心”，其转换后的音节组合序列为{ID_n1，ID_n2，ID_n3，ID_n4，ID_n5}。优选地，还可以在图5所示的唤醒词文本输入界面接收用户输入的唤醒词文本之后，识别出唤醒词文本包括多音字，则提示用户确认多音字的读音，进而确定多音字对应的音节标识，也可以在处理过程中，设置默认的选择规则，例如对于多音字按照语义关系确定其对应的音节标识。

根据输入的唤醒词文本构建音节组合序列，可以包括以下步骤：

获取输入的唤醒词文本；

通过查找发音字典将唤醒词文本所包含的每个字符转换成音节标识；

构建音节标识与唤醒词文本所包含的字符之间的映射关系，该映射关系作为音节组合序列。

上述实施例中，输入的唤醒词文本可以在终端设备上实施，如图5所示，也可以通过其他终端设备实施，例如对于音箱等设备，可以通过与音箱通过无线或有线连接的其他终端设备，来实施唤醒词文本的更新操作。这里的其他终端设备也可以是服务器。

本申请实施例，根据音节组合序列从后验概率向量中确定出目标概率向量，其中目标概率向量包括与唤醒词文本所包含的字符的数量相同的后验概率值。在深度神经网络模型输出后验概率向量之后，从该后验概率向量中按照音节组合序列所包含的音节标识抽取目标概率向量。如果音节组合序列中包含多音字，则可以将多音字对应的多个音节标识相关的后验概率值按照如图4描述的处理方法计算置信度。

可选地，本申请实施例，还可以在用户输入设置唤醒词文本时，由用户选择确定唤醒词文本所包含的多音字的读音(即音节标识)。可选地，本申请实施例中，还可以由系统默认的确定规则，确定唤醒词文本所包含的多音字的读音(即音节标识)。

例如，本申请实施例可以在用户输入的唤醒词文本之后，先对唤醒词文本进行检测分析，以确定唤醒词文本中是否包含多音字，在存在多音字时，按照系统默认设置多音字的处理规则，或者根据用户选择确定多音字的音节标识，对唤醒词文本进行多音字处理之后，构建与唤醒词文本对应的音节组合序列。这种情形下，可以根据音节组合序列从后验概率向量中确定目标概率向量，直接根据目标概率向量进行置信度计算。

假设从后验概率向量中获取与音节组合序列所包含的音节标识相对应后验概率值，即{P_IDn1，P_IDn2，P_IDn3，P_IDn4，P_IDn5}。然后，按照如图4描述的处理方法得到4维的目标概率向量，目标概率向量中所包含的后验概率值与唤醒词文本的字符的数量相同。

然后，根据目标概率向量计算置信度，并判断置信度是否大于等于设置的阈值，如果大于等于，则认为语音数据中包含唤醒词文本，如果小于，则认为语音数据中不包含唤醒词文本。

其中，置信度可以按照如下公式进行计算：

其中，n表示深度神经网络模型的输出单元个数，p′_ik表示平滑后的第i个输出单元输出的第k帧的后验概率，h_max＝max{1,j-w_max+1}表示置信度计算窗w_max中的第一帧的位置。w_max可以由可设置数量的帧数决定。例如w_max取100帧。在置信度判断过程中，阈值是可调整的，以便平衡最终唤醒性能。

在上述实施例基础上，本申请实施例还可以在用户输入的唤醒词文本之后，直接根据该唤醒词文本构建音节组合序列，根据音节组合序列从后验概率向量中确定目标概率向量，在根据目标概率向量计算置信度的过程中确定唤醒词文本是否存在多音字。

优选地，根据目标概率向量计算置信度可以包括：

对目标概率向量所包含的每个后验概率值进行概率处理；

根据音节组合序列中所包含的音节标识与唤醒词文本所包含的字符之间的映射关系，确定唤醒词文本中是否包含多音字；

在唤醒词文本中不包含多音字时，根据概率处理后的目标概率向量计算置信度。

在唤醒词文本中包含多音字时，将概率处理后的目标概率向量按照多音字的对应关系进行求和处理；

根据求和处理后的目标概率向量计算置信度。

上述步骤中概率处理步骤和多音字确定步骤可以同步发生，也可以先进行概率处理步骤，后进行多音字确定步骤，或者，可以先进行多音字确定步骤，后进行概率处理步骤。

本申请实施例中，通过构建覆盖发音字典的全部音节的深度神经网络模型来对语音数据进行识别，然后根据预先输入的唤醒词文本从识别结果中抽取与唤醒词文本的音节标识对应的后验概率值作为目标概率向量，再根据目标概率向量计算置信度后，对置信度进行判决以确定语音数据中是否包含唤醒词文本对应的内容。上述方法，对于任意的唤醒词，无需进行专门优化即可获取较好的识别性能，且其具有算法复杂度低，响应时间短的优势。

在上述实施例基础上，本申请实施例进一步提出了对置信度判断步骤进行优化的方法。请参考图3，图3示出了本申请实施例提供的步骤105的流程示意图。如图3所示，该步骤可以包括：

步骤301，对目标概率向量中的每个后验概率值，确定其是否低于其对应的先验概率值，并在后验概率值低于其对应的先验概率值时，将后验概率值置为0；在后验概率值不低于其对应的先验概率值时，不处理后验概率值；

步骤302，将经过上述处理后的后验概率值除以与其对应的先验概率值，得到处理后的目标概率向量；

步骤303，对处理后的目标概率向量进行平滑处理；

步骤304，根据平滑处理后的目标概率向量计算置信度。

在上述步骤中，目标概率向量是根据默认规则或者用户选择确定的多音字读音处理后，与唤醒词文本的字符的数量相同的后验概率值的集合。例如，{P_IDn1，P_IDn2，P_IDn4，P_IDn5}。

每个音节标识的先验概率值可以通过训练数据集进行统计分析得到。例如，根据训练深度神经网络模型所使用的训练数据集，可以得到所有音节输出单元的先验概率分布。其中，先验概率用于表征该音节输出单元对应的音节标识在训练数据集中出现的概率。

在深度神经网络模型输出后验概率向量之后，需要根据音节组合序列从后验概率向量中抽取出目标概率向量。然后，对目标概率向量中每个后验概率值进行后验过滤处理。后验过滤处理是指对于抽取得到的每一维后验概率，将其与对应的先验概率进行比较，如果低于先验概率，则将其后验概率置零，如果不低于先验概率，则不处理后验概率。由于在深度神经网络模型输出的后验概率向量中，当前音节输出单元之外的其他音节输出单元，也可能会得到一个很小的概率(特别是当前内容为噪声时)，本申请实施例，通过上述后验过滤处理可以有效地减少这部分概率分布对唤醒性能带来的影响，从而优化唤醒结果。

将经过后验过滤处理后的目标概率向量，再将其所包含的每个后验概率值除以与之对应的先验概率值，得到修正后的后验概率值。这个步骤即先验处理步骤。由于后验概率的输出通常是与先验概率存在一定相关性的，即训练数据中存在较多的发音音节，在预测时，输出该发音音节的后验概率会较大，而训练数据中较少的发音音节，在预测时，输出与之对应的后验概率就较小。本申请提供的实施例，提出了利用每个后验概率除以先验概率，作为该发音音节的后验概率值，以提升系统的鲁棒性，并有效地改善发音出现概率较小的唤醒词性能。

在上述实施例中，通过对目标概率向量中每个后验概率值进行后验过滤处理以减少其他音节输出单元唤醒性能产生的影响，并对经过后验过滤处理的每个后验概率值进行先验处理，其有效地优化了唤醒检测的性能，提升了唤醒识别的准确性。

进一步地，本申请实施例还提供了另一种对置信度判断步骤进行优化的方法，请参考图4，图4示出了本申请又一实施例提供的步骤105的流程示意图。该步骤可以包括：

步骤401，对目标概率向量所包含的每个后验概率值进行概率处理；

步骤402，根据音节组合序列中所包含的音节标识与唤醒词文本所包含的字符之间的映射关系，确定唤醒词文本中是否包含多音字；

步骤403，在唤醒词文本中不包含多音字时，根据概率处理后的目标概率向量计算置信度；

步骤404，在唤醒词文本中包含多音字时，将概率处理后的目标概率向量按照多音字的对应关系进行求和处理；

步骤405，根据求和处理后的目标概率向量计算置信度。

上述方法步骤中，步骤401与步骤301和步骤302描述的方法步骤相同；与图3所示的方法步骤的不同在于，对经过后验过滤处理和先验处理之后目标概率向量，在确定存在多音字时，需要对多音字对应的后验概率值进行合并处理，即将与该多音字对应的多个音节标识一一对应的后验概率值进行求和，将求和的结果作为该多音字的后验概率值。然后，将经过上述处理后的当前帧的目标概率向量与之前一定时间窗内的多帧结果求平均，即对处理后的目标概率向量进行平滑处理，以减少噪声带来的干扰。最后，按照公式(1)计算置信度。

图4描述的方法在不存在多音字时，与图3描述的内容相同。

在本申请实施例中，可以根据音节组合序列中所包含的音节标识与唤醒词文本所包含的字符之间的映射关系可以确定唤醒词文本中是否包含多音字。如图6所示，其中“好”字对应两个音节标识，表明唤醒词文本中存在多音字。优选地，还可以将确定唤醒词文本是否存在多音字的结果，由指示符号来实现。例如，在确定唤醒词文本中存在多音字时，标记指示符号。采用指示符号标识多音字后，可以按照图3示出的方法来实现置信度的计算，从而确定待识别语音数据是否包括唤醒词文本。

其中，步骤405还可以包括：

对求和处理后的目标概率向量进行平滑处理；

根据平滑处理后的目标概率向量计算置信度。

本申请实施例，通过多音字识别处理，优化了唤醒词检测的性能，并提升了唤醒词检测的准确性。

为了更好地理解本申请，假设用户通过如图5所示的唤醒词文本输入界面，输入“你好开心”作为唤醒词文本。通过查找发音字典将唤醒词文本所包含的每个字符转换成音节标识；构建音节标识与唤醒词文本所包含的字符之间的映射关系，该映射关系作为音节组合序列，如图6所示的音节组合序列。

在完成上述操作之后，终端设备启动检测程序，检测终端设备周围的语音数据(也可以称为声音数据)。在检测到有语音数据输入之后，对语音数据进行预加重处理之后，按照帧长25ms，帧移10ms的进行分帧处理后得到多个语音帧，通过添加汉明窗处理，按照FilterBank算法提取语音数据每个语音帧对应的语音特征。

然后，将语音特征输入到预先构建的深度神经网络模型，输出语音特征对应于音节标识的后验概率向量，假设深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元，发音字典的音节的数量假设为1500种，则后验概率向量可以表示为{P_ID1，P_ID2，P_ID3，P_IDn1，P_IDn2…P_IDm}，其中m的取值为1500；例如，P_ID1表示语音特征相对于音节标识ID1的后验概率值。

根据音节组合序列从后验概率向量中确定目标概率向量，该音节组合序列可以是根据用户选择的多音字规则筛选后的后验概率值集合，或者，是按照系统默认规则处理后的后验概率值集合。例如，该目标概率向量可以表示为{P_IDn1，P_IDn2，P_IDn4，P_IDn5}。

并根据该目标概率向量计算置信度，且在置信度大于等于阈值时，确定语音帧包含唤醒词文本。

在上述操作过程中，用户可以随时发起变更唤醒词文本的操作，例如将唤醒词文本变更为“开机”，参照上述方法将“开机”转换成音节标识，得到音节组合序列，在检测到语音数据输入之后，通过该音节组合序列从语音数据识别得到的后验概率向量中抽取目标概率向量，再按照图3或图4的方式对目标概率向量中的每个后验概率值进行处理。根据处理后的目标概率向量计算置信度，再根据置信度确定语音数据是否包含唤醒词文本。在确定语音数据中包含唤醒词文本时唤醒终端设备。

本申请实施例提供的唤醒词检测方法，具有计算复杂低，且其可以对输入进行逐帧处理，所以该方法的响应速度快。

应当注意，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

进一步参考图7，图7示出了本申请实施例提供的唤醒词检测装置700的结构示意图。该装置700包括：

语音特征提取单元701，用于获取待识别语音数据，并提取待识别语音数据中每个语音帧的语音特征；

语音特征识别单元702，用于将语音特征输入到预先构建的深度神经网络模型，输出语音特征对应于音节标识的后验概率向量，该深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元；

置信度判决单元703，用于根据音节组合序列从后验概率向量中确定目标概率向量，并根据目标概率向量计算置信度，且在置信度大于等于阈值时，确定语音帧包含唤醒词文本，该音节组合序列是根据输入的唤醒词文本构建的。

进一步参考图8，图8示出了本申请实施例提供的置信度判断单元703的结构示意图。该置信度判决单元703还包括：

后验过滤子单元801，用于在目标概率向量所包含的每个后验概率值低于其对应的先验概率值时，将后验概率值置为0；否则，不处理后验概率值；

先验处理子单元802，用于将经过上述处理后的每个后验概率值除以与其对应的先验概率值，得到处理后的目标概率向量；

第一平滑处理子单元803，用于对处理后的目标概率向量进行平滑处理；

第一置信度计算子单元804，用于根据平滑处理后的目标概率向量计算置信度。

进一步参考图9，图9示出了本申请又一实施例提供的置信度判断单元703的结构示意图。该置信度判决单元703还包括：

概率处理子单元901，用于对目标概率向量所包含的每个后验概率值进行概率处理；

多音字确定子单元902，用于根据音节组合序列中所包含的音节标识与唤醒词文本所包含的字符之间的映射关系，确定唤醒词文本中是否包含多音字；

第一置信度计算子单元903，用于在唤醒词文本中不包含多音字时，根据概率处理后的目标概率向量计算置信度。

置信度判决单元703还包括：

第二置信度计算子单元904，用于在唤醒词文本中包含多音字时，将概率处理后的目标概率向量按照多音字的对应关系进行求和处理；根据求和处理后的目标概率向量计算置信度。

其中概率处理子单元901还可以包括：

后验过滤模块，用于在目标概率向量所包含的每个后验概率值低于其对应的先验概率值时，将后验概率值置为0；否则，不处理后验概率值；

先验处理模块，用于将经过上述处理后的每个后验概率值除以与其对应的先验概率值，得到处理后的目标概率向量。

第一置信度计算子单元903还可以包括：

平滑处理模块，用于对概率处理后的目标概率向量进行平滑处理；

置信度计算模块，用于根据平滑处理后的目标概率向量计算置信度。

第二置信度计算子单元904，还可以包括：

概率求和模块，用于将概率处理后的目标概率向量按照所述多音字的对应关系进行求和处理；

平滑处理模块，用于对求和处理后的目标概率向量进行平滑处理；置信度计算模块，用于根据平滑处理后的目标概率向量计算置信度。

应当理解，装置700中记载的诸单元或模块与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置700及其中包含的单元，在此不再赘述。装置700可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置700中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在上述实施例基础上，本申请实施例还提供了一种唤醒词检测系统。请参考图10，图10示出了本申请实施例提供的唤醒词检测系统1000。该装置1000包括语音识别单元1001和唤醒词设置单元1002，语音识别单元1001可以设置在第一终端内，唤醒词设置单元1002可以设置在第二终端内。第一终端和第二终端可以通过有线或无线方式连接。第一终端例如可以是无线音箱，第二终端例如可以手机、平板等设备。

其中，语音识别单元1001可以包括如图7所示的结构。语音特征提取单元，用于获取待识别语音数据，并提取待识别语音数据中每个语音帧的语音特征；

置信度判决单元，用于根据音节组合序列从后验概率向量中确定目标概率向量，并根据目标概率向量计算置信度，且在置信度大于等于阈值时，确定语音帧包含唤醒词文本，该音节组合序列是根据输入的唤醒词文本构建的。

唤醒词设置单元1002，用于获取输入的唤醒词文本；通过查找发音字典将唤醒词文本所包含的每个字符转换成音节标识；构建音节标识与唤醒词文本所包含的字符之间的映射关系，该映射关系作为音节组合序列。

本申请提供的上述语音识别单元和唤醒词设置单元也可以实施在同一终端中。

下面参考图11，其示出了适于用来实现本申请实施例的终端设备或服务器1100的结构示意图。

如图11所示，终端设备或服务器1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分508加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分509经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本公开的实施例，上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括预处理模块、接收模块、选择生成模块以及发送模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，预处理模块还可以被描述为“用于预先给第一客户端分配虚拟标识、第一标识和至少一个第二标识的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的多种电子钱包兼容支付方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于人工智能的唤醒词检测方法，其特征在于，该方法包括：

获取待识别语音数据，并提取所述待识别语音数据中每个语音帧的语音特征；

将所述语音特征输入到预先构建的深度神经网络模型，输出所述语音特征对应于音节标识的后验概率向量，所述深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元，所述音节包括拼音字母组合发音对应的音节；

根据音节组合序列从所述后验概率向量中确定目标概率向量，所述音节组合序列是根据输入的唤醒词文本构建的；

再根据所述目标概率向量计算置信度，且在所述置信度大于等于阈值时确定所述语音帧包含所述唤醒词文本；

所述根据所述目标概率向量计算置信度包括：

对所述目标概率向量所包含的每个后验概率值进行概率处理；

根据所述音节组合序列中所包含的音节标识与所述唤醒词文本所包含的字符之间的映射关系，确定所述唤醒词文本中是否包含多音字；

在所述唤醒词文本中不包含多音字时，根据概率处理后的目标概率向量计算置信度。

2.根据权利要求1所述的基于人工智能的唤醒词检测方法，其特征在于，所述根据所述目标概率向量计算置信度还包括：

在所述唤醒词文本中包含多音字时，将所述概率处理后的目标概率向量按照所述多音字的对应关系进行求和处理；

根据求和处理后的目标概率向量计算置信度。

3.根据权利要求1所述的基于人工智能的唤醒词检测方法，其特征在于，所述对所述目标概率向量所包含的每个后验概率值进行概率处理包括：

在所述后验概率值低于其对应的先验概率值时，将所述后验概率值置为0；否则，不处理所述后验概率值；

将经过上述处理后的所述后验概率值除以与其对应的先验概率值，得到处理后的目标概率向量。

4.根据权利要求2所述的基于人工智能的唤醒词检测方法，其特征在于，所述根据概率处理后的目标概率向量或所述根据求和处理后的目标概率向量计算置信度包括：

对所述概率处理后的目标概率向量或所述求和处理后的目标概率向量进行平滑处理；

根据平滑处理后的目标概率向量计算所述置信度。

5.根据权利要求1所述的基于人工智能的唤醒词检测方法，其特征在于，根据输入的唤醒词文本构建音节组合序列的步骤包括：

获取输入的唤醒词文本；

通过查找所述发音字典将所述唤醒词文本所包含的每个字符转换成所述音节标识；

构建所述音节标识与所述唤醒词文本所包含的字符之间的映射关系，所述映射关系作为所述音节组合序列。

6.根据权利要求1所述的基于人工智能的唤醒词检测方法，其特征在于，构建深度神经网络模型的步骤包括：

获取待训练的语音数据集；

对所述语音数据集中每个语音数据按照所述发音字典所包含的音节进行标注，得到训练数据集；

利用所述训练数据集对深度神经网络进行训练，以得到所述深度神经网络模型，所述深度神经网络模型的输入是每个语音帧的语音特征，每个所述音节输出单元输出的是每个所述语音特征相对于所述音节输出单元对应的音节标识的后验概率值。

7.一种基于人工智能的唤醒词检测装置，其特征在于，该装置包括：

语音特征提取单元，用于获取待识别语音数据，并提取所述待识别语音数据中每个语音帧的语音特征；

语音特征识别单元，用于将所述语音特征输入到预先构建的深度神经网络模型，输出所述语音特征对应于音节标识的后验概率向量，所述深度神经网络模型包括与预先构建的发音字典的音节的数量相同的音节输出单元，所述音节包括拼音字母组合发音对应的音节；

置信度判决单元，用于根据音节组合序列从所述后验概率向量中确定目标概率向量，所述音节组合序列是根据输入的唤醒词文本构建的；再根据所述目标概率向量计算置信度，且在所述置信度大于等于阈值时确定所述语音帧包含所述唤醒词文本；

置信度判决单元还包括：

概率处理子单元，用于对所述目标概率向量所包含的每个后验概率值进行概率处理；

多音字确定子单元，用于根据所述音节组合序列中所包含的音节标识与所述唤醒词文本所包含的字符之间的映射关系，确定所述唤醒词文本中是否包含多音字；

第一置信度计算子单元，用于在所述唤醒词文本中不包含多音字时，根据概率处理后的目标概率向量计算置信度。

8.一种终端设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。