CN107767861A

CN107767861A - 语音唤醒方法、系统及智能终端

Info

Publication number: CN107767861A
Application number: CN201610701654.6A
Authority: CN
Inventors: 潘嘉; 吴国兵; 刘聪; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2018-03-06
Anticipated expiration: 2036-08-22
Also published as: CN107767861B

Abstract

本发明公开了一种语音唤醒方法及系统，该方法包括：接收语音数据；提取所述语音数据的声学特征；利用所述声学特征及预先构建的声学模型进行唤醒词识别，得到唤醒词识别结果；如果所述唤醒词识别结果为唤醒词，则从所述语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征；利用所述唤醒词确认特征及预先构建的唤醒词确认模型对唤醒词识别结果进行确认，得到确认结果；根据所述确认结果，确定唤醒成功或失败。本发明还公开一种智能终端。利用本发明，可以避免唤醒词确认中阈值设置不当而造成唤醒失败的情况，提高唤醒成功率。

Description

语音唤醒方法、系统及智能终端

技术领域

本发明涉及语音处理领域，具体涉及一种语音唤醒方法、系统及智能终端。

背景技术

语音唤醒通过理解用户的语音数据，达到唤醒智能终端的目的，从而打开了人类通往人工智能的第一扇大门，广泛应用于各种智能终端上，如智能穿戴设备、手机、平板电脑、智能家电等。

为了避免非唤醒词的语音将智能终端唤醒，所述非唤醒词如噪声、笑声、干扰人声(不包含唤醒词)等，现有的语音唤醒方法一般在唤醒词识别之后，会进行唤醒词的确认。具体地，根据唤醒词识别过程中分别对应的唤醒词和非唤醒词的声学似然度，计算唤醒词和非唤醒词的声学似然度之间的比值得到唤醒词的声学似然比，设置唤醒词声学似然比阈值进行唤醒词识别结果确认。当所述似然比大于阈值时，认为是唤醒词识别结果可信，唤醒成功，否则，唤醒失败。所述唤醒词声学似然比阈值一般根据大量实验结果来确定，即大量实验的唤醒率以及误唤醒率来确定。这样，针对不同的应用场景，往往需要重新做大量实验来确定唤醒词声学似然比阈值，代价较高，并且如果阈值设置不当，容易造成唤醒词识别结果准确但唤醒失败的情况，降低了唤醒成功率。

发明内容

本发明实施例一方面提供一种语音唤醒方法及系统，以避免唤醒词确认中阈值设置不当而造成唤醒失败的情况，提高唤醒成功率。

本发明实施例另一方面提供一种智能终端，能够通过语音进行唤醒，并具有较高唤醒成功率。

为此，本发明提供如下技术方案：

一种语音唤醒方法，包括：

接收语音数据；

提取所述语音数据的声学特征；

利用所述声学特征及预先构建的声学模型进行唤醒词识别，得到唤醒词识别结果；

如果所述唤醒词识别结果为唤醒词，则从所述语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征；

利用所述唤醒词确认特征及预先构建的唤醒词确认模型对唤醒词识别结果进行确认，得到确认结果；

根据所述确认结果，确定唤醒成功或失败。

优选地，所述唤醒词确认特征包括：唤醒词Rank特征、以及以下任意一种或多种特征：唤醒词时长特征、唤醒词声学得分特征、唤醒词声学得分分布特征、唤醒词置信度分布特征、唤醒词Filler得分特征、唤醒词时间间隔特征。

优选地，按以下方式提取所述唤醒词Rank特征：

获取唤醒词识别过程中计算得到的唤醒词各语音单元中每个状态的各高斯的声学得分；

分别对每个状态的所有高斯的声学得分进行排序；

按照状态的逻辑先后顺序，将唤醒词的所有状态排序后的高斯的声学得分拼接起来，得到唤醒词Rank特征。

优选地，按以下方式提取所述唤醒词声学得分分布特征：

获取唤醒词识别过程中计算得到的唤醒词各语音单元中每个状态的声学得分；

计算每个状态的声学得分在每个状态的混合高斯分布中的概率值；

按照状态的逻辑先后顺序将每个状态的声学得分的概率值拼接起来，得到唤醒词每个状态的声学得分分布特征；

按以下方式提取所述唤醒词置信度分布特征：

获取唤醒词识别过程中计算得到的唤醒词各语音单元中每个状态的声学得分置信度；

计算每个状态的声学得分置信度在每个状态的混合高斯分布中的概率值；

按照状态的逻辑先后顺序将每个状态的声学得分置信度的概率值拼接起来，得到唤醒词每个状态的声学得分置信度分布特征。

优选地，所述方法还包括：

按以下方式构建所述唤醒词确认模型：

收集大量语音数据；

利用收集的语音数据进行唤醒词识别，得到唤醒词识别结果；

标注唤醒词识别结果的分类特征，所述分类特征分为两类，分别为：确认唤醒和不唤醒；

提取唤醒词确认特征；

利用提取的唤醒词确认特征和标注的分类特征，训练得到唤醒词确认模型。

优选地，所述确认结果为唤醒词识别结果是唤醒词或是非唤醒词；或者所述唤醒词识别结果是唤醒词的概率或是非唤醒词的概率。

一种语音唤醒系统，包括：

接收模块，用于接收语音数据；

声学特征提取模块，用于提取所述语音数据的声学特征；

唤醒词识别模块，用于利用所述声学特征及预先构建的声学模型进行唤醒词识别，得到唤醒词识别结果，并在所述唤醒词识别结果为唤醒词时，触发确认特征提取模块；

所述确认特征提取模块，用于从所述语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征；

唤醒词确认模块，用于利用所述唤醒词确认特征及预先构建的唤醒词确认模型对唤醒词识别结果进行确认，得到确认结果；

唤醒确认模块，用于根据所述确认结果，确定唤醒成功或失败。

优选地，所述确认特征提取模块包括：用于提取唤醒词Rank特征的Rank特征提取单元、以及以下任意一种或多种单元：

时长特征提取单元，用于提取唤醒词时长特征；

声学得分特征提取单元，用于提取唤醒词声学得分特征；

声学得分分布特征提取单元，用于提取唤醒词声学得分分布特征；

置信度分布特征提取单元，用于提取唤醒词置信度分布特征；

Filler得分特征提取单元，用于提取唤醒词Filler得分特征；

时间间隔特征提取单元，用于提取唤醒词时间间隔特征。

优选地，所述Rank特征提取单元包括：

高斯声学得分获取子单元，用于获取唤醒词识别过程中计算得到的唤醒词各语音单元中每个状态的各高斯的声学得分；

排序子单元，用于分别对每个状态的所有高斯的声学得分进行排序；

第一拼接子单元，用于按照状态的逻辑先后顺序，将唤醒词的所有状态排序后的高斯的声学得分拼接起来，得到唤醒词Rank特征。

优选地，所述声学得分分布特征提取单元包括：

状态声学得分获取子单元，用于获取唤醒词识别过程中计算得到的唤醒词各语音单元中每个状态的声学得分；

第一计算子单元，用于计算每个状态的声学得分在每个状态的混合高斯分布中的概率值；

第二拼接子单元，用于按照状态的逻辑先后顺序将每个状态的声学得分的概率值拼接起来，得到唤醒词每个状态的声学得分分布特征；

所述词置信度分布特征提取单元包括：

置信度得分获取子单元，用于获取唤醒词识别过程中计算得到的唤醒词各语音单元中每个状态的声学得分置信度；

第二计算子单元，用于计算每个状态的声学得分置信度在每个状态的混合高斯分布中的概率值；

第三拼接子单元，用于按照状态的逻辑先后顺序将每个状态的声学得分置信度的概率值拼接起来，得到唤醒词每个状态的声学得分置信度分布特征。

优选地，所述系统还包括：用于构建所述唤醒词确认模型的模型构建模块，所述模型构建模块包括：

数据收集单元，用于收集大量语音数据；

语音唤醒单元，用于利用收集的语音数据进行唤醒词识别，得到唤醒词识别结果；

标注单元，用于标注唤醒词识别结果的分类特征，所述分类特征分为两类，分别为：确认唤醒和不唤醒；

确认特征提取单元，用于提取唤醒词确认特征；

训练单元，用于利用提取的唤醒词确认特征和标注的分类特征，训练得到唤醒词确认模型。

一种智能终端，包括上面所述的语音唤醒系统。

优选地，所述智能终端为以下任意一种：穿戴设备、手机、平板电脑、音箱、家电设备。

本发明实施例提供的语音唤醒方法及系统，在唤醒词确认时，从语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征，利用唤醒词确认特征及预先构建的唤醒词确认模型进行唤醒词确认。从而不需要根据声学模型及唤醒词的变动重新设定唤醒词确认阈值，有效避免了由于唤醒词确认阈值设置不当而造成唤醒失败的情况，提高了唤醒成功率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语音唤醒方法的流程图；

图2是本发明实施例中唤醒词识别网络的结构示意图；

图3是本发明实施例中构建唤醒词确认模型的流程图；

图4是本发明实施例语音唤醒系统的结构示意图；

图5是本发明实施例中模型构建模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有技术在对唤醒词进行确认时，依赖于唤醒词声学似然比阈值的方案，阈值设置不当，容易影响唤醒成功率的问题，本发明实施例提供一种语音唤醒方法及系统，在唤醒词确认时，从语音数据及唤醒词识别过程的中间结果提取唤醒词确认特征，利用唤醒词确认特征及预先构建的唤醒词确认模型进行唤醒词确认。

如图1所示，是本发明实施例语音唤醒方法的流程图，包括以下步骤：

步骤101，接收语音数据。

所述语音数据可以是通过麦克风接收。

步骤102，提取所述语音数据的声学特征。

所述声学特征用于唤醒词识别，可以是语音数据的频谱特征，如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征或感知线性预测(PerceptualLinear Predictive，PLP)特征等。具体提取时，可以先对语音数据进行分帧处理；随后对分帧后的语音数据进行预加重；最后依次提取每帧语音数据的频谱特征。

进一步地，为了提高所述声学特征的区分性，还可以对提取的频谱特征进行变换，如将每帧语音数据及每帧语音数据的前后多帧语音数据作为神经网络的输入，将神经网络的输出作为变换后的声学特征。

步骤103，利用所述声学特征及预先构建的声学模型进行唤醒词识别，得到唤醒词识别结果。

所述唤醒词识别过程为利用提取的声学特征及预先构建的声学模型在构建好的唤醒词识别网络上计算每条路径的声学得分，找到最优路径，即得到唤醒词识别结果。该过程可以采用现有的唤醒词识别方法，其中，所述声学模型包含两种即唤醒词声学模型和吸收(filler)模型，所述唤醒词声学模型用于从语音数据中识别出唤醒词，所述吸收模型用于吸收唤醒词之外的各种声音现象，如非唤醒词语音、各种形式的噪声、音乐等。

下面首先对唤醒词声学模型和吸收模型、以及这两种模型的构建过程进行简单介绍。

a)唤醒词声学模型

所述声学模型通常采用GMM-HMM模型来表征，即使用隐马尔可夫模型(HMM)表征语音单元之间的状态转移情况，使用高斯混合模型(GMM)表征语音单元的状态输出概率，作为语音单元的唤醒词声学模型，所述语音单元如音素单元、音节单元等。以语音单元为音素单元为例，具体建模时，可以使用三音素单元来表示每个音素单元的上下文相关音素单元，如唤醒词为“中国”，则三音素单元表示为“sil-zh-ong1”、“zh-ong1-g”。具体训练时，首先收集大量语音数据，提取语音数据对应语音单元的声学特征；然后利用语音单元的声学特征及该语音单元上下文相关语音单元的声学特征训练各语音单元的唤醒词声学模型。训练多高斯模型时，可以先训练一个单高斯模型，然后再逐渐增加高斯数，一般为4到60个，具体可以根据应用需求预先设定；具体训练方法与现有技术相同，在此不再详述。

当然，语音单元的状态输出概率可以使用深度神经网络(DNN)表征，构建声学模型时先确定神经网络的结构，如前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合形式，神经网络的隐层数一般为3到8层，每个隐层的节点数一般为2048个；然后利用收集的大量语音数据进行模型训练，得到各语音单元的状态输出概率，即语音单元的唤醒词声学模型，具体训练方法与现有技术相同，本案不再详述。

步b)吸收模型

所述吸收模型与上述唤醒词声学模型一样，采用GMM-HMM模型来表征。与唤醒词声学模型不同的是，吸收模型的吸收单元是由所有语音单元聚类构成的，吸收模型的个数取决于聚类的类别数，一般在1到100之间。

具体训练时，首先收集大量语音数据，所述语音数据尽可能地包含所有语音单元，所述语音单元如音素、音节等，如收集的语音数据尽可能地包含中文中的所有音节；然后提取语音数据的声学特征，所述声学特征与唤醒词声学模型构建时提取的声学特征相同，然后基于极大似然准则训练基于HMM的高斯混合模型，得到每个语音单元的声学模型；随后基于KL距离(相对熵)对语音单元的声学模型进行聚类，得到吸收单元，所述吸收单元是由语音单元聚类构成的，具体聚类数可以预先根据实验结果设定；最后，将训练数据的标注修改为吸收单元，例如，训练数据标注的语音单元为“zhong1”，在聚类后，语音单元“zhong1”属于类1，即吸收单元1，则将训练数据的标注修改为“吸收单元1”，利用修改后的训练数据重新训练吸收单元对应的声学模型，称为吸收模型，具体训练方法与语音单元声学模型训练方法相同。

在利用上述预先构建的声学模型进行唤醒词识别时，首先确定唤醒词识别网络，该识别网络包括唤醒词路径和吸收路径，唤醒词路径由所有唤醒词并联构成，吸收路径由所有的吸收单元构成一个循环结构，如图2为唤醒词识别网络的结构示意图，其中上面虚线框中为唤醒词路径，下面虚线框中为吸收路径。然后根据声学模型和吸收模型，采用动态规划算法计算每个语音单元的声学特征在每条路径上的声学得分，将声学得分最高的路径作为最优路径。如果最优路径为唤醒词路径，则识别结果为该路径上的唤醒词；如果识别结果为吸收路径，则识别结果为非唤醒词。

步骤104，如果所述唤醒词识别结果为唤醒词，则从所述语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征。

所述唤醒词确认特征包括：唤醒词Rank特征、以及以下任意一种或多种特征：唤醒词时长特征、唤醒词声学得分特征、唤醒词声学得分分布特征、唤醒词置信度分布特征、唤醒词Filler得分特征、唤醒词时间间隔特征。

下面对上述各唤醒词确认特征进行详细说明。

1)唤醒词Rank特征

唤醒词识别过程中，利用唤醒词声学模型计算每个语音单元的声学得分时，会计算语音单元中每个状态的每个高斯的声学得分，对每个状态的所有高斯的声学得分分别进行排序，按照状态的逻辑先后顺序，将唤醒词所有状态排序后的高斯的声学得分拼接起来，得到唤醒词Rank特征。如唤醒词为“你好，小飞”，唤醒词共包含4个语音单元，假设每个语音单元使用5个状态表示，每个状态假设包含8个高斯，则整个唤醒词共20个状态，160个高斯。在唤醒词识别时，可以得到每个状态每个高斯的声学得分，对每个状态的8个高斯的声学得分分别进行排序，将唤醒词每个语音单元的5个状态排序后的高斯的声学得分拼接起来，得到一个160维的Rank特征，作为唤醒词Rank特征。

2)唤醒词时长特征

所述唤醒词时长特征指唤醒词包含的各语音单元对应的状态的帧数。如唤醒词为“你好，小飞”，唤醒词共包含4个语音单元，假设每个语音单元使用5个状态表示，则整个唤醒词共20个状态。在唤醒词识别时，可以得到每个状态对应的帧数，将每个状态对应的帧数按照状态的逻辑先后顺序拼接起来，可以得到一个20维的唤醒词时长特征。

3)唤醒词声学得分特征

所述唤醒词声学得分即唤醒词识别时，最优路径上计算得到的唤醒词声学得分。

4)唤醒词声学得分分布特征

唤醒词识别时，可以计算得到唤醒词各语音单元中每个状态的声学得分，计算每个状态的声学得分在每个状态的混合高斯分布中的概率值，计算结束后，按照状态的逻辑先后顺序将每个状态的所述概率值拼接起来，得到唤醒词每个状态的声学得分分布特征。所述每个状态的混合高斯分布可以预先利用唤醒词识别时声学模型的训练数据训练得到。具体训练时，首先获取训练数据切分时，每个状态的声学得分；然后将每个状态的声学得分作为训练数据，训练每个状态的混合高斯模型，得到每个状态的混合高斯分布。

5)唤醒词置信度分布特征

唤醒词识别时，可以计算得到唤醒词各语音单元中每个状态的声学得分置信度，然后计算每个状态的声学得分置信度在每个状态的混合高斯分布中的概率值，计算结束后，按照状态的逻辑先后顺序将每个状态的所述概率值拼接起来，得到唤醒词每个状态的声学得分置信度分布特征。所述每个状态的混合高斯分布可以预先利用唤醒词识别时声学模型的训练数据训练得到。具体训练时，首先获取训练数据每个状态的声学得分置信度；然后将各状态的声学得分置信度作为训练数据，训练每个状态的混合高斯模型，得到每个状态的混合高斯分布。

6)唤醒词Filler得分特征

所述Filler得分即唤醒词识别时，所有吸收路径的最高声学得分。

7)唤醒词时间间隔特征

所述唤醒词时间间隔特征是指上一次唤醒词识别结果为唤醒词的时间到当前唤醒词识别结果为唤醒词的时间间隔。

步骤105，利用所述唤醒词确认特征及预先构建的唤醒词确认模型对唤醒词识别结果进行确认，得到确认结果。

所述唤醒词确认模型可以采用模式识别领域中常用的分类模型，如支持向量机模型、神经网络模型等。所述唤醒词确认模型可以通过收集大量语音数据训练得到，具体训练过程将在后面详细说明。

对唤醒词识别结果进行确认主要是为了判断该唤醒词识别结果的置信度，如果置信度较高，则说明唤醒词识别结果的可信度较高，唤醒成功；否则，认为唤醒词识别结果的可信度较低，唤醒失败。

具体地，将提取的唤醒词确认特征作为唤醒词确认模型的输入，模型的输出可以有两种方式，一种是唤醒词识别结果是唤醒词或是非唤醒词，另一种是唤醒词识别结果是唤醒词的概率或是非唤醒词的概率。

步骤106，根据所述确认结果，确定唤醒成功或失败。

对于第一种方式，如果所述确认结果为唤醒词，则唤醒成功，否则唤醒失败。

对于第二种方式，如果所述确认结果是唤醒词的概率大于一设定值(比如0.9)，则唤醒成功，否则唤醒失败。当然如果唤醒词确认模型的输出为所述确认结果是非唤醒词的概率，则在该概率小于一设定值(比如0.1)时，唤醒成功，否则唤醒失败。

如图3所示，是本发明实施例中构建唤醒词确认模型的流程图，包括以下步骤：

步骤301，收集大量语音数据。

步骤302，利用收集的语音数据进行唤醒词识别，得到唤醒词识别结果。

步骤303，标注唤醒词识别结果的分类特征，所述分类特征分为两类，分别为：确认唤醒和不唤醒。

其中，确认唤醒表示本次唤醒词识别结果确实为唤醒词，利用该唤醒词可以唤醒成功，不唤醒表示本次唤醒词识别结果为非唤醒词，唤醒失败。

步骤304，提取唤醒词确认特征。

步骤305，利用提取的唤醒词确认特征和标注的分类特征，训练得到唤醒词确认模型。

本发明实施例提供的语音唤醒方法，在唤醒词确认时，从语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征，利用唤醒词确认特征及预先构建的唤醒词确认模型进行唤醒词确认。从而不需要根据声学模型及唤醒词的变动重新设定唤醒词确认阈值，有效避免了由于唤醒词确认阈值设置不当而造成唤醒失败的情况，提高了唤醒成功率。

相应地，本发明实施例还提供一种语音唤醒系统，如图4所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

接收模块401，用于接收语音数据；

声学特征提取模块402，用于提取所述语音数据的声学特征；

唤醒词识别模块403，用于利用所述声学特征及预先构建的声学模型进行唤醒词识别，得到唤醒词识别结果，并在所述唤醒词识别结果为唤醒词时，触发确认特征提取模块404；

所述确认特征提取模块404，用于从所述语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征；

唤醒词确认模块405，用于利用所述唤醒词确认特征及预先构建的唤醒词确认模型对唤醒词识别结果进行确认，得到确认结果；

唤醒确认模块406，用于根据所述确认结果，确定唤醒成功或失败。

在具体应用中，所述唤醒词确认特征可以包括：唤醒词Rank特征、以及以下任意一种或多种特征：唤醒词时长特征、唤醒词声学得分特征、唤醒词声学得分分布特征、唤醒词置信度分布特征、唤醒词Filler得分特征、唤醒词时间间隔特征。相应地，所述述确认特征提取模块404中可以设置对应各唤醒词确认特征的提取单元，也就是说，所述确认特征提取模块404可以包括：用于提取唤醒词Rank特征的Rank特征提取单元、以及以下任意一种或多种单元：

时长特征提取单元，用于提取唤醒词时长特征；

声学得分特征提取单元，用于提取唤醒词声学得分特征；

Filler得分特征提取单元，用于提取唤醒词Filler得分特征；

时间间隔特征提取单元，用于提取唤醒词时间间隔特征。

上述各唤醒词确认特征在前面已有详细描述，相应地，上述各特征提取单元可以根据各特征的具体定义设置相应的提取子单元，比如：

所述Rank特征提取单元可以包括以下各子单元：

所述声学得分分布特征提取单元可以包括以下各子单元：

所述词置信度分布特征提取单元可以包括以下各子单元：

需要说明的是，本发明实施例对各特征提取单元的具体结构不做限定，而且，有的特征提取单元只需根据唤醒词识别过程的中间结果即可提取相应的特征，有的特征提取单元需要用到接收的语音数据的信息，比如时长特征提取单元需要获取唤醒词包含的各语音单元对应的状态的帧数。

在本发明实施例的语音唤醒系统中，所述唤醒词确认模块405利用所述唤醒词确认特征及预先构建的唤醒词确认模型对唤醒词识别结果进行确认，得到确认结果。其中，所述唤醒词确认模型可以采用模式识别领域中常用的分类模型，如支持向量机模型、神经网络模型等，具体可以由相应的模型构建模块进行离线构建，所述模型构建模块可以是一个独立于该系统的一个模块，也可以是该系统的一部分。

如图5所示，是模型构建模块的一种具体结构，包括以下各单元：

数据收集单元51，用于收集大量语音数据；

语音唤醒单元52，用于利用收集的语音数据进行唤醒词识别，得到唤醒词识别结果；

标注单元53，用于标注唤醒词识别结果的分类特征，所述分类特征分为两类，分别为：确认唤醒和不唤醒；

确认特征提取单元54，用于提取唤醒词确认特征；

训练单元55，用于利用提取的唤醒词确认特征和标注的分类特征，训练得到唤醒词确认模型。

唤醒词确认模块405利用所述唤醒词确认模型对唤醒词识别结果进行确认主要是为了判断该唤醒词识别结果的置信度，如果置信度较高，则说明唤醒词识别结果的可信度较高，唤醒成功；否则，认为唤醒词识别结果的可信度较低，唤醒失败。具体地，将确认特征提取模块404提取的唤醒词确认特征作为唤醒词确认模型的输入，模型的输出可以有两种方式，一种是唤醒词识别结果是唤醒词或是非唤醒词，另一种是唤醒词识别结果是唤醒词的概率或是非唤醒词的概率。

可见，本发明实施例提供的语音唤醒系统，在唤醒词确认时，从语音数据及唤醒词识别过程的中间结果中提取唤醒词确认特征，利用唤醒词确认特征及预先构建的唤醒词确认模型进行唤醒词确认，从而不需要根据声学模型及唤醒词的变动重新设定唤醒词确认阈值，有效避免了由于唤醒词确认阈值设置不当而造成唤醒失败的情况，提高了唤醒成功率。

本发明实施例的语音唤醒系统，可以应用于多种智能终端上，比如穿戴设备、手机、平板电脑、音箱、智能家电等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音唤醒方法，其特征在于，包括：

接收语音数据；

提取所述语音数据的声学特征；

根据所述确认结果，确定唤醒成功或失败。

2.根据权利要求1所述的方法，其特征在于，所述唤醒词确认特征包括：唤醒词Rank特征、以及以下任意一种或多种特征：唤醒词时长特征、唤醒词声学得分特征、唤醒词声学得分分布特征、唤醒词置信度分布特征、唤醒词Filler得分特征、唤醒词时间间隔特征。

3.根据权利要求2所述的方法，其特征在于，按以下方式提取所述唤醒词Rank特征：

分别对每个状态的所有高斯的声学得分进行排序；

4.根据权利要求2所述的方法，其特征在于，

按以下方式提取所述唤醒词声学得分分布特征：

按以下方式提取所述唤醒词置信度分布特征：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

按以下方式构建所述唤醒词确认模型：

收集大量语音数据；

提取唤醒词确认特征；

6.根据权利要求5所述的方法，其特征在于，所述确认结果为唤醒词识别结果是唤醒词或是非唤醒词；或者所述唤醒词识别结果是唤醒词的概率或是非唤醒词的概率。

7.一种语音唤醒系统，其特征在于，包括：

接收模块，用于接收语音数据；

声学特征提取模块，用于提取所述语音数据的声学特征；

8.根据权利要求7所述的系统，其特征在于，所述确认特征提取模块包括：用于提取唤醒词Rank特征的Rank特征提取单元、以及以下任意一种或多种单元：

时长特征提取单元，用于提取唤醒词时长特征；

声学得分特征提取单元，用于提取唤醒词声学得分特征；

Filler得分特征提取单元，用于提取唤醒词Filler得分特征；

时间间隔特征提取单元，用于提取唤醒词时间间隔特征。

9.根据权利要求8所述的系统，其特征在于，所述Rank特征提取单元包括：

10.根据权利要求8所述的系统，其特征在于，

所述声学得分分布特征提取单元包括：

所述词置信度分布特征提取单元包括：

11.根据权利要求7至10任一项所述的系统，其特征在于，所述系统还包括：用于构建所述唤醒词确认模型的模型构建模块，所述模型构建模块包括：

数据收集单元，用于收集大量语音数据；

确认特征提取单元，用于提取唤醒词确认特征；

12.根据权利要求11所述的系统，其特征在于，所述确认结果为唤醒词识别结果是唤醒词或是非唤醒词；或者所述唤醒词识别结果是唤醒词的概率或是非唤醒词的概率。

13.一种智能终端，其特征在于，包括权利要求7至12任一项所述的语音唤醒系统。

14.根据权利要求13所述的智能终端，其特征在于，所述智能终端为以下任意一种：穿戴设备、手机、平板电脑、音箱、家电设备。