CN110782898B

CN110782898B - 端到端语音唤醒方法、装置及计算机设备

Info

Publication number: CN110782898B
Application number: CN201810763704.2A
Authority: CN
Inventors: 姚光超
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2024-01-09
Anticipated expiration: 2038-07-12
Also published as: CN110782898A

Abstract

本发明公开了一种端到端语音唤醒方法、装置及计算机设备，该方法包括：接收待检测语音；依次提取每个语音帧的声学特征；将提取的声学特征输入声学模型，得到所述声学模型输出的每个语音帧中各目标发音单元的概率；逐帧计算各目标发音单元的累积概率，并确定各目标发音单元的起始位置和结束位置；根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率；根据各目标发音单元的长度和/或平均概率进行唤醒操作。利用本发明，可以降低误唤醒率，提高唤醒效果。

Description

端到端语音唤醒方法、装置及计算机设备

技术领域

本发明涉及语音唤醒技术领域，具体涉及一种端到端语音唤醒方法、装置及计算机设备。

背景技术

语音唤醒是指在连续语流中实时检测出说话人特定片段，其目的就是将设备从休眠状态激活至运行状态。语音唤醒的应用领域非常广泛，比如机器人、音箱、汽车等。评价语音唤醒效果的主要指标有唤醒率、误唤醒率，语音识别过程中解码器性能的优劣对其起着关键性作用。

对于端到端的语音唤醒，解码器中的每一个声学模型对应一个发音单元，所述发音单元可以是词、字、或者音节。声学模型主要用于计算语音特征和每个发音模板之间的似然度，其输入为语音特征，输出为目标发音单元的概率。比如，输入一段语音，其中包含唤醒词“你好搜狗”，基于字的端到端声学模型输出为：“你”，“好”，“搜”，“狗”，“silence”和“other”六个输出的概率，其中“silence”表示静音输出，“other”表示非“你好搜狗”的语音和噪音输出。

针对上述声学模型的输出，现有技术提出了一种语音唤醒方法：采用滑动窗的方式，首先确定滑动窗口内每个目标发音单元对应的声学模型输出的最大值，然后将这这些最大值相加取平均值，如果该平均值大于设定的阈值，则进行唤醒操作。但这种方法会导致误唤醒，比如对于用户说“狗你搜好”这样的词时也会唤醒。

发明内容

本发明实施例提供一种端到端语音唤醒方法及装置，以降低误唤醒率。

为此，本发明提供如下技术方案：

一种端到端语音唤醒方法，所述方法包括：

接收待检测语音；

依次提取每个语音帧的声学特征；

将提取的声学特征输入声学模型，得到所述声学模型输出的每个语音帧中各目标发音单元的概率；

逐帧计算各目标发音单元的累积概率，并确定各目标发音单元的起始位置和结束位置；

根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率；

根据各目标发音单元的长度和/或平均概率进行唤醒操作。

可选地，所述声学模型为基于唤醒词中各目标发音单元的端到端声学模型。

可选地，在所述唤醒词的前后各添加一个静音输出。

可选地，所述目标发音单元为音节、或字、或词。

可选地，所述逐帧计算各目标发音单元的累积概率包括：

对于每个目标发音单元，将上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值，加上当前帧该目标发音单元的概率，作为当前帧该目标发音单元的累积概率。

可选地，所述根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率包括：

将所述目标发音单元的结束位置与起始位置相减得到所述目标发音单元的长度；

将对应所述结束位置的累积概率与对应所述起始位置的累积概率相减，然后除以所述目标发音单元的长度，得到所述目标发音单元的平均概率。

可选地，所述根据各目标发音单元的长度和/或平均概率进行唤醒操作包括：

如果在设定区间内各目标发音单元的长度均大于设定的长度阈值，则进行唤醒操作；或者

如果在设定区间内各目标发音单元的平均概率均大于设定的第一阈值，则进行唤醒操作。

可选地，所述方法还包括：

确定在设定区间内各目标发音单元的最大概率，并根据所述最大概率计算所有目标发音单元的最大概率平均值；

所述根据各目标发音单元的长度和/或平均概率进行唤醒操作包括：

根据各目标发音单元的长度、设定区间内各目标发音单元的最大概率、最大概率平均值、平均概率这四者中的任意两个或多个参数进行唤醒操作。

一种端到端语音唤醒装置，所述装置包括：

接收模块，用于接收待检测语音；

特征提取模块，用于依次提取每个语音帧的声学特征；

声学检测模块，用于将提取的声学特征输入声学模型，得到所述声学模型输出的每个语音帧中各目标发音单元的概率；

第一计算模块，用于逐帧计算各目标发音单元的累积概率，并确定各目标发音单元的起始位置和结束位置；

第二计算模块，用于根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率；

唤醒处理模块，用于根据各目标发音单元的长度和/或平均概率进行唤醒操作。

可选地，所述第一计算模块在计算累积概率时，针对每个目标发音单元，将上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值，加上当前帧该目标发音单元的概率，作为当前帧该目标发音单元的累积概率。

可选地，所述第二计算模块，具体用于将所述目标发音单元的结束位置与起始位置相减得到所述目标发音单元的长度；将对应所述结束位置的累积概率与对应所述起始位置的累积概率相减，然后除以所述目标发音单元的长度，得到所述目标发音单元的平均概率。

可选地，所述唤醒处理模块，具体用于在设定区间内各目标发音单元的长度均大于设定的长度阈值时进行唤醒操作，或者在设定区间内各目标发音单元的平均概率均大于设定的第一阈值时进行唤醒操作。

可选地，所述装置还包括：

提取模块，用于确定在设定区间内各目标发音单元的最大概率；

第三计算模块，用于根据所述最大概率计算所有目标发音单元的最大概率平均值。

所述唤醒处理模块，具体用于根据各目标发音单元的长度、设定区间内各目标发音单元的最大概率、最大概率平均值、平均概率这四者中的任意两个或多个参数进行唤醒操作。

一种计算机设备，包括：一个或多个处理器、存储器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现前面所述的方法。

一种可读存储介质，其上存储有指令，所述指令被执行以实现前面所述的方法。

本发明实施例提供的端到端语音唤醒方法及装置，根据声学模型输出的各目标发音单元的概率，逐帧计算各目标发音单元的累积概率及起始位置和结束位置，然后根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率。在进行唤醒判断时，考虑的是一段区间内端到端声学模型输出的各目标发音单元的位置信息、概率平均值、以及所有目标发音单元的最大概率平均值中的至少两个相关参数，大大降低了误唤醒率，提高了唤醒效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例端到端语音唤醒方法的流程图；

图2是本发明实施例端到端语音唤醒装置的一种结构框图；

图3是本发明实施例端到端语音唤醒装置的另一种结构框图；

图4是根据一示例性实施例示出的一种用于端到端语音唤醒方法的装置的框图；

图5是本发明实施例中服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有的语音唤醒方案存在的误唤醒问题，本发明实施例提供一种端到端语音唤醒方法及装置，根据声学模型输出的各目标发音单元的概率，逐帧计算各目标发音单元的累积概率及起始位置和结束位置，然后根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率，利用各目标发音单元的长度及平均概率进行语音唤醒，从而避免了误唤醒。

如图1所示，是本发明实施例端到端语音唤醒方法的流程图，包括以下步骤：

步骤101，接收待检测语音。

比如，可以通过的麦克风接收，所述麦克风可以设置在待唤醒设备上，也可以设置在待唤醒设备的控制器比如遥控器上。

步骤102，依次提取每个语音帧的声学特征。

对接收的语音需要进行分帧处理，另外，还可以对分帧后的语音数据进行预加重处理，以增加语音的高频分辨率。

所述声学特征可以是MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征、或者PLP(Linear Predictive Coding，线性预测分析)特征、或者Filterbank特征等，这些声学特征的提取可以采用现有技术，在此不再赘述。

步骤103，将提取的声学特征输入声学模型，得到所述声学模型输出的每个语音帧中各目标发音单元的概率。

在本发明实施例中，所述声学模型为端到端的声学模型，具体可以采用DNN(DeepNeural Networks，深度神经网络)，比如，FFNN(Feed Forward Neural Network，前馈神经网络)、CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent NeuralNetwork，循环神经网络)中的一种或多种的组合形式。所述声学模型的输入为从当前帧中提取的声学特征，输出为当前帧中目标发音单元的概率。

所述声学模型可以利用收集的大量语音数据进行训练得到，具体训练过程与现有技术类似，在此不再详细描述。

所述目标发音单元是指唤醒词的一个发音单位，具体可以是音节，字或者词。

步骤104，逐帧计算各目标发音单元的累积概率，并确定各目标发音单元的起始位置和结束位置。

在本发明实施例中，采用动态规划方法，对于每个目标发音单元，选取上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值作为截止到上一帧该目标发音单元的累积概率，相应地，将截止到上一帧该目标发音单元的累积概率加上当前帧该目标发音单元的概率即该目标发音单元对应的声学模型的输出，这两者的和作为截止到当前帧该目标发音单元的累积概率。

各目标发音单元的累积概率用公式表示如下：

dp[i][t]＝max(dp[i][t-1],dp[i-1][t-1])+out[i][t]

其中，dp[i][t]表示第i个目标发音单元在第t帧的累积概率，dp[i][t-1]表示第i个目标发音单元在第t-1帧的累积概率，dp[i-1][t-1]表示第i-1个目标发音单元在第t-1帧的累积概率，out[i][t]表示第i个目标发音单元在第t帧的概率；i＝0～I+1，t＝0～T，其中，I表示目标发音单元的个数，T表示语音帧的个数。

上述累积概率计算到最后一帧后，逐帧回溯确定各帧中是否包含相应的目标发音单元。具体地，如果当前帧中该目标发音单元的概率大于设定的输出阈值，则确定当前帧中包含该目标发音单元。这样，回溯到起始帧后，即可得到所有包含该目标发音单元的各帧。根据各帧的序号得到每一个目标发音单元的起始位置和结束位置。

需要说明的是，为了更准确地计算第一个和最后一个发音单元的起始位置和结束位置，可以人为地在唤醒词前后添加一个“静音”输出，比如，对唤醒词“你好搜狗”，前后增加静音后，唤醒词变为“silence”，“你”，“好”，“搜”，“狗”，“silence”，即每一次唤醒都从静音开始，然后是静音结束。

步骤105，根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率。

具体地，将所述目标发音单元的结束位置与起始位置相减即可得到所述目标发音单元的长度；将对应所述结束位置的累积概率与对应所述起始位置的累积概率相减，然后除以所述目标发音单元的长度，即可得到所述目标发音单元的平均概率。

步骤106，根据各目标发音单元的长度和/或平均概率进行唤醒操作。

比如，如果在设定区间内各目标发音单元的长度均大于设定的长度阈值，则进行唤醒操作；或者如果在设定区间内各目标发音单元的平均概率均大于设定的第一阈值，则进行唤醒操作。否则，不进行唤醒操作。

进一步地，在本发明方法另一实施例中，还可以确定在设定区间内各目标发音单元的最大概率，并根据所述最大概率计算所有目标发音单元的最大概率平均值。

相应地，在进行唤醒判断时，可以根据各目标发音单元的长度、设定区间内各目标发音单元的最大概率、最大概率平均值、平均概率这四者中的任意两个或多个参数进行唤醒操作。

比如，如果在设定区间内各目标发音单元的平均概率均大于设定的第一阈值，并且所述最大概率平均值大于第二阈值或者各目标发音单元的最大概率均大于第二阈值，则进行唤醒操作。

再比如，如果各目标发音单元的长度均大于设定的长度阈值，并且在设定区间内所述最大概率平均值大于第二阈值或者各目标发音单元的最大概率均大于第二阈值，则进行唤醒操作。

本发明实施例提供的端到端语音唤醒方法，在进行唤醒判断时，根据设定区间内各目标发音单元的长度和/或平均概率进行判断，进一步地，还可以基于各目标发音单元的长度、设定区间内各目标发音单元的最大概率、最大概率平均值、平均概率这四者中的任意两个或多个参数进行判断，使得判断结果更准确，而且在进行累积概率计算时，考虑到唤醒词中各发音单元之间的先后顺序，利用动态规划方法，对于每个目标发音单元，选取上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值作为上一帧该目标发音单元的累积概率，有效地避免了仅考虑所有目标发音单元最大概率平均值时误判导致的误唤醒情况。而且也避免了由于噪声的影响使非目标发音单元的发音在目标发音单元的发音输出上出现较大的概率时导致的误唤醒情况。

下面以唤醒词“你好搜狗”为例，对本发明方案与现有技术进行比较说明。

假设采用基于字的端到端声学模型，输出的是唤醒词中各字的概率，当用户说出唤醒词“你好搜狗”之后，“你”，“好”，“搜”，“狗”四个输出会依次出现概率的峰值，声学模型的输出如下：

sil：1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 1.0

你：0.0 0.2 0.8 1.0 0.8 0.2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

好：0.0 0.0 0.0 0.0 0.0 0.0 0.2 0.5 1.0 0.5 0.2 0.0 0.0 0.0 0.0 0.00.0 0.0

搜：0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.3 1.0 0.3 0.0 0.00.0 0.0

狗：0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.2 0.50.9 0.0

sil：1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 1.0

但是当用户说的是“狗你搜好”时，声学模型的输出如下：

sil：1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 1.0

你：0.0 0.0 0.0 0.0 0.0 0.0 0.2 0.5 1.0 0.5 0.2 0.0 0.0 0.0 0.0 0.00.0 0.0

好：0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.2 0.50.9 0.0

搜：0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.3 1.0 0.3 0.0 0.00.0 0.0

狗：0.0 0.2 0.8 1.0 0.8 0.2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0

sil：1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 1.0

按照现有技术，在每一个输出上设定一个滑动窗口，假设窗长为15，在当前滑动窗内，即t＝0时，“你”的滑动窗口内最大值为1.0，“好”的滑动窗口内最大值为0.2，“搜”的滑动窗口内最大值为1.0，“狗”的滑动窗口内最大值为1.0，四个最大值求平均值为0.8，假设设定的阈值为0.9，则不唤醒。然后向前滑动一位，即t＝1时，计算四个滑动窗口的最大值的平均值，继续参照上面的各输出概率可知，“你”、“好”、“搜”、“狗”这四个目标发音单元的滑动窗口内最大值分别为：1.0、0.5、1.0、1.0，四个最大值求平均值为0.875，小于设定的阈值0.9，则不唤醒。然后继续向前滑动一位，即t＝2时，计算四个滑动窗口的最大值的平均值，继续参照上面的各输出概率可知，“你”、“好”、“搜”、“狗”这四个目标发音单元的滑动窗口内最大值分别为：1.0、0.9、1.0、1.0，四个最大值求平均值为0.975，大于设定的阈值0.9，从而引发误唤醒。

同样参照上面“狗你搜好”的输出概率，即用户说的是“狗你搜好”时，按照本发明实施例的方案，在四个发音单元前后添加静音输出，按照上面的公式计算“狗你搜好”的概率如下：

回溯结果：“狗”持续3帧，前后相减得到平均概率为(4.8-4.8)/3＝0；“搜”持续3帧，前后相减得到平均概率为(4.8-3.2)/3＝0.53；“好”持续1帧，前后相减得平均概率为(3.2-3.2)/1＝0；“你”持续4帧，前后相减得到平均概率为(3.2-1)/4＝0.55。

因为在四个发音单元中，有两个发音单元的平均概率为0，所以不唤醒。

同样参照上面“你好搜狗”的输出概率，即用户说的是“你好搜狗”时，按照本发明实施例的方案，在四个发音单元前后添加静音输出，按照上面的公式计算“你好搜狗”的概率如下：

回溯结果：“狗”持续3帧，前后相减得到平均概率为(9.6-8.0)/3＝0.53；“搜”持续3帧，前后相减得到平均概率为(8.0-6.4)/3＝0.53；“好”持续5帧，前后相减得到平均概率为(6.4-4.0)/5＝0.48；“你”持续5帧，前后相减得到平均概率为(4.0-1.0)/5＝0.6。

如果设定每个发音单元的阈值为0.4，长度至少要3帧，由上述计算可知满足该条件，因此可以唤醒。

可见，利用本发明实施例提供的方案，有效地降低了误唤醒率，提高了唤醒效果。

本发明实施例提供的端到端语音唤醒方法，可以应用于多种智能设备，如家居设备、音箱、平板电脑、手机、穿戴设备、机器人、玩具等，可以使所述智能设备在休眠或锁屏状态下也能检测到用户的语音指令，即唤醒词，使处于休眠状态下的设备直接进入到等待指令状态或者直接执行语音指令对应的操作。

相应地，本发明实施例还提供一种端到端语音唤醒装置，如图2所示，是该装置的一种结构框图。

在该实施例中，所述端到端语音唤醒装置包括：

接收模块201，用于接收待检测语音；

特征提取模块202，用于依次提取每个语音帧的声学特征；具体可以先对接收模块201接收的语音进行分帧操作，得到各语音帧，然后提取各语音帧的声学特征，所述声学特征可以是MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征、或者PLP(Linear Predictive Coding，线性预测分析)特征、或者Filterbank特征等，这些声学特征的提取可以采用现有技术，在此不再赘述；

声学检测模块203，用于将提取的声学特征输入声学模型，得到所述声学模型输出的每个语音帧中各目标发音单元的概率；

第一计算模块204，用于逐帧计算各目标发音单元的累积概率，并确定各目标发音单元的起始位置和结束位置；

第二计算模块205，用于根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率；

唤醒处理模块206，用于根据各目标发音单元的长度和/或平均概率进行唤醒操作。

在本发明实施例中，所述声学模型为基于唤醒词中各目标发音单元的端到端声学模型，具体可以采用DNN，比如，FFNN、CNN、RNN中的一种或多种的组合形式。所述声学模型的输入为从当前帧中提取的声学特征，输出为当前帧中目标发音单元的概率。

所述声学模型可以预先由相应的模型构建模块利用收集的大量语音数据进行训练得到，具体训练过程与现有技术类似，在此不再详细描述。所述模型构建模块可以集成于该装置中，也可以独立于该装置，对此本发明实施例不做限定。

上述第一计算模块204在计算累积概率时，可以针对每个目标发音单元，将上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值，加上当前帧该目标发音单元的概率，作为当前帧该目标发音单元的累积概率。需要说明的是，为了更准确地计算第一个和最后一个发音单元的起始位置和结束位置，可以人为地在唤醒词前后添加一个“静音”输出，比如，对唤醒词“你好搜狗”，前后增加静音后，唤醒词变为“silence”，“你”，“好”，“搜”，“狗”，“silence”，即每一次唤醒都从静音开始，然后是静音结束。

上述第二计算模块205具体可以将所述目标发音单元的结束位置与起始位置相减得到所述目标发音单元的长度；将对应所述结束位置的累积概率与对应所述起始位置的累积概率相减，然后除以所述目标发音单元的长度，得到所述目标发音单元的平均概率。

在本发明实施例中，在进行唤醒判断时，所述唤醒处理模块206具体可以在设定区间内各目标发音单元的长度均大于设定的长度阈值时进行唤醒操作，或者在设定区间内各目标发音单元的平均概率均大于设定的第一阈值时进行唤醒操作。

如图3所示，是本发明实施例端到端语音唤醒装置的一种结构框图。

与图2所示实施例的区别在于，在该实施例中所述装置还包括：

提取模块301，用于确定在设定区间内各目标发音单元的最大概率；

第三计算模块302，用于根据所述最大概率计算所有目标发音单元的最大概率平均值。

相应地，在该实施例中，所述唤醒处理模块206可以根据各目标发音单元的长度、设定区间内各目标发音单元的最大概率、最大概率平均值、平均概率这四者中的任意两个或多个参数进行唤醒操作。

比如，如果在设定区间内各目标发音单元的平均概率均大于设定的第一阈值，并且所述最大概率平均值大于第二阈值或者各目标发音单元的最大概率均大于第二阈值，唤醒处理模块206进行唤醒操作。

再比如，如果各目标发音单元的长度均大于设定的长度阈值，并且在设定区间内所述最大概率平均值大于第二阈值或者各目标发音单元的最大概率均大于第二阈值，唤醒处理模块206进行唤醒操作。

本发明实施例提供的端到端语音唤醒装置，在进行唤醒判断时，根据设定区间内各目标发音单元的长度和/或平均概率进行判断，进一步地，还可以基于各目标发音单元的长度、设定区间内各目标发音单元的最大概率、最大概率平均值、平均概率这四者中的任意两个或多个参数进行判断，使得判断结果更准确，而且在进行累积概率计算时，考虑到唤醒词中各发音单元之间的先后顺序，利用动态规划方法，对于每个目标发音单元，选取上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值作为上一帧该目标发音单元的累积概率，有效地避免了仅考虑所有目标发音单元最大概率平均值时误判导致的误唤醒情况，而且也避免了由于噪声的影响使非目标发音单元的发音在目标发音单元的发音输出上出现较大的概率时导致的误唤醒情况。

需要说明的是，在本发明实施例的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明实施例的描述中，除非另有说明，“多个”的含义表示两个或两个以上。

图4是根据一示例性实施例示出的一种用于端到端语音唤醒方法的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述各方法实施例中的部分或全部步骤，以降低误唤醒率。。

图5是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种端到端语音唤醒方法，其特征在于，所述方法包括：

接收待检测语音；

依次提取每个语音帧的声学特征；

根据各目标发音单元的长度和/或平均概率进行唤醒操作；

其中，所述逐帧计算各目标发音单元的累积概率包括：

对于每个目标发音单元，将上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值，加上当前帧该目标发音单元的概率，作为当前帧该目标发音单元的累积概率；

所述根据所述累积概率及起始位置和结束位置计算各目标发音单元的长度及平均概率包括：

2.根据权利要求1所述的方法，其特征在于，所述声学模型为基于唤醒词中各目标发音单元的端到端声学模型。

3.根据权利要求2所述的方法，其特征在于，在所述唤醒词的前后各添加一个静音输出。

4.根据权利要求2所述的方法，其特征在于，所述目标发音单元为音节、或字、或词。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据各目标发音单元的长度和/或平均概率进行唤醒操作包括：

6.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

7.一种端到端语音唤醒装置，其特征在于，所述装置包括：

接收模块，用于接收待检测语音；

特征提取模块，用于依次提取每个语音帧的声学特征；

唤醒处理模块，用于根据各目标发音单元的长度和/或平均概率进行唤醒操作；

其中，所述第一计算模块在计算累积概率时，针对每个目标发音单元，将上一帧该目标发音单元的累积概率和当前帧前一目标发音单元的累积概率这两者中的最大值，加上当前帧该目标发音单元的概率，作为当前帧该目标发音单元的累积概率；

所述第二计算模块，具体用于将所述目标发音单元的结束位置与起始位置相减得到所述目标发音单元的长度；将对应所述结束位置的累积概率与对应所述起始位置的累积概率相减，然后除以所述目标发音单元的长度，得到所述目标发音单元的平均概率。

8.根据权利要求7所述的装置，其特征在于，所述声学模型为基于唤醒词中各目标发音单元的端到端声学模型。

9.根据权利要求7至8任一项所述的装置，其特征在于，

所述唤醒处理模块，具体用于在设定区间内各目标发音单元的长度均大于设定的长度阈值时进行唤醒操作，或者在设定区间内各目标发音单元的平均概率均大于设定的第一阈值时进行唤醒操作。

10.根据权利要求7至8任一项所述的装置，其特征在于，所述装置还包括：

第三计算模块，用于根据所述最大概率计算所有目标发音单元的最大概率平均值；

11.一种计算机设备，其特征在于，包括：一个或多个处理器、存储器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现如权利要求1至6任一项所述的方法。

12.一种可读存储介质，其上存储有指令，所述指令被执行以实现如权利要求1至6任一项所述的方法。