CN102510426A

CN102510426A - 个人助理应用访问方法及系统

Info

Publication number: CN102510426A
Application number: CN2011103877026A
Authority: CN
Inventors: 何婷婷; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2011-11-29
Filing date: 2011-11-29
Publication date: 2012-06-20

Abstract

本发明涉及应用访问技术领域，公开了一种个人助理应用访问方法及系统，该方法包括：接收用户输入的语音信号；识别所述语音信号中的命令内容及参数；根据所述命令内容确定需要访问的应用，并根据所述参数对所述应用进行操作。利用本发明，可以提高人机交互效率。

Description

个人助理应用访问方法及系统

技术领域

本发明涉及应用访问技术领域，特别涉及一种个人助理应用访问方法及系统。

背景技术

计算机技术的普及发展促成了智能手机时代的到来，智能手机除具备传统手机的通话功能外，还实现了计算机的多数功能，如个人信息管理、网络交互(如电子邮件、即时通讯)以及其他各类增值服务(如股票交易、新闻检索、电子购物)等。融合3C(Computer、Communication、Consumer)的智能手机成为人们日常生活中不可或缺的助手，担当着越来越重要的职责。传统多级菜单设置下通过逐级选定实现交互的模式已经不适应功能日益复杂的智能手机应用，用户迫切需要一种更自然的交互模式，以便高效快捷地实现应用程序的准确定位。

发明内容

本发明实施例针对上述现有技术存在的问题，提供一种个人助理应用访问方法及系统，以提高人机交互效率。

本发明实施例提供如下技术方案：

一种个人助理应用访问方法，包括：

接收用户输入的语音信号；

识别所述语音信号中的命令内容及参数；

根据所述命令内容确定需要访问的应用，并根据所述参数对所述应用进行操作。

优选地，所述方法还包括：

在根据所述参数对所述应用进行操作之前，根据所述语音信号对所述用户进行身份认证，以确定所述用户是否为合法用户；

向所述应用的应用服务提供第三方发送身份认证结果，或者如果所述用户为合法用户，则根据所述参数对所述应用进行操作。

优选地，所述方法还包括：

在根据所述语音信号对所述用户进行身份认证之前，检查所述应用是否为需要通过身份认证保护的应用；

如果是，则执行所述根据所述语音信号对所述用户进行身份认证的步骤。

优选地，所述方法还包括：

如果所述应用为需要通过身份认证保护的应用，则对所述应用的直接调用方式进行修正。

优选地，所述方法还包括：

如果所述应用为需要通过身份认证保护的应用，则在对用户进行身份认证之前，检查所述应用的保护级别，并获取与所述保护级别对应的认证阈值；

所述对所述用户进行身份认证包括：根据所述认证阈值对所述用户进行身份认证。

优选地，所述对用户进行身份认证，以确定所述用户是否为合法用户包括：

从所述语音信号中对应所述命令内容的语音段提取声纹特征序列；

将所述声纹特征序列与背景模型进行匹配，得到第一相似度；

将所述声纹特征序列与注册用户的声纹模型进行匹配，得到第二相似度；

根据得到的第一相似度和第二相似度计算似然比；

如果所述似然比大于所述认证阈值，则确定所述用户是合法用户。

优选地，所述方法还包括：

如果所述用户是合法用户，则根据所述声纹特征序列对所述声纹模型进行更新。

可选地，所述注册用户的声纹模型为：与所述命令内容相关的用户声纹模型；或者文本无关的用户声纹模型。

优选地，所述识别所述语音信号中的命令内容及参数包括：

从所述语音信号中提取声学特征序列；

对所述声学特征序列进行连续语音解码，得到最优字串序列；

对所述最优字串序列进行文本语义分析，得到命令内容及参数。

一种个人助理应用访问系统，包括：

接收单元，用于接收用户输入的语音信号；

语音识别单元，用于识别所述语音信号中的命令内容及参数；

应用确定单元，用于根据所述命令内容确定需要访问的应用；

命令执行单元，用于根据所述参数对所述应用进行操作。

优选地，所述系统还包括：

认证单元，用于在所述命令执行单元根据所述参数对所述应用进行操作之前，根据所述接收单元接收的语音信号对所述用户进行身份认证，以确定所述用户是否为合法用户；

认证结果发送单元，用于向所述应用的应用服务提供第三方发送身份认证结果；或者

所述命令执行单元具体用于在所述认证单元确定所述用户为合法用户后，根据所述参数对所述应用进行操作。

优选地，所述系统还包括：

检查单元，用于在所述认证单元根据所述语音信号对所述用户进行身份认证之前，检查所述应用是否为需要通过身份认证保护的应用，如果是，则通知所述认证单元执行所述根据所述语音信号对所述用户进行身份认证的操作。

优选地，所述系统还包括：

修正单元，用于在所述检查单元检查到所述应用为需要通过身份认证保护的应用时，对所述应用的直接调用方式进行修正。

优选地，所述检查单元，还用于在所述应用为需要通过身份认证保护的应用时，在所述认证单元对用户进行身份认证之前，检查所述应用的保护级别，并获取与所述保护级别对应的认证阈值；

相应地，所述认证单元具体用于根据所述检查单元获取的认证阈值对所述用户进行身份认证。

优选地，所述认证单元包括：

声纹特征提取子单元，用于从所述语音信号中对应所述命令内容的语音段提取声纹特征序列；

第一匹配子单元，用于将所述声纹特征序列与背景模型进行匹配，得到第一相似度；

第二匹配子单元，用于将所述声纹特征序列与注册用户的声纹模型进行匹配，得到第二相似度；

计算子单元，用于根据得到的第一相似度和第二相似度计算似然比；

确定子单元，用于在所述似然比大于所述认证阈值时，确定所述用户是合法用户。

优选地，所述系统还包括：

模型更新单元，用于在所述确定子单元确定所述用户是合法用户后，根据所述声纹特征提取子单元提取的声纹特征序列对所述声纹模型进行更新。

优选地，所述语音识别单元包括：

声学特征提取子单元，用于从所述语音信号中提取声学特征序列；

语音解码子单元，用于对所述声学特征序列进行连续语音解码，得到最优字串序列；

语义分析子单元，用于对所述最优字串序列进行文本语义分析，得到命令内容及参数。

本发明实施例个人助理应用访问方法及系统，通过语音识别等技术识别用户输入的语音信号中的命令内容及参数，根据所述命令内容确定需要访问的应用，并根据所述参数对所述应用进行操作，也就是说，将用户自然的语音信号转化为可执行的应用程序指令，实现复杂应用程序的高效快捷的命令定向，提高人机交互效率，从而更好地实现智能设备的私人虚拟助理职能。

进一步地，通过声纹认证等技术在后台验证用户身份的有效性，还可实现对个人助理上应用的有效保护。

进一步地，还可以根据用户的实际需要，通过弹性身份认证方式，实现对不同应用的不同级别保护。

附图说明

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例个人助理应用访问方法的流程图；

图2是本发明实施例个人助理应用访问方法的另一流程图；

图3是本发明实施例中对用户进行身份认证的流程图；

图4是本发明实施例个人助理应用访问方法的另一流程图；

图5是本发明实施例个人助理应用访问系统的一种结构示意图；

图6是本发明实施例个人助理应用访问系统的另一种结构示意图；

图7是本发明实施例个人助理应用访问系统的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于随着智能手机的普及和移动通讯技术的发展，移动设备的功能日益增强，更多地承担起私人助理的角色，用户在其上可实现众多个性化操作。而语音交互作为最自然的交互方式之一，可以在智能手机上可以发挥重要的作用。为此，本发明实施例个人助理应用访问方法及系统，通过语音识别等技术将用户自然的语音命令转化为可执行的应用程序指令，实现复杂应用程序的高效快捷的命令定向，从而更好地实现智能设备的私人虚拟助理职能。

如图1所示，是本发明实施例个人助理应用访问方法的流程图，包括以下步骤：

步骤101，接收用户输入的语音信号。

本发明实施例个人助理应用访问方法，支持用户以随意说的方式指示应用操作，也就是说，用户输入的语音信号可以是“打电话给XXX|”，“给XXX发邮件”，“去淘宝”等自然说的口令。该语音命令是连续的语音信号。在本发明实施例中，可以将用户输入的语音信号采样为一系列离散能量值存入数据缓存区。

步骤102，识别所述语音信号中的命令内容及参数。

从步骤101采集的语音能量值中提取出具有高表征力的声学特征，具体地，可以选用语音识别领域常用特征，比如MFCC(Mel Frequency CepstrumCoefficient，Mel频率倒谱系数)特征，按照时序顺序依次对窗长25ms帧移10ms的短帧语音做频谱变换得到M(比如M＝39)维MFCC参数，将原始的易受噪音干扰的语音能量信号转换为具有更高鲁棒性的特征。

经过声学特征提取，连续语音能量信号可以表征为一系列的特征矢量O＝(O₁，O₂，...，O_T)，其中T为语音总帧数，这些特征矢量组成了一个声学特征序列。

当然，为了进一步提高系统的鲁棒性，在上述过程中，还可以先对接收的用户输入的语音信号做前端降噪处理，以减少信道噪声及背景噪声的干扰，提高语音信噪比，进而提高后续系统对该信号的处理能力。

在提取出声学特征序列后，通过连续语音解码确定最优字串序列。具体地可采用传统经典算法实现，比如Token Passing算法等。

然后，对上述最优字串序列进行文本语义分析，得到命令内容及相应参数。

在本发明实施例中，可以采用基于文法规则匹配的算法从输入的连续语句中分别提取命令内容及对应参数。具体可以包括以下步骤：

1.系统预置应用程序调用规则，该规则由系统预先从海量文本数据中归纳总结得到。如“短消息”发送指令规则中包括确定的指令内容及可替换的命令参数等，比如：

a).[发送|发|发给][个|一个][$message][给]{$host：联系人}；

b).[给]{$host：联系人}[发送|发|发给][个|一个][$message]；

c).[告诉|通知|知会]{$host：联系人}。

在实际应用中，可以将所有规则统一放入一个规则库中。

2.对给定的连续输入的语句命令，对其遍历规则库中的规则进行匹配，获取匹配度最高的规则作为优选结果。

3.根据选定的规则形式，确定命令内容并从连续语句相应位置提取命令参数。

需要说明的是，本发明实施例并不仅限于上述语音识别过程来识别所述语音信号的命令内容及参数，还可以采用其它语音识别的方式，对此不再一一举例。

步骤103，根据所述命令内容确定需要访问的应用，并根据所述参数对所述应用进行操作。

本发明实施例个人助理应用访问方法，支持用户以随意说的方式指示应用操作。

比如，用户输入的语音信号为“打电话给张三”，通过上述步骤102，可以识别该语音信号的命令内容为“打电话”，相应的参数为“张三”；则根据该命令内容启动个人助理上的通话应用，如果通讯录中有“张三”的号码，还可以自动拨打该号码；如果没有相应的号码，则可以只进入拨号的应用，并向用户展现相应的界面。

再比如，用户输入的语音信号为“去淘宝”，通过上述步骤102，可以识别该语音信号的命令内容为“去”，相应的参数为“淘宝”；则在个人设备上搜索“淘宝”客户端并通过客户端登陆访问。

再比如，用户输入的语音信号为“查询合肥天气”，通过上述步骤102，可以识别该语音信号的命令内容为“查询”，相应的参数为“合肥天气”，则根据该命令内容启动个人助理上的无线上网功能，并在调用的浏览器内填入参数执行搜索功能。

另外，还可以允许用户自定义设置应用程序语音命令调用的关键字词等。

可见，本发明实施例个人助理应用访问方法，通过语音识别等技术识别用户输入的语音信号中的命令内容及参数，根据所述命令内容确定需要访问的应用，并根据所述参数对所述应用进行操作，从而实现复杂应用程序的高效快捷的命令定向，更好地实现智能设备的私人虚拟助理职能。

需要说明的是，上述个人助理可以是智能手机或其它类似设备。

由于功能强大的个人助理应用大大便利了用户的日常生活，促使人们越来越习惯于在个人助理上处理各种可能涉及用户个人信息的应用操作，如电子购物，股票交易等，因此相应的用户数据安全在信息发展的当今显得更为重要。为此，本发明实施例个人助理应用访问方法，还可进一步通过声纹认证等技术在后台验证用户身份的有效性，实现对个人助理上应用的有效保护，进而保证用户信息的安全性。

如图2所示，是本发明实施例个人助理应用访问方法的另一流程图，包括以下步骤：

步骤201，接收用户输入的语音信号。

步骤202，识别所述语音信号中的命令内容及参数。

步骤203，根据所述命令内容确定需要访问的应用。

步骤204，根据所述语音信号对所述用户进行身份认证，以确定所述用户是否为合法用户。

步骤205，根据身份认证结果执行相应语音命令。

具体地，可以向应用服务提供第三方提供身份认证结果，比如与应用服务提供第三方签有相应协议，将身份认证结果发送给应用服务提供第三方，应用服务提供第三方就无需再对该用户进行身份认证。或者，对本地端应用，在确认所述用户为合法用户后，根据所述参数对所述应用进行操作。

需要说明的是，上述步骤204中对所述用户进行身份认证的过程可以在系统后台进行，而且，上述步骤204也可以在步骤203之前进行。

另外，如果身份认证结果是所述用户不是合法用户，则可以向用户返回并显示用户身份不合法的提示信息，或者对用户指令提供受限的访问权限。

在本发明实施例中，可以采用传统的声纹识别技术，对用户进行身份认证。比如，可以采用GMM-UBM(Gaussian Mixture Model-UniversalBackground Model，基于高斯混合模型以及通用背景模型)算法，通过分别计算用户输入的语音信号中的命令内容所对应的语音段的声纹特征序列和用户声纹模型的匹配得分、以及该声纹行征序列和背景模型的匹配得分的比值，确定该比值与设定的认证阈值的大小关系，确定所述用户是否为合法用户。

另外，需要说明的是，为了方便用户的使用，有选择性地保护某些应用的安全性，可以允许用户通过自定义方式设置需要通过身份认证保护的应用。

相应地，在上述步骤203和步骤204之间，还需要检查所述应用是否为需要通过身份认证保护的应用。如果是，再执行步骤204；否则，可以直接根据所述参数对所述应用进行操作。

另外，为了方便用户的使用，个人设备上的应用可能不仅会提供语音调用方式，而且还提供非语音调用方式，比如，通过键盘输入命令调用相应应用。针对这种情况，为了防止非法用户避开语音方式调用受保护的应用，在本发明实施例中，还可进一步对设置了需要通过身份认证保护的应用的直接调用方式进行修正，比如在对该应用非语音调用时要求进行密码验证，或者提供受限功能等，从而可以确保对该应用程序的有效保护。

下面详细说明本发明实施例中对用户进行身份认证的过程。

如图3所示，是本发明实施例中对用户进行身份认证的流程图，包括以下步骤：

步骤301，从所述语音信号中对应所述命令内容的语音段提取声纹特征序列。

考虑到用户输入的语音信号中不仅包含有语音命令，还包含有随机变化的命令参数及用于连接的辅助词等信息，因此，可以首先从该语音信号中提取出相对固定的语音命令信息，比如前面所述的命令内容，并据此通过文本相关的声纹认证技术提高用户身份认证的准确度。

为此，在本发明实施例中，可以采用语音信号处理领域传统的关键词提取方法，如基于Filler模型的非关键词信号吸收或者关键词匹配等技术处理，从所述语音信号中提取出所述命令内容。然后，确定用户输入的语音信号中与该命令内容对应的语音段，从该语音段中提取声纹特征序列。

另外，还可以基于前面语音识别的结果，得到所述命令内容。然后，确定用户输入的语音信号中与该命令内容对应的语音段，从该语音段中提取声纹特征序列。

上述声纹特征序列包含一组声纹特征。该声纹特征主要有：谱包络参数语音特征，基音轮廓、共振峰频率带宽特征，线性预测系数，倒谱系数等。考虑到上述声纹特征的可量化性、训练样本的数量和系统性能的评价等问题，可以选用MFCC特征，对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分，共计39维。这样，每句语音信号可以量化为一个39维声纹特征矢量序列X。

步骤302，将所述声纹特征序列与背景模型进行匹配，得到第一相似度。

所述背景模型用于描述说话人声纹的共性，可以采用基于多说话人数据训练具有1024甚至更多高斯数的复杂混合高斯模型，以更好地兼容各说话人的特异性。

具体地，帧数为T的声纹特征矢量序列X相应于背景模型(UBM)的似然度为：

p (X | UBM) = \frac{1}{T} Σ_{t = 1}^{T} Σ_{m = 1}^{M} c_{m} N (X_{t}; μ_{m}, Σ_{m}) - - - (1)

其中，c_m是第m个高斯的加权系数，满足

μ_m以及∑_m分别是第m个高斯的均值和方差。其中N(.)满足正态分布，用于计算t时刻的声纹特征矢量X_t在单高斯分量上的似然度：

N (X_{t}; μ_{m}, Σ_{m}) = \frac{1}{\sqrt{{(2 π)}^{n} | Σ_{m} |}} e^{- \frac{1}{2} {(X_{t} - μ_{m})}^{'} {Σ_{m}}^{- 1} (X_{t} - μ_{m})} - - - (2)

步骤303，将所述声纹特征序列与注册用户的声纹模型进行匹配，得到第二相似度。

所述注册用户声纹模型可以直接选择文本无关的模型，还可以细化选择语音命令内容相关的模型。

在该步骤中，可以首先根据上述命令内容获取注册用户相应的声纹模型，如果系统预置了该声纹模型则根据上述公式(2)的方式计算所述声纹特征序列与注册用户的文本相关声纹模型的似然度p(X|U)。否则选择计算所述声纹特征序列与注册用户的文本无关通用声纹模型的似然度p(X|U)

该说话人声纹模型可以是根据用户注册时录入的语音在线训练得到的混合高斯模型。

考虑到注册用语音样本往往有限，因此可以以上述背景模型为初始模型，通过各种自适应方法根据说话人的少量语音样本调整模型部分参数，比如基于MAP(Maximum A Posterior，最大后验概率)的自适应算法等，将用户声纹共性自适应为当前说话人个性，具体过程如下：

(1)从用户录入的注册语音信号中提取声纹特征。

(2)利用所述声纹特征自适应更新背景模型混合高斯的均值μ_m。

具体地，新高斯均值

计算为样本统计量和原始高斯均值的加权平均，即：

\hat{μ_{m}} = \frac{Σ_{t = 1}^{T} γ_{m} (x_{t}) x_{t} + {τμ}_{m}}{Σ_{t = 1}^{T} γ_{m} (x_{t}) + τ} - - - (3)

其中，x_t表示第t帧声纹特征，γ_m(x_t)表示第t帧声纹特征落于第m个高斯的概率，τ是遗忘因子，用于平衡历史均值以及语音样本对新高斯均值

的更新力度。一般来说，τ值越大，则新高斯均值

主要受原始均值制约；若τ值较小，则新高斯均值

主要由样本统计量决定，更多的体现了新样本分布的特点。

(3)复制背景模型方差作为所述注册用户的声纹模型方差。

(4)生成所述注册用户的声纹模型。

上述模型训练中可以采用系统预置的背景模型作为初始模型。

步骤304，根据得到的第一相似度和第二相似度计算似然比。

似然比为：

p = \frac{p (X | U)}{p (X | UBM)} - - - (3)

其中，p(X|U)为所述声纹特征与注册用户的声纹模型的似然度，p(X|UBM)为所述声纹特征与背景模型的似然度。

步骤305，如果所述似然比大于设定的认证阈值，则确定所述用户是合法用户。

上述认证阈值可以是系统针对所有应用预设的一个值，当然也可以由用户来设定，对不同的应用，该认证阈值可以相同，也可以不同，以便对不同的应用起到不同的保护等级，具体将在后面详细描述。

当然，本发明实施例个人助理应用访问方法中，还可以采用其它方式对用户进行身份认证，对此本发明实施例不做限定。

可见，本发明实施例个人助理应用访问方法，不仅可以实现复杂应用程序的高效快捷的命令定向，而且，还可以通过声纹认证等技术在后台验证用户身份的有效性，实现对个人助理上应用的有效保护，进而保证用户信息的安全性。

在实际应用中，不同应用的安全性要求可能是不同的，因此，为了更好地满足用户对不同应用的不同级别保护，还可以采用弹性身份认证方式，根据用户主动设置的应用保护级别采用不同的身份认证标准。比如：

1.对一些通用程序或者没有设置保护级别的应用程序，不进行身份认证即直接响应，以提高系统处理效率。

2.对某些涉及到用户信息但保密性要求不高的应用，即设置为一般保护的应用程序采用较为宽松的身份认证准则，以保证有效用户以较高的通过率确认。

3.对某些涉及到用户信息高度机密的应用，即设置为重要保护的应用程序采用严格的身份认证，以确保可以拒绝绝大多数仿冒者的非法请求。

当然，本发明实施例个人助理应用访问方法并不仅限于上述弹性身份认证方式，具体可根据实际需要来设置，比如，只设两种保护级别，即需要认证和不需要认证，相应地，对用户访问相应的应用时，则同样对应两种情况：即需要认证和不需要认证。当然，对需要保护的不同应用，也可以设定多个不同的保护级别。

由前面图3所示对用户进行身份认证的流程可以看出，身份认证的松紧度主要取决于设定的认证阈值的大小。为此，可以针对不同的保护级别，设定不同的认证阈值。一般来说，保护级别越高，对应的认证阈值越大，要求用户在访问相应的应用时尽可能按照注册时录入的语音信号(即密码)的发音输入语音信号，以确保拒绝大多数仿冒者的非法请求；而对于某些涉及到用户信息但保密要求不高的应用，可以设置较低的保护级别，对应于较小的认证阈值，允许用户在访问相应的应用时输入的语音信号的发音与注册时录入的语音信号的发音存在一定的变化，以保证有效用户较高的认证通过率。

如图4所示，是本发明实施例个人助理应用访问方法的另一流程图，包括以下步骤：

步骤401，接收用户输入的语音信号。

步骤402，识别所述语音信号中的命令内容及参数。

步骤403，根据所述命令内容确定需要访问的应用。

步骤404，检查所述应用的保护级别，并获取与所述保护级别对应的认证阈值。

所述应用的保护级别可以由用户自己设定，由系统根据保护级别要求自动设置对应参数。另外还可以由用户主动设置系统参数以满足个性化需求。为了方便用户的使用，实现对应用程序有效保护的用户个性化定制，可以设置一应用程序保护库，用于记录需要保护的应用程序及保护级别。在该应用程序保护库中，可以建立应用程序与命令内容之间的对应关系，提供应用程序的保护级别，建立各种命令内容相关的用户声纹模型等。

上述应用程序保护库的访问可以仅对有权限的用户开放，提供添加、删除、更改等操作。比如，在该应用程序保护库中用户可自由添加各类应用程序，并自定义其对应的命令内容，如“电话”，“短信”，“邮件”，“股票”等等。为了提供交互的便利性，还可以允许同一应用程序对应多个命令内容，比“短消息”和“短信”可以对应同一应用程序。另外，还可以根据大众使用习惯，提供默认参数值供用户选择。

步骤405，根据所述认证阈值对所述用户进行身份认证，以确定所述用户是否为合法用户。

具体身份认证过程可参照前面图3所示流程，在此不再赘述。

步骤406，根据身份认证结果执行相应语音命令。

具体地，可以向应用服务提供第三方提供身份认证结果或者对本地端应用在所述用户为合法用户时根据所述参数对所述应用进行操作。

可见，本发明实施例个人助理应用访问方法，不仅可以实现复杂应用程序的高效快捷的命令定向，而且，还可以根据用户的实际需要，通过弹性身份认证方式，实现对不同应用的不同级别保护，进而保证用户信息的安全性。

由前面图3所示对用户进行身份认证的流程可以看出，身份认证的效果主要取决于背景模型和注册用户的声纹模型的精确度。因此，在本发明个人助理应用访问方法的其它实施例中，还可以包括以下步骤：如果所述用户是合法用户，则根据对用户进行身份认证时，从所述语音信号中对应所述命令内容的语音段提取声纹特征序列对所述用户的声纹模型进行更新。

上述声纹模型更新的过程可以在对所述应用进行操作完成后进行，也可以通过后台同步进行。

同样地，对注册用户声纹模型的更新可以采用自适应方法调整模型部分参数，如基于MAP(Maximum A Posterior，最大后验概率)的自适应算法等。若系统不存在文本相关的注册用户声纹模型，则设置文本无关的用户声纹模型为初始化模型，否则设置原文本相关用户声纹模型为初始化模型，并利用采集到的语音数据更新模型参数，具体过程如下：

(1)从用户录入的注册语音信号中提取声纹特征。

具体地，新高斯均值计算为样本统计量和原始高斯均值的加权平均，即：

\hat{μ_{m}} = \frac{Σ_{t = 1}^{T} γ_{m} (x_{t}) x_{t} + {τμ}_{m}}{Σ_{t = 1}^{T} γ_{m} (x_{t}) + τ} - - - (3)

其中，x_t表示第t帧声纹特征，γ_m(x_t)表示第t帧声纹特征落于第m个高斯的概率，τ是遗忘因子，用于平衡历史均值以及语音样本对新高斯均值的更新力度。一般来说，τ值越大，则新高斯均值

主要受原始均值制约；若τ值较小，则新高斯均值

主要由样本统计量决定，更多的体现了新样本分布的特点。

(3)保持原注册用户的声纹模型方差不变。

相应地，本发明实施例还提供一种个人助理应用访问系统，如图5所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：接收单元501，语音识别单元502，应用确定单元503和命令执行单元504。其中：

接收单元501，用于接收用户输入的语音信号；

语音识别单元502，用于识别所述语音信号中的命令内容及参数；

应用确定单元503，用于根据所述命令内容确定需要访问的应用；

命令执行单元504，用于根据所述参数对所述应用进行操作

在该实施例中，所述用户输入的语音信号可以是“打电话给XXX”，“给XXX发邮件”，“去淘宝”等自然说的口令。

在本发明实施例中，语音接收单元501将用户输入的语音信号采样为一系列离散能量值存入数据缓存区。然后语音识别单元502从这些能量值中提取出具有高表征力的声学特征，经过声学特征提取，连续语音能量信号可以表征为一系列的特征矢量O＝(O₁，O₂，...，O_T)，其中T为语音总帧数，这些特征矢量组成了一个声学特征序列。当然，为了进一步提高系统的鲁棒性，在上述过程中，还可以先对接收的用户输入的语音信号做前端降噪处理，以减少信道噪声及背景噪声的干扰，提高语音信噪比，进而提高后续系统对该信号的处理能力。

语音识别单元502在提取出上述声学特征序列后，通过连续语音解码确定最优字串序列。然后，对所述最优字串序列进行文本语义分析，即可得到命令内容及相应参数。

所述语音识别单元502的一种具体结构可以包括以下各子单元：

需要说明的是，语音识别单元502并不仅限于上述语音识别过程及结构来识别所述语音信号的命令内容及参数，还可以采用其它语音识别的方式，对此不再一一举例。

在具体应用中，可以在所述系统中预先建立命令内容与应用的对应关系，一个应用可以对应多个命令内容，比如，“登录”、“上”“去”等命令内容可以对应同一个登录网站的应用或客户端，而具体登录哪个网站或调用哪个客户端则由识别出的参数来决定，比如“淘宝”、“百度”等。这样，应用确定单元503可以根据上述对应关系查找到所述命令内容对应的应用。然后，命令执行单元504根据语音识别单元502识别出的参数对所述应用进行操作。

本发明实施例个人助理应用访问系统，通过语音识别等技术识别用户输入的语音信号中的命令内容及参数，根据所述命令内容确定需要访问的应用，并根据所述参数对所述应用进行操作，从而实现复杂应用程序的高效快捷的命令定向，更好地实现智能设备的私人虚拟助理职能。

需要说明的是，该系统可以通过硬件及辅助软件的方式实现，可以应用于智能手机或其它类似个人助理设备中。

如图6所示，是本发明实施例个人助理应用访问系统的另一种结构示意图。

与图5所示实施例不同的是，在该实施例中，所述系统还进一步包括：认证单元601，用于在所述命令执行单元504根据所述参数对所述应用进行操作之前，根据接收单元501接收的语音信号对所述用户进行身份认证，以确定所述用户是否为合法用户。

相应地，在该实施例中，命令执行单元504需要在认证单元601确定所述用户为合法用户后，根据所述参数对所述应用进行操作，包括向应用程序服务提供第三方发送身份认证结果，或者是调用执行本地应用程序等。

在本发明系统另一实施例中，所述系统还可进一步包括：认证结果发送单元(未图示)，用于向所述应用的应用服务提供第三方发送身份认证结果。

上述认证单元601对所述用户进行身份认证的过程可以在系统后台进行。具体地，上述认证单元601可以采用传统的文本相关声纹识别技术，对用户进行身份认证。比如，可以采用GMM-UBM算法，通过分别计算用户输入的语音信号中的命令内容所对应的语音段的声纹特征序列和用户声纹模型的匹配得分、以及该声纹行征序列和背景模型的匹配得分的比值，确定该比值与设定的认证阈值的大小关系，确定所述用户是否为合法用户。

在认证单元601的一种具体实施例中，该认证单元601可以包括以下各子单元：

需要说明的是，所述注册用户的声纹模型可以是与所述命令内容相关的用户声纹模型；或者文本无关的用户声纹模型。

上述认证单元601对用户进行身份认证的详细过程可参照前面实施例中的描述，在此不再赘述。

当然，认证单元601还可以采用其它方式对用户进行身份认证，对此本发明实施例不做限定。

可见，本发明实施例个人助理应用访问系统，不仅可以实现复杂应用程序的高效快捷的命令定向，而且，还可以通过声纹认证等技术在后台验证用户身份的有效性，实现对个人助理上应用的有效保护，进而保证用户信息的安全性。

在实际应用中，不同应用的安全性要求可能是不同的，因此，为了更好地满足用户对不同应用的不同级别保护，还可以采用弹性身份认证方式，根据用户主动设置的应用保护级别采用不同的身份认证标准。

如图7所示，是本发明实施例个人助理应用访问系统的另一种结构示意图。

与图6所示实施例不同的是，在该实施例中，所述系统还进一步包括：检查单元701，用于在所述认证单元601根据所述语音信号对所述用户进行身份认证之前，检查所述应用是否为需要通过身份认证保护的应用，如果是，则通知所述认证单元601执行所述根据所述语音信号对所述用户进行身份认证的操作。

为此，在本发明系统的另一实施例中，图7所示的检查单元701还可用于在所述应用为需要通过身份认证保护的应用时，继续检查所述应用的保护级别，并获取与所述保护级别对应的认证阈值。

相应地，在该实施例中，认证单元601需要根据检查单元701获取的认证阈值对所述用户进行身份认证。具体认证过程可参照前面图3所示流程，在此不再详细描述。

可见，本发明实施例个人助理应用访问系统，不仅可以实现复杂应用程序的高效快捷的命令定向，而且，还可以根据用户的实际需要，通过弹性身份认证方式，实现对不同应用的不同级别保护，进而保证用户信息的安全性。

由于用户身份认证的效果主要取决于背景模型和注册用户的声纹模型的精确度。因此，在上述本发明个人助理应用访问系统图6、图7所示实施例中，还可进一步包括：模型更新单元(未图示)，用于在认证单元601确定所述用户是合法用户(比如，可以由认证单元601中的确定子单元确定所述用户是合法用户)后，根据从所述语音接收单元501接收的语音信号中提取的声纹特征序列(比如，由认证单元601中的声纹特征提取子单元提取的声纹特征序列)对所述声纹模型进行更新。

需要说明的是，在实际应用中，上述模型更新单元可以作为独立的模块，从语音接收单元501接收的语音信号中提取的声纹特征序列，并根据该声纹特征序列对所述用户进行身份认证；上述模型更新单元也可以与所述认证单元601集成在一个模块上，具体如何实现本发明实施例不做限定。

另外，为了方便用户的使用，个人设备上的应用可能不仅会提供语音调用方式，而且还提供非语音调用方式，比如，通过键盘输入命令调用相应应用。针对这种情况，为了防止非法用户避开语音方式调用受保护的应用，在本发明系统另一实施例中，还可进一步包括：修正单元(未图示)，用于在所述检查单元701检查到所述应用为需要通过身份认证保护的应用时，对所述应用的直接调用方式进行修正，比如在对该应用非语音调用时要求进行密码验证，或者提供受限功能等，从而可以确保对该应用程序的有效保护。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

Claims

1.一种个人助理应用访问方法，其特征在于，包括：

接收用户输入的语音信号；

识别所述语音信号中的命令内容及参数；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求3所述的方法，其特征在于，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，所述对用户进行身份认证，以确定所述用户是否为合法用户包括：

根据得到的第一相似度和第二相似度计算似然比；

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

8.如权利要求6所述的方法，其特征在于，所述注册用户的声纹模型为：与所述命令内容相关的用户声纹模型；或者文本无关的用户声纹模型。

9.如权利要求1至8任一项所述的方法，其特征在于，所述识别所述语音信号中的命令内容及参数包括：

从所述语音信号中提取声学特征序列；

10.一种个人助理应用访问系统，其特征在于，包括：

接收单元，用于接收用户输入的语音信号；

命令执行单元，用于根据所述参数对所述应用进行操作。

11.如权利要求10所述的系统，其特征在于，所述系统还包括：

12.如权利要求11所述的系统，其特征在于，所述系统还包括：

13.如权利要求12所述的系统，其特征在于，所述系统还包括：

14.如权利要求12所述的系统，其特征在于，

所述检查单元，还用于在所述应用为需要通过身份认证保护的应用时，在所述认证单元对用户进行身份认证之前，检查所述应用的保护级别，并获取与所述保护级别对应的认证阈值；

所述认证单元具体用于根据所述检查单元获取的认证阈值对所述用户进行身份认证。

15.如权利要求14所述的系统，其特征在于，所述认证单元包括：

16.如权利要求15所述的系统，其特征在于，所述系统还包括：

17.如权利要求10至16任一项所述的系统，其特征在于，所述语音识别单元包括：