CN110149618B

CN110149618B - 基于声纹授权的智能设备接入方法、装置、设备及介质

Info

Publication number: CN110149618B
Application number: CN201910383714.8A
Authority: CN
Inventors: 陈慧明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2020-07-28
Anticipated expiration: 2039-05-09
Also published as: CN110149618A

Abstract

本发明公开了基于声纹授权的智能设备接入方法、装置、设备及介质，所述方法包括响应于第一预设指令，进入第一状态，所述第一状态用于接收由第一智能设备生成并发送的连接请求并等待语音识别信息输入，每个所述连接请求包括所述第一智能设备的连接信息；接收语音识别信息；根据所述语音识别信息进行授权判断；若所述授权判断的结果为授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。本发明通过引入声纹校验的方案用作设备间授权，提升智能设备在家庭间组网的便利性，可以显著提升用户粘度。

Description

基于声纹授权的智能设备接入方法、装置、设备及介质

技术领域

本发明涉及智能设备连接通信领域，尤其涉及基于声纹授权的智能设备接入方法、装置、设备及介质。

背景技术

现有的智能设备，比如常用于家庭的智能电视、智能盒子及其它智能家居通常需要依赖于遥控器进行控制，而遥控器虽然可以发布指令，但是操作仍有不便。而随着通信技术的发展，各种智能设备相互间的通信需求增强，为了保证通信安全，往往需要对需要进行通信连接的双方设备进行校验，即设备间校验。通常用于两个设备之间发生通讯的第一步，比如手机要连上Wi-Fi，家里电视要连上Wi-Fi。

现有技术的主流校验方案为密码校验，即通过输入密码、输入认证码等方式进行校验。若密码复杂度高并且使用遥控器输入密码过程繁琐，容易出错；若密码过于简单，则容易被破解，安全性降低。目前还没有较为合适的方案能够在保证安全性的基础上实现智能设备的轻松接入。

发明内容

为了解决现有技术中智能设备通信连接需要输入密码，导致接入流程繁琐的问题，本发明提供了基于声纹授权的智能设备接入方法、装置、设备及介质。

一方面，本发明提供了一种基于声纹授权的智能设备接入方法，所述方法包括：

响应于第一预设指令，进入第一状态，所述第一状态用于接收由第一智能设备生成并发送的连接请求并等待语音识别信息输入，每个所述连接请求包括所述第一智能设备的连接信息；

接收语音识别信息；

根据所述语音识别信息进行授权判断；

若所述授权判断的结果为授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。

另一方面，本发明提供了一种基于声纹授权的智能设备接入装置，所述装置包括：

连接请求接收模块，用于响应于第一预设指令，进入第一状态，所述第一状态用于接收由第一智能设备生成并发送的连接请求并等待语音识别信息输入，每个所述连接请求包括所述第一智能设备的连接信息；

语音识别信息接收模块，用于接收语音识别信息；

授权判断模块，根据所述语音识别信息进行授权判断；

授权模块，用于用于若所述授权判断的结果为授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。

另一方面，本发明提供了一种设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现一种基于声纹授权的智能设备接入方法。

另一方面，本发明提供了一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行一种基于声纹授权的智能设备接入方法。

本发明提供了一种基于声纹授权的智能设备接入方法、装置、设备及介质。本发明中通过引入声纹校验的方案用作设备间授权，大大提升智能设备在家庭间组网的便利性。随着智能家居的普及，设备间授权需要依赖遥控器手动输入密码这种繁琐的技术方案，必然会给普通民众选择使用智能家居带来难度，引入声纹校验代替用户手动输入，可以显著提升用户粘度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明提供的一种实施环境的示意图；

图2是本发明提供的一种基于声纹授权的智能设备接入方法流程图；

图3是本发明提供的家庭环境中各个设备基于声纹接入路由器的示意图；

图4是本发明提供的授权判断方法流程图；

图5是本发明提供的多个第一智能终端试图接入第二智能终端的场景示意图；

图6是本发明提供的一种基于声纹授权的智能设备接入方法流程图；

图7是本发明提供的一种根据所述语音识别信息进行授权判断方法流程图；

图8是本发明提供的一种根据所述语音识别信息进行授权判断方法流程图；

图9是本发明提供的一种根据所述语音识别信息进行授权判断方法流程图；

图10是本发明提供的角色示意图；

图11是本发明提供的一种基于声纹授权的智能设备接入装置框图；

图12是本发明提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。

图1是本发明实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：至少一个第一智能设备101、第二智能设备102和语音采集设备103。

其中语音采集设备103可以内置于第二智能设备102中，或设置于第二智能设备102之外并与所述第二智能设备102连接，所述语音采集设备103用于采集语音并将采集的语音传输至第二智能设备102。

其中，当第二智能设备102与第一智能设备101之间的距离位于确定的距离阈值内时，可以接收到第一智能设备101的广播连接请求或基于其它通信方式的连接请求，对该连接请求进行解析，根据解析结果获取第一智能设备101的连接信息，根据语音采集设备103采集到的语音信息判断是否授权第一智能设备101与第二智能设备102的连接，若授权，则第二智能设备响应所述连接请求，并允许第一智能设备101接入。

在一个可行的实施例中，第一智能设备101和第二智能设备102具备采用近距离无线通信技术进行通信的功能，且第二智能设备102具备Wi-Fi通信功能。例如，第一智能设备101可以为智能电视、智能家具、智能盒子、智能手环、智能眼镜等，还可以为可以广播蓝牙信号的信标设备。第二智能设备102可以为路由器、网关等。

请参考图2，其示出了本发明实施例提供的一种基于声纹授权的智能设备接入方法，所述方法可以以上述实施环境为实施主体，所述方法包括：

S101.由至少一个第一智能设备生成至少一个连接请求，并将所述连接请求发送至第二智能设备；其中，每个第一智能设备对应生成一个连接请求，所述连接请求包括其对应的第一智能设备的连接信息。

S103.所述第二智能设备接收所述连接请求。

S105.所述第二智能设备接收语音识别信息。

具体地，所述第二智能设备可以通过内置或外置的语音采集设备103采集语音识别信息。所述第二设备可以一直处于监听所述连接信息的状态，本发明实施例将所述监听所述连接信息的状态成为第一状态，所述第二设备还可以响应于预设指令切换至第一状态以便于监听连接信息。

S107.所述第二智能设备根据所述语音识别信息进行授权判断。

具体地，所述第二智能设备解析所述语音识别信息(声纹)，并根据解析结果判断所述语音识别信息是否包含预设的授权信息。

S109.若所述授权判断的结果为授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。

进一步地，若所述授权判断的结果为授权未通过，则拒绝响应所述连接请求。在一个优选的实施例中，所述第二智能设备还可以向所述第一智能设备发出拒绝接入响应。

本发明实施例可以应用于家庭场景，比如将家庭智能设备，或者穿戴式设备加入家庭的路由器或者家用网关，通过声纹授权的方式避免用户输入繁琐的密码从而提升便利性，增加用户粘度。请参考图3，其示出了家庭环境中各个设备基于声纹接入路由器的示意图，管理员首先进行声纹注册，具体通过语音检测、噪声抑制和特征提取等步骤在路由器中创建声纹模型；路由器进行基于声纹的授权识别判断，具体可以通过判断声纹的发出者与管理员声纹的吻合概率来进行授权判别；若授权判别通过，则允许相应的设备接入，为其提供网络服务。

本发明实施例通过引入声纹校验的方案用作设备间授权，大大提升智能设备在家庭间组网的便利性。随着智能家居的普及，设备间授权需要依赖遥控器手动输入密码这种繁琐的技术方案，必然会给普通民众选择使用智能家居带来难度，引入声纹校验代替用户手动输入，设备成本上基本不会增加，但是会对用户的便利性大大提高，从而显著提升用户粘度。

上述方法可以用于一个第一智能设备请求接入第二智能设备的场景之中，也可以用于多个第一智能设备请求接入第二智能设备的场景之中，若存在多个请求接入的第一智能设备，则可以对于每个第一智能设备，其与第二设备的交互过程都独立执行上述接入方法以达到对每个智能设备分别授权接入的目的。但是，对于各个设备分别授权接入需要用户多次发布授权语音，并且分别授权较为耗时。因此，在一个优选的实施例中，为了便于对多个第一智能设备的连接请求进行统一授权，本发明对上述实施例授权判断方法进行了优化，如图4所示，所述方法包括：

S1071.根据所述语音识别信息进行授权语音判断，所述授权语音判断用于判断各个连接请求是否被授权接入。

具体地，所述授权语音判断可以与上一个实施例中对语音识别信息进行授权判断的方法一致。

S1073.若授权语音判断通过，则提取所述语音识别信息中数量特征词。

具体地，所述数量特征词可以为阿拉伯数字，也可以为标识数量的副词，比如“全部”，“都”。

S1075.根据所述数量特征词得到授权数量。

具体地，若所述数量特征词为阿拉伯数字，则授权数量与数量特征词相等；若所述数量特征词为标识数量的副词，则授权数量为所述第二智能设备允许其它设备接入数量的最大值。

S1077.若所述授权数量不小于连接请求的数量，则判定授权通过。

具体地，所述第二智能设备可以根据得到的连接请求序列按序响应所述连接请求序列中各个连接请求，并与其对应的第一智能设备建立连接。

请参考图5，其示出了多个第一智能终端试图接入第二智能终端的场景示意图，通过发布一个语音指令，能够让全部第一智能终端均被接入，多个智能设备一次性通过语音接入，可以提升设备接入速度，进一步优化用户体验。

请参考图6，其示出了本发明实施例提供的一种基于声纹授权的智能设备接入方法，所述方法可以以第二智能设备为实施主体，所述方法包括：

S301.响应于第一预设指令，进入第一状态，所述第一状态用于接收由至少一个第一智能设备生成并发送的至少一个连接请求，其中每个第一智能设备对应生成一个连接请求；所述连接请求均包括其对应的第一智能设备的连接信息。

具体地，所述第一预设指令可以通过接触触发，比如通过按键触发，或手势触发；还可以通过生物信号触发，所述生物信号触发包括但不限于人脸触发、指纹触发或虹膜触发。

人脸触发是基于人的脸部特征信息进行身份验证的一种生物识别技术。通过验证人脸来进行个人身份的鉴定，并在鉴定通过后触发执行某种指令。指纹触发是利用人的手指末端正面皮肤上凸凹不平产生的纹线来触发执行某种指令的技术。通过比较不同指纹的细节特征点来进行鉴别，并在鉴别通过后触发执行某种指令。虹膜触发是利用虹膜来触发执行某种指令的技术，虹膜是位于黑色瞳孔和白色巩膜之间的圆环状部分，其包括很多相互交错的斑点、细丝、冠状、条纹、隐窝等的细节特征。虹膜在胎儿发育阶段形成后，在整个生命历程中将是保持不变的，其精准度较高，相应的，硬件要求也高。

第一状态下，第二智能终端可以接收各种智能设备广播的连接请求，即第一状态是一种开放状态，每个请求接入第二智能终端的智能设备都有被允许接入的机会。

第一状态还用于等待输入语音，在一个优选的实施例中，进入第一状态后，若在预设时间内接受到语音信息，则执行后续流程，否则超时，拒绝响应所述连接请求。

S303.接收语音识别信息。

所述语音识别信息可以由语音采集设备103进行采集。

在一个优选的实施例中，当第二智能设备进入第一状态后，语音采集设备103自动开启。

在一个优选的实施例中，在语音采集设备103自动开启后，所述第二智能终端还可以切换至第二状态，所述第二状态为一种封闭状态，当所述第二智能终端处于第二状态时，不接收其它设备发布的连接请求。第二状态下，可以保护第二智能设备的后续授权流程不被其它因素干扰。

S305.根据所述语音识别信息进行授权判断。

由于说话人发音器官的生理差异及后天的行为差异，可以通过说话人识别对语音的话者是否为指定说话人进行判断，从而进行授权判断，在一个可行的实施方式中，所述根据所述语音识别信息进行授权判断，请参考图7，包括：

S1.根据预先设定的预定时长对所述语音识别信息进行截取以得到截取结果。

S2.对所述截取结果进行分段以得到语音数据段。

在采集所述语音识别信息后，可以根据预先设定的预定时长对所述语音识别信息进行分段截取。可以根据当前时间为所述语音识别信息的结束时间，向当前时间之前取预定时长的语音数据，以得到截取结果。另外，所述所述语音识别信息的截取时间间隔可以根据所述预定时长来设定。比如可以取预定时长的一定比例值。如预定时长为30秒时，所述语音数据段的截取时间可以为5秒等。

S3.对各个语音数据段进行噪声滤波以得到除噪后的清洁语音数据段。

S4.计算各个所述清洁语音数据段中包括的至少一个音频特征向量。

所述语音数据段中包括的音频特征向量，可以包括过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列或频谱质心特征序列中的两种或者多种。其中，所述多阶梅尔频率倒谱系数特征序列可以为13阶梅尔频率倒谱系数特征序列。通过对音频的过零率、能量、多阶梅尔频率倒谱系数、频谱质心等特征中的两种或者两种以上的特征提取，得到融合了两个或者两个以上特征序列的音频特征向量。其中，音频的过零率，是指音频信号的符号变化的比率，符号变化包括如音频信号从正数变成负数，或者从负数变成正数。所述能量可以为能量的大小变化的数值。

所述多阶梅尔频率倒谱，是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。

可以选择任意两个特征序列计算音频特征向量。当然，优选的实施方式为，选择包括过零率特征序列、能量特征序列、多阶梅尔频率倒谱系数特征序列和频谱质心特征序列的多维特征序列。比如多阶梅尔频率倒谱系数特征序列为13阶时，则可以选择16维特征序列，从而便于能够得到更为精确的识别结果。

S5.将每个清洁语音数据段对应的全部音频特征向量输入预设的语音识别模型，以得到所述清洁语音数据段的识别结果；所述识别模型中存储有管理员的音频特征向量；所述识别结果为所述清洁语音数据段的发出人为管理员的概率。

S6.查询所述各个识别结果中是否包括目标识别结果，所述目标识别结果的概率大于预设的第一阈值。

S7.若查询结果不为空，则判定授权通过；否则，则判定授权未通过。

本发明实施例中在第二智能设备中预先录入有管理员的声音，并将所述管理员声音对应的音频特征向量输入了语音识别模型，即进行了管理员声纹注册，所述语音识别模型用于根据所述管理员声音对应的音频特征向量识别其它语音是否为管理员发出。若是管理员发出，则授权通过，否则，授权未通过。

由于汉字(字母、数字)发音具有固定性和规律性，通过语音识别能够对语音所包含内容是否为指定内容进行判别，在另一个可行的实施例中，如图8所示，所述根据所述语音识别信息进行授权判断，包括：

S10.滤除所述所述语音识别信息的噪音以得到待解析语音。

S20.对所述待解析语音进行语义解析，以得到解析结果。

S30.获取所述解析结果与预设授权指令的匹配程度。

在一个可行的实施方式中，可以采用预设的声学模型对待解析语音进行解码，得到所述待解析语音的音索序列(解析结果)，然后将待解析语音的音索序列与预设授权指令的音索序列进行相似度计算，得到获取所述解析结果与预设授权指令的匹配程度。

在另一种可行的实施方式中，可以采用预设的音频转换模型将待解析语音转化成文本(解析结果)，然后将所述文本与预设授权指令对应的文本进行相似度计算，得到获取所述解析结果与预设授权指令的匹配程度。具体地，将语音信号转化成文本所采取的算法可以是基于声道模型和语音知识的算法、动态时间规整(Dynamic Time Warping，DTW)算法、隐马尔可夫模型(Hidden Markov Model，HMM)算法、矢量量化(Vector Quantization)算法等等，相似度计算所采用的算法可以是基于空间向量的余弦算法、基于语义相似度的文本相似度算法、最小编辑距离算法等等，本发明实施例对此不作限定。

S40.若所述匹配程度大于第二阈值，则判定授权通过；否则，则判定授权未通过。

本发明实施例中在第二智能设备中预先录入有授权指令(预设授权指令)，并判断采集到的语音信息中是否包括所述预设授权指令，若包含，则判定授权通过；否则，则判定授权未通过。所述实施方式中，所述语音信息经过采集、去噪、解析后进入某个模型进行识别，并根据识别结果中的匹配程度判断所述语音信息是否包含预设授权指令。若所述语音信息包含预设授权指令，则授权通过，否则，授权未通过。

上述两个具体的实施方式中分别通过识别人判断和识别内容判断的方式对采集的语音识别信息进行处理，并得到了授权判断结果，从而为后续的是否授权进行了准备。但是单一的识别人判断或单一的识别内容判断的安全性均有限，单一的识别人判断可以判断语音的发出者是否是管理员，但是无法确认管理员发出了授权指令；单一的识别内容判断可以判断语音中是否包括授权指令，但是无法确认这一授权指令是否由管理员发出，都有一定的概率导致后续的流程出现误接入。有鉴于此，本发明一个优选的实施方式中，如图9所示，综合了识别人判断和识别内容判断。

S100.分析所述语音识别信息以判断所述语音识别信息是否由管理员发出。

若否，则判定授权未通过。具体地，所述判断过程可以参考上述第一个实施方式。

S300.若是，则分析所述语音识别信息以判断所述语音识别信息是否包含预设授权指令。

若否，则判定授权未通过。具体地，所述判断过程可以参考上述第二个实施方式。

具体地，本发明实施例并不限定S100和S300的实施顺序。

S500.若是，则判定授权通过，否则，判定授权未通过。

S307.若所述授权判断的结果为授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。

在一个优选的实施例中，在所述第二智能设备进入第一状态之前，还包括声纹注册步骤，所述声纹注册包括：

管理员声音声纹注册和/或授权指令注册。

所述管理员声纹注册包括获取管理员声音的音频特征向量，并将所述音频特征向量输入语音识别模型。

所述授权指令注册包括获取授权指令，分析所述授权指令以生成所述授权指令对应的音索序列，存储所述授权指令对应的音索序列，或，获取授权指令，采用预设的音频转换模型将所述授权指令转换为文本，存储所述授权指令对应的文本。

在一个可行的实施例中，还可以通过重启第二智能设备使得声纹注册步骤生效。

进一步地，在某些场景中，可能存在多个第一智能终端设备同时请求接入第二智能终端设备的情况，即第二智能终端接收到多个连接请求。在多连接请求的场景中，对于每个第一智能设备，其与第二设备的交互过程都可以独立执行上述接入方法以达到对每个智能设备分别授权接入的目的。但是，对于各个设备分别授权接入需要用户多次发布授权语音，并且分别授权较为耗时。因此，在一个优选的实施例中，为了便于对多个第一智能设备的连接请求进行统一授权，本发明对上述实施例授权判断方法进行了优化，以第二智能设备为执行主体，所述方法包括：

S3051.根据所述语音识别信息进行授权语音判断，所述授权语音判断用于判断各个连接请求是否被授权接入。

具体地，所述授权语音判断可以与上一个实施例中对语音识别信息进行授权判断的方法一致，具体的参考S1-S7，S10-S40或S100-S500。

S3053.若授权语音判断通过，则提取所述语音识别信息中数量特征词。

S3055.根据所述数量特征词得到授权数量。

S3057.若所述授权数量不小于连接请求的数量，则判定授权通过。

随着声纹技术的逐渐流行，业界上对于声纹的商用主要集中于两方面。声纹识别和声纹解锁，声纹识别主要用于识别发出声纹的自然人的年龄，做分级控制。声纹解锁主要用于在识别到声纹发出者后对某个设备进行解锁，比如智能门锁灯。不同于现有技术的应用，本发明实施例公开的一种基于声纹授权的智能设备接入方法主要是将声纹应用于设备接入场景之中，以替代家庭设备上不方便输入密码的繁琐的设备接入方案。

根据上述各个实施例所述的技术方案，本发明实施例中包括四个角色，如图10所示，分别为：

管理员：对第二智能设备进行管理，并且拥有管理权限，可授权第二智能设备与其它智能设备连接，即可以允许其它智能设备接入第二智能设备。

声纹管理：对管理员的声纹进行采集和建模，事实上，声纹管理的工作可以由第二智能设备以及语音采集设备联合承担。

业务管理：即第二智能设备，负责实际业务的执行。以第二智能设备是路由器中为例，其路由业务部分最终实现授权接入；以第二智能设备为智能网关为例，其网关业务部分最终授权接入许可。

待接入设备：请求与第二智能设备建立连接的至少一个第一智能设备。

具体地，本发明实施例对多种场景中的基于声纹授权的第二智能设备授权接入的方法进行了具体描述，达到了仅通过语音控制即可授权各种家庭用智能设备之间的自组网目的，避免了繁琐的密码输入环节，提升了用户粘度。

本发明实施例还提供一种基于声纹授权的智能设备接入装置，如图11所示，所述装置包括：

连接请求接收模块501，用于响应于第一预设指令，进入第一状态，所述第一状态用于接收由第一智能设备生成并发送的连接请求并等待语音识别信息输入，每个所述连接请求包括所述第一智能设备的连接信息；

语音识别信息接收模块503，用于接收语音识别信息；

授权判断模块505，根据所述语音识别信息进行授权判断；

授权模块507，用于用于若所述授权判断的结果为授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。

具体地，本发明实施例所述一种基于声纹授权的智能设备接入装置与方法实施例均基于相同发明构思。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行本发明实施例所述的一种基于声纹授权的智能设备接入的各种步骤，具体执行过程可以方法实施例的具体说明，在此不进行赘述。

进一步地，图12示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图，所述设备可以为路由器获取网关，所述设备还可以参与构成或包含本发明实施例所提供的装置。如图12所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图12中所示更多或者更少的组件，或者具有与图12所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中所述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于声纹授权的智能设备接入方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声纹授权的智能设备接入方法，其特征在于，所述方法包括：

响应于第一预设指令，进入第一状态，所述第一状态用于接收由多个第一智能设备生成并发送的连接请求并等待语音识别信息输入，每个所述连接请求包括所述第一智能设备的连接信息；

接收语音识别信息；

切换至第二状态，所述第二状态为一种封闭状态，当第二智能终端处于第二状态时，不接收其它设备发布的连接请求；

根据所述语音识别信息进行授权语音判断，所述授权语音判断用于判断各个连接请求是否被授权接入；

若授权语音判断通过，则提取所述语音识别信息中数量特征词；

根据所述数量特征词得到授权数量；

若所述授权数量不小于连接请求的数量，则判定授权通过；

若授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。

2.根据权利要求1所述的方法，其特征在于：

进入第一状态后，若在预设时间内未接受到语音信息，则拒绝响应所述连接请求。

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别信息进行授权语音判断，包括：

根据预先设定的预定时长对所述语音识别信息进行截取以得到截取结果层；

对所述截取结果进行分段以得到语音数据段；

对各个语音数据段进行噪声滤波以得到除噪后的清洁语音数据段；

计算各个所述清洁语音数据段中包括的至少一个音频特征向量；

将每个清洁语音数据段对应的全部音频特征向量输入预设的语音识别模型，以得到所述清洁语音数据段的识别结果；所述识别模型中存储有管理员的音频特征向量；所述识别结果为所述清洁语音数据段的发出人为管理员的概率；

查询各个所述识别结果中是否包括目标识别结果，所述目标识别结果的概率大于预设的第一阈值；

若查询结果不为空，则判定授权语音判断通过；否则，则判定授权语音判断未通过。

4.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别信息进行授权语音判断，包括：

滤除所述语音识别信息的噪音以得到待解析语音；

对所述待解析语音进行语义解析，以得到解析结果；

获取所述解析结果与预设授权指令的匹配程度；

若所述匹配程度大于第二阈值，则判定授权语音判断通过；否则，则判定授权语音判断未通过。

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别信息进行授权语音判断，包括：

分析所述语音识别信息以判断所述语音识别信息是否由管理员发出；

若是，则分析所述语音识别信息以判断所述语音识别信息是否包含预设授权指令；

若是，则判定授权语音判断通过，否则，判定授权语音判断未通过。

6.根据权利要求1所述的方法，其特征在于，所述响应于第一预设指令，进入第一状态，之前包括声纹注册的步骤，所述声纹注册包括：

管理员声音声纹注册和/或授权指令注册；

7.一种基于声纹授权的智能设备接入装置，其特征在于，所述装置包括：

连接请求接收模块，用于响应于第一预设指令，进入第一状态，所述第一状态用于接收由多个第一智能设备生成并发送的连接请求并等待语音识别信息输入，每个所述连接请求包括所述第一智能设备的连接信息；

语音识别信息接收模块，用于接收语音识别信息；

状态切换模块，用于切换至第二状态，所述第二状态为一种封闭状态，当第二智能终端处于第二状态时，不接收其它设备发布的连接请求；

授权判断模块，根据所述语音识别信息进行授权语音判断，所述授权语音判断用于判断各个连接请求是否被授权接入；若授权语音判断通过，则提取所述语音识别信息中数量特征词；根据所述数量特征词得到授权数量；若所述授权数量不小于连接请求的数量，则判定授权通过；

授权模块，用于若授权通过，则根据连接请求中的连接信息与发出所述连接请求的第一智能设备建立连接。

8.一种基于声纹授权的智能设备接入装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一项所述的一种基于声纹授权的智能设备接入方法。

9.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1-6任一项所述的一种基于声纹授权的智能设备接入方法。