CN110164455A

CN110164455A - 用户身份识别的装置、方法和存储介质

Info

Publication number: CN110164455A
Application number: CN201810152035.5A
Authority: CN
Inventors: 吴楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-02-14
Filing date: 2018-02-14
Publication date: 2019-08-23

Abstract

本发明公开了一种用户身份识别的装置、方法和存储介质。该装置包括：问题输出组件、语音输入组件和语音识别组件，语音输入组件分别与问题输出组件和语音识别组件耦合，其中：问题输出组件，用于输出随机信息；语音输入组件，用于采集来源于对象的回复语音，回复语音针对随机信息；语音识别组件，基于回复语音，分别对对象的声纹和语义进行识别，以对对象进行活体识别和身份识别。本发明实施例不仅可以防止声纹被盗用，而且可以防止用户在非法状态下被非法识别，大幅度提高了识别的安全性。

Description

用户身份识别的装置、方法和存储介质

技术领域

本发明涉及信息识别技术领域，尤其涉及一种用户身份识别的装置、方法和存储介质。

背景技术

随着互联网技术的发展和智能系统的普及，身份识别(身份鉴别)的需求变得越来越广泛。传统信息识别方法(例如：密码、指纹等鉴别身份方法)暴露出很多的局限性。声纹识别技术是生物识别的重要识别手段之一，随着声纹识别技术的快速发展，通过识别声纹来鉴别用户身份，已经成为一种全新的鉴别方式。现有的声纹识别身份的方式主要为：首先采集来源于用户的声纹，将采集的声纹与预先存储的声纹样本比较，当二者匹配时，用户身份识别成功。

申请人经研究发现：目前声纹识别技术依然存在如下一些局限性：声纹鉴别只能识别声纹本身，无法识别声纹对应用户的其它信息。例如，非法用户通过设备复制合法用户的声纹就可以通过用户身份识别。又例如，合法用户被胁迫进行身份识别等。因此，现有的声纹识别用户身份的安全性有待提高。

如何提高识别用户身份的安全性成为业界亟待解决的技术问题。

发明内容

为了解决现有声纹识别用户身份的安全性低的问题，本发明实施例提供了一种用户身份识别的装置、方法和存储介质。

第一方面，提供了一种用户身份识别的装置。该装置包括：

问题输出组件、语音输入组件和语音识别组件，

语音输入组件分别与问题输出组件和语音识别组件耦合，其中：

问题输出组件，用于输出随机信息；

语音输入组件，用于采集来源于对象的回复语音，回复语音针对随机信息；

语音识别组件，基于回复语音，分别对对象的声纹和语义进行识别，以对对象进行活体识别和身份识别。

第二方面，提供了一种用户身份识别的装置。该装置包括：

问题输出组件、语音输入组件和信息收发组件，

语音输入组件分别与问题输出组件和信息收发组件耦合，其中：

问题输出组件，用于输出随机信息；

语音输入组件，用于采集来源于对象的回复语音，回复语音针对随机信息；信息收发组件，用于将回复语音发送给语音识别组件，待语音识别组件基于回复语音，分别对对象的声纹和语义进行识别之后，接收语音识别组件的识别结果，并根据识别结果对对象进行活体识别和身份识别。

第三方面，提供了一种用户身份识别的装置。该装置包括：

信息接收组件、语音识别组件和信息发送组件，

语音识别组件分别与信息接收组件和信息发送组件耦合，其中：

信息接收组件，用于接收针对随机信息的回复语音；

语音识别组件，用于基于回复语音，分别对对象的声纹和语义进行识别，生成对象进行活体识别和身份识别的识别结果；

信息发送组件，发送识别结果。

第四方面，提供了一种用户身份识别的方法。该方法包括：

识别组件输出随机信息；

识别组件采集来源于对象的回复语音，回复语音针对随机信息；

识别组件基于回复语音，对对象的声纹和语义进行识别，以对对象进行活体识别和身份识别。

第五方面，提供了一种用户身份识别的装置。该装置包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，所述程序使得所述处理器执行上述各方面所述的方法。

第六方面，提供了一种计算机可读存储介质。该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第二方面所述的方法。

第七方面，提供了一种包含指令的计算机程序产品。当该产品在计算机上运行时，使得计算机执行上述各方面所述的方法。

第八方面，提供了一种计算机程序。当该计算机程序在计算机上运行时，使得计算机执行上述各方面所述的方法。

上述发明实施例可以通过主动输出随机信息对识别对象提问，获取识别对象的回复语音，再提取回复语音的特征信息，比较特征信息与预设特征，当特征信息与预设特征匹配时，可以识别出该语音是否是识别对象的声纹，还可以识别出识别对象的情绪、年龄、性别等多重特征。另外，上述发明实施例可以通过将回复语音转成文字；理解文字的语义，并检测理解的语义是否符合预期，来对声纹所代表的内容做解析和判断。

由此，上述发明实施例可以广泛应用于银行资金提取、资金交易、交通运输等需要身份识别的场景中。上述发明实施例不仅可以对识别对象的声纹本身进行识别，而且可以对声纹内容进行识别，从而可以分析出识别对象的情绪、性别、年龄等多重特征特征，不仅可以防止识别对象的声纹被盗用，而且可以防止识别对象在威胁、神志不清等非法状态或者非正常状态下被识别，可以鉴别出用户是活体本人，大幅度提高了识别用户身份的可靠性和安全性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例的用户身份识别的装置的示意图；

图2是本发明另一实施例的用户身份识别的装置的示意图；

图3是本发明一实施例的用户身份识别的系统的架构示意图；

图4是本发明一实施例的识别用户身份的流程示意图；

图5是本发明一实施例的用户身份识别的方法的流程示意图；

图6是本发明一实施例的用户身份识别的装置的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是本发明一实施例的用户身份识别的装置的示意图。

用户身份识别装置100可以应用于任何需要身份识别的场景中。如，支付货款的场景，银行金库的提款场景，驾驶汽车的场景和女性更衣室等场景。根据不同的场景，身份识别的装置可以设计成尺寸不一、外观个性的智能电器设备。智能电器设备本身可以单独设计成：智能音箱、智能手表、智能门锁、智能手机、电脑、电视和汽车等设备。智能电器设备也可以设计成一个部件，该部件可以承载于智能音箱、智能手表、智能门锁、智能手机、电脑、电视和汽车等设备中。

图1实施例的应用场景可以是：用户A在网站上购买商品，购买结束后，用户A需要支付货款。在支付获取前，需要用户身份识别装置100识别用户A的身份。因此，用户身份识别装置100可以先对用户A进行提问，用户A根据提问进行回答，用户身份识别装置100再根据回复的内容做解析和判断，待身份识别通过后，用户身份识别装置100发送允许支付货款的指令。

如图1所示，用户身份识别装置100可以包括：问题输出组件101、语音输入组件102和语音识别组件103。其中，102语音输入组件可以分别与问题输出组件101和语音识别组件103耦合。其中：问题输出组件101可以用于输出随机信息；语音输入组件102可以用于采集来源于对象的回复语音，回复语音针对随机信息；语音识别组件103可以基于回复语音，分别对对象的声纹和语义进行识别，以对对象进行活体识别和身份识别。

具体的，问题输出组件101可以用于输出随机的预设提问信息。例如，问题输出组件101可以获取场景信息，针对场景信息，随机或者非随机的输出针对场景的提问信息。例如，问题输出组件101可以针对不同的场景随机或者非随机的向用户发问一些有意义的问题。这些问题会担负起人机验证、情感分析和知识水平等多方面的检测。

问题输出组件101还可以通过语音播报、屏幕显示和打印等方式输出预设提问信息。在本实施例中，问题输出组件101可以设计成语音播放器，并通过播报语音向用户发出如下提问：

例1，为了防止用户的答案重复，该装置可以提问(或者输出信息)：请问今天的日期和当前时间是多少？

例2，为了验证人机判断，该装置可以提问：请问窗前明月光的下一句是什么？

例3，为了验证用户的知识水平和人机判断，该装置可以提问：对常数的求导结果是什么？

例4，为了验证人机判断，该装置可以先讲一个笑话或者新闻，然后向用户提问，这个是笑话还是新闻？

例5，为了验证用户，该装置可以提问：你的开门口令是什么？

例6，为了验证用户，该装置还可以提问：你最爱的电影是什么？

用户可以根据上述提问进行回复。语音输入组件102可以采集来源于用户回复的语音。

语音提问的实现方式可以通过分类建立知识库来实现，知识库可以如下面表1所示：

表1

知识库中答案可以分为两种：一种是固定的文字答案，另一种是需要计算和推导的答案。对于固定的文字答案，可以直接做文本相似度计算和匹配。对于需要计算和推导的答案，则知识库中可以保留相关的函数(如getDate函数)接口。然后由系统调用函数接口获取本次的答案，然后将本次的答案和用户答案做相似度比较。因为答案可以被设计成可变形式，如此设计可以解决现有的通过录取识别对象的语音进行非法身份识别的问题，提高了语音识别的安全性。

语音识别组件103可以用于提取回复语音的特征信息，比较特征信息与预设特征。当特征信息与预设特征匹配时，将回复语音转成文字。理解文字的语义，并检测理解的语义是否符合预期。当语义符合预期时，身份识别成功。

在一些实施例中，所述特征信息可以包括：声纹特征和用户特征。其中，用户特征包括以下特征中的一种或者多种：情绪、性别、年龄等。

语音识别组件103提取回复语音的特征信息，比较特征信息与预设特征的实现方式可以如下所示：

该装置可以针对不同的应用场景建立一个要求的特征条件数据库。当提取出用户声纹的特征后，所有的特征可以被归纳成文字或者数值范围进行表示，然后可以针对当前场景所需要的特征做数值范围对比或者对文字对比。

在本实施例中，针对文字对比的形式，特征条件数据库可以设计成如下面表2所示：

表2

其中，特征提取即语音信号处理，是指从原始的语音信号里提取出具有甄别意义的信号。特征提取主要可以基于滤波器的子频率段能量信息的特征矩阵。然后在特征矩阵的基础之上，借助深度神经网络，对亚音素子单元进行刻画，进而借助因子分解来分解到全变化(Total Variability)空间产生iVector特征向量，根据该特征向量生成特征信息。

相对于传统的身份识别装置仅会提取用户的声纹，本装置可以提取用户声纹、性别、年龄、情绪等多重特征，以便分析：用户情绪是否有重大波动，用户情绪是否正常，用户的年龄、性别是否符合要求。如此多重特征提取设计，在驾驶员身份验证或者判断用户是否被挟持、威胁等多种场景有非常重要作用，大大提升了身份识别的安全性。

语音识别组件103可以将回复语音转成文字；理解文字的语义，并检测理解的语义是否符合预期；当语义符合预期时，身份识别成功的实现方式可以如下所示：

语义理解主要指在用户的语音已经转成文字的前提下，如何理解这句话，并将用户不规范的回答与答案对比。本实施例可以采用的方法包括但不限于：字符串匹配的方式、模板匹配的方式和关键词比对的方式。

针对字符串匹配的实现方式，其可以如下所示：

例如，提问是：最爱的电影是什么？如果用户回答：阿甘正传。那么，可以将用户回复内容和数据库中的答案直接进行字符串比较，二者完全一致，则认为通过。

针对模板匹配的实现方式，其可以如下所示：

首先，该装置可以将各种常见句式变成模板。模板中一部分可以是可变和不确定的，如()中的部分表示可变的部分。

然后，该装置可以将可变的部分提取出来，并将提取的内容和数据库里的内容做比较。例如，用正则表达式来写模板：我最爱的是(*.)(哪部电影)？其中，(*.)可以表示可变的部分，并需要将这部分字符返回和数据库比较。而(哪部电影)？可以表示“哪部电影”这几个字可以出现，也可以不出现。

当用户回答：“我最爱的电影是阿甘正传”，或者“我最爱的电影是阿甘正传哪部电影”时，都可以匹配上述模板。然后正则表达式会从中把“阿甘正传”这个关键词返回来和数据库中答案做比较，如果比较一致，则用户身份通过识别。

本发明实施例可以通过列举多个模板，把用户可能的回答的多数情况甚至全部情况都覆盖其中。

针对关键词抽取的实现方式，其可以如下所示：

首先，该装置可以对用户的文字做分词处理，待分词后，将里面的动词和名词作为关键词提取出来。例如，我最爱的电影是阿甘正传，经过分词后变成：我最爱的电影是阿甘正传，提取其中的关键词：我、电影、阿甘正传。

然后，该装置可以将阿甘正传与数据库中的结果匹配，当匹配成功时，身份识别通过。

另外，本发明实施例还可以结合以上三种方式，获取覆盖用户针对同一个问题的多种说法，并从中抽取出核心答案，将核心答案与数据库答案对比。

相对于传统技术，该结合内容的分析可以更有效的防止录制声纹的攻击方式。同时，结合内容分析也可以对用户做人机验证、知识水平验证和身份的多重验证。如此设计，不仅可以极大的提高声纹验证的安全程度，而且可以满足不同场景的额外需求。例如汽车开车之前，除了验证司机身份，还要判断用户是否神志清醒意识正常。

由此，本发明实施例可以通过主动对识别对象提问，获取识别对象的回复语音，再提取回复语音的特征信息，比较特征信息与预设特征，当特征信息与预设特征匹配时，可以识别出该语音是否是识别对象的声纹。另外，本发明实施例可以通过将回复语音转成文字；理解文字的语义，并检测理解的语义是否符合预期，来对声纹所代表的内容做解析和判断。

由此，本发明实施例不仅可以对识别对象的声纹本身进行识别，而且可以对声纹内容进行识别，从而可以了解识别对象情绪、性别、年龄等特征，不仅可以防止识别对象的声纹被盗用，而且可以防止识别对象在威胁、神志不清等非法状态或者非正常状态下被识别，大幅度提高了识别用户身份的安全性。

在一些实施例中，语音识别组件103还可以用于：将身份识别的结果与用户的标识信息进行匹配，以确定用户是否是用户本人。

在一些实施例中，语音识别组件103还可以用于：基于滤波器获取回复语音的子频段能量信息的特征矩阵；在特征矩阵的基础上，借助深度神经网络，对回复语音的亚音素子单元进行刻画；将刻画的亚音素子单元在全变化空间进行因子分解，产生特征向量，根据特征向量生成特征信息。

在一些实施例中，语音识别组件103还可以用于：获取文字中的字符串，将字符串与预设字符串比对；或者，获取文字的模板，将模板与预设模板比对；或者，获取文字的关键词，将关键词与预设关键词比对。

在一些实施例中，语音识别组件103可以设置在用户身份识别装置100的本地，可以将语音识别组件103设置在其它处理组件上。如，将语音识别组件103设置在云服务器上，在本地仅需完成信息采集和信息接收和信息发送的操作就可以获取远程的语音识别组件103的识别结果，并根据该识别结果进行用户活体本人身份认证。

图2是本发明另一实施例的用户身份识别的装置的示意图。

图2实施例与图1实施例的区别在于，语音识别组件103可以设置在外部(如云端的服务器)上，身份识别的装置200与远程的语音识别组件103进行信息交互，就可以完成用户身份识别。为了描述简洁，具体语音识别组件103的实现方式可以参考图1中的实施例的内容。

如图2所示，用户身份识别的装置200可以包括：问题输出组件101、语音输入组件102和信息收发组件104。语音输入组件102分别可以与问题输出组件101和信息收发组件104耦合。其中：问题输出组件101可以用于输出随机信息；语音输入组件102可以用于采集来源于对象的回复语音，回复语音针对随机信息；信息收发组件104可以用于将回复语音发送给语音识别组件，待语音识别组件基于回复语音，分别对对象的声纹和语义进行识别之后，接收语音识别组件的识别结果，并根据识别结果对对象进行活体识别和身份识别。

在一些实施例中，问题输出组件101还可以用于：获取场景信息；针对场景信息，输出随机提问。

在上述实施例中，各个单元可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，当其在计算机上运行时，使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

图3是本发明一实施例的用户身份识别的系统的架构示意图。

本发明实施例与图1与图2实施例的区别主要是：本发明实施例可以包括本地设备和远程设备，如本地客户端的用户身份识别装置410和云端的用户身份识别装置420。该系统可以将语音识别的功能由客户端本地改成设置在了云端。因此，具体细节内容可以参考或者引用图1和图2实施例的内容。相同或者类似的内容不再赘述。

如图3所示，用户身份识别的系统可以包括：本地客户端的用户身份识别装置310、云端的用户身份识别装置320和网络330。

本发明实施例的应用场景可以是：首先，本地客户端的用户身份识别装置30可以向用户340随机提问。然后，用户340向用户身份识别装置310回复语音。用户身份识别装置310采集回复语音，并将该语音通过网络330发送给云端的用户身份识别装置320。然后，云端的用户身份识别装置320进行语音识别，将识别结果反馈给用户身份识别装置310。

其中，本地客户端的用户身份识别装置310可以包括：问题输出组件311、语音输入组件312和信息收发组件313。其中，语音输入组件312可以分别与问题输出组件311和信息收发组件313耦合。

其中，问题输出组件311可以用于输出随机信息；语音输入组件312可以用于采集来源于对象针对随机信息的回复语音；信息收发组件313可以用于将回复语音发送给语音识别组件，待语音识别组件312基于回复语音，分别对对象的声纹和语义进行识别之后，接收语音识别组件的识别结果(活体识别和身份识别的结果)，并根据识别结果确定对象是否为活体的用户。

在一些实施例中，问题输出组件311还可以用于：获取场景信息；针对场景信息，输出随机提问(或随机信息)。

其中，云端的用户身份识别装置320可以包括：信息接收组件321、语音识别组件322和信息发送组件323。其中，语音识别组件322可以分别与信息接收组件321和信息发送组件323耦合。

其中，信息接收组件321可以用于接收针对随机信息的回复语音；语音识别组件322可以用于基于回复语音，分别对对象的声纹和语义进行识别，生成对象是否为活体的用户的识别结果；信息发送组件323可以用于发送识别结果(如活体识别和身份识别的结果)。

在一些实施例中，语音识别组件322还可以用于：提取回复语音的特征信息；比较特征信息与预设特征；当特征信息与预设特征匹配时，将回复语音转成文字；理解文字的语义，并判断理解的语义是否符合预期；当理解的语义符合预期时，确定对象是否为活体的用户。

在一些实施例中，语音识别组件322还可以用于：获取文字中的字符串，将字符串与预设字符串比对；或者，获取文字的模板，将模板与预设模板比对；或者，获取文字的关键词，将关键词与预设关键词比对。

在一些实施例中，语音识别组件322还可以用于：基于滤波器获取回复语音的子频段能量信息的特征矩阵；在特征矩阵的基础上，借助深度神经网络，对回复语音的亚音素子单元进行刻画；将刻画的亚音素子单元在全变化空间进行因子分解，产生特征向量，根据特征向量生成特征信息。

其中，网络330可以用以在各种电子设备之间提供通信链路的介质。具体的，网络330可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

应该理解，图3中的设备的数目仅仅是示意性的。根据实现需要，进行灵活调整。

图4是本发明一实施例的识别用户身份的流程示意图。

本发明实施例将以银行押钞员在银行金库提取现金为场景，说明身份识别装置识别银行押钞员身份的实现方式。下面以身份识别装置作为该方法的操作执行主体，可以理解，其它处理组件也可以执行该方法。如图4所示，该实现方式可以包括以下步骤：

S401，该装置结合上述提款场景向银行押钞员提问：你的工号是什么？提款密码是什么？今天的日期是什么？你最爱的电影是什么？

S402，银行押钞员回答：我的工号是10001，提款密码是90872002，今天的日趋是2017年8月8日，我最爱的电影是阿甘正传。

S403，该装置提取银行押钞员回答语音中的声纹、情绪、性别、年龄等多重特征。具体提取方式等内容已在上述装置部分进行了描述，此方面内容不再赘述。

S404，该装置分析银行押钞员的声纹是否与预设的声纹模板匹配，以及情绪特征是否平稳，性别和年龄是否符合要求。

S405，当银行押钞员的声纹与预设的声纹模板匹配成功，情绪特征是平稳，性别和年龄也符合要求，则通过多重特征判断，转步骤S405。如果没有通过多重特征判断，则转步骤S409。

S406，该装置将银行押钞员的语音转成文字对文字做语义理解。

S407，该装置对银行押钞员回答是否符合预期进行判断。如银行押钞员的回答的日期、工号、密码和最爱看的电影是否正确。

在一些实施例中，可以预设报警答案，如当银行押钞员回答爱看的电影是水浒传时，表面验证通过，但实际进行报警。如此设计，可以大幅度提高用户在识别身份时的安全性。

S408，如果上述回答全部符合预期，则验证成功。

S409，如果上述有一项或者多项不正确，则验证失败。

需要说明的是，在不冲突的情况下，本领域的技术人员可以按实际需要将上述的操作步骤的顺序进行灵活调整，或者将上述步骤进行灵活组合等操作。为了简明，不再赘述各种实现方式。另外，各实施例的内容可以相互参考引用。

需要说明的是，上述各实施例的装置可作为上述各实施例的用于各实施例的方法中的执行主体，可以实现各个方法中的相应流程，实现相同的技术效果，各个实施例可以相互参考和引用，为了简洁，此方面内容不再赘述。

图5是本发明一实施例的用户身份识别的方法的流程示意图。

如图5所示，该流程可以包括以下步骤：

S510，识别组件输出随机信息。

S520，识别组件采集来源于对象的回复语音，回复语音针对随机信息。

S530，识别组件基于回复语音，分别对对象的声纹和语义进行识别，以确定对象是否为活体的用户。

在一些实施例中，语音识别组件输出预设提问可以包括：语音识别组件获取场景信息；语音识别组件针对场景信息，随机或者非随机的输出场景提问。

在一些实施例中，语音识别组件提取回复语音的特征信息，可以包括：语音识别组件基于滤波器获取语音的子频段能量信息的特征矩阵；在特征矩阵的基础上，语音识别组件借助深度神经网络，对回复语音的亚音素子单元进行刻画；语音识别组件将刻画的亚音素子单元在全变化空间进行因子分解，产生特征向量；语音识别组件根据特征向量生成特征信息。

在一些实施例中，特征信息可以包括：声纹特征和用户特征。

在一些实施例中，用户特征可以包括以下特征中的一种或者多种：情绪、性别、年龄。

在一些实施例中，语音识别组件理解文字的语义，并检测理解的语义是否符合预期，可以包括以下操作中的一种或者多种：语音识别组件获取文字中的字符串，将字符串与预设字符串比对；语音识别组件获取文字的模板，将模板与预设模板比对；语音识别组件获取文字的关键词，将关键词与预设关键词比对。

图6是本发明一实施例的用户身份识别的装置的框架示意图。

如图6所示，该框架可以包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行图4和图5实施例所做的各种操作。在RAM603中，还存储有系统架构操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户身份识别装置，包括：

问题输出组件、语音输入组件和语音识别组件，

所述语音输入组件分别与所述问题输出组件和语音识别组件耦合，其中：

所述问题输出组件，用于输出随机信息；

所述语音输入组件，用于采集来源于对象的回复语音，所述回复语音针对所述随机信息；

所述语音识别组件，基于所述回复语音，分别对所述对象的声纹和语义进行识别，以对所述对象进行活体识别和身份识别。

2.根据权利要求1所述的装置，其中，所述语音识别组件还用于：

将身份识别的结果与用户的标识信息进行匹配，以确定用户是否是用户本人。

3.根据权利要求2所述的装置，其中，所述语音识别组件还用于：

提取所述回复语音的特征信息；

比较所述特征信息与预设特征；

当所述特征信息与所述预设特征匹配时，将所述回复语音转成文字；

理解所述文字的语义，并判断理解的语义是否符合预期；

当所述理解的语义符合预期时，确定所述对象是否为活体的用户本人。

4.根据权利要求3所述的装置，其中，所述语音识别组件还用于：

获取所述文字中的字符串，将所述字符串与预设字符串比对；

或者，

获取所述文字的模板，将所述模板与预设模板比对；

或者，

获取所述文字的关键词，将所述关键词与预设关键词比对。

5.根据权利要求3所述的装置，其中，所述语音识别组件还用于：

基于滤波器获取所述回复语音的子频段能量信息的特征矩阵；

在所述特征矩阵的基础上，借助深度神经网络，对所述回复语音的亚音素子单元进行刻画；

将刻画的亚音素子单元在全变化空间进行因子分解，产生特征向量，根据所述特征向量生成所述特征信息。

6.根据权利要求3所述的装置，其中，所述特征信息包括：声纹特征和用户特征。

7.根据权利要求6所述的装置，其中，所述用户特征包括以下特征中的一种或者多种：情绪、性别、年龄。

8.根据权利要求1所述的装置，其中，所述问题输出组件还用于：

获取场景信息；

针对所述场景信息，输出随机信息。

9.根据权利要求1-8中任一项所述的装置，其中，

所述装置包括：智能电器设备。

10.一种用户身份识别装置，包括：

问题输出组件、语音输入组件和信息收发组件，

所述语音输入组件分别与所述问题输出组件和所述信息收发组件耦合，其中：

所述问题输出组件，用于输出随机信息；

所述信息收发组件，用于将所述回复语音发送给语音识别组件，待所述语音识别组件基于所述回复语音，分别对所述对象的声纹和语义进行识别之后，接收所述语音识别组件的识别结果，并根据所述识别结果对所述对象进行活体识别和身份识别。

11.根据权利要求10所述的装置，其中，所述问题输出组件还用于：

获取场景信息；

针对场景信息，输出随机信息。

12.一种用户身份识别装置，包括：

信息接收组件、语音识别组件和信息发送组件，

所述语音识别组件分别与所述信息接收组件和所述信息发送组件耦合，其中：

所述信息接收组件，用于接收针对随机信息的回复语音；

所述语音识别组件，用于基于所述回复语音，分别对所述对象的声纹和语义进行识别，生成所述对象进行活体识别和身份识别的识别结果；

所述信息发送组件，发送所述识别结果。

13.根据权利要求12所述的装置，其中，所述语音识别组件还用于：

提取所述回复语音的特征信息；

比较所述特征信息与预设特征；

理解所述文字的语义，并判断理解的语义是否符合预期；

当所述理解的语义符合预期时，确定所述对象是否为活体的所述用户。

14.根据权利要求13所述的装置，其中，所述语音识别组件还用于：

或者，

获取所述文字的模板，将所述模板与预设模板比对；

或者，

获取所述文字的关键词，将所述关键词与预设关键词比对。

15.根据权利要求12-14中任一项所述的装置，其中，所述语音识别组件还用于：

16.一种用户身份识别的方法，包括：

识别组件输出随机信息；

所述识别组件采集来源于对象的回复语音，所述回复语音针对所述随机信息；

所述识别组件基于所述回复语音，对所述对象的声纹和语义进行识别，以对所述对象进行活体识别和身份识别。

17.根据权利要求16所述的方法，所述识别组件基于所述回复语音，对所述对象的声纹和语义进行识别，以对所述对象进行活体识别和身份识别，包括：

所述识别组件提取所述回复语音的特征信息；

所述识别组件比较所述特征信息与预设特征；

所述识别组件当所述特征信息与所述预设特征匹配时，将所述回复语音转成文字；

所述识别组件理解所述文字的语义，并判断理解的语义是否符合预期；

所述识别组件当所述理解的语义符合预期时，确定所述对象是否为活体的用户本人。

18.根据权利要求17所述的方法，其中，所述识别组件理解所述文字的语义，并判断理解的语义是否符合预期，包括：

所述识别组件获取所述文字中的字符串，将所述字符串与预设字符串比对；

或者，

所述识别组件获取所述文字的模板，将所述模板与预设模板比对；

或者，

所述识别组件获取所述文字的关键词，将所述关键词与预设关键词比对。

19.根据权利要求17所述的方法，其中，所述识别组件提取所述回复语音的特征信息，包括：

所述识别组件基于滤波器获取所述回复语音的子频段能量信息的特征矩阵；

所述识别组件在所述特征矩阵的基础上，借助深度神经网络，对所述回复语音的亚音素子单元进行刻画；

所述识别组件将刻画的亚音素子单元在全变化空间进行因子分解，产生特征向量，根据所述特征向量生成所述特征信息。

20.根据权利要求16-19中任一项所述的方法，其中，所述识别组件输出随机信息，包括：

所述识别组件获取场景信息；

所述识别组件针对所述场景信息，输出随机信息。

21.一种用户身份识别的装置，包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，所述程序使得所述处理器执行如权利要求16-20中任意一项所述的方法。

22.一种计算机可读存储介质，包括：指令，当所述指令在计算机上运行时，使得计算机执行如权利要求16-20中任意一项所述的方法。