CN106373575A

CN106373575A - 一种用户声纹模型构建方法、装置及系统

Info

Publication number: CN106373575A
Application number: CN201510438382.0A
Authority: CN
Inventors: 凌青
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2015-07-23
Filing date: 2015-07-23
Publication date: 2017-02-01
Anticipated expiration: 2035-07-23
Also published as: PL3327720T3; EP3327720B1; US20200321010A1; JP6859522B2; US11043223B2; SG11201800297WA; ES2880006T3; KR20180034507A; EP3327720A4; US10714094B2; WO2017012496A1; CN106373575B; EP3327720A1; KR102250460B1; US20180137865A1; JP2018527609A

Abstract

本申请公开了一种用户声纹模型构建方法、装置及系统。一种用户声纹模型构建方法包括：接收用户输入的语音信息；判断所述语音信息中是否携带满足建模要求的预设关键词；在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段；利用所述语音片段，为所述用户构建声纹模型。应用本申请所提供的技术方案，可以在任意能够接收到用户语音的应用场景下，自动完成用户声纹模型的构建，方便用户使用。

Description

一种用户声纹模型构建方法、装置及系统

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种用户声纹模型构建方法、装置及系统。

背景技术

声纹(voiceprint)是生物特征的一种，声纹识别是根据说话人的发音生理和行为特征，自动识别说话人身份的一种生物识别方法。声纹识别所提供的安全性可与其他生物识别技术(如：指纹、虹膜等)相媲美，而且语音采集装置只需电话/手机或麦克风即可，无需特殊的设备；它与说话语言无关，与方言腔调无关，不涉及隐私问题，适应人群范围很广；声音信号便于远程传输和获取，在基于电信和网络的身份识别应用中，声纹识别更有着特殊的优势

声纹识别主要包括两个阶段：一是注册阶段：需要用户预先向系统录制一段语音内容，系统利用从注册语音中提取的声纹特征，为用户构建声纹模型；二是应用阶段：用户根据系统提示说出指定的语音片段，系统自动地录取用户的语音并提取声纹特征，将新提取到的声纹特征与预先构建的声纹模型进行匹配运算，然后根据二者的匹配程度对当前用户的身份进行识别。

随着计算机和互联网技术的发展，声纹识别已经逐渐渗透到人们的日常生活中，例如智能终端应用，自动电话服务系统等等。根据上面的介绍可知，注册是整个声纹识别过程中不可缺少的环节，然而，这个注册环节却会在一定程度上给用户的使用带来不便，特别是对于中老年人等对新技术不敏感的特殊群体，甚至存在能否顺利注册声纹的问题。另外在有些情况下，为了提高系统安全性或鲁棒性，可能要求用户在注册阶段录制多个语音片段，这样会进一步增加用户的使用难度。

发明内容

本申请提供一种用户声纹模型构建方法、装置及系统，以降低声纹认证系统的使用难度，技术方案如下：

本申请提供一种用户声纹模型构建方法，该方法包括：

接收用户输入的语音信息；

判断所述语音信息中是否携带满足建模要求的预设关键词；

在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段；

利用所述语音片段，为所述用户构建声纹模型。

本申请提供一种基于声纹的用户身份认证方法，该方法包括：

接收用户输入的语音信息；

判断所述语音信息中是否携带满足认证要求的预设关键词；

在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段；

提取所述语音片段的声纹特征；

利用所述声纹特征与预先构建的所述用户的声纹模型，对所述用户的身份进行认证。

本申请提供一种用户声纹模型构建装置，该装置包括：

语音信息接收模块，用于接收用户输入的语音信息；

建模关键词判断模块，用于判断所述语音信息中是否携带满足建模要求的预设关键词；

语音片段截取模块，用于在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段；

声纹模型构建模块，用于利用所述语音片段，为所述用户构建声纹模型。

本申请提供一种基于声纹的用户身份认证装置，该装置包括：

语音信息接收模块，用于接收用户输入的语音信息；

认证关键词判断模块，用于判断所述语音信息中是否携带满足认证要求的预设关键词；

语音片段截取模块，用于在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段；

声纹特征提取模块，用于提取所述语音片段的声纹特征；

认证模块，用于利用所述声纹特征与预先构建的所述用户的声纹模型，对所述用户的身份进行认证。

本申请提供一种基于声纹的用户身份认证系统，该系统包括如前所述的用户声纹模型构建装置以及用户身份认证装置。

应用本申请实施例所提供的用户声纹模型构建方法，理论上可以在任意能够接收到用户语音的应用场景下，自动完成用户声纹模型的构建。这里的语音信息接收，可以是用户为了实现其他功能所必须的操作，无需刻意执行声纹信息注册的操作，方便用户使用。

相应地，在存在身份认证需求的应用场景，如果能够获取到用户的语音信息，并且该语音信息中携带了之前已经进行过声纹建模的关键字，就可以自动利用声纹进行身份认证，从而省去其他认证方式的繁琐操作，而且认证过程并不要求用户刻意说出认证口令。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请的用户声纹模型构建方法的流程示意图；

图2是本申请的用户身份认证方法的流程示意图；

图3是本申请的用户声纹模型构建装置结构示意图；

图4是本申请的用户身份认证装置结构示意图；

图5是本申请的用户身份认证系统结构示意图。

具体实施方式

语音是人类之间进行交流的重要载体，而随着语音识别等技术的迅速发展，用户已经可以在很多场景通过语音来与计算机进行交流，例如语音输入、语音控制等等。也就是说，从计算机的角度，有很多能够采集到用户语音信息的机会，此外，从用户的电话留言、实时电话录音中，都能够采集到用户的语音信息。基于这样的现实情况，本申请提出一种方案，在任意能够采集到用户语音的场景，完成用户的声纹建模，从而不增加用户的额外注册操作，解决现有技术中声纹注册操作繁琐的问题。

声纹识别包括文本相关(Text-Dependent)和文本无关(Text-Independent)两种类型。文本相关的声纹识别系统在注册时要求用户按照规定的内容发音，每个用户的声纹模型被精确地建立，而识别时也必须按规定的内容发音，由于所有用户的声纹模型都是“规范”的，因此可以达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。文本无关的识别系统理论上可以不规定说话人的发音内容，但是模型建立相对困难，目前在实际应用时的识别效果也并不理想。

为了保证识别效果，本申请提供的方案是针对“文本相关”声纹识别技术提出，那么需要解决的一个问题就是：如何能够在不增加用户额外操作的前提下，又能让用户说出“规定的内容”。

发明人在实现本方案的过程中发现：在特定的应用场景，用户会有很高的概率说出与该场景相关的关键词。例如：用户利用语音(例如通过电话或语音留言等方式)进行产品咨询时，几乎必然会说出产品的名称、型号、功能、部件、常见故障等关键词中的一个或多个；用户在进行声控操作时，很多声控指令也都是预先定义好的，类似的情景还有很多，而基于这样的现实情况，完全可以针对声纹认证所应用的不同场景，预先统计出该场景下高频出现的一个或多个关键词，将这些高频词定义为“规定的内容”，这样，一旦用户在语音交互过程中说出了这些关键词，系统就可以为该用户进行声纹建模。

为了使本领域技术人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请保护的范围。

图1所示，为本申请提供的一种用户声纹模型构建方法的流程图，该方法可以包括以下步骤：

S101，接收用户输入的语音信息；

S102，判断所述语音信息中是否携带满足建模要求的预设关键词；

S103，在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段；

S104，利用所述语音片段，为所述用户构建声纹模型。

以下将对上述方案做进一步的详细说明：

理论上讲，本申请方案可以在任何能够采集到用户语音的场景实现，例如语音输入、语音控制、电话留言等。当然，在实际应用时还需要考虑：该场景是否有声纹识别需求、是否能够确定当前说话用户的身份、用户语音的长度(涉及到运算复杂度)、能否有效地采集到携带关键词的语音片段(涉及到采集效率)等因素。

典型的应用场景例如：互动式语音应答(Interactive Voice Response，IVR)系统中的“一句话描述问题”服务，系统可以根据来电号码，或者用户手动输入认证信息等方式确认用户身份，“一句话”的语音长度比较适合后续的处理，并且，在很多特定的业务场景，用户有很大可能说出一些关键词。例如，在网上交易场景，可能涉及的关键词包括：订单、收货、发货、金额等；在银行、支付等场景，可能涉及的关键词包括：转账、余额、账户、密码等。

另外，用户使用个人终端时，无论是在操作系统层面还是各种具体应用层面所用到各种声控指令，都可以用于声纹建模时的语音信息采集。首先，作为个人物品，用户在使用终端时会有很多认证操作，例如解锁手机、进入某些特定应用时要求输入手势或数字密码，首先满足了用户身份认证的要求。另外，无论是操作系统还是具体应用所使用的声控指令都不会很长，而且很多都是预先定义好的。例如，Android手机中的语音交互功能，都是通过“OK Google”或“OK Google now”语音指令触发的，这些关键词都可以用来进行用户声纹建模。

如果对运算复杂度要求不敏感，还可以对已经实际接入人工应答坐席的用户通话进行录音，然后根据音频特性区分出用户的语音和人工应答坐席的语音，以便后续步骤仅针对用户语音部分进行分析。这样做的好处在于可以从用户一段较长完整的通话中，更为有效地采集到携带关键词的语音片段。

当然，以上几种应用场景，仅用于示意性说明，不应理解为对本申请方案的限定。

根据S101，可以在任何应用场景接收用户的语音信息，当然，由于最终需求是进行声纹建模，因此首先通过其他方式(例如用户ID、认证密码、手势、指纹等方式)确认当前说话者的身份是必要的。

在S102，判断所述语音信息中是否携带满足建模要求的预设关键词；这里可以根据实际需求，预设一个或多个关键词。预设多个关键词优势在于：一方面可以提高建模成功的概率，即用户只要说出多个关键词中的至少一个，就可以进行声纹建模；另一方面，在某些对安全要求比较高的应用场景，可以要求使用多个声纹片段共同认证。

在本步骤中，需要利用语音识别的相关技术来确定语音信息中是否携带预设关键词。语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。根据本申请方案的实际需求，可以考虑从以下两个角度实现对语音信息的识别：

a)利用声学特征：

人类的语言是都由一系列顺序的音节组成，连续的声音信息称为音节流，从声学的角度，可以将一个音节流划分为若干个独立的音节；另外，每种发音音节都具有其固定的音频特征。语音识别技术正是基于这两方面建立声学模型，实现对音节流的分词。而在本申请中，也可以直接利用该技术实现对用户语音信息的识别，具体方案步骤如下：

利用声学模型对所述语音信息切分，得到至少1个语音片段；

判断所得到的语音片段或其组合，是否与满足建模要求的预设关键词的音频特征相匹配，如果是，则确定所述语音信息中携带满足建模要求的预设关键词。

例如，预设关键词包括：转账、余额、账户、密码共4个，则系统中需要分别预先存储这4个关键词的音频数据或音频特征数据；如果接收到用户的语音为“查询余额”，则首先可以利用声学模型切分得到若干语音片段(根据切分算法的不同，可能具体切分结果也不同，这里不做讨论)，通过对比可知道这些片段或片段的组合中包含与“余额”音频特征相匹配的部分，则可以确定语音信息中携带满足建模要求的关键词。

b)利用语言特征：

文本分词属于自然语言处理技术领域，相对于纯声学层面的分词而言，文本分词技术更为成熟，实际效果也更好。另外，可以理解的是，同一种发音可以对应多种文字，因此在匹配过程中，直接对比文字内容可以达到更好的效果，在本申请中，可以直接利用语音识别技术和文本分词技术的结合，实现对用户语音信息的识别，具体方案步骤如下：

对所述语音信息进行语音识别，得到对应的文本信息；

利用语言模型对所述文本信息切分，得到至少1个文本片段；

判断所得到的文本片段或其组合，是否与满足建模要求的预设关键词的文本内容相一致，如果是，则确定所述语音信息中携带满足建模要求的预设关键词。

上述两种方案，本领域技术人员可以根据实际需求灵活选择。例如，根据不同语言的特点，西方文字(如英语、法语等)的每个单词都具有相对完整的意义，而中文中的每个字则不具有该特点，因此仅利用利用声学特征的处理方式，目前更适合于对西方语言的处理。而对中文的处理则建议结合语言方面的特征进行处理。当然需要说明的是，本申请的重点并不在于语音识别算法或分词算法，只要能够实现相应需求的技术手段都可以应用于本申请。

如果在S102已确认用户语音信息中携带满足建模要求的预设关键词，那么在S103将进一步从语音信息中截取相应的语音片段。如果在S102是基于语音片段进行判断，则直接根据语音片段的匹配结果进行截取；如果在S102是基于文本片段进行判断，则根据文本片段的匹配结果反推得到相应的语音片段位置进行截取。例如，用户说了“我想查询账户余额”，其中“账户”、“余额”为满足建模要求的预设关键词，根据在S102的处理过程，能够确定这两个词在整个语音信息中的相对位置，进而将“账户”、“余额”两个词的音频片段截取出来。

在S104，利用S103所截取的音频片段进行声纹建模，具体的建模方法与本申请无关，这里不做详细描述。最后，将建模结果与S101中确定的说话者身份标识进行关联保存，形成该用户的声纹模型库。

应用上述方法，可以在用户使用其他语音功能时，以一种“顺带”的方式完成声纹建模，方便了用户使用。而且“关键词”的使用，既能满足“文本相关”的建模需求，又能够保证较高的建模成功率。

另外，上述方法除了应用于首次注册声纹信息之外，还可以应用于声纹模型的更新。具体的更新策略，可以从以下两个角度考虑：

1)模型的完善：

上述声纹建模过程支持多个默认关键词，而用户并不一定能够在一次语音交互过程中说出全部的关键词，但是用户的语音交互属于常规行为，因此在完成首次声纹建模后，完全可以在后续与用户交互的过程中，再次采集用户的语音信息，如果新采集到的语音信息中包含了之前的模型中所没有的关键词，则可以利用这个新的关键词，对已有的声纹模型进行补充。

具体而言，对于某个特定用户，假设当前已经存在该用户的声纹模型，则在S102中，可以将“满足建模要求的预设关键词”进一步限定为“用户当前声纹模型中未包含的预设关键词”。

例如，系统指定的关键词包括：“转账”、“余额”、“账户”、“密码”这4个，在用户X首次注册声纹信息时，已经为该用户分别建立针对了“账户”、“余额”两个关键词的声纹模型。在此后，又采集到了用户X的语音信息“我要修改账户密码”，根据S102，可以确定“账户”和“密码”均属于预设关键词，其中“密码”属于用户X当前声纹模型中未包含的预设关键词，因此后续将利用“密码”进行声纹建模，并且将该建模结果添加到用户X的声纹模型库中。

应用这种方法，可以不断完善用户的声纹模型，以适应各种特殊需求。此外，如果系统对安全性能要求比较高，可以规定用户声纹模型所包含的关键词必须大于一定数量才可以应用，在一次语音信息采集无法实现的情况下，可以采用本实施例的方法，通过多次采集用户的语音信息，完成用户的声纹建模。

2)模型的训练：

生物识别技术和机器学习技术关联紧密，在很多应用场景下，往往利用多次采集样本方式来训练模型，从而改善识别的准确性、容错性等多方面性能。针对本申请方案而言，同样也可以通过多次采集同一用户针对同一关键词的语音信息，来完成声纹模型的训练。

可见，这里的需求与1)是相反的，具体而言，为了实现同一关键词声纹样本的多次采集，在S102中，应将“满足建模要求的预设关键词”进一步限定为“用户当前声纹模型中已包含的预设关键词”。

例如，系统指定的关键词包括：“转账”、“余额”、“账户”、“密码”这4个，在用户X首次注册声纹信息时，已经为该用户分别建立针对了“账户”、“余额”两个关键词的声纹模型。在此后的语音信息采集过程中，可以只关注“账户”、“余额”这两个关键词，从而对这两个关键词的声纹模型进行持续训练。

在实际应用中，为避免无限制地采集用户语音信息，也可以设置一些限制条件，例如，如果针对某个关键词采集到的声纹样本数量已经达到某个阈值，则后续不再针对该关键词继续采集声纹样本。

此外，根据具体的应用需求以及所选择的训练算法，对于多次采集到的样本，可以采用求平均值、同时保留等方法进行处理，本申请对此不需要进行限定。

以上两种更新策略，可以分别独立实施，也可以结合实施。事实上，从宏观的角度，即便不对“满足建模要求的预设关键词”进行限定，也不影响两种功能的实现。也就是说，在每次执行S102时，都尽量去获取本次语音信息中所携带的所有关键词，如果是之前模型中未包含的关键词，就针对其建立新的声纹模型，如果是之前模型中已包含的关键词，就利用其对之前的模型进行训练。并且，上述两种功能也可以择一实现。重要的是，应用本申请方案可以在不给用户添加麻烦的前提下不断学习，逐渐完善用户的声纹模型。

以上介绍了本申请所提供的用户声纹模型构建方法，基于类似的思路，本申请还提供一种基于声纹的用户身份认证方法，参见图2所示，该方法可以包括以下步骤：

S201，接收用户输入的语音信息；

S202，判断所述语音信息中是否携带满足认证要求的预设关键词；

S203，在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段；

S204，提取所述语音片段的声纹特征；

S205，利用所述声纹特征与预先构建的所述用户的声纹模型，对所述用户的身份进行认证。

其中S201-S203与S101-S103在技术实现方面基本一致，区别仅在于应用场景不同，S204-S205则是常规的声纹认证步骤，这里均不做详细介绍，以下重点说明本申请方案与传统声纹认证方案的区别：

根据本申请背景技术部分的介绍可知，声纹识别主要包括注册与应用两个环节，其中注册环节是为应用环节提供必要的数据准备，应用本申请方法实现的声纹建模，原则上可以适用于各类应用需求。除此之外，根据本申请方案的特点，还可以满足一些特殊的应用需求。

严格意义上讲，包括声纹识别在内生物特征识别技术的应用场景还可以再细分为两类：认证(verification)和识别(identification)。认证指的是验证用户是否为他所声明的身份，例如指纹锁、声纹锁等等；识别指的是确定用户的身份，例如公安机关通过调查案发现场的指纹或录音确定罪犯。不难看出，认证的要求比识别要低。

本申请所提供的技术方案，基于“认证”需求提出，与常规的声纹认证相比，至少具有以下特点：

首先，尽管是基于“文本相关”声纹技术，但是应用本申请所提供的方案，并不需要用户特地去说出“规定的内容”，系统也不需要特地去提示或引导用户，因为上述需求均可以在用户进行其他操作时顺带完成。

例如，在银行的自助语音服务系统中，用户拨打服务电话，根据自助语音提示，在“一句话描述问题”环节说出了“查询余额”，系统会该信息进行语音识别，语义识别，需求分析等处理，判断出该业务涉及个人隐私，因此需要进一步验证用户身份。传统的处理方式可能是：提示用户“请输入您的账户密码，按#键结束”，然后用户根据提示操作，完成认证。而利用本申请所提供的方案，如果之前已经针对该用户完成了关键词“余额”的建模，在用户说出“查询余额”之后，已经可以通过声纹的方式完成认证，从而无需用户输入密码。在无需特地说出“规定内容”的情况下，享受到声纹认证方式的便捷。

其次，尽管用户说话的具体内容存在不确定性，然而根据“关键词”的特点，实际上用户是有很高的概率说出这些关键词的，而且这个概率可以随关键词数量的增加而显著改善。而即便声纹认证失败，还可以进一步采用常规的认证方式，例如上面例子中的手动输入密码，对于用户而言，也并没有增加额外的麻烦。

再次，通过对S203中“满足认证要求的预设关键词”进行限定，还可以进一步改善系统性能或满足特定需求。例如可以将“满足认证要求的预设关键词”限定为：用户当前声纹模型中已包含的预设关键词，避免系统后续进行无效的声纹提取或匹配等处理；此外，对于支付交易等对安全性有较高要求的应用场景，也可以在“满足认证要求的预设关键词”中对用户语音中所携带的关键词数量进行限定，如果不满足该数量要求，则认为不够安全，此时可以放弃声纹认证方式，改用其他更安全的方式。

最后，可以理解的是，本申请所提供的声纹建模方法和声纹认证方法是基于相同的原理，因此两套方案之间可以以各种方式结合。例如，在认证流程之后，仍然可以利用用户本次认证时使用的语音信息进行声纹模型的完善。典型的应用是：先判断本次认证所用的语音信息是否携带了用户当前声纹模型中未包含的预设关键词，如果是，则从该语音信息中截取出于对应该关键词的语音片段，并利用该语音片段对用户的声纹模型进行更新。具体的更新方式可以参考前面的实施例，这里不再重复描述。另外，从技术流程的角度，身份认证是否成功，并不影响声纹模型的更新，当然，如果考虑提高安全性，也可以在用户身份认证成功的情况下，再触发更新声纹模型的操作，而且这里的“身份认证成功”也并不限于声纹身份认证。

总之，与现有技术相比，本申请的主要优势在于：能够在用户执行其他基于语音的操作时，顺带完成用户声纹信息的注册和认证，方便用户使用。而且通过针对特定的应用场景设置特定关键词，既能够保留“文本相关”的优势，又能够在原本不确定的应用场景保证较高的成功率。

相应于上述方法实施例，本申请还提供一种用户声纹模型构建装置，参见图3所示，该装置可以包括：

语音信息接收模块110，用于接收用户输入的语音信息；

建模关键词判断模块120，用于判断所述语音信息中是否携带满足建模要求的预设关键词；

语音片段截取模块130，用于在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段；

声纹模型构建模块140，用于利用所述语音片段，为所述用户构建声纹模型。

根据本申请的一种具体实施方式，建模关键词判断模块120具体可以用于：

在当前已存在所述用户的声纹模型的情况下，判断所述语音信息中是否携带该声纹模型中未包含的预设关键词；

或

在当前已存在所述用户的声纹模型的情况下，判断所述语音信息中是否携带该声纹模型中已包含的预设关键词。

根据本申请的一种具体实施方式，所述声纹模型构建模块140，具体可以用于：

在当前已存在所述用户的声纹模型的情况下，利用所述语音片段，对该声纹模型进行更新。

根据本申请的一种具体实施方式，建模关键词判断模块120，具体可以用于：

利用声学模型对所述语音信息切分，得到至少1个语音片段；

或者

建模关键词判断模块120，还具体可以用于：

对所述语音信息进行语音识别，得到对应的文本信息；

利用语言模型对所述文本信息切分，得到至少1个文本片段；

相应于上述方法实施例，本申请还提供一种基于声纹的用户身份认证装置，参见图4所示，该装置可以包括：

语音信息接收模块210，用于接收用户输入的语音信息；

认证关键词判断模块220，用于判断所述语音信息中是否携带满足认证要求的预设关键词；

语音片段截取模块230，用于在判断结果为是的情况下，从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段；

声纹特征提取模块250，用于提取所述语音片段的声纹特征；

认证模块260，用于利用所述声纹特征与预先构建的所述用户的声纹模型，对所述用户的身份进行认证。

本申请还提供一种基于声纹的用户身份认证系统，该系统可以包括上述的用户声纹模型构建装置以及用户身份认证装置。

事实上，以上两种装置的一些模块实现的功能是完全相同的，例如：

语音信息接收模块110和语音信息接收模块210；

语音片段截取模块130和语音片段截取模块230；

而认证关键词判断模块120和认证关键词判断模块220的区别也仅在于判断所依据的规则不同，因此，在实际应用时，完全可以将在系统中复用这些相同或相似的模块，如图5所示。

语音信息接收模块310综合了语音信息接收模块110和语音信息接收模块210的功能；

关键词判断模块320综合了认证关键词判断模块120和认证关键词判断模块220的功能；

语音片段截取模块330综合了语音片段截取模块130和语音片段截取模块230；

声纹模型构建模块340、声纹特征提取模块350、认证模块360则分别与前述的装置中的同名模块功能相同。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本申请方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种用户声纹模型构建方法，其特征在于，该方法包括：

接收用户输入的语音信息；

判断所述语音信息中是否携带满足建模要求的预设关键词；

利用所述语音片段，为所述用户构建声纹模型。

2.根据权利要求1所述的方法，其特征在于，所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤，包括：

或

3.根据权利要求1或2所述的方法，其特征在于，所述利用所述语音片段，为所述用户构建声纹模型的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤，包括：

利用声学模型对所述语音信息切分，得到至少1个语音片段；

5.根据权利要求1所述的方法，其特征在于，所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤，包括：

对所述语音信息进行语音识别，得到对应的文本信息；

利用语言模型对所述文本信息切分，得到至少1个文本片段；

6.一种基于声纹的用户身份认证方法，其特征在于，该方法包括：

接收用户输入的语音信息；

判断所述语音信息中是否携带满足认证要求的预设关键词；

提取所述语音片段的声纹特征；

7.根据权利要求6所述的方法，其特征在于，还包括：

判断所述语音信息中是否携带所述用户的声纹模型中未包含的预设关键词，

在判断结果为是的情况下，从所述语音信息中截取出于对应于所述未包含的预设关键词的语音片段；

利用所述对应于所述未包含的预设关键词的语音片段，对所述用户的声纹模型进行更新。

8.一种用户声纹模型构建装置，其特征在于，该装置包括：

语音信息接收模块，用于接收用户输入的语音信息；

9.根据权利要求8所述的装置，其特征在于，所述建模关键词判断模块，具体用于：

或

10.根据权利要求8或9所述的装置，其特征在于，所述声纹模型构建模块，具体用于：

11.根据权利要求8所述的装置，其特征在于，所述建模关键词判断模块，具体用于：

利用声学模型对所述语音信息切分，得到至少1个语音片段；

12.根据权利要求8所述的装置，其特征在于，所述建模关键词判断模块，具体用于：

对所述语音信息进行语音识别，得到对应的文本信息；

利用语言模型对所述文本信息切分，得到至少1个文本片段；

13.一种基于声纹的用户身份认证装置，其特征在于，该装置包括：

语音信息接收模块，用于接收用户输入的语音信息；

声纹特征提取模块，用于提取所述语音片段的声纹特征；

14.一种基于声纹的用户身份认证系统，其特征在于，该系统包括：如权利要求7至12任一项所述的用户声纹模型构建装置，以及如权利要求13所述的用户身份认证装置。