CN107492379B - 一种声纹创建与注册方法及装置 - Google Patents

一种声纹创建与注册方法及装置 Download PDF

Info

Publication number
CN107492379B
CN107492379B CN201710527022.7A CN201710527022A CN107492379B CN 107492379 B CN107492379 B CN 107492379B CN 201710527022 A CN201710527022 A CN 201710527022A CN 107492379 B CN107492379 B CN 107492379B
Authority
CN
China
Prior art keywords
user
voiceprint
voice
registration
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710527022.7A
Other languages
English (en)
Other versions
CN107492379A (zh
Inventor
王文宇
胡媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201710527022.7A priority Critical patent/CN107492379B/zh
Application filed by Baidu Online Network Technology Beijing Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to US16/477,121 priority patent/US11100934B2/en
Priority to PCT/CN2017/113772 priority patent/WO2019000832A1/zh
Priority to JP2019530680A priority patent/JP2020503541A/ja
Priority to KR1020197016874A priority patent/KR102351670B1/ko
Priority to EP17915945.4A priority patent/EP3564950B1/en
Publication of CN107492379A publication Critical patent/CN107492379A/zh
Priority to JP2020179787A priority patent/JP7062851B2/ja
Application granted granted Critical
Publication of CN107492379B publication Critical patent/CN107492379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供一种声纹创建与注册方法及装置,包括:提示用户注册声纹ID;采用文本相关的训练方法,为未注册用户建立声纹模型;生成用户ID,提示用户输入用户ID相关数据;将用户ID和声纹模型对应存储到声纹注册数据库。能够避免现有技术中声纹创建与注册方法技术学习成本较高,较为打扰用户的问题。使得声纹的建立过程能够覆盖各种场景,声纹建立可以在各个阶段引导用户,或者通过频次将声纹建立与注册分离,对用户的打扰最小化,引导用户注册声纹而后使得语音交互产品可以基于声纹对用户提供个性化服务。

Description

一种声纹创建与注册方法及装置
【技术领域】
本申请涉及人工智能应用领域,尤其涉及一种声纹创建与注册方法及装置。
【背景技术】
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。其中,人工智能很重要的一个方面就是声纹识别技术。
近年来,人工智能技术有了深远的发展,并逐步实现产品化。特别是智能语音对话产品,随着国外的亚马逊Echo智能音响及Google Home智能音响的兴起,掀起了以对话为主要交互方式的智能家居产品特别是智能音响产品的流行热潮。
包括智能音箱在内的智能语音对话产品的典型使用场景是在家庭之中,在家庭中用户用语音与机器进行交互十分自然,而家庭中往往是多用户,每个用户必然会有不同的需求,但目前产品的服务都很粗糙,对所有的用户提供的是一套相同的服务,产品对用户请求的应答使用的都是同一套通用标准,造成了用户个性化需求无法得到满足。
语音对话的优势就是能收录用户的声音,每个人都有自己的声音,就像指纹一样,所以我们又称每个人的声音为声纹,通过说话人的声纹,判断出说话人是哪位用户,并提取该用户的数据,以提供个性化的服务。目前业界的声纹技术都不成熟,难以达到产品化的要求。
现有技术中存在声纹创建与注册方法技术学习成本较高,较为打扰用户的问题。
【发明内容】
本申请的多个方面提供一种声纹创建与注册方法及装置,用以为用户提供个性化服务,降低学习成本。
本申请的一方面,提供一种声纹创建与注册方法,包括:
当设备首次启用,提示创建声纹并注册;
采用文本相关的训练方法,为用户建立声纹模型;
生成用户ID;
将用户ID和声纹模型对应存储到声纹注册数据库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述采用文本相关的训练方法,为用户建立声纹模型包括以下子步骤:
将注册字符串提供给用户;
接收用户阅读注册字符串的语音信息;
根据性别分类器和语音确定用户的性别标签;
根据性别标签和语音生成用户的声纹模型。
本申请的另一方面,提供一种声纹创建与注册方法,包括:
获取用户发送的语音请求;
根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID;
若未识别到用户ID,则提示创建声纹并注册;
生成用户ID;
将用户ID和声纹模型对应存储到声纹注册数据库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取用户发送的语音请求进一步包括:
判断是否需要向云端发送所述语音请求,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取用户发送的语音请求进一步包括:
判断所述语音请求是否需要识别用户ID,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述提示创建声纹并注册包括:
将未识别到用户ID的声纹模型打上ID号;
判断所述打上ID号的声纹模型的出现频率;
如果低于阈值,则删除该ID号;
如果高于阈值,则生成用户ID;将用户ID和声纹模型对应存储到声纹注册数据库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述提示创建声纹并注册包括:
采用文本相关的训练方法,为未识别到用户ID的用户建立声纹模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述采用文本相关的训练方法,为未识别到用户ID的用户建立声纹模型包括:
将注册字符串提供给用户;
接收用户阅读注册字符串的语音信息;
根据性别分类器和语音确定用户的性别标签;
根据性别标签和语音生成用户的声纹模型。
本发明的另一方面,提供一种声纹创建与注册装置,包括:
提示模块、声纹建立模块、输入模块、注册模块;其中,
所述提示模块,用于当设备首次启用,提示创建声纹并注册;
所述声纹建立模块,用于采用文本相关的训练方法,为用户建立声纹模型;
所述输入模块,用于生成用户ID;
所述注册模块,用于将用户ID和声纹模型对应存储到声纹注册数据库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述声纹建立模块,具体包括以下子模块:
提供子模块,用于将注册字符串提供给用户;
接收子模块,用于接收用户阅读注册字符串的语音信息;
确定子模块,用于根据性别分类器和语音确定用户的性别标签;
生成子模块,用于根据性别标签和语音生成用户的声纹模型。
本发明的另一方面,提供一种声纹创建与注册装置,包括:
获取模块、声纹识别模块、提示模块、输入模块和注册模块;其中,
所述获取模块,用于获取用户发送的语音请求;
所述声纹识别模块,用于根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID;
所述提示模块,用于提示未注册用户创建声纹并注册;
所述输入模块,用于生成用户ID;
所述注册模块,用于将用户ID和声纹模型对应存储到声纹注册数据库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取模块具体执行:
判断是否需要向云端发送所述语音请求,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述提示模块具体执行:
判断所述语音请求是否需要识别用户ID,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述提示模块具体执行:
将未识别到用户ID的声纹模型打上ID号;
判断所述打上ID号的声纹模型的出现频率;
如果低于阈值,则删除该ID号;
如果高于阈值,则生成用户ID;将用户ID和声纹模型对应存储到声纹注册数据库。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述提示模块具体执行:
采用文本相关的训练方法,为未注册用户建立声纹模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述提示模块包括以下子模块:
提供子模块,用于将注册字符串提供给用户;
接收子模块,用于接收用户阅读注册字符串的语音信息;
确定子模块,用于根据性别分类器和语音确定用户的性别标签;
生成子模块,用于根据性别标签和语音生成用户的声纹模型。
本申请的另一方面,提供一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一上述的方法。
本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任一上述的方法。
由所述技术方案可知,本申请实施例能够避免现有技术中声纹识别方法技术依赖性极强、使用策略单一、产品化程度低的问题。具有较高的技术容错率,加快产品化速度,为用户提供个性化服务。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的声纹创建与注册方法的流程示意图;
图2为本申请一实施例提供的声纹创建与注册方法中采用文本相关的训练方法,为未注册用户建立声纹模型的流程示意图;
图3为本申请另一实施例提供的声纹创建与注册方法的流程示意图
图4为本申请另一实施例提供的声纹创建与注册方法中根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID的流程示意图;
图5为本申请另一实施例提供的声纹创建与注册方法中提示未注册用户创建声纹并注册的流程示意图;
图6为本申请另一实施例提供的声纹创建与注册装置的结构示意图;
图7为本申请一实施例提供的声纹创建与注册装置的声纹建立模块的结构示意图;
图8为本申请另一实施例提供的声纹创建与注册装置的结构示意图;
图9为本申请另一实施例提供的声纹创建与注册装置的提示模块的结构示意图;
图10为适于用来实现本发明实施例的示例性计算机系统/服务器的框图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
对于一个智能语音交互设备,存在一个MateAPP在手机端与智能语音交互设备配合,完成一系列任务。为了建立声纹,在MateAPP上创建有一个“声纹管理”功能模块,在其中用户可以创建、删除和修改账号下的声纹。
图1为本申请一实施例提供的声纹创建与注册方法的流程示意图,如图1所示,包括以下步骤:
在101中,当设备首次启用,提示创建声纹并注册;
当设备第一次启动上电,提示用户通过MateAPP注册至少一个声纹ID,并确认相关身份信息,如姓名、年龄、性别等信息。
用户通过MateAPP或通过语音表达要创建声纹的意愿从而进行声纹创建。
在102中,采用文本相关的训练方法,为用户建立声纹模型;具体的,如图2所示,包括以下子步骤:
在201中,将注册字符串提供给用户。
可以理解,该注册字符串的形式可以有很多种:
作为一种示例,该注册字符串可为随机生成的数字串。此外,为了能够覆盖更大的样本空间,注册字符串中的数字只出现一次。
作为另一种示例,该注册字符串可为随机生成的汉字字符串。
在202中,接收用户阅读注册字符串的语音信息。
具体地,在将该注册字符串提供给用户之后,用户可按照提供的注册字符串进行多次朗读以生成多条语音进行注册。在用户阅读该注册字符串的过程中,或者在用户完成阅读该注册字符串时,可接收用户按照提供的注册字符串进行朗读而生成的语音信息。
在203中,根据性别分类器和语音确定用户的性别标签。
在本发明的实施例中,可根据性别分类器对语音进行性别分类,得到该用户的性别标签。其中,该性别标签包括男性或女性。具体而言,提取所获取到的语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是用户的性别标签。
举例而言,以性别分类模型为高斯混合模型为例,可先对该语音提取基频特征以及梅尔频率倒谱系数MFCC特征,之后,可基于高斯混合模型对基频特征以及MFCC特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。
在204中,根据性别标签和语音生成用户的声纹模型。
根据与所述性别标签对应的DNN模型获取每条语音的后验概率。
根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型。
具体地,根据性别分类器返回的与语音对应的性别标签,将用户输入的多条语音发送到对应性别的DNN模型中。也就是说,如果语音对应的是男性语音,将语音发送到男性DNN模型中。如果语音对应的是女性语音,将语音发送到女性DNN模型中。
根据与性别标签对应的DNN模型获取每条语音对应的多个后验概率。
根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:
获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。
在103中,生成用户ID,提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据。
在104中,将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
其中,所述预存的声纹模型关联在同一账号,例如百度账号,之下,该账号下所有的声纹形成一个集合。各个智能语音交互设备与账号是唯一绑定的,通过账号将智能语音交互设备与声纹联系起来,声纹可以通过账号下的任意设备注册,一旦注册,可以在账号下任意智能语音设备中使用。当某一账号下的设备采集声纹后,就在该同一账号下的家庭声纹集合中进行匹配,识别声纹ID,达到了三者的统一,实现了从端到端的声纹集合识别解决方案。
图3为本申请另一实施例提供的声纹创建与注册方法的流程示意图,如图3所示,包括以下步骤:
在301中,获取用户发送的语音请求;
在本实施例的一种实现方式中,在智能语音交互设备联网后,用户与智能语音交互设备进行语音交互,判断是否需要向云端发送语音请求;如果是,则进一步识别发出语音请求的用户ID。
在本实施例的另一种实现方式中,首先对语音请求进行语音识别,得到命令语音所描述的命令,确定所述命令对应垂类;如果所述垂类不需要确定用户ID以提供个性化推荐,则直接响应语音请求;如果所述垂类需要确定用户ID以提供个性化推荐,则进一步识别发出语音请求的用户ID。
在302中,根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID;具体的,如图4所示,包括以下子步骤:
在401中,根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户性别标签。
由于不同性别的用户群,具有特殊的声纹特征,因此,可以根据用户群的声音特点,进行模型训练,以实现面向不同性别的用户群的声纹分析。当用户发起语音请求时,根据用户发出的语音请求,采用声纹识别方式,识别出发出语音请求的用户性信息。
在声纹识别之前,需要先对说话人的声纹进行建模,即“训练”或“学习”。具体的,通过应用深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。从而建立了区分性别的声纹处理模型。
根据所获取到的命令语音,提取所述命令语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是命令语音的性别标签。
举例而言,以性别分类器为高斯混合模型为例,可先对所述语音请求提取基频特征以及梅尔频率倒谱系数MFCC特征,之后,可基于高斯混合模型对基频特征以及MFCC特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。
在402中,识别出发出语音请求的用户性别标签后,进一步识别发出命令语音的用户声纹ID。
每个用户的声音会有一个唯一的声纹ID,该ID记录有该用户姓名、性别、年龄、爱好等个人数据。
具体地,根据性别分类器返回的与语音请求对应的性别标签,将用户输入的语音发送到对应性别的DNN模型中。也就是说,如果语音请求对应的是男性语音,将语音发送到男性DNN模型中。如果语音请求对应的是女性语音,将语音发送到女性DNN模型中。
根据与性别标签对应的DNN模型获取语音请求对应的多个后验概率。
根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:
获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。
通过将获取到的所述用户的声纹模型,与预存的声纹模型进行匹配,如果所述匹配值小于预先设定的阈值,则确定所述用户未进行注册,为首次使用智能设备,执行步骤303。
在303中,若未识别到用户ID,则提示创建声纹并注册;
在本实施例的一种实现方式中,若未识别到用户ID,则采用非文本相关的训练方法,为未注册用户建立声纹模型并注册。
具体的,将获取到的未进行注册的用户的声纹模型打上ID号;
生成用户ID,提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据并注册该声纹。
将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
在本实施例的另一种实现方式中,为对用户的打扰可以达到最小化,可以只给经常使用的家庭用户引导创建声纹,具体的:
将未识别到用户ID的声纹模型打上ID号;但不生成用户ID提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据;仅在后台记录该ID号所属用户的行为。
判断打上ID号的声纹模型的出现频率;
如果该声纹出现频次低,则自动删除该ID号;
如果该声纹出现频次较高或连续多天出现,则生成用户ID,提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据并注册该声纹。将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
在本实施例的一种实现方式中,采用文本相关的训练方法,为未识别到用户ID的用户建立声纹模型;在声纹技术尚不完善的情况下,可以使用文本相关的训练方法提高识别率。
具体的,如图5所示,采用文本相关的训练方法,为未识别到用户ID的用户建立声纹模型包括以下子步骤:
在501中,将注册字符串提供给用户。
可以理解,该注册字符串的形式可以有很多种:
作为一种示例,该注册字符串可为随机生成的数字串。此外,为了能够覆盖更大的样本空间,注册字符串中的数字只出现一次。
作为另一种示例,该注册字符串可为随机生成的汉字字符串。
在502中,接收用户阅读注册字符串的语音信息。
具体地,在将该注册字符串提供给用户之后,用户可按照提供的注册字符串进行多次朗读以进行注册。在用户阅读该注册字符串的过程中,或者在用户完成阅读该注册字符串时,可接收用户按照提供的注册字符串进行朗读而生成的语音信息。
在503中,根据性别分类器和语音确定用户的性别标签。
在本发明的实施例中,可根据性别分类器对语音进行性别分类,得到该用户的性别标签。其中,该性别标签包括男性或女性。具体而言,提取所获取到的语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是用户的性别标签。
举例而言,以性别分类模型为高斯混合模型为例,可先对该语音提取基频特征以及梅尔频率倒谱系数MFCC特征,之后,可基于高斯混合模型对基频特征以及MFCC特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。
在504中,根据性别标签和语音生成用户的声纹模型。
根据与所述性别标签对应的DNN模型获取每条语音的后验概率。
根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型。
具体地,根据性别分类器返回的与语音对应的性别标签,将用户输入的多条语音发送到对应性别的DNN模型中。也就是说,如果语音对应的是男性语音,将语音发送到男性DNN模型中。如果语音对应的是女性语音,将语音发送到女性DNN模型中。
根据与性别标签对应的DNN模型获取每条语音对应的多个后验概率。
根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:
获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。
在304中,生成用户ID,提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据。
在305中,将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
其中,所述预存的声纹模型关联在同一账号,例如百度账号,之下,该账号下所有的声纹形成一个集合。各个智能语音交互设备与账号是唯一绑定的,通过账号将智能语音交互设备与声纹联系起来,声纹可以通过账号下的任意设备注册,一旦注册,可以在账号下任意智能语音设备中使用。当某一账号下的设备采集声纹后,就在该同一账号下的家庭声纹集合中进行匹配,识别声纹ID,达到了三者的统一,实现了从端到端的声纹集合识别解决方案。
优选的,用户可以通过MateAPP以语音登录,对用户ID、声纹模型进行修改。
本实施例所述方法能够避免现有技术中声纹创建与注册方法技术学习成本较高,较为打扰用户的问题。实现了区分性别的声纹注册过程,以便应用区分性别的声纹认证处理模型提高了声纹认证的效率和准确性;使得声纹的建立过程能够覆盖各种场景,声纹建立可以在各个阶段引导用户,或者通过频次将声纹建立与注册分离,对用户的打扰最小化,引导用户注册声纹而后使得语音交互产品可以基于声纹对用户提供个性化服务。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在所述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图6为本申请另一实施例提供的声纹创建与注册装置的结构示意图,如6所示,包括提示模块61、声纹建立模块62、输入模块63、注册模块64;其中,
所述提示模块61,用于当设备首次启用,提示创建声纹并注册;
当设备第一次启动上电,引导用户通过MateAPP注册至少一个声纹ID,并确认相关身份信息,如姓名、年龄、性别等信息。
用户通过MateAPP或通过语音表达要创建声纹的意愿从而进行声纹创建。
所述声纹建立模块62,用于采用文本相关的训练方法,为用户建立声纹模型;具体的,如图7所示,包括以下子模块:
提供子模块71,用于将注册字符串提供给用户。
可以理解,该注册字符串的形式可以有很多种:
作为一种示例,该注册字符串可为随机生成的数字串。此外,为了能够覆盖更大的样本空间,注册字符串中的数字只出现一次。
作为另一种示例,该注册字符串可为随机生成的汉字字符串。
接收子模块72,用于接收用户阅读注册字符串的语音信息。
具体地,在将该注册字符串提供给用户之后,用户可按照提供的注册字符串进行多次朗读以生成多条语音进行注册。在用户阅读该注册字符串的过程中,或者在用户完成阅读该注册字符串时,可接收用户按照提供的注册字符串进行朗读而生成的语音信息。
确定子模块73,用于根据性别分类器和语音确定用户的性别标签。
在本发明的实施例中,可根据性别分类器对语音进行性别分类,得到该用户的性别标签。其中,该性别标签包括男性或女性。具体而言,提取所获取到的语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是用户的性别标签。
举例而言,以性别分类模型为高斯混合模型为例,可先对该语音提取基频特征以及梅尔频率倒谱系数MFCC特征,之后,可基于高斯混合模型对基频特征以及MFCC特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。
生成子模块74,用于根据性别标签和语音生成用户的声纹模型。
根据与所述性别标签对应的DNN模型获取每条语音的后验概率。
根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型。
具体地,根据性别分类器返回的与语音对应的性别标签,将用户输入的多条语音发送到对应性别的DNN模型中。也就是说,如果语音对应的是男性语音,将语音发送到男性DNN模型中。如果语音对应的是女性语音,将语音发送到女性DNN模型中。
根据与性别标签对应的DNN模型获取每条语音对应的多个后验概率。
根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:
获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。
输入模块63,用于生成用户ID,提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据。
注册模块64,用于将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
其中,所述预存的声纹模型关联在同一账号,例如百度账号,之下,该账号下所有的声纹形成一个集合。各个智能语音交互设备与账号是唯一绑定的,通过账号将智能语音交互设备与声纹联系起来,声纹可以通过账号下的任意设备注册,一旦注册,可以在账号下任意智能语音设备中使用。当某一账号下的设备采集声纹后,就在该同一账号下的家庭声纹集合中进行匹配,识别声纹ID,达到了三者的统一,实现了从端到端的声纹集合识别解决方案。
图8为本申请另一实施例提供的声纹创建与注册装置的结构示意图,如图8所示,包括以下步骤:
获取模块81,用于获取用户发送的语音请求;
在本实施例的一种实现方式中,在智能语音交互设备联网后,用户与智能语音交互设备进行语音交互,判断是否需要向云端发送语音请求;如果是,则进一步识别发出语音请求的用户ID。
在本实施例的另一种实现方式中,首先对语音请求进行语音识别,得到命令语音所描述的命令,确定所述命令对应垂类;如果所述垂类不需要确定用户ID以提供个性化推荐,则直接响应语音请求;如果所述垂类需要确定用户ID以提供个性化推荐,则进一步识别发出语音请求的用户ID。
声纹识别模块82,用于根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID;具体的,包括以下子模块:
用户性别识别子模块,用于根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户性别标签。
由于不同性别的用户群,具有特殊的声纹特征,因此,可以根据用户群的声音特点,进行模型训练,以实现面向不同性别的用户群的声纹分析。当用户发起语音请求时,根据用户发出的语音请求,采用声纹识别方式,识别出发出语音请求的用户性信息。
在声纹识别之前,需要先对说话人的声纹进行建模,即“训练”或“学习”。具体的,通过应用深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。从而建立了区分性别的声纹处理模型。
根据所获取到的命令语音,提取所述命令语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是命令语音的性别标签。
举例而言,以性别分类器为高斯混合模型为例,可先对所述语音请求提取基频特征以及梅尔频率倒谱系数MFCC特征,之后,可基于高斯混合模型对基频特征以及MFCC特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。
用户声纹ID识别子模块,用于识别出发出语音请求的用户性别标签后,进一步识别发出命令语音的用户声纹ID。
每个用户的声音会有一个唯一的声纹ID,该ID记录有该用户姓名、性别、年龄、爱好等个人数据。
具体地,根据性别分类器返回的与语音请求对应的性别标签,将用户输入的语音发送到对应性别的DNN模型中。也就是说,如果语音请求对应的是男性语音,将语音发送到男性DNN模型中。如果语音请求对应的是女性语音,将语音发送到女性DNN模型中。
根据与性别标签对应的DNN模型获取语音请求对应的多个后验概率。
根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:
获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。
通过将获取到的所述用户的声纹模型,与预存的声纹模型进行匹配,如果所述匹配值小于预先设定的阈值,则确定所述用户未进行注册,为首次使用智能设备。
提示模块83,用于若未识别到用户ID,则提示创建声纹并注册;
在本实施例的一种实现方式中,若未识别到用户ID,为首次使用智能设备,则提示模块83采用非文本相关的训练方法,为用户建立声纹模型。
具体的,
将未识别到用户ID的声纹模型打上ID号;
生成用户ID;提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据并注册该声纹。
将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
在本实施例的另一种实现方式中,为对用户的打扰可以达到最小化,可以只给经常使用的家庭用户引导创建声纹,具体的:
将未识别到用户ID的声纹模型打上ID号;但不生成用户ID提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据;仅在后台记录该ID号所属用户的行为。
判断打上ID号的声纹模型的出现频率;
如果该声纹出现频次低,则自动删除该ID号;
如果该声纹出现频次较高或连续多天出现,则生成用户ID,提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据并注册该声纹。将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
在本实施例的一种实现方式中,提示模块83采用文本相关的训练方法,为未识别到用户ID的建立声纹模型并注册;在声纹技术尚不完善的情况下,可以使用文本相关的训练方法提高识别率。具体的,如图9所示,包括以下子模块:
提供子模块91,用于将注册字符串提供给用户。
可以理解,该注册字符串的形式可以有很多种:
作为一种示例,该注册字符串可为随机生成的数字串。此外,为了能够覆盖更大的样本空间,注册字符串中的数字只出现一次。
作为另一种示例,该注册字符串可为随机生成的汉字字符串。
接收子模块92,用于接收用户阅读注册字符串的语音信息。
具体地,在将该注册字符串提供给用户之后,用户可按照提供的注册字符串进行多次朗读以进行注册。在用户阅读该注册字符串的过程中,或者在用户完成阅读该注册字符串时,可接收用户按照提供的注册字符串进行朗读而生成的语音信息。
确定子模块93,用于根据性别分类器和语音确定用户的性别标签。
在本发明的实施例中,可根据性别分类器对语音进行性别分类,得到该用户的性别标签。其中,该性别标签包括男性或女性。具体而言,提取所获取到的语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是用户的性别标签。
举例而言,以性别分类模型为高斯混合模型为例,可先对该语音提取基频特征以及梅尔频率倒谱系数MFCC特征,之后,可基于高斯混合模型对基频特征以及MFCC特征进行后验概率值计算,根据计算结果确定该用户的性别,例如,假设该高斯混合模型为男性高斯混合模型,则当计算结果为后验概率值很高,如大于一定阈值时,可确定该用户的性别为男性,当计算结果为后验概率值很小,如小于一定阈值时,可确定该用户的性别为女性。
生成子模块94,用于根据性别标签和语音生成用户的声纹模型。
根据与所述性别标签对应的DNN模型获取每条语音的后验概率。
根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型。
具体地,根据性别分类器返回的与语音对应的性别标签,将用户输入的多条语音发送到对应性别的DNN模型中。也就是说,如果语音对应的是男性语音,将语音发送到男性DNN模型中。如果语音对应的是女性语音,将语音发送到女性DNN模型中。
根据与性别标签对应的DNN模型获取每条语音对应的多个后验概率。
根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。
根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹模型,获取的方式很多,可以根据不同的应用需要进行选择,例如:
获取多个第二特征向量的平均特征向量作为所述用户的声纹模型。
输入模块84,用于生成用户ID,提示用户输入姓名、性别、年龄、爱好、家庭住址、工作地址等用户ID相关数据。
注册模块85,用于将用户ID和声纹模型对应存储到声纹注册数据库的某一账号之下,以便后续根据该声纹模型进行声纹识别,并对账号下任意智能语音设备进行语音控制。
其中,所述预存的声纹模型关联在同一账号,例如百度账号,之下,该账号下所有的声纹形成一个集合。各个智能语音交互设备与账号是唯一绑定的,通过账号将智能语音交互设备与声纹联系起来,声纹可以通过账号下的任意设备注册,一旦注册,可以在账号下任意智能语音设备中使用。当某一账号下的设备采集声纹后,就在该同一账号下的家庭声纹集合中进行匹配,识别声纹ID,达到了三者的统一,实现了从端到端的声纹集合识别解决方案。
优选的,用户可以通过MateAPP以语音登录,对用户ID、声纹模型进行修改。
本实施例所述方法能够避免现有技术中声纹创建与注册方法技术学习成本较高,较为打扰用户的问题。实现了区分性别的声纹注册过程,以便应用区分性别的声纹认证处理模型提高了声纹认证的效率和准确性;使得声纹的建立过程能够覆盖各种场景,声纹建立可以在各个阶段引导用户,或者通过频次将声纹建立与注册分离,对用户的打扰最小化,引导用户注册声纹而后使得语音交互产品可以基于声纹对用户提供个性化服务。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的终端和服务器的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本实施例所述装置能够避免现有技术中声纹创建与注册方法技术学习成本较高,较为打扰用户的问题。使得声纹的建立过程能够覆盖各种场景,声纹建立可以在各个阶段引导用户,或者通过频次将声纹建立与注册分离,对用户的打扰最小化,引导用户注册声纹而后使得语音交互产品可以基于声纹对用户提供个性化服务。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
图10示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图10显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图10中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种声纹创建与注册方法,其特征在于,包括:
获取用户发送的语音请求;
根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID;
若未识别到用户ID,则将未识别到用户ID的声纹模型打上ID号;
如果打上ID号的声纹模型的出现频率低于阈值,则删除所述ID号;
如果所述打上ID号的声纹模型的出现频率高于阈值,则提示创建声纹并注册,生成用户ID,将用户ID和声纹模型对应存储到声纹注册数据库。
2.根据权利要求1所述的声纹创建与注册方法,其特征在于,所述获取用户发送的语音请求进一步包括:
判断是否需要向云端发送所述语音请求,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
3.根据权利要求1所述的声纹创建与注册方法,其特征在于,所述获取用户发送的语音请求进一步包括:
判断所述语音请求是否需要识别用户ID,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
4.根据权利要求1所述的声纹创建与注册方法,其特征在于,所述提示创建声纹并注册包括:
采用文本相关的训练方法,为未识别到用户ID的用户建立声纹模型。
5.根据权利要求4所述的声纹创建与注册方法,其特征在于,所述采用文本相关的训练方法,为未识别到用户ID的用户建立声纹模型包括:
将注册字符串提供给用户;
接收用户阅读注册字符串的语音信息;
根据性别分类器和语音确定用户的性别标签;
根据性别标签和语音生成用户的声纹模型。
6.一种声纹创建与注册装置,其特征在于,包括:
获取模块、声纹识别模块、提示模块、输入模块和注册模块;其中,
所述获取模块,用于获取用户发送的语音请求;
所述声纹识别模块,用于根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID;
所述提示模块,用于将未识别到用户ID的声纹模型打上ID号;如果打上ID号的声纹模型的出现频率低于阈值,则删除所述ID号;如果所述打上ID号的声纹模型的出现频率高于阈值,则提示未注册用户创建声纹并注册;
所述输入模块,用于生成用户ID;
所述注册模块,用于将用户ID和声纹模型对应存储到声纹注册数据库。
7.根据权利要求6所述的声纹创建与注册装置,其特征在于,所述获取模块具体执行:
判断是否需要向云端发送所述语音请求,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
8.根据权利要求6所述的声纹创建与注册装置,其特征在于,所述提示模块具体执行:
判断所述语音请求是否需要识别用户ID,如果是,则根据所述语音请求,采用声纹识别方式,识别发出语音请求的用户ID。
9.根据权利要求6所述的声纹创建与注册装置,其特征在于,所述提示模块具体执行:
采用文本相关的训练方法,为未注册用户建立声纹模型。
10.根据权利要求9所述的声纹创建与注册装置,其特征在于,所述提示模块包括以下子模块:
提供子模块,用于将注册字符串提供给用户;
接收子模块,用于接收用户阅读注册字符串的语音信息;
确定子模块,用于根据性别分类器和语音确定用户的性别标签;
生成子模块,用于根据性别标签和语音生成用户的声纹模型。
11.一种声纹创建与注册设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710527022.7A 2017-06-30 2017-06-30 一种声纹创建与注册方法及装置 Active CN107492379B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201710527022.7A CN107492379B (zh) 2017-06-30 2017-06-30 一种声纹创建与注册方法及装置
PCT/CN2017/113772 WO2019000832A1 (zh) 2017-06-30 2017-11-30 一种声纹创建与注册方法及装置
JP2019530680A JP2020503541A (ja) 2017-06-30 2017-11-30 声紋の作成・登録の方法及び装置
KR1020197016874A KR102351670B1 (ko) 2017-06-30 2017-11-30 성문 구축 및 등록 방법 및 그 장치
US16/477,121 US11100934B2 (en) 2017-06-30 2017-11-30 Method and apparatus for voiceprint creation and registration
EP17915945.4A EP3564950B1 (en) 2017-06-30 2017-11-30 Method and apparatus for voiceprint creation and registration
JP2020179787A JP7062851B2 (ja) 2017-06-30 2020-10-27 声紋の作成・登録の方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710527022.7A CN107492379B (zh) 2017-06-30 2017-06-30 一种声纹创建与注册方法及装置

Publications (2)

Publication Number Publication Date
CN107492379A CN107492379A (zh) 2017-12-19
CN107492379B true CN107492379B (zh) 2021-09-21

Family

ID=60644303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710527022.7A Active CN107492379B (zh) 2017-06-30 2017-06-30 一种声纹创建与注册方法及装置

Country Status (6)

Country Link
US (1) US11100934B2 (zh)
EP (1) EP3564950B1 (zh)
JP (2) JP2020503541A (zh)
KR (1) KR102351670B1 (zh)
CN (1) CN107492379B (zh)
WO (1) WO2019000832A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597525B (zh) * 2018-04-25 2019-05-03 四川远鉴科技有限公司 语音声纹建模方法及装置
CN109036436A (zh) * 2018-09-18 2018-12-18 广州势必可赢网络科技有限公司 一种声纹数据库建立方法、声纹识别方法、装置及系统
EP3794587B1 (en) * 2018-10-08 2024-07-17 Google LLC Selective enrollment with an automated assistant
CN109510844B (zh) * 2019-01-16 2022-02-25 中民乡邻投资控股有限公司 一种基于声纹的对话交流式的账号注册方法及装置
CN111833882A (zh) * 2019-03-28 2020-10-27 阿里巴巴集团控股有限公司 声纹信息管理方法、装置、系统及计算设备、存储介质
CN111798857A (zh) * 2019-04-08 2020-10-20 北京嘀嘀无限科技发展有限公司 一种信息识别方法、装置、电子设备及存储介质
CN109920435B (zh) * 2019-04-09 2021-04-06 厦门快商通信息咨询有限公司 一种声纹识别方法及声纹识别装置
CN112127090A (zh) * 2019-06-06 2020-12-25 青岛海尔洗衣机有限公司 用于衣物处理设备的控制方法
CN110459227A (zh) * 2019-08-29 2019-11-15 四川长虹电器股份有限公司 基于智能电视的声纹注册方法
CN110570873B (zh) * 2019-09-12 2022-08-05 Oppo广东移动通信有限公司 声纹唤醒方法、装置、计算机设备以及存储介质
CN111081258B (zh) * 2019-11-07 2022-12-06 厦门快商通科技股份有限公司 一种声纹模型管理方法、系统、存储介质及装置
CN110992930A (zh) * 2019-12-06 2020-04-10 广州国音智能科技有限公司 声纹特征提取方法、装置、终端及可读存储介质
CN111368504A (zh) * 2019-12-25 2020-07-03 厦门快商通科技股份有限公司 语音数据标注方法、装置、电子设备及介质
CN111161746B (zh) * 2019-12-31 2022-04-15 思必驰科技股份有限公司 声纹注册方法及系统
CN111210829B (zh) * 2020-02-19 2024-07-30 腾讯科技(深圳)有限公司 语音识别方法、装置、系统、设备和计算机可读存储介质
CN111477234A (zh) * 2020-03-05 2020-07-31 厦门快商通科技股份有限公司 一种声纹数据注册方法和装置以及设备
CN111599367A (zh) * 2020-05-18 2020-08-28 珠海格力电器股份有限公司 一种智能家居设备的控制方法、装置、设备及介质
US11699447B2 (en) * 2020-06-22 2023-07-11 Rovi Guides, Inc. Systems and methods for determining traits based on voice analysis
CN111914803B (zh) * 2020-08-17 2023-06-13 华侨大学 一种唇语关键词检测方法、装置、设备及存储介质
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112423063A (zh) * 2020-11-03 2021-02-26 深圳Tcl新技术有限公司 一种智能电视自动设置方法、装置及存储介质
CN112634909B (zh) * 2020-12-15 2022-03-15 北京百度网讯科技有限公司 声音信号处理的方法、装置、设备、计算机可读存储介质
CN112929501B (zh) * 2021-01-25 2024-08-27 深圳前海微众银行股份有限公司 语音通话服务方法、装置、设备、介质及计算机程序产品
CN115484040A (zh) * 2021-06-15 2022-12-16 佛山市顺德区美的电子科技有限公司 家电设备的声纹注册方法、终端设备、家电设备及介质
CN113506577A (zh) * 2021-06-25 2021-10-15 贵州电网有限责任公司 一种基于增量采集电话录音完善声纹库的方法
CN113707154B (zh) * 2021-09-03 2023-11-10 上海瑾盛通信科技有限公司 模型训练方法、装置、电子设备和可读存储介质
CN114155845A (zh) * 2021-12-13 2022-03-08 中国农业银行股份有限公司 服务确定方法、装置、电子设备及存储介质
CN117221450A (zh) * 2023-09-25 2023-12-12 深圳我买家网络科技有限公司 Ai智慧客服系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104967622A (zh) * 2015-06-30 2015-10-07 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置
CN105913850A (zh) * 2016-04-20 2016-08-31 上海交通大学 文本相关声纹密码验证方法
US20160314790A1 (en) * 2015-04-22 2016-10-27 Panasonic Corporation Speaker identification method and speaker identification device
CN106847292A (zh) * 2017-02-16 2017-06-13 平安科技(深圳)有限公司 声纹识别方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5864548A (ja) 1981-10-14 1983-04-16 Fujitsu Ltd 音声日本語処理システム
JP3776805B2 (ja) 2001-02-27 2006-05-17 アルパイン株式会社 携帯電話選択無線通信装置
US20060222210A1 (en) 2005-03-31 2006-10-05 Hitachi, Ltd. System, method and computer program product for determining whether to accept a subject for enrollment
US20070219801A1 (en) 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
JP2009237774A (ja) * 2008-03-26 2009-10-15 Advanced Media Inc 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
JP5577737B2 (ja) 2010-02-18 2014-08-27 株式会社ニコン 情報処理システム
GB2514943A (en) * 2012-01-24 2014-12-10 Auraya Pty Ltd Voice authentication and speech recognition system and method
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
US9691377B2 (en) * 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
EP3043348B1 (en) * 2013-09-03 2017-10-04 Panasonic Intellectual Property Corporation of America Voice interaction control method
JP2015153258A (ja) * 2014-02-17 2015-08-24 パナソニックIpマネジメント株式会社 車両用個人認証システム及び車両用個人認証方法
US20150302856A1 (en) 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN105185379B (zh) 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US20180358113A1 (en) * 2015-11-24 2018-12-13 Koninklijke Philips N.V. Two-factor authentication in a pulse oximetry system
CN106057206B (zh) 2016-06-01 2019-05-03 腾讯科技(深圳)有限公司 声纹模型训练方法、声纹识别方法及装置
CN106098068B (zh) * 2016-06-12 2019-07-16 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN106782571A (zh) * 2017-01-19 2017-05-31 广东美的厨房电器制造有限公司 一种控制界面的显示方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160314790A1 (en) * 2015-04-22 2016-10-27 Panasonic Corporation Speaker identification method and speaker identification device
CN104967622A (zh) * 2015-06-30 2015-10-07 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置
CN105913850A (zh) * 2016-04-20 2016-08-31 上海交通大学 文本相关声纹密码验证方法
CN106847292A (zh) * 2017-02-16 2017-06-13 平安科技(深圳)有限公司 声纹识别方法及装置

Also Published As

Publication number Publication date
EP3564950A1 (en) 2019-11-06
JP2021021955A (ja) 2021-02-18
CN107492379A (zh) 2017-12-19
US20190362724A1 (en) 2019-11-28
US11100934B2 (en) 2021-08-24
KR102351670B1 (ko) 2022-01-13
WO2019000832A1 (zh) 2019-01-03
JP7062851B2 (ja) 2022-05-09
EP3564950B1 (en) 2022-03-23
KR20190077088A (ko) 2019-07-02
EP3564950A4 (en) 2020-08-05
JP2020503541A (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
CN107492379B (zh) 一种声纹创建与注册方法及装置
CN107481720B (zh) 一种显式声纹识别方法及装置
CN107610709B (zh) 一种训练声纹识别模型的方法及系统
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
JP6771805B2 (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
CN109034069B (zh) 用于生成信息的方法和装置
CN107180628A (zh) 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN108268450B (zh) 用于生成信息的方法和装置
CN113450759A (zh) 语音生成方法、装置、电子设备以及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN110704618A (zh) 确定对话数据对应的标准问题的方法及装置
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN117093687A (zh) 问题应答方法和装置、电子设备、存储介质
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
CN111477212A (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN112633381A (zh) 音频识别的方法及音频识别模型的训练方法
CN112233648A (zh) 结合rpa及ai的数据的处理方法、装置、设备及存储介质
CN117216206A (zh) 会话处理方法、装置、电子设备及存储介质
CN116450943A (zh) 基于人工智能的话术推荐方法、装置、设备及存储介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN112735432B (zh) 音频识别的方法、装置、电子设备及存储介质
CN115248843A (zh) 辅助生成笔录的方法、装置和笔录生成系统
CN111597453B (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210514

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant