CN110010135B

CN110010135B - 一种基于语音的身份识别方法、装置和电子设备

Info

Publication number: CN110010135B
Application number: CN201810012538.2A
Authority: CN
Inventors: 王丹; 张扬
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2024-05-07
Anticipated expiration: 2038-01-05
Also published as: CN110010135A

Abstract

本发明实施例提供了一种基于语音的身份识别方法、装置和电子设备，其中，所述方法包括：接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；依据所述匹配的已知用户确定所述陌生用户的身份信息；从而能够根据陌生用户的语音特征有效的识别其身份。

Description

一种基于语音的身份识别方法、装置和电子设备

技术领域

本发明涉及通信技术领域，特别是涉及一种基于语音的身份识别方法、装置和电子设备。

背景技术

随着互联网应用的普及和人们对互联网的依赖，互联网的安全问题也日益凸显。恶意程序、各类钓鱼和欺诈继续保持高速增长，使得个人信息的泄露如用户电话号码，导致电话骚扰、电话诈骗等事件频发，对应的，识别各种诈骗、骚扰电话的安全防护应用也随之增加，如安全卫士、号码通等。

其中，安全防护应用监测到终端设备接收到来电时，若该来电号码是其数据库中已标记的号码，则显示该来电号码的身份信息，如房产中介、广告推销等等，以提醒用户。但通常不法分子会更换电话号码等方式继续进行犯罪活动，使得安全防护应用不能及时的识别。

发明内容

本发明实施例提供一种基于语音的身份识别方法，能够有效的识别陌生用户的身份。

相应的，本发明实施例还提供了一种基于语音的身份识别装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种基于语音的身份识别方法，具体包括：接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；依据所述匹配的已知用户确定所述陌生用户的身份信息。

可选地，所述采用所述语音特征信息与声纹模型进行匹配，确定所述语音特征匹配的已知用户和对应的分值，包括：将所述语音特征输入所述声纹模型；通过所述声纹模型确定所述语音特征对应声纹特征，得到所述声纹特征对应匹配的已知用户和对应的用户分值。

可选地，所述依据所述匹配的已知用户确定所述陌生用户的身份信息，包括：获取所述匹配的已知用户对应用户分值，从所述匹配的已知用户中查找用户分值最高的已知用户；判断所述最高的用户分值是否大于身份阈值；若所述最高的用户分值大于身份阈值，则将所述用户分值最高的已知用户的身份标签作为所述陌生用户的身份信息。

可选地，还包括：若所述最高的用户分值小于身份阈值，则获取所述陌生用户对应的移动用户号码簿号码MDN；查找所述MDN对应的身份标签，并将所述MDN对应的身份标签作为所述陌生用户的身份信息。

可选地，还包括：采用所述陌生用户的语音特征和身份信息，调整所述声纹模型。

可选地，还包括训练声纹模型的步骤：收集各已知用户的语音数据，并从各已知用户的语音数据中提取对应的语音特征；依据所述语音特征训练已知用户的声纹模型。

可选地，还包括：依据所述陌生用户的身份信息生成对应的身份提示信息并推送。

可选地，所述身份信息至少包括以下一种：中介、推销、快递、诈骗、外卖。

本发明实施例还公开了一种基于语音的身份识别装置，包括：提取模块，用于接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；匹配模块，用于采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；识别模块，用于依据所述匹配的已知用户确定所述陌生用户的身份信息。

可选地，所述匹配模块，用于将所述语音特征输入所述声纹模型；通过所述声纹模型确定所述语音特征对应声纹特征，得到所述声纹特征对应匹配的已知用户和对应的用户分值。

可选地，所述识别模块包括：查找子模块，用于获取所述匹配的已知用户对应用户分值，从所述匹配的已知用户中查找用户分值最高的已知用户；判断子模块，用于判断所述最高的用户分值是否大于身份阈值；第一身份确定子模块，用于若所述最高的用户分值大于身份阈值，则将所述用户分值最高的已知用户的身份标签作为所述陌生用户的身份信息。

可选地，所述识别模块还包括：第二身份确定子模块，用于若所述最高的用户分值小于身份阈值，则获取所述陌生用户对应的移动用户号码簿号码MDN；查找所述MDN对应的身份标签，并将所述MDN对应的身份标签作为所述陌生用户的身份信息。

可选地，还包括：调整模块，用于采用所述陌生用户的语音特征和身份信息，调整所述声纹模型。

可选地，还包括：模型训练模块，用于收集各已知用户的语音数据，并从各已知用户的语音数据中提取对应的语音特征；依据所述语音特征训练已知用户的声纹模型。

可选地，还包括：信息推送模块，用于依据所述陌生用户的身份信息生成对应的身份提示信息并推送。

一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例所述的基于语音的身份识别方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；依据所述匹配的已知用户确定所述陌生用户的身份信息。

可选地，还包含用于进行以下操作的指令：若所述最高的用户分值小于身份阈值，则获取所述陌生用户对应的移动用户号码簿号码MDN；查找所述MDN对应的身份标签，并将所述MDN对应的身份标签作为所述陌生用户的身份信息。

可选地，还包含用于进行以下操作的指令：采用所述陌生用户的语音特征和身份信息，调整所述声纹模型。

可选地，还包含用于进行训练声纹模型的指令：收集各已知用户的语音数据，并从各已知用户的语音数据中提取对应的语音特征；依据所述语音特征训练已知用户的声纹模型。

可选地，还包含用于进行以下操作的指令：依据所述陌生用户的身份信息生成对应的身份提示信息并推送。

本发明实施例包括以下优点：

本发明实施例在接通陌生用户的来电后，可获取陌生用户的语音数据并从所述语音数据中提取对应语音特征，从而依据所述语音特征确定所述陌生用户的身份；即采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户，所述已知用户即已知身份的用户，进而可依据所述匹配的已知用户确定所述陌生用户的身份信息；其中，用户的语音特征是不变的，因此即使不法分子通过更换号码进行电话诈骗，本发明实施例也能够根据其语音特征有效的识别其身份。

附图说明

图1是本发明的一种基于语音的身份识别方法实施例的步骤流程图；

图2是本发明的一种基于语音的身份识别方法可选实施例的步骤流程图；

图3是本发明的一种基于语音的身份识别装置实施例的结构框图；

图4是本发明的一种基于语音的身份识别装置可选实施例的结构框图；

图5是根据一示例性实施例示出的一种用于基于语音的身份识别的电子设备的结构框图；

图6是本发明根据另一示例性实施例示出的一种用于基于语音的身份识别的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

其中，安全防护应用可对终端设备的来电进行监控，在检测到终端设备接收到来电时，若确定所述来电号码即不是终端设备的通讯录中联系人的号码，也不是数据库中被标记的号码时，则无法识别该来电用户，可确定该来电的用户为陌生用户。进而基于安全防护应用的识别方式，不法分子可以通过更换号码给其他用户来电，避开安全防护应用的识别，来实施电话诈骗等非法行为，从而导致了用户受诈骗、骚扰几率大大增加；因此本发明实施例提供一种基于语音的身份识别方法，以有效的识别陌生用户身份的效率。

本发明实施例的核心构思之一是，在接通陌生用户的来电后，提取所述陌生用户对应的语音特征，然后采用所述语音特征和声纹模型进行匹配，确定与所述语音特征匹配的已知用户，进而依据该已知用户确定所述陌生用户的身份信息；从而本发明实施例能够依据陌生用户的语音特征，有效的识别出所述陌生用户的身份。

参照图1，示出了本发明的一种基于语音的身份识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征。

用户接收到陌生用户的来电后，为避免错过重要电话，很可能会选择接听该陌生用户的来电，因此终端设备可依据用户指示，接通陌生用户的来电，并可以在接通陌生用户来电后接收陌生用户的语音数据，其中，所述语音数据是指通过语音来记录的数据以及通过语音来传输的数据。在接收到所述陌生用户的语音数据后，一方面，终端设备可按照需求从接收的语音数据中获取对应的语音数据，如获取设定时长的语音数据；然后可对获取的语音数据进行分析处理如滤波等，从获取的语音数据中提取对应的语音特征，以依据所述语音特征识别陌生用户的身份。另一方面，可对接收的语音数据进行播放，以使用户收听到陌生用户的语音。

步骤104、采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户。

步骤106、依据所述匹配的已知用户确定所述陌生用户的身份信息。

本发明实施例中，可获取已知用户的声纹模型，所述声纹模型的类型可包括多种，如高斯混合模型(Gaussian Markov Model，GMM)、高斯混合模型—通用背景模型(GaussianMarkov Model-Uniform Background Model,GMM-UBM)、高斯混合模型—支持向量机(Gaussian Markov Model-Support Vector Machine，GMM+SVM)、深度学习等等，在此不一一列举；所述已知用户是已知身份的用户，具有对应的身份信息。若某未知身份用户是已知用户中的某一个用户，在提供该未知身份用户的测试语音数据后，可采用所述声纹模型，确定这段测试语音数据是属于哪个已知用户的；进而可依据所述声纹模型，为所述陌生用户的语音特征匹配出对应的已知用户。因此在提取陌生用户的语音特征后，可采用所述陌生用户的语音特征与该声纹模型进行匹配，计算所述语音特征与各已知用户匹配的用户分值，然后依据所述用户分值，确定与所述语音特征匹配的已知用户。例如，可以预先按照需求设置匹配门限，将用户分值大于所述匹配门限的已知用户，确定为与所述语音特征匹配的已知用户，又例如将用户分值最高的已知用户，确定为与所述语音特征匹配的已知用户；当然还可以包括其他的方式，在此不作限制。

然后可依据所述匹配的已知用户确定所述陌生用户的身份信息，例如，获取所述匹配的已知用户的身份信息，依据所述匹配的已知用户的身份信息确定所述陌生用户的身份信息。

其中，上述步骤102-步骤106可由终端设备完成，也可由终端设备和服务器结合完成。

综上，本发明实施例在接通陌生用户的来电后，可获取陌生用户的语音数据并从所述语音数据中提取对应语音特征，从而依据所述语音特征确定所述陌生用户的身份；即采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户，所述已知用户即已知身份的用户，进而可依据所述匹配的已知用户确定所述陌生用户的身份信息；其中，用户的语音特征是不变的，因此即使不法分子通过更换号码进行电话诈骗，本发明实施例也能够根据其语音特征有效的识别其身份。

本发明的一个可选地实施例中，可预先进行声纹模型训练，确定各已知用户的声纹模型，即收集各已知用户的语音数据，并从各已知用户的语音数据中提取对应的语音特征，然后依据所述语音特征训练已知用户的声纹模型；具体如下：

本发明实施例在检测到已知用户与其他用户在通信时，可获取该已知用户的语音数据，其中，语音数据的获取方式可按照设定规则确定，例如可以获取一段设定时长的数据，也可以所述多段设定时长的数据，具体可按照需求设置。然后对获取的语音数据进行分帧、滤波等处理，从所述语音数据中提取对应的语音特征，所述语音特征可以包括频率参数如梅尔频率倒谱系数等等，其中所述梅尔频率倒谱系数是一段声音的短时功率谱，基于频率的非线性梅尔刻度的对数能量频谱的线性预先变换；当然所述语音特征还可以包括其他的参数，在此不作限制。

然后可按照需求选定声纹模型，并确定该声纹模型对应的模型公式，如选定GMM模型，其对应的公式为概率密度函数公式；然后确定所述语音特征代入模型公式进行计算，进而实现对声纹模型的训练。在训练完成后，即可得到已知用户的声纹模型，此时还可以采用声纹模型的输出参数对所述声纹模型进行反向验证，以调整所述声纹模型。其中，所述声纹模型中包含多个已知用户的声纹特征，所述声纹特征可用于唯一标识用户，所述声纹模型中包含的已知用户的声纹特征的数量，与预先收集的语音数据的已知用户的的数量对应；例如，预先收集了N个已知用户的语音数据，对应的声纹模型中包含N个已知用户的声纹特征，所述N为大于1的正整数。本发明实施例中，将语音特征输入声纹模型后，所述声纹模型可自动的进行匹配，输出与所述语音特征匹配的已知用户和对应的用户分值，进而在后续可采用该声纹模型，为陌生用户的语音特征匹配出对应的已知用户，从而依据所述已知用户确定所述陌生用户的身份。

可选地，在声纹模型训练完成后，每当检测到已知用户的通话，可获取所述已知用户的语音数据，采用所述语音数据对应的语音特征，调整已训练完成的声纹模型，以提高声纹模型匹配的准确性。

本发明一个可选实施例中，所述陌生用户可能是某一个已知用户，也可能不是已知用户中的某一用户，因此采用所述声纹模型可能查找出所述语音特征匹配的已知用户，也可能无法查找出与所述语音特征匹配的已知用户，此时可获取所述陌生用户对应的MDN(Mobile Directory Number，移动用户号码簿号码)，依据所述陌生用户的MDN确定陌生用户的身份信息，如从其他平台(如社交平台)中查找所述陌生用户的MDN是否被标记等等。

参照图2，示出了本发明一种基于语音的身份识别方法可选实施例的步骤流程图；具体包括如下步骤：

步骤202、接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征。

用户在接通陌生用户的来电后，可接收到所述陌生用户的语音数据，然后可按照上述获取已知用户的语音数据设定规则，从接收到的语音数据中获取语音数据；并从获取的语音数据中提取语音特征，本步骤中提取语音特征的方法，与上述从已知用户的语音数据中提取语音特的方法类似，在此不再赘述。

然后再采用所述陌生用户的语音特征与所述预先训练的声纹模型进行匹配，确定与所述陌生用户的语音特征匹配的已知用户，具体如步骤204-步骤206所述：

步骤204、将所述语音特征输入所述声纹模型。

步骤206、通过所述声纹模型确定所述语音特征对应声纹特征，得到所述声纹特征对应匹配的已知用户。

本发明实施例可将所述陌生用户的语音特征输入至所述声纹模型中，然后通过所述声纹模型确定所述语音特征对应的声纹特征，再将已知用户的声纹特征与所述陌生用户的声纹特征进行匹配。针对每个已知用户，计算该已知用户的声纹特征与所述陌生用户的语音特征匹配的用户分值，然后依据所述用户分值，确定所述陌生用户的声纹特征对应匹配的已知用户；其中一种方式是判断用户分值是否大于匹配门限，若匹配分值大于匹配门限，则将该匹配分值对应的已知用户，确定为所述陌生用户的声纹特征对应匹配的已知用户；若匹配分值小于匹配门限，此时无法依据所述陌生用户的语音数据确定陌生用户的身份，可依据其他的方法确定陌生用户的身份，可执行步骤214。

步骤208、获取所述匹配的已知用户对应用户分值，从所述匹配的已知用户中查找用户分值最高的已知用户。

步骤210、判断所述最高的用户分值是否大于身份阈值。

本发明实施例中，用户分值大于匹配门限的已知用户可能存在多个，即通过所述声纹模型，得到所述陌生用户的声纹特征对应匹配的已知用户的数量可能为多个；因此可获取所述匹配的已知用户对应用户分值，然后从所述匹配的已知用户中，依据各已知用户的用户分值，查找用户分值最高的已知用户，将用户分值最高的已知用户确定为与所述陌生用户最匹配的用户。

本发明实施例可预先按照需求设置身份阈值，当已知用户的用户分值超过身份阈值时，才可以确定陌生用户是该已知用户，因此在确定用户分值最高的已知用户后，可判断所述最高的用户分值是否大于身份阈值，若所述最高的用户分值大于身份阈值，即确定所述陌生用户是用户分值最高的已知用户，可执行步骤212；若所述最高的用户分值小于身份阈值，即确定所述陌生用户不是用户分值最高的已知用户，此时无法依据所述陌生用户的语音数据确定陌生用户的身份，可依据其他的方法确定陌生用户的身份，可执行步骤214。

本发明的一个可选实施例中，不同用户身份对应的身份阈值可以相同，也可以不同，例如用户身份为诈骗、骚扰的，其对应的身份阈值可以相对高一些，而用户身份为快递、外卖的，其对应的身份阈值可以相对低一些；从而降低误判的概率，提高身份识别的准确率。

步骤212、将所述用户分值最高的已知用户的身份标签作为所述陌生用户的身份信息。

确定所述最高的用户分值大于身份阈值后，可获取所述用户分值最高的已知用户的身份信息，即可以获取该已知用户的身份标签，所述身份标签是安全防护应用在储存所述已知用户时为该已知用户标记的，其中，所述身份标签也包括以下至少一种：中介、推销、快递、诈骗、外卖；然后将该已知用户的身份标签作为所述陌生用户的身份信息；对应的，所述陌生用户的身份信息也包括以下至少一种：中介、推销、快递、诈骗、外卖。

当然，本发明实施例中，所述声纹模型输出的匹配的已知用户也可能为一个，此时可直接判断该已知用户的用户分值是否大于身份阈值，即执行步骤210。

本发明的另一个实施例中，依据所述用户分值，确定所述陌生用户的声纹特征对应匹配的已知用户的另一种方式是，可将用户分值最高的已知用户，确定为所述陌生用户的声纹特征对应匹配的已知用户，然后输出用户分值最高的已知用户和对应的用户分值；然后再执行步骤210。

本发明的另一个实施例中，在确定所述陌生用户是用户分值最高的已知用户后，可依据所述陌生用户的语音特征对声纹模型进行调整，以调整所述用户分值最高的已知用户的声纹特征。

本发明实施例中，在无法依据所述陌生用户的语音数据确定陌生用户的身份后，可按照下述步骤214-步骤216，对陌生用户的身份进行识别，具体如下：

步骤214、获取所述陌生用户对应的MDN。

步骤216、查找所述MDN对应的身份标签，并将所述MDN对应的身份标签作为所述陌生用户的身份信息。

其中，某些平台(如社交平台、问答平台等)为了防止平台用户受骗，也会提供举报服务，平台用户可以将不法分子的号码和对应的身份标签上报到平台，以提醒其他平台用户对这些号码进行防范。因此安全防护应用依据陌生用户的语音特征，无法识别陌生用户的身份时，可依据其他平台的信息确定陌生用户的身份；即安全防护应用可获取所述陌生用户的MDN，再依据所述陌生用户的MDN从其他平台查询该陌生用户的身份。其中一种方式是，可依据所述陌生用户的MDN生成查询请求，并将所述查询请求发送至各个平台，平台接收到所述查询请求后，可查找与所述陌生用户的MDN匹配的MDN；在查找到所述陌生用户MDN匹配的MDN后，可获取所述匹配的MDN对应的身份标签，将所述身份标签作为陌生用户的MDN对应的身份标签返回至安全防护应用。另一种方式可以是，从其他平台获取与举报信息，然后从所述举报信息中查找与所述陌生用户的MDN匹配的MDN，并获取匹配的MDN的身份标签，即可获取所述陌生用户的MDN对应的身份标签；进而安全防护应用可将所述MDN对应的身份标签作为所述陌生用户的身份信息，从而实现了对陌生用户的身份识别。

步骤218、采用所述陌生用户的语音特征和身份信息，调整所述声纹模型。

本发明实施例在依据所述陌生用户的MDN，识别陌生用户的身份后，该陌生用户则是已知用户，此时可将所述陌生用户的语音特征和身份信息，作为一个数据集，然后采用该数据集对声纹模型进行调整，以在所述声纹模型中增加一个已知用户的声纹特征，丰富该声纹模型的声纹特征集。

当然，若未查找到所述陌生用户的MDN对应的身份标签，则无法对所述陌生用户进行识别，可依据通话结束后用户对所述陌生用户标记信息，为所述陌生用户的MDN进行标记。

步骤220、依据所述陌生用户的身份信息生成对应的身份提示信息并推送。

本发明实施例中，在确定所述陌生用户的身份信息后，可依据所述陌生用户的身份信息生成对应的身份提示信息，如房产中介、诈骗电话、产品推销等等，然后推送所述身份提示信息；使用户在查看该身份提示后，可执行相应的措施，如挂断电话、加入黑名单等等。

综上，本发明实施例在接通陌生用户的来电后，可从所述陌生用户的语音数据中提取对应语音特征，然后采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户，可依据所述匹配的已知用户确定所述陌生用户的身份信息；从而本发明实施例能够根据陌生用户语音特征，有效的识别出陌生用户的身份。

其次，本发明实施例在查询所述陌生用户的MDN对应的身份标签后，可将所述陌生用户的MDN对应的身份标签作为所述陌生用户的身份信息，然后在依据所述陌生用户的语音特征和身份特征，调整声纹模型；进而丰富了所述声纹模型中已知用户和对应的声纹特征。

再次，在确定陌生用户的身份信息后，可依据所述陌生用户的身份信息生成对应的身份提示信息并推送，进而及时的提醒用户加强防范，减少用户受诈骗、骚扰几率，保障了用户安全。

进一步，在查找用户分值最高的已知用户后，可判断所述最高的用户分值是否大于身份阈值；若所述最高的用户分值大于身份阈值，则将所述用户分值最高的已知用户的身份标签作为所述陌生用户的身份信息，进而提高识别陌生用户身份的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种基于语音的身份识别装置实施例的结构框图，具体可以包括如下模块：提取模块302、匹配模块304和识别模块306，其中，

提取模块302，用于接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；

匹配模块304，用于采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；

识别模块306，用于依据所述匹配的已知用户确定所述陌生用户的身份信息。

参照图4，示出了本发明的一种基于语音的身份识别装置可选实施例的结构框图。本发明的一个可选的实施例中，所述装置还包括：调整模块308、模型训练模块310和信息推送模块312，其中，

调整模块308，用于采用所述陌生用户的语音特征和身份信息，调整所述声纹模型。

模型训练模块310，用于收集各已知用户的语音数据，并从各已知用户的语音数据中提取对应的语音特征；依据所述语音特征训练已知用户的声纹模型。

信息推送模块312，用于依据所述陌生用户的身份信息生成对应的身份提示信息并推送。

本发明的一个可选实施例中，所述识别模块306包括：查找子模块3062、判断子模块3064和第一身份确定子模块3066，其中：

查找子模块3062，用于获取所述匹配的已知用户对应用户分值，从所述匹配的已知用户中查找用户分值最高的已知用户；

判断子模块3064，用于判断所述最高的用户分值是否大于身份阈值；

第一身份确定子模块3066，用于若所述最高的用户分值大于身份阈值，则将所述用户分值最高的已知用户的身份标签作为所述陌生用户的身份信息。

本发明的一个可选实施例中，所述识别模块306还包括第二身份确定子模块3068，用于若所述最高的用户分值小于身份阈值，则获取所述陌生用户对应的移动用户号码簿号码MDN；查找所述MDN对应的身份标签，并将所述MDN对应的身份标签作为所述陌生用户的身份信息。

本发明的一个可选实施例中，所述匹配模块304，用于将所述语音特征输入所述声纹模型；通过所述声纹模型确定所述语音特征对应声纹特征，得到所述声纹特征对应匹配的已知用户和对应的用户分值。

本发明的一个可选实施例中，所述身份信息至少包括以下一种：中介、推销、快递、诈骗、外卖。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图5根据一示例性实施例示出的一种用于定位导航的电子设备500的结构框图。例如，电子设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。本发明实施例中，所述电子设备为具有定位导航功能的各种设备。

参照图5，电子设备500可以包括以下一个或多个组件：处理组件502，存储器504，电力组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制电子设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件506为电子设备500的各种组件提供电力。电力组件504可以包括电源管理系统，一个或多个电源，及其他与为电子设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当电子设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为电子设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为电子设备500的显示器和小键盘，传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变，用户与电子设备500接触的存在或不存在，电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件514经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件514还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由电子设备500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种基于语音的身份识别方法，所述方法包括：接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；依据所述匹配的已知用户确定所述陌生用户的身份信息。

图6是本发明根据另一示例性实施例示出的一种用于基于语音的身份识别的电子设备600的结构示意图。该电子设备600可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器上执行存储介质630中的一系列指令操作。

服务器还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；依据所述匹配的已知用户确定所述陌生用户的身份信息。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于语音的身份识别方法，其特征在于，包括：

接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；

采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；

依据所述匹配的已知用户确定所述陌生用户的身份信息；其中，所述依据所述匹配的已知用户确定所述陌生用户的身份信息，包括：

获取所述匹配的已知用户对应用户分值，从所述匹配的已知用户中查找用户分值最高的已知用户；

判断最高的用户分值是否大于身份阈值；

若所述最高的用户分值大于身份阈值，则将所述用户分值最高的已知用户的身份标签作为所述陌生用户的身份信息；其中，所述身份标签包括以下至少一种：中介、推销、快递、诈骗、外卖；所述已知用户的身份标签为中介、推销、诈骗中的至少一种时所对应的所述身份阈值大于所述已知用户的身份标签为快递、外卖中的至少一种时所对应的所述身份阈值。

2.根据权利要求1所述的方法，其特征在于，采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户和对应的用户分值，包括：

将所述语音特征输入所述声纹模型；

通过所述声纹模型确定所述语音特征对应声纹特征，得到所述声纹特征对应匹配的已知用户和对应的用户分值。

3.根据权利要求1所述的方法，其特征在于，还包括：

若所述最高的用户分值小于身份阈值，则获取所述陌生用户对应的移动用户号码簿号码MDN；

查找所述MDN对应的身份标签，并将所述MDN对应的身份标签作为所述陌生用户的身份信息。

4.根据权利要求3所述的方法，其特征在于，还包括：

采用所述陌生用户的语音特征和身份信息，调整所述声纹模型。

5.根据权利要求1所述的方法，其特征在于，还包括训练声纹模型的步骤：

收集各已知用户的语音数据，并从各已知用户的语音数据中提取对应的语音特征；

依据所述语音特征训练已知用户的声纹模型。

6.根据权利要求1所述的方法，其特征在于，还包括：

依据所述陌生用户的身份信息生成对应的身份提示信息并推送。

7.根据权利要求1-6任一所述的方法，其特征在于，所述身份信息至少包括以下一种：中介、推销、快递、诈骗、外卖。

8.一种基于语音的身份识别装置，其特征在于，包括：

提取模块，用于接通陌生用户的来电后，从所述陌生用户的语音数据中提取对应的语音特征；

匹配模块，用于采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户；

识别模块，用于依据所述匹配的已知用户确定所述陌生用户的身份信息；

其中，所述识别模块包括：

查找子模块，用于获取所述匹配的已知用户对应用户分值，从所述匹配的已知用户中查找用户分值最高的已知用户；

判断子模块，用于判断最高的用户分值是否大于身份阈值；

第一身份确定子模块，用于若所述最高的用户分值大于身份阈值，则将所述用户分值最高的已知用户的身份标签作为所述陌生用户的身份信息；其中，所述身份标签包括以下至少一种：中介、推销、快递、诈骗、外卖；所述已知用户的身份标签为中介、推销、诈骗中的至少一种时所对应的所述身份阈值大于所述已知用户的身份标签为快递、外卖中的至少一种时所对应的所述身份阈值。

9.根据权利要求8所述的装置，其特征在于，

所述匹配模块，用于将所述语音特征输入所述声纹模型；通过所述声纹模型确定所述语音特征对应声纹特征，得到所述声纹特征对应匹配的已知用户和对应的用户分值。

10.根据权利要求8所述的装置，其特征在于，所述识别模块还包括：

第二身份确定子模块，用于若所述最高的用户分值小于身份阈值，则获取所述陌生用户对应的移动用户号码簿号码MDN；查找所述MDN对应的身份标签，并将所述MDN对应的身份标签作为所述陌生用户的身份信息。

11.根据权利要求10所述的装置，其特征在于，还包括：

调整模块，用于采用所述陌生用户的语音特征和身份信息，调整所述声纹模型。

12.根据权利要求8所述的装置，其特征在于，还包括：

模型训练模块，用于收集各已知用户的语音数据，并从各已知用户的语音数据中提取对应的语音特征；依据所述语音特征训练已知用户的声纹模型。

13.根据权利要求8所述的装置，其特征在于，还包括：

信息推送模块，用于依据所述陌生用户的身份信息生成对应的身份提示信息并推送。

14.根据权利要求8-13任一所述的装置，其特征在于，所述身份信息至少包括以下一种：中介、推销、快递、诈骗、外卖。

15.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的基于语音的身份识别方法。

16.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述匹配的已知用户确定所述陌生用户的身份信息；

其中，所述依据所述匹配的已知用户确定所述陌生用户的身份信息，包括：

判断最高的用户分值是否大于身份阈值；

17.根据权利要求16所述的电子设备，其特征在于，采用所述语音特征与声纹模型进行匹配，确定所述语音特征匹配的已知用户和对应的用户分值，包括：

将所述语音特征输入所述声纹模型；

18.根据权利要求16所述的电子设备，其特征在于，还包含用于进行以下操作的指令：

19.根据权利要求18所述的电子设备，其特征在于，还包含用于进行以下操作的指令：

20.根据权利要求16所述的电子设备，其特征在于，还包含用于进行训练声纹模型的指令：

依据所述语音特征训练已知用户的声纹模型。

21.根据权利要求16所述的电子设备，其特征在于，还包含用于进行以下操作的指令：

22.根据权利要求16-21任一所述的电子设备，其特征在于，所述身份信息至少包括以下一种：中介、推销、快递、诈骗、外卖。