CN109102813B

CN109102813B - 声纹识别方法、装置、电子设备和存储介质

Info

Publication number: CN109102813B
Application number: CN201710476678.0A
Authority: CN
Inventors: 张涛涛; 许云飞; 潘逸倩; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2021-06-22
Anticipated expiration: 2037-06-21
Also published as: CN109102813A

Abstract

本发明实施例提供了一种声纹识别方法、装置、电子设备和存储介质，以提高声纹识别的准确性。所述的方法包括：依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音；采集待识别的第二类语音数据；将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。采用自适应得到第二语音模型进行声纹识别，提高对声纹识别的准确性。

Description

声纹识别方法、装置、电子设备和存储介质

技术领域

本发明涉及技术领域，特别是涉及一种声纹识别方法、一种声纹识别装置、一种电子设备和一种可读存储介质。

背景技术

声纹识别，生物识别技术的一种，也称为说话人识别，即基于语音数据识别说话人，可用于进行用户识别。但声纹识别的应用也存在一定的缺陷，如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响，可能导致识别结果不准确。

例如，一个人唱歌的声音和平时说话声音相差也比较很大，而场景的语音模型都是基于用户说话的语音训练的，无法识别用户唱歌的声纹。若要准确识别用户唱歌的声纹，就需要采用大量歌唱语音的数据，来训练出更适合歌唱语音的模型。但实际处理中，难以采集用户大量的歌唱语音数据来进行模型训练，因此无法得到适合歌唱语音的模型，也就无法准确识别歌唱的用户。

可见当用户通过不同方式发音等情况下，现有的识别方式无法准确进行声纹的识别。

发明内容

本发明实施例提供一种声纹识别方法，以提高声纹识别的准确性。

相应的，本发明实施例还提供了一种声纹识别装置、一种电子设备、一种可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种声纹识别方法，包括：依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音；采集待识别的第二类语音数据；将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

可选的，所述依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，包括：从所述第一语音模型中获取模型参数，并提取所述第二类语音片段的第二类语音特征；依据所述模型参数和第二类语音特征进行自适应处理，得到对应的第二语音模型。

可选的，依据所述模型参数和第二类语音特征进行自适应处理，得到对应的第二语音模型，包括：依据所述模型参数，计算所述第二类语音特征的占有率；依据所述第二类语音特征的占有率，计算自适应第二类语音的模型参数；依据所述自适应第二类语音的模型参数，确定对应的第二语音模型。

可选的，所述依据第二类语音特征的占有率，计算自适应第二类语音的模型参数，包括：依据所述第二类语音特征的占有率，计算所述第二类语音片段的统计量；依据所述统计量和自适应参数，计算自适应第二类语音的模型参数。

可选的，所述第一语音模型为UBM模型，所述模型参数包括：均值。

可选的，还包括：依据所述声纹得到对应的声纹特征；依据所述声纹特征进行用户识别。

可选的，所述依据所述声纹特征进行用户识别，包括：将所述声纹特征输入第三打分模型，确定对应的分值；依据所述分值确定所述第二类语音数据对应的用户。

本发明实施例还提供了一种声纹识别装置，包括：自适应模块，用于依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音；采集模块，用于采集待识别的第二类语音数据；识别模块，用于将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

可选的，所述自适应模块，包括：提取子模块，用于从所述第一语音模型中获取模型参数，并提取所述第二类语音片段的第二类语音特征；自适应处理子模块，用于依据所述模型参数和第二类语音特征进行自适应处理，得到对应的第二语音模型。

可选的，所述自适应处理子模块，用于依据所述模型参数，计算所述第二类语音特征的占有率；依据所述第二类语音特征的占有率，计算自适应第二类语音的模型参数；依据所述自适应第二类语音的模型参数，确定对应的第二语音模型。

可选的，所述自适应处理子模块，用于依据所述第二类语音特征的占有率，计算所述第二类语音片段的统计量；依据所述统计量和自适应参数，计算自适应第二类语音的模型参数。

可选的，还包括：用户识别模块，用于依据所述声纹得到对应的声纹特征；依据所述声纹特征进行用户识别。

可选的，所述用户识别模块，用于将所述声纹特征输入第三打分模型，确定对应的分值；依据所述分值确定所述第二类语音数据对应的用户。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音；采集待识别的第二类语音数据；将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例中一个或多个所述的声纹识别方法。

本发明实施例包括以下优点：

本发明实施例可依据用于识别说话的用户第一语音模型和第二类语音片段，自适应得到用于识别第二类语音的第二语音模型，即通过少量的第二类语音片段和现有的语音自适应得到出第二类语音的模型，从而能够在采集到待识别的第二类语音数据后，采用自适应得到第二语音模型进行声纹识别，提高对声纹识别的准确性。

附图说明

图1是本发明的一种声纹识别方法实施例的步骤流程图；

图2是本发明实施例的一种声纹识别方法中自适应语音模型示例的步骤流程图；

图3是本发明的另一种声纹识别方法实施例的步骤流程图；

图4是本发明实施例中一种示例的声纹识别系统的处理框架示意图；

图5是本发明的一种声纹识别装置实施例的结构框图；

图6是本发明的另一种声纹识别装置实施例的结构框图；

图7是根据一示例性实施例示出的一种用于声纹识别的电子设备的结构框图；

图8是本发明根据另一示例性实施例示出的一种用于声纹识别的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例，本发明实施例采用自适应的方式，基于第一语音模型和第二类语音片段，得到适合第二类语音的第二语音模型。即可基于少量的第二类语音片段和现有识别声纹的第一语音模型，自适应得到适合识别第二类语音用户的第二语音模型，从而对于待识别的第二类语音数据，能够基于第二语音模型进行识别，提高对声纹识别的准确性。其中，自适应是在处理和分析过程中，根据数据的特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件，使其与所处理数据的统计分布特征、结构特征相适应，以取得最佳的处理效果的过程。

参照图1，示出了本发明的一种声纹识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音。

本发明实施例中，第一语音模型用于第一类语音，该第一语音模型可基于海量用户的第一类语音片段进行训练得到，从而能够识别出语音数据对应用户的声纹。可获取少量的第二类语音片段，该少量是相对于训练说话的第一语音模型的海量第一类语音片段而言的，例如该海量的第一类语音片段是数以百万、千万、甚至亿等数量级计算的，则少量的第二类语音片段则可能为十几到上百的数量级。

将第一语音模型和第二类语音片段进行自适应处理，即可将第一语音模型中的模型参数和第二类语音片段的第二类语音特征进行自适应，得到自适应第二类语音的模型参数，依据该自适应第二类语音的模型参数即可得到第二语音模型。从而能够基于第二语音模型进行第二类语音对应声纹的识别。

本申请实施例中，第一类语音和第二类语音对应通过不同方式发音等确定，例如第一类为说话等常规发音方式，第二类为歌唱、朗诵、打呼噜、讲评书等非常规的发音方式。例如可将说话语音作为第一类语音，将说话对应采集的语音数据作为第一类语音数据，将歌唱语音作为第二类语音，将歌唱对应采集的语音数据作为第二类语音数据。其中，说话可理解为用语音表述事实、表达态度，例如，闲聊、演讲等，多用于用户间日常交流。歌唱可理解为以抑扬有节奏的音调发出的声音，歌唱是一门艺术，可通过训练提高唱歌的能力，唱歌技巧包括：唱歌的姿势、呼吸、气息、发声和咬字等。用户在说话和歌唱时，用于发声的位置、呼吸、气息等影响，导致两者声纹存在一定的区别，因此需要采用不同的模型才能准确识别声纹。

步骤104，采集待识别的第二类语音数据。

步骤106，将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

基于第二语音模型能够进行第一类语音对应用户的识别，因此可以采集用户的第二类语音，得到待识别的第二类语音数据。其中，待识别的第二类语音数据可由终端采集并识别，也可在终端得到第二类语音数据上传，即服务器从终端采集后进行识别处理。

可将待识别的第二类语音数据输入所述第二语音模型进行处理，得到相应的第二类语音对应的声纹特征，实现对于第二类语音数据对应声纹的识别。

综上，可依据用于识别说话的用户第一语音模型和第二类语音片段，自适应得到用于识别第二类语音的第二语音模型，即通过少量的第二类语音片段和现有的语音自适应得到出第二类语音的模型，从而能够在采集到待识别的第二类语音数据后，采用自适应得到第二语音模型进行声纹识别，提高对声纹识别的准确性。

为了在不具有海量第二类语音的情况下识别第二类语音，本发明实施例可基于现有用户的语音模型和少量的第二类语音片段，自适应得到适合第二类语音对应用户的第二语音模型，通过如下方式确定。

其中，依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，包括：

S1，从所述第一语音模型中获取模型参数，并提取所述第二类语音片段的第二类语音特征。

S2，依据所述模型参数和第二类语音特征进行自适应处理，得到对应的第二语音模型。

可从第一语音模型中获取所需的模型参数，该模型参数为需要自适应调整的模型参数，具体参数可依据模型确定，例如对于通用背景模型(Universal Background Model，UBM)，需要自适应调整的模型参数包括权重、均值和方差。并且可从第二类语音片段的第二类语音特征，该第二类语音特征用于区分第二类语音对应的声纹，如第二类语音特征可为用户歌唱对应的声纹特征，相应第一类语音特征可为用户说话对应的声纹特征。然后可采用模型参数和第二类语音特征进行自适应处理，例如通过最大后验估计(Maximum APosteriori，MAP)算法，最大似然线性回归(Maximum Likelihood Linear Regression，MLLR)算法等进行自适应处理，得到对应的第二语音模型，该对应的第二语音模型即可识别第二类语音的声纹。

所述依据所述模型参数和第二类语音特征进行自适应处理，得到对应的第二语音模型，包括：

S3，依据所述模型参数，计算所述第二类语音特征的占有率。

S4，依据所述第二类语音特征的占有率，计算自适应第二类语音的模型参数。

S5，依据所述自适应第二类语音的模型参数，确定对应的第二语音模型。

依据提取的模型参数和第二类语音特征，可计算第二类语音特征在对应函数上的占有率，例如对于UBM模型，提取在各高斯函数上的均值，还可提取权重，方差等参数，即可计算第二类语音特征在UBM模型的每个高斯函数上的占有率。然后依据第二类语音特征的占有率，计算自适应第二类语音的模型参数，再在将该自适应第二类语音的模型参数带入到语音模型中，即可得到第二语音模型。本申请实施例中，模型参数可依据具体的第一语音模型确定，即依据第一语音模型对应公式确定需要调整的模型参数，例如UBM模型的模型参数包括均值，还可包括权重、方差。

其中，依据所述第二类语音特征的占有率，计算自适应第二类语音的模型参数，包括：

S6，依据第二类语音特征的占有率，计算所述第二类语音片段的统计量。

S7，依据所述统计量和自适应参数，计算自适应第二类语音的模型参数。

该第二类语音特征的占有率，可为每帧对应计算得到的占有率，因此对统计该第二类语音片段所有帧对应占有率进行统计，例如求和等，得到该第二类语音片段的统计量，再采用统计量和自适应参数，计算自适应第二类语音的模型参数，该自适应参数用于平衡模型参数和自适应的模型参数。

以UBM模型为例，基于第二类语音片段和MAP算法自适应训练得到适合处理第二类语音的UBM模型。本申请实施例中，以调整权重、均值和方差为例，实际处理中，对于UBM模型可仅调整均值实现自适应训练，均值和方差在自适应训练中可选择调整。

参照图2，示出了本发明实施例的一种声纹识别方法中自适应语音模型示例的步骤流程图，具体可以包括如下步骤：

步骤202，从所述第一语音模型中获取模型参数，并提取所述第二类语音片段的第二类语音特征。

基于第一类语音数据训练得到UBM模型为第一语音模型，提取该模型的模型参数λ，其中，λ＝{w_l,μ_l,σ_l,l＝1,2...M}，该UBM模型共有M个高斯函数，w_l为第l个高斯函数上的权重，μ_l为第l个高斯函数上的均值，σ_l为第l个高斯函数上的方差。并从第二类语音片段中提取第t帧的第二类语音特征x_t。

步骤204，依据所述模型参数，计算所述第二类语音特征的占有率。

计算第二类语音特征x_t在UBM模型中每个高斯函数上的占有率p(l|x_t,λ)：

步骤206，所述依据第二类语音特征的占有率，计算所述第二类语音片段的统计量。

然后可依据该占有率p(l|x_t,λ)，对第二类语音片段中所有帧进行统计，得到对应的统计量，具体采用如下公式计算：

第一统计量

第二统计量

第三统计量

步骤208，依据所述统计量和自适应参数，计算自适应第二类语音的模型参数。

然后可依据统计量和自适应参数，计算自适应第二类语音的模型参数

其中，各参数分别通过如下公式计算：

其中，γ是用来调整

的值使其和为1，

为自适应参数，可平衡第一类语音的UBM模型的模型参数和自适应第二类语音的UBM模型的模型参数。

一个示例中对所有UBM的模型参数可使用同一个自适应参数，即：

其中，τ是

的相关系数。

步骤210，依据所述自适应第二类语音的模型参数，确定对应的第二语音模型。

从而基于自适应第二类语音的模型参数

可替换第一语音模型中对应参数，得到第二语音模型，第二语音模型即可识别第二类语音的声纹特征。

本发明实施例中，第二语音模型可识别出第二类语音的声纹特征，还可将该声纹特征输入第三打分模型来识别对应的用户，该第三打分模型也可在训练过程中也加入第二类语音片段，从而能够基于第二类语音的声纹特征识别出对应的用户。其中，该声纹特征可为反映用户声学差异的特征，例如为i-vector特征。

在基于第二类语音片段自适应训练得到语音模型后，即可基于模型进行第二类语音数据的识别。

参照图3，示出了本发明的另一种声纹识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤302，采集待识别的第二类语音数据。

步骤304，将所述待识别的第二类语音数据输入所述第二语音模型，得到声纹。

因此可以采用用户的第二类语音，得到待识别的第二类语音数据。其中，待识别的第二类语音数据可由终端采集并识别，也可在终端得到第二类语音数据上传，即服务器从终端采集后进行识别处理。可将待识别的第二类语音数据输入所述第二语音模型进行处理，得到对应的声纹。

可依据该声纹得到对应的声纹特征，如i-vector特征的。然后可依据所述声纹特征进行用户识别，即基于声纹特征识别其对应的至少一个用户，再从这至少一个用户中确定出第二类语音数据对应的用户。具体可包括如下步骤：

步骤306，依据所述声纹得到对应的声纹特征，将所述声纹特征输入第三打分模型，确定对应的分值。

步骤308，依据所述分值确定所述第二类语音数据对应的用户。

第三打分模型用于基于声纹特征进行用户的识别，即第三打分模型可对用户进行打分后识别。因此可将声纹特征输入第三打分模型，确定该声纹特征对应每个注册用户的分值，然后采用该分值确定所述第二类语音数据对应的用户，例如将分值最高的用户作为第二类语音数据对应的用户，又如将分值超出阈值的用户作为第二类语音数据对应的用户，得到用户集合。其中，第三打分模型可采用概率线性区分性分析(ProbabilisticLinear Discriminant Analysis，PLDA)模型，该PLDA模型可基于i-vector特征进行识别。

本发明一个可选实施例中，将所述用户的语音数据输入所述第一语音模型，提取所述用户的声纹特征，以进行用户注册。即可采用用户对应第一类语音数据，例如用户说话的语音数据，将该第一类语音数据输入第一语音模型提取该用户的声纹特征，通过该声纹特征进行用户的注册，从而后续即可基于用户的第二类语音数据进行用户识别。从而实现通过用户第一类语音进行注册，使用用户对应第二类语音来识别用户身份，例如通过用户说话的语音注册，并通过用户歌唱的语音识别身份。

一种示例的声纹识别系统，假设第一类语音为说话的语音，第二类语音为歌唱的语音。一种示例可基于如图4所示的框架实现：

将海量用户说话的语音数据进行训练，得到UBM模型(第一语音模型)，然后采用该UBM模型和歌唱语音片段进行MAP算法自适应处理，得到歌唱的UBM模型(第二语音模型)。该歌唱的UBM模型可加入到i-vector特征提取系统中，进行i-vector特征的提取。也可将UBM模型加入到i-vector特征提取系统中。

其中，用户可预先在声纹识别系统中进行注册，即采用用户说话的语音数据，然后将该语音数据输入到i-vector特征提取系统，基于i-vector特征提取系统中的第一语音模型，提取该用户的声纹特征。将声纹特征输入PLDA模型，并且可输入歌唱语音片段作为训练数据，使得PLDA模型能够识别说话用户及歌唱用户。

从而在进行用户身份识别时，可采用用户的歌唱语音数据，将该歌唱语音数据输入到i-vector特征提取系统，得到歌唱用户的i-vector特征。将该歌唱用户的i-vector特征输入到PLDA模型中确定对应各注册用户的分值，基于该用户分值进行得分判断，确定对应的用户，实现用户身份识别。

本发明实施例中，可在后端PLDA模型分类器的训练数据中加入歌唱语音片段，使得训练出来的模型能够更好的区分歌唱语音的用户。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

在上述实施例的基础上，本发明实施例还提供了一种声纹识别装置。可应用于手机、平板电脑等终端设备上。

参照图5，示出了本发明的一种声纹识别装置实施例的结构框图，具体可以包括如下模块：

自适应模块502，用于依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音。

采集模块504，用于采集待识别的第二类语音数据。

识别模块506，用于将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

参照图6，示出了本发明的另一种声纹识别装置实施例的结构框图，具体可以包括如下模块：

其中，所述自适应模块502，包括：

提取子模块5022，用于从所述第一语音模型中获取模型参数，并提取所述第二类语音片段的第二类语音特征。

自适应处理子模块5024，用于依据所述模型参数和第二类语音特征进行自适应处理，得到对应的第二语音模型。

其中，所述自适应处理子模块5024，用于依据所述模型参数，计算所述第二类语音特征的占有率；依据所述第二类语音特征的占有率，计算自适应第二类语音的模型参数；依据所述自适应第二类语音的模型参数，确定对应的第二语音模型。

所述自适应处理子模块5024，用于依据所述第二类语音特征的占有率，计算所述第二类语音片段的统计量；依据所述统计量和自适应参数，计算自适应第二类语音的模型参数。

其中，所述模型参数包括：权重、均值和方差。

还包括：

用户识别模块508，用于依据所述声纹得到对应的声纹特征，依据所述声纹特征进行用户识别。

其中，所述用户识别模块508，用于将所述声纹特征输入第三打分模型，确定对应的分值；依据所述分值确定所述第二类语音数据对应的用户。

其中，所述第三打分模型的训练数据包括第一类语音片段和第二类语音片段。

注册模块510，用于将所述用户的语音数据输入所述第一语音模型，提取所述用户的声纹特征，以进行用户注册。

综上，依据用于识别说话的用户第一语音模型和第二类语音片段，自适应得到用于识别第二类语音的第二语音模型，即通过少量的第二类语音片段和现有的语音自适应得到第二类语音的模型，从而能够在采集到待识别的第二类语音数据后，采用自适应得到第二语音模型进行声纹识别，提高对声纹识别的准确性。

从而可通过第一类语音注册并通过第二类语音识别用户身份，例如还可实现通过用户正常说话的声音来注册，用用户歌唱的声音来测试识别用户身份。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图7是根据一示例性实施例示出的一种用于声纹识别的电子设备700的结构框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等；也可以是服务端设备，如服务器。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件704为电子设备700的各种组件提供电力。电力组件704可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件714经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件714还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行声纹识别方法，所述的方法包括：依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音；采集待识别的第二类语音数据；将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

图8是本发明根据另一示例性实施例示出的一种用于声纹识别的电子设备800的结构示意图。该电子设备800可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器上执行存储介质830中的一系列指令操作。

服务器还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，一个或一个以上键盘856，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，服务器经配置以由一个或者一个以上中央处理器822执行一个或者一个以上程序包含用于进行以下操作的指令：依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音；采集待识别的第二类语音数据；将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语料抽取方法、一种语料抽取装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声纹识别方法，其特征在于，包括：

从第一语音模型中获取模型参数，并提取第二类语音片段的第二类语音特征，其中，第一语音模型用于识别第一类语音，第二语音模型用于识别第二类语音；

依据所述模型参数，计算所述第二类语音特征的占有率；

依据所述第二类语音特征的占有率进行自适应处理，确定对应的第二语音模型；

采集待识别的第二类语音数据；

将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹。

2.根据权利要求1所述的方法，其特征在于，依据所述第二类语音特征的占有率进行自适应处理，确定对应的第二语音模型，包括：

依据所述第二类语音特征的占有率，计算自适应第二类语音的模型参数；

依据所述自适应第二类语音的模型参数，确定对应的第二语音模型。

3.根据权利要求2所述的方法，其特征在于，所述依据第二类语音特征的占有率，计算自适应第二类语音的模型参数，包括：

依据所述第二类语音特征的占有率，计算所述第二类语音片段的统计量；

依据所述统计量和自适应参数，计算自适应第二类语音的模型参数。

4.根据权利要求1-3任一所述的方法，其特征在于，所述第一语音模型为UBM模型，所述模型参数包括：均值。

5.根据权利要求1所述的方法，其特征在于，还包括：

依据所述声纹得到对应的声纹特征；依据所述声纹特征进行用户识别。

6.根据权利要求5所述的方法，其特征在于，所述依据所述声纹特征进行用户识别，包括：

将所述声纹特征输入第三打分模型，确定对应的分值；

依据所述分值确定所述第二类语音数据对应的用户。

7.一种声纹识别装置，其特征在于，包括：

自适应模块，用于依据第一语音模型和第二类语音片段进行自适应处理，得到第二语音模型，其中，第一语音模型用于识别第一类语音，所述第二语音模型用于识别第二类语音；

采集模块，用于采集待识别的第二类语音数据；

识别模块，用于将所述待识别的第二类语音数据输入所述第二语音模型，识别对应的声纹；

所述自适应模块，包括：

提取子模块，用于从所述第一语音模型中获取模型参数，并提取所述第二类语音片段的第二类语音特征；

自适应处理子模块，用于依据所述模型参数，计算所述第二类语音特征的占有率；依据所述第二类语音特征的占有率进行自适应处理，得到对应的第二语音模型。

8.根据权利要求7所述的装置，其特征在于，

所述自适应处理子模块，用于依据所述第二类语音特征的占有率，计算自适应第二类语音的模型参数；依据所述自适应第二类语音的模型参数，确定对应的第二语音模型。

9.根据权利要求8所述的装置，其特征在于，

所述自适应处理子模块，用于依据所述第二类语音特征的占有率，计算所述第二类语音片段的统计量；依据所述统计量和自适应参数，计算自适应第二类语音的模型参数。

10.根据权利要求7-9任一所述的装置，其特征在于，所述第一语音模型为UBM模型，所述模型参数包括：均值。

11.根据权利要求7所述的装置，其特征在于，还包括：

用户识别模块，用于依据所述声纹得到对应的声纹特征；依据所述声纹特征进行用户识别。

12.根据权利要求11所述的装置，其特征在于，

所述用户识别模块，用于将所述声纹特征输入第三打分模型，确定对应的分值；依据所述分值确定所述第二类语音数据对应的用户。

13.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述模型参数，计算所述第二类语音特征的占有率；

采集待识别的第二类语音数据；

14.根据权利要求13所述的电子设备，其特征在于，依据所述第二类语音特征的占有率进行自适应处理，确定对应的第二语音模型，包括：

依据所述模型参数，计算所述第二类语音特征的占有率；

15.根据权利要求14所述的电子设备，其特征在于，所述依据第二类语音特征的占有率，计算自适应第二类语音的模型参数，包括：

16.根据权利要求13-15任一所述的电子设备，其特征在于，所述第一语音模型为UBM模型，所述模型参数包括：均值。

17.根据权利要求13所述的电子设备，其特征在于，还包括：

18.根据权利要求17所述的电子设备，其特征在于，所述依据所述声纹特征进行用户识别，包括：

将所述声纹特征输入第三打分模型，确定对应的分值；

依据所述分值确定所述第二类语音数据对应的用户。

19.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-6中的一个或多个所述的声纹识别方法。