CN103943111A - 一种身份识别的方法及装置 - Google Patents

一种身份识别的方法及装置 Download PDF

Info

Publication number
CN103943111A
CN103943111A CN201410173009.2A CN201410173009A CN103943111A CN 103943111 A CN103943111 A CN 103943111A CN 201410173009 A CN201410173009 A CN 201410173009A CN 103943111 A CN103943111 A CN 103943111A
Authority
CN
China
Prior art keywords
user
parameter
probability
voice signal
maximum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410173009.2A
Other languages
English (en)
Inventor
匡涛
贾魁
王勇进
任晓楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201410173009.2A priority Critical patent/CN103943111A/zh
Publication of CN103943111A publication Critical patent/CN103943111A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供了一种身份识别的方法及装置,涉及电视技术领域,用于提高用户身份识别的准确率。所述方法,包括:接收用户的语音信号;提取所述语音信号的第一参数;分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率;分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率;将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算;将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户。

Description

一种身份识别的方法及装置
技术领域
本发明涉及电视技术领域,尤其涉及一种身份识别的方法及装置。
背景技术
在现在高度信息化的生活中,电视设备早已超越了最初单纯收看影画的基本属性,取而代之的是电视设备的智能化,其中,智能语音电视设备为智能电视设备的一种。为了满足用户的使用需求,现有的智能语音电视设备设置有两种工作模式,即通用模式与个性化模式。在通用模式下,电视设备根据用户输入的语音指令直接执行相应的播放操作;在个性化模式下,电视设备根据用户的访问记录向用户推荐节目,方便用户选择自身喜爱的节目。
在现有技术中,在智能语音电视设备启动时,处于通用模式,当用户需要在个性化模式下进行观影时,通常采用声纹识别的方法将通用模式切换为个性化模式,即电视设备接收用户输入的语音信号,并将接收到的语音信号进行预处理,从而在预处理后的语音信号中提取声纹信息,并将提取的声纹信息与存储器中存储的语音信息数据进行匹配,当提取的声纹信息与存储器中存储的语音信息数据匹配时,则确定用户的身份,并向用户呈现与该用户相对应的个性化界面,即将通用模式切换为个性化模式。
在上述实现模式切换的方法中,采用声纹识别的方法将通用模式切换为个性化模式时,当用户A与用户B的声纹特征非常接近时,若电视设备对用户A的身份进行识别,电视设备在接收到的用户A的语音信号中提取用户A的声纹信息,并将用户A的声纹信息与存储器中存储的语音信息数据进行匹配,此时,可能存在用户A的声纹信息与存储器中存储的用户B的语音信息数据相匹配,则确定的用户为用户B,即用户身份识别错误,从而导致电视设备根据用户B的访问记录向用户A推荐用户B喜爱的节目。因此,采用声纹识别的方法来确定用户的身份时,导致用户身份识别的准确率不高。
发明内容
本发明的实施例提供了一种身份识别的方法及装置,用于提高用户身份识别的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供了一种身份识别的方法,包括:接收用户的语音信号;提取所述语音信号的第一参数;分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率;分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率;将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算;将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户。
在第一方面的第一种可能的实现方式中,所述语音信号通过麦克风阵列获取。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,当所述最大第一概率小于所述第一阈值,通过所述麦克风阵列重新获取所述用户的语音信号。
结合第一方面,在第一方面的第三种可能的实现方式中,当所述最大第一概率小于所述第一阈值,则提示所述用户进行注册。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,通过所述麦克风阵列获取用户的注册语音信号,并对所述注册语音信号进行预处理;提取与所述注册语音信号对应的第二参数,对所述第二参数进行第一模型训练,得到第一模型参数;并对所述第二参数进行第二模型训练,得到第二模型参数。
结合第一方面,在第一方面的第五种可能的实现方式中,对所述语音信号进行所述预处理,在进行预处理之后的语音信号中提取所述第一参数。
结合第一方面的第四种可能的实现方式,在第一方面的第六种可能的实现方式中,所述预处理包括预加重、分帧、加窗及端点检测处理。
结合第一方面的第一至第六任一种可能的实现方式,在第一方面的第七种可能的实现方式中,所述第一模型包括隐马尔可夫模型HMM;所述第二模型包括高斯混合模型GMM;所述第一参数包括美尔频率倒谱系数MFCC。
第二方面,本发明实施例提供了一种电视设备,包括:接收单元,用于接收用户的语音信号;处理单元,用于提取所述语音信号的第一参数;所述处理单元,还用于分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率;所述处理单元,还用于分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率;所述处理单元,还用于将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算;所述处理单元,还用于将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户,并切换至所述用户对应的个性化模式。
在第二方面的第一种可能的实现方式中,所述接收单元,具体用于通过所述麦克风阵列获取所述语音信号。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述接收单元,还用于在所述最大第一概率小于所述第一阈值时,通过所述麦克风阵列重新获取所述用户的语音信号。
结合第二方面,在第二方面的第三种可能的实现方式中,所述处理单元,还用于在所述最大第一概率小于所述第一阈值时,提示所述用户进行注册。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述接收单元,还用于通过所述麦克风阵列获取用户的注册语音信号;所述处理单元,还用于对所述注册语音信号进行预处理;所述处理单元,还用于提取与所述注册语音信号对应的第二参数,对所述第二参数进行第一模型训练,得到第一模型参数;并对所述第二参数进行第二模型训练,得到第二模型参数。
结合第二方面,在第二方面的第五种可能的实现方式中,所述处理单元,还用于对所述语音信号进行所述预处理,在进行预处理之后的语音信号中提取所述第一参数。
结合第二方面,在第二方面的第六种可能的实现方式中,所述处理单元,还用于在所述运算结果小于所述第二阈值时,确定所述用户不是所述最大第二概率对应的用户,并切换至通用模式。
本发明实施例提供了一种身份识别的方法及装置,电视设备接收到用户的语音信号之后,在接收的用户的语音信号中提取第一参数,首先分别将第一参数与预存储的第一模型参数进行第一模型匹配,并确定出第一模型匹配的最大第一概率,即对用户的语音内容进行识别;然后分别将第一参数与预存储的第二模型参数进行第二模型匹配,并确定出第二模型匹配的最大第二概率,即对用户的声纹特征进行识别,此时,将最大第一概率与第一阈值进行比较,若最大第一概率不小于第一阈值,则将最大第二概率与最大第一概率进行运算,并将运算结果与第二阈值进行比较,若运算结果不小于第二阈值,则确定用户为最大第二概率对应的用户,从而根据用户的语音内容及声纹特征确定用户的用户身份。这样,当用户A与用户B的声纹特征非常接近时,在现有技术中,只根据用户A与用户B的声纹信息确定用户的身份,会导致对用户的身份识别的准确率不高。而本发明中,用户A与用户B可以输入不同内容的语音信号,则电视设备根据获取的不同内容的语音信号及声纹特征相结合的方法来确定用户的用户身份,从而提高了身份识别的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种身份识别的方法的流程示意图;
图2为本发明实施例提供的另一种身份识别的方法的流程示意图;
图3为本发明实施例提供的一种电视设备的功能示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种身份识别的方法,应用于带有麦克风阵列的电视设备中,如图1所示,包括:
101、接收用户的语音信号。
102、提取所述语音信号的第一参数。
其中,所述第一参数为所述用户的语音信号的特征参数。
进一步的,所述第一参数包括MFCC(Mel Frequency CepstrumCoefficient,美尔频率倒谱系数)。
具体的,电视设备在获取到用户的语音信号之后,将获取的语音信号进行FFT(Fast Fourier Transform,快速傅里叶变换),即将时域的语音信号转换为频域的语音信号,再将频域的语音信号经过由至少一个带通滤波器组成的频率滤波器,得到频域的语音信号的对数能量谱,进而将频域的语音信号的对数能量谱进行DCT(Discrete CosineTransform,离散余弦变换),从而得到用户的语音信号的MFCC参数。
需要说明的是,电视设备还可以根据其他方法获取用户的语音信号的MFCC参数,本发明对此不作限制。
需要说明的是,第一参数还可以是其他参数,例如LPCC(LinearPredictive Coefficient,线性预测倒谱系数),本发明对此不做限制。
103、分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率。
其中,所述第一模型参数为与语音内容相关的,且为最大输出概率对应的参数。
具体的,电视设备在提取出用户的语音信号的第一参数后,即得到用户的语音信号的特征向量,并将用户的语音信号的特征向量分别与预先存储的至少一个第一模型参数进行第一模型匹配,例如,分别计算用户的语音信号的特征向量与预先存储的每一个第一模型参数的第一概率,并在计算出的所有第一概率中确定出最大第一概率,并将最大第一概率确定为语音内容识别的结果。
需要说明的是,电视设备还可以根据其他方法确定用户的语音信号的特征向量与预先存储的每一个第一模型参数的第一概率,本发明对此不作限制。
104、分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率。
其中,所述第二模型参数为与用户特征有关的,且为最大似然度对应的参数。
具体的,电视设备在得到用户的语音信号的特征向量之后,将用户的语音信号的特征向量分别与预先存储的每一个已注册用户的第二模型参数进行第二模型匹配,例如,分别计算用户的语音信号的特征向量与每一个已注册用户的第二模型参数的第二概率,并在计算出的所有已注册用户对应的第二概率中确定出最大第二概率,并将最大第二概率确定为对用户的声纹识别的结果,由于每一个已注册用户与第二模型参数是一一对应的,因此,可以根据最大第二概率对应的第二模型参数来确定此第二模型参数对应的用户。
需要说明的是,电视设备还可以根据其他方法确定用户的语音信号的特征向量与每一个已注册用户对应的第二模型参数的第二概率,本发明对此不作限制。
105、将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算。
具体的,电视设备在确定最大第一概率之后,将最大第一概率与预先设定的与语音内容有关的第一阈值进行比较,在确定最大第一概率不小于预先设定的与语音内容有关的第一阈值时,则确定对用户的语音内容识别的结果正确,此时,将用户的语音内容识别的结果与声纹识别的结果进行结合,并确定用户的语音内容识别的结果与声纹识别的结果所占的比例,进而将最大第一概率与最大第二概率进行加权运算,从而得到运算结果。
需要说明的是,电视设备还可以将最大第二概率与最大第一概率进行其他运算,本发明对此不做限制。
106、将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户。
具体的,电视设备将加权运算后的运算结果与预先设定的与声纹识别相关的第二阈值进行比较,当确定运算结果不小于与预先设定的与声纹识别相关的第二阈值时,则确定输入语音信号的用户为根据最大第二概率确定的用户,即为电视设备识别用户的身份成功。
本发明实施例提供了一种身份识别的方法,电视设备接收到用户的语音信号之后,在接收的用户的语音信号中提取第一参数,首先分别将第一参数与预存储的第一模型参数进行第一模型匹配,并确定出第一模型匹配的最大第一概率,即对用户的语音内容进行识别;然后分别将第一参数与预存储的第二模型参数进行第二模型匹配,并确定出第二模型匹配的最大第二概率,即对用户的声纹特征进行识别,此时,将最大第一概率与第一阈值进行比较,若最大第一概率不小于第一阈值,则将最大第二概率与最大第一概率进行运算,并将运算结果与第二阈值进行比较,若运算结果不小于第二阈值,则确定用户为最大第二概率对应的用户,从而根据用户的语音内容及声纹特征确定用户的用户身份。这样,当用户A与用户B的声纹特征非常接近时,在现有技术中,只根据用户A与用户B的声纹信息确定用户的身份,会导致对用户的身份识别的准确率不高。而本发明中,用户A与用户B可以输入不同内容的语音信号,则电视设备根据获取的不同内容的语音信号及声纹特征相结合的方法来确定用户的用户身份,从而提高了身份识别的准确率。
本发明实施例提供了另一种身份识别的方法,应用于带有麦克风阵列的电视设备中,如图2所示,包括:
201、获取注册指令。
具体的,电视设备在检测到有注册指令时,则确定在接收到用户输入的语音信号时,需要对接收到的语音信号进行注册。
202、通过所述麦克风阵列获取用户的注册语音信号,并对所述注册语音信号进行预处理。
其中,所述注册语音信号包括所述用户输入至所述麦克风阵列的至少一次语音信号。所述预处理包括预加重、分帧、加窗及端点检测处理。
具体的,电视设备通过麦克风阵列获取用户的注册语音信号,并对注册语音信号进行预处理,即首先对获取的注册语音信号通过一个一阶有限激励响应高通滤波器,使得注册语音信号的频谱变得平坦的预加重处理,然后对预加重处理后的语音信号进行分帧处理,得到至少一帧语音信号,并将得到的每一帧语音信号分别进行加窗处理,从而减小吉布斯效应的影响,进一步对加窗处理后的语音信号进行端点检测来确定用户输入的注册语音信号的开始与结束位置,并去除语音信号开始与结束时的空白噪声,从而完成对用户的注册语音信号的预处理。
需要说明的是,电视设备对用户的注册语音信号的预处理还可以包括其他处理,例如,在预加重处理之前对用户的注册语音信号进行预滤波,采样和量化处理,本发明对此不做限制。
203、提取与所述注册语音信号对应的第二参数,对所述第二参数进行第一模型训练,得到第一模型参数;并对所述第二参数进行第二模型训练,得到第二模型参数。
其中,所述第二参数为所述用户的注册语音信号的特征参数。
进一步的,所述第一模型包括HMM(Hidden Markov Model,隐马尔可夫模型);所述第二模型包括GMM(Gaussian Mixture Model,高斯混合模型);所述第二参数包括MFCC参数。
具体的,电视设备在将获取到的用户的注册语音信号进行预处理之后,将经过加窗处理后的每一帧语音信号分别进行FFT变换,得到每一帧语音信号的频谱参数,再将每一帧语音信号的频谱参数经过由至少一个带通滤波器组成的频率滤波器,得到每一帧语音信号的频谱参数的对数能量谱,进而将每一帧语音信号的对数能量谱进行DCT(Discrete Cosine Transform,离散余弦变换),从而得到用户的注册语音信号的MFCC参数,即得到用户的注册语音信号的特征向量,并将用户的注册语音信号的特征向量进行HMM模型训练,以得到与用户的注册语音内容相关的模型参数,即将用户的注册语音信号的特征向量作为HMM模型训练的输入,与HMM模型预先设定的初始模型参数根据预设的规则不断调整模型参数,并构成新的模型,以使得输出概率最大,并将最大输出概率对应的模型参数确定为第一模型参数。
再将用户的注册语音信号的特征向量进行GMM模型训练,以得到与用户的声纹相关的模型参数,即将用户的注册语音信号的特征向量作为GMM模型训练的输入,与GMM模型预先设定的初始模型参数根据预设的规则训练,并在训练后的数据中确定最大似然度对应的模型参数,并将此模型参数确定为第二模型参数。
需要说明的是,电视设备对用户的注册语音信号的特征向量进行HMM模型训练及GMM模型训练的具体过程,与现有技术中对语音信号的特征向量的HMM模型训练及GMM模型训练的过程相同,本发明在此不再赘述。
需要说明的是,用户的注册语音信号中的每一个语音信号的内容相同,对于相同内容的语音信号训练后得到的第一模型参数及第二模型参数均只有一个。对于不同内容的语音信号训练后得到的第一模型参数及第二模型参数的个数与语音内容的个数相对应。
需要说明的是,第二参数还可以是其他参数,例如LPCC系数,本发明对此不做限制。
需要说明的是,电视设备还可以对用户的注册语音信号的特征向量进行其他模型训练,以得到与用户的语音内容相关的模型参数及与用户的声纹相关的模型参数,本发明对此不作限制。
204、将所述第一模型参数与所述第二模型参数进行存储。
具体的,电视设备在确定第一模型参数与第二模型参数之后,需要将第一模型参数与第二模型参数进行存储,以便电视设备在接收到用户的语音信号时,根据存储的第一模型参数确定用户的语音内容,根据存储的第二模型参数确定用户的用户身份。
205、接收用户的语音信号。
具体的,电视设备通过麦克风阵列获取用户的语音信号。
206、对所述语音信号进行预处理。
具体的,电视设备对用户的语音信号的预处理过程,与电视设备对用户的注册语音信号的预处理过程类似,可参考步骤202,本发明在此不再赘述。
207、在所述进行预处理之后的用户的语音信号中提取第一参数。
其中,所述第一参数包括MFCC参数。
具体的,电视设备在将获取到的用户的语音信号进行预处理之后,将经过加窗处理后的每一帧语音信号分别进行FFT变换,得到每一帧语音信号的频谱参数,再将每一帧语音信号的频谱参数经过由至少一个带通滤波器组成的频率滤波器,得到每一帧语音信号的频谱参数的对数能量谱,进而将每一帧语音信号的对数能量谱进行DCT变换,从而得到用户的语音信号的MFCC参数。
需要说明的是,第二参数与第一参数相同,当第一参数为MFCC参数时,第二参数也为MFCC参数;当第一参数为LPCC参数时,第二参数也为LPCC参数。
需要说明的是,电视设备在执行完步骤207之后,可以先执行步骤208,再执行步骤209;也可以先执行步骤209,再执行步骤208;或者步骤208与步骤209同时执行,本发明对此不做限制。
208、分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率。
其中,所述第一模型参数为与语音内容相关的,且为最大输出概率对应的参数。
具体的,可参考步骤103,本发明在此不再赘述。
209、分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率。
其中,所述第二模型参数为与用户特征有关的,且为最大似然度对应的参数。
具体的,可参考步骤104,本发明在此不再赘述。
需要说明的是,电视设备将最大第一概率与第一阈值进行比较的结果不同,执行的步骤也不同,在确定最大第一概率不小于第一阈值时,则执行步骤210-211,步骤214-215;在确定最大第一概率小于第一阈值时,则执行步骤212-215。
需要说明的是,电视设备在确定最大第一概率不小于第一阈值后,执行步骤210与步骤211没有先后顺序,本发明对此不做限制。
210、将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算。
具体的,可参考步骤105,本发明在此不再赘述。
211、若所述最大第一概率不小于所述第一阈值,则激活所述麦克风阵列。
具体的,电视设备在确定出最大第一概率不小于第一阈值时,则激活麦克风阵列,以使得用户通过麦克风阵列输入语音指令,从而使得电视设备根据用户输入的语音指令执行相应的操作。
需要说明的是,电视设备在确定最大第一概率小于第一阈值时,有两种实现方法,在直接通过所述麦克风阵列重新获取用户的语音信号时,则执行步骤212;在提示用户进行注册时,则执行步骤213。
212、当所述最大第一概率小于所述第一阈值,通过所述麦克风阵列重新获取所述用户的语音信号。
具体的,电视设备在确定出最大第一概率小于第一阈值时,则确定对用户输入的语音内容识别的结果不正确,此时,电视设备可以重新获取用户的语音信号。
213、当所述最大第一概率小于所述第一阈值,则提示所述用户进行注册。
具体的,电视设备在确定最大第一概率小于第一阈值时,可以通过语音设备输出有关注册的语音,以使得用户接收到此语音后,输入用户的注册语音信号。
214、将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户。
具体的,可参考步骤105,本发明在此不再赘述。
本发明实施例提供了一种身份识别的方法,电视设备在获取到注册指令后,通过麦克风阵列获取用户的注册语音信号,并对用户的注册语音信号进行预处理,并对预处理后的注册语音信号提取第二参数,并对第二参数分别进行第一模型训练及第二模型训练,得到第一模型参数及第二模型参数,并将第一模型参数及第二模型参数进行存储,从而,电视设备在接收到用户的语音信号之后,在接收的用户的语音信号中提取第一参数,首先分别将第一参数与预存储的第一模型参数进行第一模型匹配,并确定出第一模型匹配的最大第一概率,即对用户的语音内容进行识别;然后分别将第一参数与预存储的第二模型参数进行第二模型匹配,并确定出第二模型匹配的最大第二概率,即对用户的声纹特征进行识别,此时,将最大第一概率与第一阈值进行比较,若最大第一概率不小于第一阈值,则将最大第二概率与最大第一概率进行运算,并将运算结果与第二阈值进行比较,若运算结果不小于第二阈值,则确定用户为最大第二概率对应的用户,从而根据用户的语音内容及声纹特征确定用户的用户身份。这样,当用户A与用户B的声纹特征非常接近时,在现有技术中,只根据用户A与用户B的声纹信息确定用户的身份,会导致对用户的身份识别的准确率不高。而本发明中,用户A与用户B可以输入不同内容的语音信号,则电视设备根据获取的不同内容的语音信号及声纹特征相结合的方法来确定用户的用户身份,从而提高了身份识别的准确率。
如图3所示,其为本发明实施例提供了一种电视设备的功能示意图。参考图3所示,该设备包括:接收单元301及处理单元304。
所述接收单元301,用于接收用户的语音信号。
所述处理单元302,用于提取所述语音信号的第一参数。
其中,所述第一参数为所述用户的语音信号的特征参数。
进一步的,所述第一参数包括MFCC参数。
所述处理单元302,还用于分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率。
其中,所述第一模型参数为与语音内容相关的,且为最大输出概率对应的参数。
所述处理单元302,还用于分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率。
其中,所述第二模型参数为与用户特征有关的,且为最大似然度对应的参数。
所述处理单元302,还用于将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算。
所述处理单元302,还用于将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户,并切换至所述用户对应的个性化模式。
其中,所述个性化模式为所述电视设备根据用户的访问记录为用户提供服务的模式。
具体的,所述处理单元302在确定用户为最大第二条件概率对应的用户后,将切换至此用户对应的个性化模式,进而根据已存储的用户的访问记录来向用户提供服务,例如根据已存储的用户的访问记录来向用户推荐电视节目,以使得用户根据推荐的电视节目快速选择自身喜爱的电视节目,而不需要对所有电视频道进行切换来选择自身喜爱的节目,提高了用户体验。
进一步的,所述接收单元301,还用于获取注册指令。
所述接收单元301,还用于通过所述麦克风阵列获取用户的注册语音信号。
其中,所述用户的注册语音信号包括所述用户输入至所述麦克风阵列的至少一次语音信号。
所述处理单元302,还用于对所述用户的注册语音信号进行预处理。
其中,所述预处理包括预加重、分帧、加窗及端点检测处理。
所述处理单元302,还用于提取与所述注册语音信号对应的第二参数,对所述第二参数进行第一模型训练,得到第一模型参数;并对所述第二参数进行第二模型训练,得到第二模型参数。
其中,所述第二参数为所述用户的注册语音信号的特征参数。所述第一模型包括隐马尔可夫模型HMM;所述第二模型包括高斯混合模型GMM;所述第二参数包括MFCC参数。
所述处理单元302,还用于对所述语音信号进行预处理,在进行预处理之后的语音信号中提取第一参数。
所述处理单元302,还用于在确定所述最大第一概率不小于所述第一阈值时,激活所述麦克风阵列。
所述处理单元302,还用于在所述最大第一概率小于所述第一阈值时,通过所述麦克风阵列重新获取所述用户的语音信号。
所述处理单元302,还用于在所述最大第一概率小于所述第一阈值时,提示所述用户进行注册。
所述处理单元302,还用于在所述运算结果小于所述第二阈值时,确定所述用户不是所述最大第二概率对应的用户,并切换至通用模式。
其中,所述通用模式为所述电视设备根据所述用户输入的语音指令直接执行相应的播放操作的模式。
具体的,所述处理单元302在确定运算结果小于预先设定的与声纹识别相关的第二阈值时,则确定输入语音信号的用户不是根据最大第二概率确定的用户,即为识别用户身份失败,则将电视模式切换为通用模式,进而根据用户输入的语音指令直接进行相应的操作。
本发明实施例提供了一种电视设备,电视设备在获取到注册指令后,通过麦克风阵列获取用户的注册语音信号,并对用户的注册语音信号进行预处理,并对预处理后的注册语音信号提取第二参数,并对第二参数分别进行第一模型训练及第二模型训练,得到第一模型参数及第二模型参数,并将第一模型参数及第二模型参数进行存储,从而,电视设备在接收到用户的语音信号之后,在接收的用户的语音信号中提取第一参数,首先分别将第一参数与预存储的第一模型参数进行第一模型匹配,并确定出第一模型匹配的最大第一概率,即对用户的语音内容进行识别;然后分别将第一参数与预存储的第二模型参数进行第二模型匹配,并确定出第二模型匹配的最大第二概率,即对用户的声纹特征进行识别,此时,将最大第一概率与第一阈值进行比较,若最大第一概率不小于第一阈值,则将最大第二概率与最大第一概率进行运算,并将运算结果与第二阈值进行比较,若运算结果不小于第二阈值,则确定用户为最大第二概率对应的用户,从而根据用户的语音内容及声纹特征确定用户的用户身份。这样,当用户A与用户B的声纹特征非常接近时,在现有技术中,只根据用户A与用户B的声纹信息确定用户的身份,会导致对用户的身份识别的准确率不高。而本发明中,用户A与用户B可以输入不同内容的语音信号,则电视设备根据获取的不同内容的语音信号及声纹特征相结合的方法来确定用户的用户身份,从而提高了身份识别的准确率。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种身份识别的方法,其特征在于:
接收用户的语音信号;
提取所述语音信号的第一参数;
分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率;
分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率;
将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算;
将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户。
2.根据权利要求1所述的身份识别的方法,其特征在于:所述语音信号通过麦克风阵列获取。
3.根据权利要求2所述的身份识别的方法,其特征在于:
当所述最大第一概率小于所述第一阈值,通过所述麦克风阵列重新获取所述用户的语音信号。
4.根据权利要求1所述的身份识别的方法,其特征在于:
当所述最大第一概率小于所述第一阈值,则提示所述用户进行注册。
5.根据权利要求4所述的身份识别的方法,其特征在于:
通过所述麦克风阵列获取用户的注册语音信号,并对所述注册语音信号进行预处理;
提取与所述注册语音信号对应的第二参数,对所述第二参数进行第一模型训练,得到第一模型参数;并对所述第二参数进行第二模型训练,得到第二模型参数。
6.根据权利要求1所述的身份识别的方法,其特征在于:
对所述语音信号进行所述预处理,在进行预处理之后的语音信号中提取所述第一参数。
7.根据权利要求5所述的身份识别的方法,其特征在于:所述预处理包括预加重、分帧、加窗及端点检测处理。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述第一模型包括隐马尔可夫模型HMM;所述第二模型包括高斯混合模型GMM;所述第一参数包括美尔频率倒谱系数MFCC。
9.一种电视设备,其特征在于,包括:
接收单元,用于接收用户的语音信号;
处理单元,用于提取所述语音信号的第一参数;
所述处理单元,还用于分别将所述第一参数与预存储的第一模型参数进行第一模型匹配,并确定出所述第一模型匹配的最大第一概率;
所述处理单元,还用于分别将所述第一参数与预存储的第二模型参数进行第二模型匹配,并确定出所述第二模型匹配的最大第二概率;
所述处理单元,还用于将所述最大第一概率与第一阈值进行比较,若所述最大第一概率不小于所述第一阈值,则将所述最大第二概率与所述最大第一概率进行运算;
所述处理单元,还用于将所述运算结果与第二阈值进行比较,若所述运算结果不小于所述第二阈值,则确定所述用户为所述最大第二概率对应的用户,并切换至所述用户对应的个性化模式。
10.根据权利要求9所述的设备,其特征在于,
所述接收单元,具体用于通过所述麦克风阵列获取所述语音信号。
11.根据权利要求10所述的设备,其特征在于,
所述接收单元,还用于在所述最大第一概率小于所述第一阈值时,通过所述麦克风阵列重新获取所述用户的语音信号。
12.根据权利要求9所述的设备,其特征在于,
所述处理单元,还用于在所述最大第一概率小于所述第一阈值时,提示所述用户进行注册。
13.根据权利要求12所述的设备,其特征在于,
所述接收单元,还用于通过所述麦克风阵列获取用户的注册语音信号;
所述处理单元,还用于对所述注册语音信号进行预处理;
所述处理单元,还用于提取与所述注册语音信号对应的第二参数,对所述第二参数进行第一模型训练,得到第一模型参数;并对所述第二参数进行第二模型训练,得到第二模型参数。
14.根据权利要求9所述的设备,其特征在于,
所述处理单元,还用于对所述语音信号进行所述预处理,在进行预处理之后的语音信号中提取所述第一参数。
15.根据权利要求9所述的设备,其特征在于,
所述处理单元,还用于在所述运算结果小于所述第二阈值时,确定所述用户不是所述最大第二概率对应的用户,并切换至通用模式。
CN201410173009.2A 2014-04-25 2014-04-25 一种身份识别的方法及装置 Pending CN103943111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410173009.2A CN103943111A (zh) 2014-04-25 2014-04-25 一种身份识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410173009.2A CN103943111A (zh) 2014-04-25 2014-04-25 一种身份识别的方法及装置

Publications (1)

Publication Number Publication Date
CN103943111A true CN103943111A (zh) 2014-07-23

Family

ID=51190744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410173009.2A Pending CN103943111A (zh) 2014-04-25 2014-04-25 一种身份识别的方法及装置

Country Status (1)

Country Link
CN (1) CN103943111A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216982A (zh) * 2014-09-01 2014-12-17 北京搜狗科技发展有限公司 一种信息处理方法及电子设备
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
WO2017092342A1 (zh) * 2015-12-02 2017-06-08 乐视控股(北京)有限公司 一种推荐方法和装置
CN107015781A (zh) * 2017-03-28 2017-08-04 联想(北京)有限公司 语音识别方法和系统
CN110459204A (zh) * 2018-05-02 2019-11-15 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN111862951A (zh) * 2020-07-23 2020-10-30 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备
CN111933157A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 一种声纹识别方法和设备
CN113259832A (zh) * 2021-06-29 2021-08-13 深圳市欧瑞博科技股份有限公司 麦克风阵列的检测方法、装置、电子设备及存储介质
CN113593580A (zh) * 2021-07-27 2021-11-02 中国银行股份有限公司 一种声纹识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
CN2763935Y (zh) * 2003-12-12 2006-03-08 北京大学 结合语义和声纹信息的说话人身份确认系统
CN1905445A (zh) * 2005-07-27 2007-01-31 国际商业机器公司 使用可移动的语音标识卡的语音认证系统及语音认证方法
CN202841290U (zh) * 2012-06-04 2013-03-27 百度在线网络技术(北京)有限公司 移动终端的解锁装置及具有该解锁装置的移动终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
CN2763935Y (zh) * 2003-12-12 2006-03-08 北京大学 结合语义和声纹信息的说话人身份确认系统
CN1905445A (zh) * 2005-07-27 2007-01-31 国际商业机器公司 使用可移动的语音标识卡的语音认证系统及语音认证方法
CN202841290U (zh) * 2012-06-04 2013-03-27 百度在线网络技术(北京)有限公司 移动终端的解锁装置及具有该解锁装置的移动终端

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216982A (zh) * 2014-09-01 2014-12-17 北京搜狗科技发展有限公司 一种信息处理方法及电子设备
CN104216982B (zh) * 2014-09-01 2019-06-21 北京搜狗科技发展有限公司 一种信息处理方法及电子设备
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
WO2017092342A1 (zh) * 2015-12-02 2017-06-08 乐视控股(北京)有限公司 一种推荐方法和装置
CN107015781A (zh) * 2017-03-28 2017-08-04 联想(北京)有限公司 语音识别方法和系统
CN110459204A (zh) * 2018-05-02 2019-11-15 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN111862951A (zh) * 2020-07-23 2020-10-30 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备
CN111862951B (zh) * 2020-07-23 2024-01-26 海尔优家智能科技(北京)有限公司 语音端点检测方法及装置、存储介质、电子设备
CN111933157A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 一种声纹识别方法和设备
CN113259832A (zh) * 2021-06-29 2021-08-13 深圳市欧瑞博科技股份有限公司 麦克风阵列的检测方法、装置、电子设备及存储介质
CN113593580A (zh) * 2021-07-27 2021-11-02 中国银行股份有限公司 一种声纹识别方法及装置

Similar Documents

Publication Publication Date Title
CN103943111A (zh) 一种身份识别的方法及装置
CN109643549B (zh) 基于说话者识别的语音识别方法和装置
CN109473123B (zh) 语音活动检测方法及装置
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
CN106328127B (zh) 语音识别设备,语音识别方法和电子装置
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
US20170140750A1 (en) Method and device for speech recognition
CN107481720B (zh) 一种显式声纹识别方法及装置
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
US20220130395A1 (en) Voice-Controlled Management of User Profiles
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN106297801A (zh) 语音处理方法及装置
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
CN109741734B (zh) 一种语音评测方法、装置和可读介质
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
EP3682444A1 (en) Voice-controlled management of user profiles
CN106558306A (zh) 用于语音识别的方法、装置和设备
CN109360551B (zh) 一种语音识别方法及装置
CN110211609A (zh) 一种提升语音识别准确率的方法
CN113362829A (zh) 说话人验证方法、电子设备及存储介质
US11081115B2 (en) Speaker recognition
CN111841007A (zh) 游戏的控制方法、装置、设备和存储介质
CN109065026B (zh) 一种录音控制方法及装置
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140723