CN110956965A - 一种基于声纹识别的个性化智能家居安全控制系统及方法 - Google Patents

一种基于声纹识别的个性化智能家居安全控制系统及方法 Download PDF

Info

Publication number
CN110956965A
CN110956965A CN201911276190.9A CN201911276190A CN110956965A CN 110956965 A CN110956965 A CN 110956965A CN 201911276190 A CN201911276190 A CN 201911276190A CN 110956965 A CN110956965 A CN 110956965A
Authority
CN
China
Prior art keywords
module
voiceprint
mfcc
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911276190.9A
Other languages
English (en)
Inventor
文军
宋文豪
张汪
詹御
汪伟
王伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911276190.9A priority Critical patent/CN110956965A/zh
Publication of CN110956965A publication Critical patent/CN110956965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • H04L67/125Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了一种基于声纹识别的个性化智能家居安全控制系统及方法,可以基于用户声纹判定该用户是否为家庭合法用户,并且基于声纹的指令检测免去了用户语言、语气和方言所带来的干扰,使得控制系统的普适性和鲁棒性都有了较大的提升。同时,本发明提供的属性分类功能扩充了智能家居安全系统的个性化服务功能,使得非认证用户也能享受主人预设的家居模块。此外,本发明在语音预处理中给出的措施大大减少了环境噪音给语音识别带来的干扰,使用户指令能更高效准确的被系统识别。

Description

一种基于声纹识别的个性化智能家居安全控制系统及方法
技术领域
本发明属于智能家居技术领域,具体涉及一种基于声纹识别的个性化智能家居安全控制系统及方法的设计。
背景技术
智能家居(Smart Home)是以住宅为平台,利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成,构建高效的住宅设施与家庭日程事务的管理系统,提升家居安全性、便利性、舒适性、艺术性,并实现环保节能的居住环境。
现有智能家居的语音控制系统大多单纯基于语义识别技术,该技术缺乏对家居安全性的保障,且容易受用户方言,语气,语言的影响,导致系统普适性差,识别误差大等问题。同时,现有智能家居中的语音安全认证仅把说话人识别和说话人认证纳入安全认证范围,只有事先录入语音且具有使用权限的施令者才能对智能家电实施操作。该方式存在明显的缺点,无法对说话人属性(年龄以及性别)进行分类,缺乏提供个性化服务的能力。现实情况下,一般将系统的终端用户分为房屋主人以及客人,往往客人也应当具有对某些家电的操作权限,且需要根据客人的属性分类细分权限范围。此外,现有的智能家居系统普遍缺乏对复杂背景下语音识别的考虑,当室内背景噪音较大时,将极大地影响后续说话人识别的准确度及系统处理响应速度;在强噪音情况下,说话人发出的指令语音甚至会被完全淹没。
发明内容
本发明的目的是为了解决现有智能家居的语音控制系统存在的易受用户个人语音特质影响导致识别误差较大,无法对用户属性分类导致难以提供个性化服务能力以及在复杂背景环境下识别准确率低下,系统响应速度慢和用户指令易丢失等问题,提出了一种基于声纹识别的个性化智能家居安全控制系统及方法。
本发明的技术方案为:一种基于声纹识别的个性化智能家居安全控制系统,包括语音采集模块、语音预处理模块、声纹特征提取模块、特征匹配模块、特征融合模块、属性分类模块、权限管理模块、中央控制模块和智能家庭终端设备。
语音采集模块用于采集家居环境中的语音信息。
语音预处理模块用于对语音采集模块采集到的语音信息进行预处理。
声纹特征提取模块用于提取预处理后的语音信息中基于声道模型的LPCC特征以及基于人耳听觉特性的MFCC特征,并根据MFCC特征构建MFCC声纹模型。
特征匹配模块用于对MFCC声纹模型和声纹库中的用户声纹模型进行特征匹配,并计算得到两者的相似度得分。
特征融合模块用于对LPCC特征和MFCC特征进行特征融合,得到混合特征向量。
属性分类模块用于将混合特征向量输入分类模型,得到说话人的年龄及性别属性。
权限管理模块用于将LPCC特征及MFCC特征与语义文字库中的指令文字进行语义匹配,并将语义匹配结果与权限规则库中的规则进行匹配,判断说话人是否具备执行词条指令的权限。
中央控制模块用于将具有权限的用户指令转换为对应的机器指令,并发送给指定智能家庭终端设备。
本发明还提供了一种基于声纹识别的个性化智能家居安全控制方法,包括以下步骤:
S1、通过语音采集模块采集家居环境中的语音信息,并将60Hz~6KHz范围内的语音流作为原始语音信息发送至语音预处理模块。
S2、通过语音预处理模块对原始语音信息进行预处理。
S3、通过声纹特征提取模块分别提取预处理后的语音信息中基于声道模型的LPCC特征以及基于人耳听觉特性的MFCC特征。
S4、加载通过Resnet训练好的声纹模型,并基于声纹模型和MFCC特征构建MFCC声纹模型。
S5、在特征匹配模块中,采用特征匹配算法对MFCC声纹模型和声纹库中的用户声纹模型进行特征匹配,并计算得到两者的相似度得分。
S6、判断相似度得分是否大于预设阈值,若是则进入步骤S9,否则进入步骤S7。
S7、在特征融合模块中,根据Fisher准则对LPCC特征和MFCC特征进行特征融合,得到混合特征向量。
S8、加载通过高斯混合模型训练好的分类模型,并将混合特征向量输入分类模型,得到说话人的年龄及性别属性。
S9、将LPCC特征及MFCC特征与语义文字库中的指令文字进行语义匹配,得到指令语义。
S10、在权限管理模块中,将特定属性说话人的指令语义与权限规则库中的规则进行匹配,判断说话人是否具备执行词条指令的权限,若是则进入步骤S11,否则向用户反馈一条无权限消息,结束控制流程。
S11、将具有权限的用户指令传输给中央控制模块。
S12、通过中央控制模块将具有权限的用户指令转换为对应的机器指令,并发送给指定智能家庭终端设备,结束控制流程。
进一步地,步骤S2包括以下分步骤:
S21、对原始语音信息中的语音信号进行预加重,提升语音信号的高频分量。
S22、对语音信号进行分帧加窗,并通过FFT变换获得每一帧信号的频谱。
S23、计算得到每一帧信号的谱能量,并根据每一帧信号的谱能量计算得到FFT中每个频谱分量的概率密度函数。
S24、根据每个频谱分量的概率密度函数计算每一帧信号的谱熵值。
S25、通过预设的判决门限来检测每一帧的谱熵值,将谱熵值小于判决门限对应帧作为语音信息的边界端点,完成对原始语音信息的预处理。
进一步地,步骤S24中计算每一帧信号的谱熵值的公式为:
Figure BDA0002315608430000031
其中H(i)表示第i帧信号的谱熵值,P(n,i)表示第i帧信号第n个频谱分量的概率密度,N表示FFT中频率成分的所有分量数。
进一步地,步骤S5中声纹库中的用户声纹模型的获取方法为:
A1、在安静的环境下,通过语音采集模块采集用户的语音信息。
A2、通过语音预处理模块对用户的语音信息进行预处理。
A3、通过声纹特征提取模块提取预处理后的语音信息中基于人耳听觉特性的MFCC特征。
A4、加载通过Resnet训练好的声纹模型,并基于声纹模型和MFCC特征构建MFCC声纹模型,并将该MFCC声纹模型作为用户声纹模型存入声纹库。
进一步地,步骤S7包括以下分步骤:
S71、将LPCC特征和MFCC特征转化为两个特征矩阵。
S72、对两个特征矩阵进行拼接,得到拼接向量。
S73、依次选取拼接向量中的各维特征,并按照年龄和性别的不同组成构建观测样本集合。
S74、通过Fisher准则计算得到观测样本集合中各维特征的判决函数值。
S75、比较各维特征判决函数值的大小,选取预设数量的最大特征维数组成混合特征向量。
进一步地,步骤S74中判决函数值的计算公式为:
Figure BDA0002315608430000041
其中rFisher表示判决函数值,
Figure BDA0002315608430000042
表示特征参数在观测样本集不同子集的样本数值的方差,
Figure BDA0002315608430000043
表示该维特征在观测样本集各类子集中的同类样本的方差之和。
进一步地,步骤S10中权限规则库中的规则的设定方法为:
B1、指定已录入用户对智能家居的使用权限。
B2、指定特定属性的客人所具有的使用权限。
本发明的有益效果是:
(1)本发明可以基于用户声纹判定该用户是否为家庭合法用户,并且基于声纹的指令检测免去了用户语言、语气和方言所带来的干扰,使得控制系统的普适性和鲁棒性都有了较大的提升。
(2)本发明提供的属性分类功能扩充了智能家居安全系统的个性化服务功能,使得非认证用户也能享受主人预设的家居模块。
(3)本发明在语音预处理中给出的措施大大减少了环境噪音给语音识别带来的干扰,使用户指令能更高效准确的被系统识别。
附图说明
图1所示为本发明实施例一提供的一种基于声纹识别的个性化智能家居安全控制系统框图。
图2所示为本发明实施例二提供的一种基于声纹识别的个性化智能家居安全控制方法流程图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
实施例一:
本发明实施例提供了一种基于声纹识别的个性化智能家居安全控制系统,如图1所示,包括语音采集模块、语音预处理模块、声纹特征提取模块、特征匹配模块、特征融合模块、属性分类模块、权限管理模块、中央控制模块和智能家庭终端设备。
其中,语音采集模块用于采集家居环境中的语音信息。
语音预处理模块用于对语音采集模块采集到的语音信息进行预处理。
本发明实施例中,如果是在安静的家居环境中采集得到的语音信息,使用常规的预处理方法对用户语音信息进行处理即可,不必过多考虑对环境噪音的特殊处理;如果是在噪声较大的家居环境中采集得到的语音信息,则需要对语音信息进行预加重、加窗、分帧、基于谱熵的端点检测等处理,以降低语音噪声,得到更均匀平滑的语音信号,提高后续操作的准确率。
声纹特征提取模块用于提取预处理后的语音信息中基于声道模型的LPCC特征以及基于人耳听觉特性的MFCC特征,并根据MFCC特征构建MFCC声纹模型。
特征匹配模块用于对MFCC声纹模型和声纹库中的用户声纹模型进行特征匹配,并计算得到两者的相似度得分。
特征融合模块用于对LPCC特征和MFCC特征进行特征融合,得到混合特征向量。
属性分类模块用于将混合特征向量输入分类模型,得到说话人的年龄及性别属性。
权限管理模块用于将LPCC特征及MFCC特征与语义文字库中的指令文字进行语义匹配,并将语义匹配结果与权限规则库中的规则进行匹配,判断说话人是否具备执行词条指令的权限。
中央控制模块用于将具有权限的用户指令转换为对应的机器指令,并发送给指定智能家庭终端设备。
实施例二:
本发明实施例提供了一种基于声纹识别的个性化智能家居安全控制方法,如图2所示,包括以下步骤S1~S12:
S1、通过语音采集模块采集家居环境中的语音信息,并将60Hz~6KHz范围内的语音流作为原始语音信息发送至语音预处理模块。
S2、通过语音预处理模块对原始语音信息进行预处理。
通常在真实环境下会存在环境噪声,包括设备音、白噪声、多说话人等情况,需要对原始语音信息进行预加重、加窗、分帧、基于谱熵的端点检测等处理,以降低语音噪声,得到更均匀平滑的语音信号,提高后续操作的准确率。因此,步骤S2包括以下分步骤S21~S25:
S21、对原始语音信息中的语音信号进行预加重,提升语音信号的高频分量。
S22、对语音信号进行分帧加窗,并通过FFT变换获得每一帧信号的频谱。
S23、计算得到每一帧信号的谱能量,并根据每一帧信号的谱能量计算得到FFT中每个频谱分量的概率密度函数。
S24、根据每个频谱分量的概率密度函数计算每一帧信号的谱熵值,计算公式为:
Figure BDA0002315608430000061
其中H(i)表示第i帧信号的谱熵值,P(n,i)表示第i帧信号第n个频谱分量的概率密度,N表示FFT中频率成分的所有分量数。
S25、通过预设的判决门限来检测每一帧的谱熵值,将谱熵值小于判决门限对应帧作为语音信息的边界端点,完成对原始语音信息的预处理。
S3、通过声纹特征提取模块分别提取预处理后的语音信息中基于声道模型的LPCC特征以及基于人耳听觉特性的MFCC特征。
S4、加载通过Resnet训练好的声纹模型,并基于声纹模型和MFCC特征构建MFCC声纹模型。
S5、在特征匹配模块中,采用特征匹配算法对MFCC声纹模型和声纹库中的用户声纹模型进行特征匹配,并计算得到两者的相似度得分。
本发明实施例中,声纹库中的用户声纹模型的获取方法为:
A1、在安静的环境下,通过语音采集模块采集用户的语音信息。
A2、通过语音预处理模块对用户的语音信息进行预处理。
由于录制环境较为安静,且用户靠近语音采集模块,因此步骤A2中采用常规的预处理方法对用户的语音信息进行处理即可,不必过多考虑对环境噪音的特殊处理。
A3、通过声纹特征提取模块提取预处理后的语音信息中基于人耳听觉特性的MFCC特征。
A4、加载通过Resnet训练好的声纹模型,并基于声纹模型和MFCC特征构建MFCC声纹模型,并将该MFCC声纹模型作为用户声纹模型存入声纹库。
S6、判断相似度得分是否大于预设阈值,若是则说明在声纹库中匹配到了预先录入的说话人,进入步骤S9,否则说明没有在声纹库中匹配到对应的说话人,进入步骤S7。
本发明实施例中,若存在多个相似度得分大于预设阈值的情况,则将最高相似度得分的用户作为目标说话人。
S7、在特征融合模块中,根据Fisher准则对LPCC特征和MFCC特征进行特征融合,得到混合特征向量。
步骤S7包括以下分步骤S71~S75:
S71、将LPCC特征和MFCC特征转化为两个特征矩阵。
S72、对两个特征矩阵进行拼接,得到拼接向量。
S73、依次选取拼接向量中的各维特征,并按照年龄和性别的不同组成构建观测样本集合。
S74、通过Fisher准则计算得到观测样本集合中各维特征的判决函数值,计算公式为:
Figure BDA0002315608430000071
其中rFisher表示判决函数值,
Figure BDA0002315608430000072
表示特征参数在观测样本集不同子集的样本数值的方差,
Figure BDA0002315608430000073
表示该维特征在观测样本集各类子集中的同类样本的方差之和。
S75、比较各维特征判决函数值的大小,选取预设数量的最大特征维数组成混合特征向量。
S8、加载通过高斯混合模型训练好的分类模型,并将混合特征向量输入分类模型,得到说话人的年龄及性别属性。
S9、将LPCC特征及MFCC特征与语义文字库中的指令文字进行语义匹配,得到指令语义。
S10、在权限管理模块中,将特定属性说话人的指令语义与权限规则库中的规则进行匹配,判断说话人是否具备执行词条指令的权限,若是则进入步骤S11,否则向用户反馈一条无权限消息,结束控制流程。
本发明实施例中,权限规则库中的规则的设定方法为:
B1、指定已录入用户对智能家居的使用权限,例如家庭中老人和小孩具有使用电视和空调的权限,不具有使用厨房家电的权限等。
B2、指定特定属性的客人所具有的使用权限,例如年龄在18岁以上的客人具有使用电灯的权限等。
S11、将具有权限的用户指令传输给中央控制模块。
S12、通过中央控制模块将具有权限的用户指令转换为对应的机器指令,并发送给指定智能家庭终端设备,结束控制流程。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种基于声纹识别的个性化智能家居安全控制系统,其特征在于,包括语音采集模块、语音预处理模块、声纹特征提取模块、特征匹配模块、特征融合模块、属性分类模块、权限管理模块、中央控制模块和智能家庭终端设备;
所述语音采集模块用于采集家居环境中的语音信息;
所述语音预处理模块用于对语音采集模块采集到的语音信息进行预处理;
所述声纹特征提取模块用于提取预处理后的语音信息中基于声道模型的LPCC特征以及基于人耳听觉特性的MFCC特征,并根据MFCC特征构建MFCC声纹模型;
所述特征匹配模块用于对MFCC声纹模型和声纹库中的用户声纹模型进行特征匹配,并计算得到两者的相似度得分;
所述特征融合模块用于对LPCC特征和MFCC特征进行特征融合,得到混合特征向量;
所述属性分类模块用于将混合特征向量输入分类模型,得到说话人的年龄及性别属性;
所述权限管理模块用于将LPCC特征及MFCC特征与语义文字库中的指令文字进行语义匹配,并将语义匹配结果与权限规则库中的规则进行匹配,判断说话人是否具备执行词条指令的权限;
所述中央控制模块用于将具有权限的用户指令转换为对应的机器指令,并发送给指定智能家庭终端设备。
2.一种基于声纹识别的个性化智能家居安全控制方法,其特征在于,包括以下步骤:
S1、通过语音采集模块采集家居环境中的语音信息,并将60Hz~6KHz范围内的语音流作为原始语音信息发送至语音预处理模块;
S2、通过语音预处理模块对原始语音信息进行预处理;
S3、通过声纹特征提取模块分别提取预处理后的语音信息中基于声道模型的LPCC特征以及基于人耳听觉特性的MFCC特征;
S4、加载通过Resnet训练好的声纹模型,并基于声纹模型和MFCC特征构建MFCC声纹模型;
S5、在特征匹配模块中,采用特征匹配算法对MFCC声纹模型和声纹库中的用户声纹模型进行特征匹配,并计算得到两者的相似度得分;
S6、判断相似度得分是否大于预设阈值,若是则进入步骤S9,否则进入步骤S7;
S7、在特征融合模块中,根据Fisher准则对LPCC特征和MFCC特征进行特征融合,得到混合特征向量;
S8、加载通过高斯混合模型训练好的分类模型,并将混合特征向量输入分类模型,得到说话人的年龄及性别属性;
S9、将LPCC特征及MFCC特征与语义文字库中的指令文字进行语义匹配,得到指令语义;
S10、在权限管理模块中,将特定属性说话人的指令语义与权限规则库中的规则进行匹配,判断说话人是否具备执行词条指令的权限,若是则进入步骤S11,否则向用户反馈一条无权限消息,结束控制流程;
S11、将具有权限的用户指令传输给中央控制模块;
S12、通过中央控制模块将具有权限的用户指令转换为对应的机器指令,并发送给指定智能家庭终端设备,结束控制流程。
3.根据权利要求2所述的个性化智能家居安全控制方法,其特征在于,所述步骤S2包括以下分步骤:
S21、对原始语音信息中的语音信号进行预加重,提升语音信号的高频分量;
S22、对语音信号进行分帧加窗,并通过FFT变换获得每一帧信号的频谱;
S23、计算得到每一帧信号的谱能量,并根据每一帧信号的谱能量计算得到FFT中每个频谱分量的概率密度函数;
S24、根据每个频谱分量的概率密度函数计算每一帧信号的谱熵值;
S25、通过预设的判决门限来检测每一帧的谱熵值,将谱熵值小于判决门限对应帧作为语音信息的边界端点,完成对原始语音信息的预处理。
4.根据权利要求3所述的个性化智能家居安全控制方法,其特征在于,所述步骤S24中计算每一帧信号的谱熵值的公式为:
Figure FDA0002315608420000021
其中H(i)表示第i帧信号的谱熵值,P(n,i)表示第i帧信号第n个频谱分量的概率密度,N表示FFT中频率成分的所有分量数。
5.根据权利要求2所述的个性化智能家居安全控制方法,其特征在于,所述步骤S5中声纹库中的用户声纹模型的获取方法为:
A1、在安静的环境下,通过语音采集模块采集用户的语音信息;
A2、通过语音预处理模块对用户的语音信息进行预处理;
A3、通过声纹特征提取模块提取预处理后的语音信息中基于人耳听觉特性的MFCC特征;
A4、加载通过Resnet训练好的声纹模型,并基于声纹模型和MFCC特征构建MFCC声纹模型,并将该MFCC声纹模型作为用户声纹模型存入声纹库。
6.根据权利要求2所述的个性化智能家居安全控制方法,其特征在于,所述步骤S7包括以下分步骤:
S71、将LPCC特征和MFCC特征转化为两个特征矩阵;
S72、对两个特征矩阵进行拼接,得到拼接向量;
S73、依次选取拼接向量中的各维特征,并按照年龄和性别的不同组成构建观测样本集合;
S74、通过Fisher准则计算得到观测样本集合中各维特征的判决函数值;
S75、比较各维特征判决函数值的大小,选取预设数量的最大特征维数组成混合特征向量。
7.根据权利要求6所述的个性化智能家居安全控制方法,其特征在于,所述步骤S74中判决函数值的计算公式为:
Figure FDA0002315608420000031
其中rFisher表示判决函数值,
Figure FDA0002315608420000032
表示特征参数在观测样本集不同子集的样本数值的方差,
Figure FDA0002315608420000033
表示该维特征在观测样本集各类子集中的同类样本的方差之和。
8.根据权利要求2所述的个性化智能家居安全控制方法,其特征在于,所述步骤S10中权限规则库中的规则的设定方法为:
B1、指定已录入用户对智能家居的使用权限;
B2、指定特定属性的客人所具有的使用权限。
CN201911276190.9A 2019-12-12 2019-12-12 一种基于声纹识别的个性化智能家居安全控制系统及方法 Pending CN110956965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911276190.9A CN110956965A (zh) 2019-12-12 2019-12-12 一种基于声纹识别的个性化智能家居安全控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911276190.9A CN110956965A (zh) 2019-12-12 2019-12-12 一种基于声纹识别的个性化智能家居安全控制系统及方法

Publications (1)

Publication Number Publication Date
CN110956965A true CN110956965A (zh) 2020-04-03

Family

ID=69981182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911276190.9A Pending CN110956965A (zh) 2019-12-12 2019-12-12 一种基于声纹识别的个性化智能家居安全控制系统及方法

Country Status (1)

Country Link
CN (1) CN110956965A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341322A (zh) * 2020-04-15 2020-06-26 厦门快商通科技股份有限公司 一种声纹模型训练方法和装置以及设备
CN111916074A (zh) * 2020-06-29 2020-11-10 厦门快商通科技股份有限公司 一种跨设备语音控制方法、系统、终端及存储介质
CN112863488A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音信号的处理方法、装置以及电子设备
CN112863487A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音识别方法、装置以及电子设备
CN112908310A (zh) * 2021-01-20 2021-06-04 宁波方太厨具有限公司 一种智能电器中的语音指令识别方法及识别系统
CN113257266A (zh) * 2021-05-21 2021-08-13 特斯联科技集团有限公司 基于声纹多特征融合的复杂环境门禁方法及装置
CN115903531A (zh) * 2022-10-21 2023-04-04 广州视声智能科技有限公司 智能控制设备防误触方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN109214820A (zh) * 2018-07-06 2019-01-15 厦门快商通信息技术有限公司 一种基于音视频结合的商户收款系统及方法
CN109412910A (zh) * 2018-11-20 2019-03-01 三星电子(中国)研发中心 控制智能家居设备的方法和装置
CN109617772A (zh) * 2018-12-11 2019-04-12 鹤壁国立光电科技股份有限公司 一种基于语音识别的智能家居系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN109214820A (zh) * 2018-07-06 2019-01-15 厦门快商通信息技术有限公司 一种基于音视频结合的商户收款系统及方法
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN109412910A (zh) * 2018-11-20 2019-03-01 三星电子(中国)研发中心 控制智能家居设备的方法和装置
CN109617772A (zh) * 2018-12-11 2019-04-12 鹤壁国立光电科技股份有限公司 一种基于语音识别的智能家居系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋知用: "《MATLAB语音信号分析与合成 第2版》", 31 October 2017, pages: 155 - 156 *
韩志艳: "《语音识别及语音可视化技术研究》", 31 January 2017, pages: 22 - 23 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341322A (zh) * 2020-04-15 2020-06-26 厦门快商通科技股份有限公司 一种声纹模型训练方法和装置以及设备
CN111916074A (zh) * 2020-06-29 2020-11-10 厦门快商通科技股份有限公司 一种跨设备语音控制方法、系统、终端及存储介质
CN112863488A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音信号的处理方法、装置以及电子设备
CN112863487A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音识别方法、装置以及电子设备
CN112908310A (zh) * 2021-01-20 2021-06-04 宁波方太厨具有限公司 一种智能电器中的语音指令识别方法及识别系统
CN113257266A (zh) * 2021-05-21 2021-08-13 特斯联科技集团有限公司 基于声纹多特征融合的复杂环境门禁方法及装置
CN115903531A (zh) * 2022-10-21 2023-04-04 广州视声智能科技有限公司 智能控制设备防误触方法和装置

Similar Documents

Publication Publication Date Title
CN110956965A (zh) 一种基于声纹识别的个性化智能家居安全控制系统及方法
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
US10013977B2 (en) Smart home control method based on emotion recognition and the system thereof
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
WO2019153404A1 (zh) 智能教室语音控制系统
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
WO2019137066A1 (zh) 电器控制方法及装置
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN108766441A (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN112820291A (zh) 智能家居控制方法、系统和存储介质
EP3989217A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN104934031B (zh) 新增口说语汇的语音识别系统与方法
KR101644015B1 (ko) 시스템과 다수 사용자 간의 대화 인터페이스 장치
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
WO2014173325A1 (zh) 喉音识别方法及装置
CN110211609A (zh) 一种提升语音识别准确率的方法
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
CN110299150A (zh) 一种实时语音说话人分离方法及系统
KR20190119521A (ko) 전자 장치 및 그 동작 방법
EP3816996B1 (en) Information processing device, control method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403

RJ01 Rejection of invention patent application after publication