CN107342076B - 一种兼容非常态语音的智能家居控制系统及方法 - Google Patents
一种兼容非常态语音的智能家居控制系统及方法 Download PDFInfo
- Publication number
- CN107342076B CN107342076B CN201710560779.6A CN201710560779A CN107342076B CN 107342076 B CN107342076 B CN 107342076B CN 201710560779 A CN201710560779 A CN 201710560779A CN 107342076 B CN107342076 B CN 107342076B
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- speech
- model
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种兼容非常态语音的智能家居控制系统及方法,系统包括:语音解析模块、识别模块、决策融合模块、匹配模块、交互反馈模块、控制模块和在线学习模块;语音解析模块,对语音进行声学特征提取;识别模块,对语音采用对应的识别模型进行语音识别;决策融合模块,以加权评分的投票策略进行决策融合;匹配模块,将决策融合的输出结果与预设各模式匹配;交互反馈模块,根据匹配模块的输出结果给出不同的语音交互反馈;控制模块,控制智能家居设备的工作状态;在线学习模块,将语音以在线学习的方式存储到服务器中。本发明简单实用,采用对应的语音模板进行识别和决策融合,在线学习的方式更新语音模板,提高系统的语音识别率和适应性。
Description
技术领域
本发明涉及智能家居领域,具体涉及一种兼容非常态语音的智能家居控制系统及方法。
背景技术
语言是人类最重要的交际工具,也是最自然的交互方式。作为一种人机交互方式,语音识别的目的就是让机器能“听懂”人类的语言。经过几十年的研究,语音识别技术已经应用到普通人的生活当中。随着生活水平的不断提高,智能家居的概念已经进入人们的日常生活,利用先进的计算机、嵌入式系统和网络通讯技术,提供安全舒适、宜人的高品位家庭生活。将语音识别技术引入到智能家居控制中,通过语音命令同样能够对家电控制,代替手动和遥控控制。
但是在实际应用场景中,语音识别系统的准确性受到许多因素的影响。现实生活中,用户受身体健康原因导致变声,常见的感冒导致的非常态语音,改变了说话人个性特征的分布,导致感冒语音与采用常态语音训练得到的语音识别模型不匹配,从而使语音识别系统的识别准确性显著下降。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供了一种兼容非常态语音的智能家居控制系统及方法,
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种兼容非常态语音的智能家居控制系统,包括:语音解析模块、识别模块、决策融合模块、匹配模块、交互反馈模块、控制模块和在线学习模块;
所述语音解析模块,对输入的语音进行声学特征提取,通过SVM分类器确定所述语音的状态类型,即根据最大后验概率确定该输入语音是常态语音状态类型还是非常态语音状态类型;
所述识别模块,对所述语音采用对应的识别模型进行语音识别;
所述决策融合模块,根据SVM计算状态类型的后验概率和各识别模型的概率,以加权评分的投票策略进行决策融合;
所述匹配模块,将决策融合的输出结果与预设的执行动作、设备名称、情景模式匹配;
所述交互反馈模块,根据匹配模块的输出结果给出不同的语音交互反馈;
所述控制模块,当用户反馈识别内容正确,发送控制指令来控制智能家居设备的工作状态;
所述在线学习模块,当用户反馈识别内容错误,将语音以在线学习的方式存储到服务器中,更新系统语音模板。
作为优选的技术方案,所述语音解析模块中,包括提取所述语音的样本特征参数,样本特征参数包括:反映声带特征的基音频率、反映声道形状的共振峰频率以及人耳听觉模型的梅尔倒谱频率系数MFCC,然后对样本特征参数进行归一化,将基因频率、共振峰频率和MFCC统一到一个标准参考系中。
作为优选的技术方案,所述SVM分类器是预先建立的,将提取的语音特征输入SVM分类器后,进行下述处理:
在训练阶段,将不同声音状态的语音作为训练数据,进行语音特征提取和标注;
根据提取的语音特征,使用LIBSVM工具建立对应语音的状态类型的SVM模型;
所述识别模块中,通过隐马尔可夫模型HMM建立对应声音状态的语音模板,并采集用户处于不同语音状态时的语音特征样本,其中,语音模块包括基音频率、共振峰频率、MFCC中的一种或多种;同时,排除不同说话人之间的性别、说话习惯和声道个性的干扰,建立语音模板。
作为优选的技术方案,所述决策融合模块中,采用下述方法:
SVM分类器计算语音状态类型的后验概率;
得到各隐马尔可夫模型HMM语音模型识别的最大概率和次最大概率的文本;
根据文本以加权评分的投票策略进行决策融合,所述加权评分的投票策略具体方法如下:
常态语音类型和非常态语音类型是SVM分类器的两类,分别用x1,x2代表,α1、α2是语音数据通过SVM分类器计算x1,x2得出的后验概率,其中α2=1-α1;HMM识别模型包括常态语音HMM模型和非常态语音HMM模型;g11、g12是所述语音通过常态语音HMM识别模型得出的最大概率对应的文本、次大概率对应的文本,p11、p12是其对应文本的概率;g21、g22是所述语音通过非常态语音HMM模型识别得出的最大概率对应的文本、次最大概率对应的文本,p21、p22是其对应文本的概率;
Input SVM的输出α1,α2和HMM模型识别结果文本g11,g12,g21,g22及其概率p11,p12,p21,p22;
Output最终识别结果gm;
step1:if g11=g21,then{output=gm=g11;end};
setp2:ifg11≠g21and(g11=g22,g12=g21)then
end;
step3:ifg11≠g21≠g12and(g11=g22),then
end;
step4:ifg 11≠g21≠g12≠g22,then
end。
作为优选的技术方案,所述匹配模块中,将识别内容与预设的执行动作、设备名称、情景模式匹配,包括:
匹配成功,则进入交互反馈模块;
匹配失败,则进入在线学习模块;
所述的交互反馈模块,用于对匹配模块得出的输出结果作出反馈,其步骤如下:
根据输出结果,系统发问:“你说的是不是……”;
用户反馈“是”,识别正确则触发控制模块发送控制指令来控制智能家居设备的工作状态;
当用户反馈“不是”,识别错误则进入在线学习模块。
作为优选的技术方案,所述的在线学习模块,是通过用户的反馈来处理缓存的语音文件,在线更新系统语音模板,其步骤如下:
当接收到用户反馈识别错误时,对于识别过程中始终缓存未识别语音缓存文件,系统返回语音提示“你的语音无法正确识别,是不是更新语音库”;
当用户确认“是”,则提示用户更正错误并将缓存语音文件赋以正确指令标号存储至服务器;
当用户确认“不是”或者没有回应,则删除缓存语音文件。
作为优选的技术方案,在线更新系统语音模板中,通过识别模块得到HMM模型参数,采用最大似然线性回归算法MLLR对模型状态结构做自适应,考虑到用户储存至服务器的语音有限性,只对模型的均值做自适应,其他参数保持不变,进一步补偿状态调整后的模型与用户语音状态之间的不匹配。
本发明还提供了一种兼容非常态语音的智能家居控制方法,包括下述步骤:
(1)对输入语音的语音特征进行解析,并根据解析结果确定所述语音的状态类型,状态类型包括常态语音和非常态语音,所述非常态语音是指说话人发音器官功能失调的语音;
(2)对输入语音信息进行处理,提取语音特征,对样本特征参数进行归一化,将具有不同生理意义和单位的声音特征参数统一到一个标准参考系中,归一化公式如下:
其中max是样本数据的最大值,min是样本数据的最小值;
(3)在接收到语音信息后,智能终端可对语音信息进行处理,如果语音特征与感冒、鼻塞、咽喉炎、声带疲劳非常态语音模板匹配,则可确定用户声音状态异常;如果语音特征与身体状态良好时的正常语音模板匹配,则可确定用户声音正常;
(4)根据所述语音的状态类型采用与所述语音的状态类型对应的识别模型,得到识别内容,采用隐马尔可夫模型HMM建立对应的语音模板,需要排除不同说话人之间的性别、说话习惯和声道个性的干扰,来建立语音模板;
(5)根据SVM计算状态类型的后验概率和各识别模型的概率,以加权评分的投票策略进行决策融合;
(6)根据所述语音的状态类型采用与所述语音的状态类型对应的识别模型,得到识别内容,将识别内容与预设的执行动作、设备名称、情景模式匹配,如果匹配成功则进入交互反馈环节,匹配失败则进入在线学习环节;
(7)对匹配模块得出的输出结果作出反馈,其步骤:
根据输出结果,系统发问:“你说的是不是……”;用户反馈“是”,识别正确则触发控制模块发送控制指令来控制智能家居设备的工作状态;当用户反馈“不是”,识别错误则进入在线学习模块;
(8)通过用户的反馈来正确处理缓存的语音文件,在线更新系统语音模型,其步骤:当接收到用户反馈识别错误时,对于识别过程中始终缓存未识别语音缓存文件,统返回语音提示“你的语音无法正确识别,是不是更新语音库”;当用户确认“是”,则提示用户更正错误并将缓存语音文件赋以正确指令标号存储至服务器;当用户确认“不是”或者没有回应,则删除缓存语音文件。
作为优选的技术方案,步骤(3)中,对语音信息进行处理为提取语音的样本特征参数,样本特征参数包括:反映声带特征的基音频率、反映声道形状的共振峰频率、人耳听觉模型的梅尔倒谱系数MFCC;将所述语音特征输入到预先建立的SVM分类器,根据最大后验概率对应的模型确定所述语音的状态类型;
在语音特征输入到预先建立的SVM分类器之前,还包括以下:在训练阶段,将不同声音状态的语音作为训练数据,进行语音特征提取和标注,根据提取的语音特征,使用LIBSVM工具建立对应语音的状态类型的SVM模型;另外,在输入到SVM分类器之前,可先收集多用户处于不同语音状态下的语音文件,提取语音特征参数,并将特征参数输入SVM训练,通过SVM训练得出感冒和正常语音不同特征矢量的混合分类模型。
作为优选的技术方案,步骤(5)中,加权评分的投票策略进行决策融合的方法为:
常态语音类型和非常态语音类型是SVM分类器的两类,分别用x1,x2代表,α1、α2是语音数据通过SVM分类器计算x1,x2得出的后验概率,其中α2=1-α1;HMM识别模型包括常态语音HMM模型和非常态语音HMM模型;g11、g12是所述语音通过常态语音HMM识别模型得出的最大概率对应的文本、次大概率对应的文本,p11、p12是其对应文本的概率;g21、g22是所述语音通过非常态语音HMM模型识别得出的最大概率对应的文本、次最大概率对应的文本,p21、p22是其对应文本的概率;
Input SVM的输出α1,α2和HMM模型识别结果文本g11,g12,g21,g22及其概率p11,p12,p21,p22;
Output最终识别结果gm;
step1:if g11=g21,then{output=gm=g11;end};
setp2:ifg11≠g21and(g11=g22,g12=g21)then
end;
step3:ifg11≠g21≠g12and(g11=g22),then
end;
step4:ifg 11≠g21≠g12≠g22,then
end。
本发明与现有技术相比,具有如下优点和有益效果:
本发明简单实用,对用户的语音信息处理进行特征提取,确定用户的语音状态,采用对应的语音模板进行识别和决策融合,解决了因用户语音状态发生改变导致系统识别率下降的问题,提高系统的语音识别率和适应性。本系统能在一段交互过程后,将用户反馈识别错误的语音段以在线学习的方式存储到服务器中,不断扩展和更新以适应用户的不同语音状态,更加智能化,提升用户体验,能广泛应用于智能家居相关领域。
附图说明
图1是本发明的兼容非常态语音的智能家居控制系统及方法的流程图;
图2是本发明中的移动智能终端的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例兼容非常态语音的智能家居控制方法包括:
打开APP客户端,启动语音采集,接收用户输入的语音信息。
在本发明的一个实施例中,智能终端可接收用户输入的语音信息。其中,智能终端包括但不仅限于智能手机、平板电脑、智能机器人等具有语音识别功能的智能设备。举例来说,用户可以在智能终端说出“打开电视机”。
对输入语音的语音特征进行解析,并根据解析结果确定所述语音的状态类型。非常态语音是指说话人发音器官功能失调的语音,包括感冒、鼻塞、咽喉炎、声带疲劳等声音。
对输入语音信息进行处理,提取语音特征,需要对样本特征参数进行归一化,将具有不同生理意义和单位的声音特征参数统一到一个标准参考系中,归一化公式如下:
其中max是样本数据的最大值,min是样本数据的最小值。
在接收到语音信息后,智能终端可对语音信息进行处理,如果语音特征与感冒、鼻塞、咽喉炎、声带疲劳等非常态语音模板匹配,则可确定用户声音状态异常。如果语音特征与身体状态良好时的正常语音模板匹配,则可确定用户声音正常。举例来说,假设得到的最大后验概率对应的模型是感冒,则可确定用户声音状态异常,属于非常态语音。假设得到的最大后验概率对应的模型是咽喉炎,则可确定用户声音状态异常,属于非常态语音。
具体地,提取语音的样本特征参数,包括:反映声带特征的基音频率、反映声道形状的共振峰频率、人耳听觉模型的梅尔倒谱系数(MFCC)。将所述语音特征输入到预先建立的SVM分类器,根据最大后验概率对应的模型确定所述语音的状态类型。
语音特征输入到预先建立的SVM分类器之前,还包括以下:在训练阶段,将不同声音状态的语音作为训练数据,进行语音特征提取和标注,根据提取的语音特征,使用LIBSVM工具建立对应语音的状态类型的SVM模型。另外,在输入到SVM分类器之前,可先收集多用户处于不同语音状态下的语音文件,提取语音特征参数,并将特征参数输入SVM训练,通过SVM训练得出感冒和正常语音不同特征矢量的混合分类模型。
根据所述语音的状态类型采用与所述语音的状态类型对应的识别模型,得到识别内容,采用隐马尔可夫模型(HMM)建立对应的语音模板。需要排除不同说话人之间的性别、说话习惯和声道个性的干扰,来建立语音模板。
兼容非常态语音的智能家居控制系统及方法的加权评分的投票策略,具体算法说明如下:
常态语音类型和非常态语音类型是SVM分类器的两类,分别用x1,x2代表,α1、α2是语音数据通过SVM分类器计算x1,x2得出的后验概率,其中α2=1-α1;HMM识别模型包括常态语音HMM模型和非常态语音HMM模型;g11、g12是所述语音通过常态语音HMM识别模型得出的最大概率对应的文本、次大概率对应的文本,p11、p12是其对应文本的概率;g21、g22是所述语音通过非常态语音HMM模型识别得出的最大概率对应的文本、次最大概率对应的文本,p21、p22是其对应文本的概率;
Input SVM的输出α1,α2和HMM模型识别结果文本g11,g12,g21,g22及其概率p11,p12,p21,p22;
Output最终识别结果gm。
step1:if g11=g21,then{output=gm=g11;end};
setp2:ifg11≠g21and(g11=g22,g12=g21)then
end;
step3:ifg11≠g21≠g12and(g11=g22),then
end;
step4:ifg 11≠g21≠g12≠g22,then
end。
根据所述语音的状态类型采用与所述语音的状态类型对应的识别模型,得到识别内容,将识别内容与预设的执行动作、设备名称、情景模式匹配,如果匹配成功则进入交互反馈环节,匹配失败则进入在线学习环节。
交互反馈模块主要用于对匹配模块得出的输出结果作出反馈,其步骤:根据输出结果,系统发问:“你说的是不是……”;用户反馈“是”,识别正确则触发控制模块发送控制指令来控制智能家居设备的工作状态;当用户反馈“不是”,识别错误则进入在线学习模块。
在线学习模块,是通过用户的反馈来正确处理缓存的语音文件,在线更新系统语音模型,其步骤:当接收到用户反馈识别错误时,对于识别过程中始终缓存未识别语音缓存文件,统返回语音提示“你的语音无法正确识别,是不是更新语音库”;当用户确认“是”,则提示用户更正错误并将缓存语音文件赋以正确指令标号存储至服务器;当用户确认“不是”或者没有回应,则删除缓存语音文件。
一个具体的实施例中,预设的执行动作包括打开、关闭等,预设的设备名称包括空调、电视机、风扇、窗帘等,预设的情景模式有音量调大、风量减小、上一首、下一首等。当然,预设的执行动作、设备名称、情景模式是需要根据家居设置的,并不限于以上几种。
在本发明的一个实施例中,预设的设备有电视机、空调。用户说出“打开电视机”,第一步进行语音特征提取。第二步进行语音解析,选择常态语音模板识别和非常态语音模板进行识别,根据后验概率和识别概率进行决策融合。第三步,得到语音识别内容“打开电视机”。第四步,与“打开”“电视机”逐一进行匹配。第五步,匹配成功,进入交互反馈模块则系统发问“你说的是不是打开电视机”,用户反馈“是”,则发送控制指令打开电视机。第六步,若匹配不成功,则系统发问“你的语音无法正确识别,是不是更新语音库”,用户回答“是”,则提示用户更正错误并将缓存语音文件赋以正确指令标号存储至服务器,用户回答“不是”或者没有回应,则删除缓存语音文件。在电视机打开的时候,用户说出“湖南卫视”,和以上步骤相同,发送控制指令,电视机频道切换到“湖南卫视”。用户可直接用语音切换电视频道。
若用户的语音无法正确识别,通过用户的反馈来正确处理缓存的语音文件,在线更新系统语音模型,其步骤如下:当接收到用户反馈识别错误时,对于识别过程中始终缓存未识别语音缓存文件;系统返回语音提示“你的语音无法正确识别,是不是更新语音库”;当用户确认“是”,则提示用户更正错误并将缓存语音文件赋以正确指令标号存储至服务器;当用户确认“不是”或者没有回应,则删除缓存语音文件。
在本发明的一个实施例中,用户说出“打开空调”,得到错误的识别结果,用户反馈识别错误,系统返回语音提示“你的语音无法正确识别,是否加入语音库”,当用户反馈“是”,则等待用户更正错误,标记为“打开空调”的正确指令标号,也就是将缓存语音段赋以正确指令标号存储,当用户反馈“不是”或者没有回应,则删除缓存语音段。
实施本发明的兼容非常态语音的智能家居控制系统及方法,具有以下有益效果:本发明简单实用,对用户的语音信息处理进行特征提取,确定用户的语音状态,采用对应的语音模板进行识别和决策融合提高系统的语音识别率和适应性。本系统能在一段交互过程后,将用户反馈识别错误的语音段以在线学习的方式存储到服务器中,不断扩展和更新以适应用户的不同语音状态,更加智能化,提升用户体验,能广泛应用于智能家居相关领域。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种兼容非常态语音的智能家居控制系统,其特征在于,包括:语音解析模块、识别模块、决策融合模块、匹配模块、交互反馈模块、控制模块和在线学习模块;
所述语音解析模块,对输入的语音进行声学特征提取,通过SVM分类器确定所述语音的状态类型,即根据最大后验概率确定该输入语音是常态语音状态类型还是非常态语音状态类型;
所述识别模块,对所述语音采用对应的识别模型进行语音识别;
所述决策融合模块,根据SVM计算状态类型的后验概率和各识别模型的概率,以加权评分的投票策略进行决策融合;所述决策融合模块中,采用下述方法:
SVM分类器计算语音状态类型的后验概率;
得到各隐马尔可夫模型HMM语音模型识别的最大概率和次最大概率的文本;
根据概率以加权评分的投票策略进行决策融合,所述加权评分的投票策略具体方法如下:
常态语音类型和非常态语音类型是SVM分类器的两类,分别用x1,x2代表,α1、α2是语音数据通过SVM分类器计算x1,x2得出的后验概率,其中α2=1-α1;
HMM识别模型包括常态语音HMM模型和非常态语音HMM模型;g11、g12是所述语音通过常态语音HMM识别模型得出的最大概率对应的文本、次大概率对应的文本,p11、p12是其对应文本的概率;g21、g22是所述语音通过非常态语音HMM模型识别得出的最大概率对应的文本、次最大概率对应的文本,p21、p22是其对应文本的概率;以上是对计算参数的说明,下面对加权评分的投票策略计算公式和计算流程做具体说明:
Input SVM的输出α1,α2和HMM模型识别结果文本g11,g12,g21,g22及其概率p11,p12,p21,p22;
Output最终识别结果gm;
step1:if g11=g21,then{output=gm=g11;end};
setp2:if g11≠g21 and(g11=g22,g12=g21),then
end;
step3:if g11≠g21≠g12 and(g11=g22),then
end;
step4:if g11≠g21≠g12≠g22,then
end;
所述匹配模块,将决策融合的输出结果与预设的执行动作、设备名称、情景模式匹配;包括:
匹配成功,则进入交互反馈模块;
匹配失败,则进入在线学习模块;
所述的交互反馈模块,用于对匹配模块得出的输出结果作出反馈,其步骤如下:
根据输出结果,系统发问:“你说的是不是……”;
用户反馈“是”,识别正确则触发控制模块发送控制指令来控制智能家居设备的工作状态;
当用户反馈“不是”,识别错误则进入在线学习模块;
所述控制模块,当用户反馈识别内容正确,发送控制指令来控制智能家居设备的工作状态;
所述在线学习模块,当用户反馈识别内容错误,将语音以在线学习的方式存储到服务器中,更新系统语音模板。
2.根据权利要求1所述兼容非常态语音的智能家居控制系统,其特征在于,所述语音解析模块中,包括提取所述语音的样本特征参数,样本特征参数包括:反映声带特征的基音频率、反映声道形状的共振峰频率以及人耳听觉模型的梅尔倒谱频率系数MFCC,然后对样本特征参数进行归一化,将基音频率、共振峰频率和MFCC统一到一个标准参考系中。
3.根据权利要求1所述兼容非常态语音的智能家居控制系统,其特征在于,所述SVM分类器是预先建立的,将提取的语音特征输入SVM分类器后,进行下述处理:
在训练阶段,将不同声音状态的语音作为训练数据,进行语音特征提取和标注;
根据提取的语音特征,使用LIBSVM工具建立对应语音的状态类型的SVM模型;
所述识别模块中,通过隐马尔可夫模型HMM建立对应声音状态的语音模板,并采集用户处于不同语音状态时的语音特征样本,其中,语音模块包括基音频率、共振峰频率、MFCC中的一种或多种;同时,排除不同说话人之间的性别、说话习惯和声道个性的干扰,建立语音模板。
4.根据权利要求1所述兼容非常态语音的智能家居控制系统,其特征在于,所述的在线学习模块,是通过用户的反馈来处理缓存的语音文件,在线更新系统语音模板,其步骤如下:
当接收到用户反馈识别错误时,对于识别过程中始终缓存未识别语音缓存文件,系统返回语音提示“你的语音无法正确识别,是不是更新语音库”;
当用户确认“是”,则提示用户更正错误并将缓存语音文件赋以正确指令标号存储至服务器;
当用户确认“不是”或者没有回应,则删除缓存语音文件。
5.根据权利要求4所述兼容非常态语音的智能家居控制系统,其特征在于,在线更新系统语音模板中,通过识别模块得到HMM模型参数,采用最大似然线性回归算法MLLR对模型状态结构做自适应,考虑到用户储存至服务器的语音有限性,只对模型的均值做自适应,其他参数保持不变,进一步补偿状态调整后的模型与用户语音状态之间的不匹配。
6.一种兼容非常态语音的智能家居控制方法,其特征在于,包括下述步骤:
(1)对输入语音的语音特征进行解析,并根据解析结果确定所述语音的状态类型,状态类型包括常态语音和非常态语音,所述非常态语音是指说话人发音器官功能失调的语音;
(2)对输入语音信息进行处理,提取语音特征,对样本特征参数进行归一化,将具有不同生理意义和单位的声音特征参数统一到一个标准参考系中,归一化公式如下:
其中max是样本数据的最大值,min是样本数据的最小值;
(3)在接收到语音信息后,智能终端可对语音信息进行处理,如果语音特征与感冒、鼻塞、咽喉炎、声带疲劳非常态语音模板匹配,则可确定用户声音状态异常;如果语音特征与身体状态良好时的正常语音模板匹配,则可确定用户声音正常;
(4)根据所述语音的状态类型采用与所述语音的状态类型对应的识别模型,得到识别内容,采用隐马尔可夫模型HMM建立对应的语音模板,需要排除不同说话人之间的性别、说话习惯和声道个性的干扰,来建立语音模板;
(5)根据SVM计算状态类型的后验概率和各识别模型的概率,以加权评分的投票策略进行决策融合;加权评分的投票策略进行决策融合的方法为:
常态语音类型和非常态语音类型是SVM分类器的两类,分别用x1,x2代表,α1、α2是语音数据通过SVM分类器计算x1,x2得出的后验概率,其中α2=1-α1;
HMM识别模型包括常态语音HMM模型和非常态语音HMM模型;g11、g12是所述语音通过常态语音HMM识别模型得出的最大概率对应的文本、次大概率对应的文本,p11、p12是其对应文本的概率;g21、g22是所述语音通过非常态语音HMM模型识别得出的最大概率对应的文本、次最大概率对应的文本,p21、p22是其对应文本的概率;以上是对计算参数的说明,下面是加权评分的投票策略计算公式和计算流程做具体说明;
Input SVM的输出α1,α2和HMM模型识别结果文本g11,g12,g21,g22及其概率p11,p12,p21,p22;
Output最终识别结果gm;
step1:if g11=g21,then{output=gm=g11;end};
setp2:if g11≠g21 and(g11=g22,g12=g21),then
end;
step3:if g11≠g21≠g12 and(g11=g22),then
end;
step4:if g11≠g21≠g12≠g22,then
end;
(6)根据所述语音的状态类型采用与所述语音的状态类型对应的识别模型,得到识别内容,将识别内容与预设的执行动作、设备名称、情景模式匹配,如果匹配成功则进入交互反馈环节,匹配失败则进入在线学习环节;
(7)对匹配模块得出的输出结果作出反馈,其步骤:
根据输出结果,系统发问:“你说的是不是……”;用户反馈“是”,识别正确则触发控制模块发送控制指令来控制智能家居设备的工作状态;当用户反馈“不是”,识别错误则进入在线学习模块;
(8)通过用户的反馈来正确处理缓存的语音文件,在线更新系统语音模型,其步骤:当接收到用户反馈识别错误时,对于识别过程中始终缓存未识别语音缓存文件,系统返回语音提示“你的语音无法正确识别,是不是更新语音库”;当用户确认“是”,则提示用户更正错误并将缓存语音文件赋以正确指令标号存储至服务器;当用户确认“不是”或者没有回应,则删除缓存语音文件。
7.根据权利要求6所述兼容非常态语音的智能家居控制方法,其特征在于,步骤(3)中,对语音信息进行处理为提取语音的样本特征参数,样本特征参数包括:反映声带特征的基音频率、反映声道形状的共振峰频率、人耳听觉模型的梅尔倒谱系数MFCC;将所述语音特征输入到预先建立的SVM分类器,根据最大后验概率对应的模型确定所述语音的状态类型;
在语音特征输入到预先建立的SVM分类器之前,还包括以下:在训练阶段,将不同声音状态的语音作为训练数据,进行语音特征提取和标注,根据提取的语音特征,使用LIBSVM工具建立对应语音的状态类型的SVM模型;另外,在输入到SVM分类器之前,可先收集多用户处于不同语音状态下的语音文件,提取语音特征参数,并将特征参数输入SVM训练,通过SVM训练得出常态和非常态语音不同特征矢量的混合分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710560779.6A CN107342076B (zh) | 2017-07-11 | 2017-07-11 | 一种兼容非常态语音的智能家居控制系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710560779.6A CN107342076B (zh) | 2017-07-11 | 2017-07-11 | 一种兼容非常态语音的智能家居控制系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107342076A CN107342076A (zh) | 2017-11-10 |
CN107342076B true CN107342076B (zh) | 2020-09-22 |
Family
ID=60219622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710560779.6A Active CN107342076B (zh) | 2017-07-11 | 2017-07-11 | 一种兼容非常态语音的智能家居控制系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107342076B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108053828A (zh) * | 2017-12-25 | 2018-05-18 | 无锡小天鹅股份有限公司 | 确定控制指令的方法、装置和家用电器 |
CN110955327B (zh) * | 2018-09-27 | 2023-06-09 | 奇酷互联网络科技(深圳)有限公司 | 启动和关闭智能设备方法、存储装置和终端 |
CN109147788B (zh) * | 2018-10-19 | 2021-06-04 | 珠海格力电器股份有限公司 | 本地语音库的更新方法及装置 |
CN109326285A (zh) * | 2018-10-23 | 2019-02-12 | 出门问问信息科技有限公司 | 语音信息处理方法、装置及非暂态计算机可读存储介质 |
CN109387378A (zh) * | 2018-10-23 | 2019-02-26 | 重庆西部汽车试验场管理有限公司 | 车载数据采集器记录触发数据的方法 |
CN112997247A (zh) * | 2018-11-05 | 2021-06-18 | 株式会社赛斯特安国际 | 利用大数据的最佳语言模型生成方法及用于其的装置 |
CN109817207A (zh) * | 2018-12-20 | 2019-05-28 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
CN109671437B (zh) * | 2019-01-10 | 2021-04-13 | 广东小天才科技有限公司 | 一种音频处理方法、音频处理装置及终端设备 |
CN109949803B (zh) * | 2019-02-11 | 2020-01-31 | 特斯联(北京)科技有限公司 | 基于语义指令智能识别的建筑服务设施控制方法及系统 |
CN110263183A (zh) * | 2019-06-20 | 2019-09-20 | 珠海格力电器股份有限公司 | 一种智能家居决策支持系统及决策支持方法 |
CN110719662A (zh) * | 2019-10-29 | 2020-01-21 | 横店集团得邦照明股份有限公司 | 具有深度学习能力的声控led照明系统 |
CN111077786B (zh) * | 2019-12-10 | 2023-12-19 | 上海雷盎云智能技术有限公司 | 基于大数据分析的智能家居设备控制方法和装置 |
CN111179928A (zh) * | 2019-12-30 | 2020-05-19 | 上海欣能信息科技发展有限公司 | 一种基于语音交互的变配电站智能控制方法 |
CN111722862A (zh) * | 2020-06-18 | 2020-09-29 | 华人运通(上海)新能源驱动技术有限公司 | 语音场景更新方法、装置、终端、服务器和系统 |
CN111899728A (zh) * | 2020-07-23 | 2020-11-06 | 海信电子科技(武汉)有限公司 | 智能语音助手决策策略的训练方法及装置 |
CN112462940A (zh) * | 2020-11-25 | 2021-03-09 | 苏州科技大学 | 智能家居多模态人机自然交互系统及其方法 |
CN113205802B (zh) * | 2021-05-10 | 2022-11-04 | 芜湖美的厨卫电器制造有限公司 | 语音识别模型的更新方法、家用电器及服务器 |
CN116597839B (zh) * | 2023-07-17 | 2023-09-19 | 山东唐和智能科技有限公司 | 一种智能语音交互系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923857A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 一种人机交互的可扩展语音识别方法 |
CN102129860A (zh) * | 2011-04-07 | 2011-07-20 | 魏昕 | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
-
2017
- 2017-07-11 CN CN201710560779.6A patent/CN107342076B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923857A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 一种人机交互的可扩展语音识别方法 |
CN102129860A (zh) * | 2011-04-07 | 2011-07-20 | 魏昕 | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
Non-Patent Citations (4)
Title |
---|
《Automatic Detection of Pathological Voices Using GMM-MLLR Approach》;Xiang Wang等;《2009 2nd International Conference on Biomedical Engineering and Informatics》;20091017;第2.1节、2.2节、3.1节、第3.2节 * |
《Automatic Detection of Pathological Voices Using GMM-SVM Method》;Xiang Wang等;《2009 2nd International Conference on Biomedical Engineering and Informatics》;20091017;第Ⅳ节、第Ⅴ节、图3 * |
基于多分类器融合的语音识别方法研究;孔浩等;《重庆邮电大学学报》;20110831;第492-495页 * |
基于多特征和多分类器融合的语种识别;陈瑶玲等;《微计算机信息》;20100905;第195-197页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107342076A (zh) | 2017-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107342076B (zh) | 一种兼容非常态语音的智能家居控制系统及方法 | |
US11170788B2 (en) | Speaker recognition | |
US9443527B1 (en) | Speech recognition capability generation and control | |
US9153231B1 (en) | Adaptive neural network speech recognition models | |
US10339920B2 (en) | Predicting pronunciation in speech recognition | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
CN106228988A (zh) | 一种基于声纹信息的习惯信息匹配方法及装置 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
WO2017054122A1 (zh) | 语音识别系统及方法、客户端设备及云端服务器 | |
CN110832578A (zh) | 可定制唤醒语音命令 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
CN109564759A (zh) | 说话人识别 | |
CN110992932B (zh) | 一种自学习的语音控制方法、系统及存储介质 | |
WO2006109515A1 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
CN109036395A (zh) | 个性化的音箱控制方法、系统、智能音箱及存储介质 | |
CN108766441A (zh) | 一种基于离线声纹识别和语音识别的语音控制方法及装置 | |
EP1022725B1 (en) | Selection of acoustic models using speaker verification | |
CN112562681B (zh) | 语音识别方法和装置、存储介质 | |
CN114999472A (zh) | 一种空调控制方法、装置及一种空调 | |
CN110931018A (zh) | 智能语音交互的方法、装置及计算机可读存储介质 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN111027675B (zh) | 一种多媒体播放设置自动调节方法及系统 | |
Justo et al. | Improving dialogue systems in a home automation environment | |
CN110853669A (zh) | 音频识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |