CN112543390B - 一种幼儿智能音箱及其交互方法 - Google Patents

一种幼儿智能音箱及其交互方法 Download PDF

Info

Publication number
CN112543390B
CN112543390B CN202011336049.6A CN202011336049A CN112543390B CN 112543390 B CN112543390 B CN 112543390B CN 202011336049 A CN202011336049 A CN 202011336049A CN 112543390 B CN112543390 B CN 112543390B
Authority
CN
China
Prior art keywords
wolf
infant
voice
module
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011336049.6A
Other languages
English (en)
Other versions
CN112543390A (zh
Inventor
岳莉亚
胡沛
韩璞
韩凌
杨植森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanyang Institute of Technology
Original Assignee
Nanyang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanyang Institute of Technology filed Critical Nanyang Institute of Technology
Priority to CN202011336049.6A priority Critical patent/CN112543390B/zh
Publication of CN112543390A publication Critical patent/CN112543390A/zh
Application granted granted Critical
Publication of CN112543390B publication Critical patent/CN112543390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/023Screens for loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本发明提供了一种幼儿智能音箱及其交互方法,包括音箱本体,音箱本体内设置中央处理器、存储器和网络连接器,音箱本体的表面设置显示屏,中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,存储器内设置存储模块,输出模块通过电路连接显示屏,智能控制模块电控连接语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;语音采集模块用于成人语音信息的采集;幼儿声纹采集模块用于幼儿语音信号采集;唤醒模块用于语音唤醒智能音箱;输出模块用于响应用户指令,输出模块的输出内容包括声音和视频;智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加。

Description

一种幼儿智能音箱及其交互方法
技术领域
本发明涉及语音识别技术和人工智能技术领域,特别是一种幼儿智能音箱及其交互方法。
背景技术
随着人工智能技术的成熟和语音识别技术的发展,智能音箱已开始渗透到人们的日常生活当中。智能音箱不仅具备传统语音设备播放音频、视频功能,还具备了智能化、交互、控制等功能。目前市场流行的音箱具备了良好的交互性和智能性,但是对刚学会说话不久的幼儿体验效果差,比如唤醒词过长、不能正确识别幼儿指令等。
神经网络模拟人脑结构的思维功能,具有较强的自学习和联想功能,精度较高,人工干预少,对专家知识的利用也较少。典型的神经网络架构包含一个输入层、一个或多个隐藏层和一个输出层。元启发式算法由于能在多维搜索空间中找到全局解,在神经网络的参数训练中得到了广泛的应用。但是神经网络也存在着易陷入局部最优、精度低、学习速度慢等固有缺陷。现有智能音箱的处理器性能一般,数据处理能力差。
发明内容
本发明的目的是针对现有的技术存在上述问题,提出了一种通过改进算法优化神经网络参数,智能分辨成人唤醒或幼儿唤醒的幼儿智能音箱及其交互方法。
本发明的目的可通过下列技术方案来实现:幼儿智能音箱,包括音箱本体,所述音箱本体内设置中央处理器、存储器和网络连接器,所述音箱本体的表面设置显示屏,其特征在于,所述中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,所述存储器内设置存储模块,所述输出模块通过电路连接所述显示屏,所述智能控制模块电控连接所述语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;所述语音采集模块用于成人语音信息的采集,所述语音采集模块包含多个单人语音采集模块;所述幼儿声纹采集模块用于幼儿语音信号采集;所述唤醒模块用于语音唤醒智能音箱,所述唤醒模块包括成人唤醒模块和幼儿唤醒模块;所述存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据;所述输出模块用于响应用户指令,所述输出模块的输出内容包括声音和视频;所述智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加;网络连接器用于将智能设备连接互联网。
在上述的幼儿智能音箱中,多个所述单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。
语音采集模块一共可以采集六个成年人(幼儿父母、爷爷奶奶、姥爷姥姥)的语音信息,并通过智能控制模块进行识别训练后,这六个成年人即可控制幼儿操纵智能音箱的权限。
幼儿智能音箱的交互方法,包括以下内容:
A、对成人语音识别的方法:
1)、输入成人样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入成人训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果;
B、对幼儿语音识别的方法:
1)、输入幼儿样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入幼儿训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果。
在上述的幼儿智能音箱的交互中,compact灰狼算法,包括如下步骤:
1)、初始化相关参数,如最大迭代次数Max_iter=500,位置上界ub=1,位置下界lb=0,随机生成灰狼位置Position;mu和sicma计算如式(1)和(2)所示:
mu=zeros(3,dim); (1)
sicma=10*ones(3,dim); (2)
mu和sicma表示高斯分布式的均值和方差,dim是搜索空间的维度,在此为优化的神经网络参数个数;
2)、初始化α,β,γ狼位置,计算如下式(3)-(5):
Alpha_pos=ub*generateIndividualR(mu(1),sicma(1)); (3)
Beta_pos=ub*generateIndividualR(mu(2),sicma(2)); (4)
Delta_pos=ub*generateIndividualR(mu(3),sicma(3)); (5)
generateIndividualR函数根据高斯分布式的均值和方差生成灰狼位置;
3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9):
r=rand(); (6)
erfA=erf((mu+1)/(sqrt(2)*sicma)); (7)
erfB=erf((mu-1)/(sqrt(2)*sicma)); (8)
samplerand=erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu; (9)
rand()生成一个[0,1]的随机变量;erf()是误差函数,它是高斯概率密度函数的积分;sqrt为求平方根函数;erfinv()表示逆误差函数;samplerand为函数返回值;
4)、调用目标函数如下式(10),求出α,β,γ狼的目标函数值分别为Alpha_score,Beta_score和Delta_score;
Figure GDA0003908705870000031
n是神经网络训练样本数,y是训练样本标签,y'表示样本预测结果;
5)、求出灰狼下次移动到的位置,循环遍历灰狼的每个维度,更新如下式(11)-(15):
a=2-l*(2/Max_iter); (11)
X1=Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j)); (12)
X2=Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j)); (13)
X3=Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j)); (14)
Position(j)=(X1+X2+X3)/3; (15)
l是当前迭代次数,j表示灰狼的第j个维度;a用来控制算法的全局和局部搜索能力;X1,X2和X3分别是α,β,γ狼对灰狼的吸引能力;abs()是绝对值函数;
6)、更新后的灰狼位置和α狼做对比,winner1为具有最好的目标函数值的狼,loser1为具有最差的目标函数值的狼;
7)、更新mu(1)和sicma(1),遍历灰狼的每个维度,更新如下式(16)-(21):
winner1(j)=(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (16)
loser1(j)=(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (17)
mut=mu(1,j); (18)
mu(1,j)=mu(1,j)+(1/200)*(winner1(j)-loser1(j)); (19)
t=sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2); (20)
Figure GDA0003908705870000041
8)、更新后的灰狼位置和β狼做对比,winner2为具有最好的目标函数值的狼,loser2为具有最差的目标函数值的狼;
9)、更新mu(2)和sicma(2),遍历灰狼的每个维度,更新如下式(22)-(27):
winner2(j)=(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (22)
loser2(j)=(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (23)
mut=mu(1,j); (24)
mu(2,j)=mu(2,j)+(1/200)*(winner2(j)-loser2(j)); (25)
t=sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2); (26)
Figure GDA0003908705870000042
10)、更新后的灰狼位置和γ狼做对比,winner3为具有最好的目标函数值的狼,loser3为具有最差的目标函数值的狼;
11)、更新mu(3)和sicma(3),遍历灰狼的每个维度,更新如下式(28)-(33):
winner3(j)=(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (28)
loser3(j)=(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (29)
mut=mu(1,j); (30)
mu(3,j)=mu(3,j)+(1/200)*(winner3(j)-loser3(j)); (31)
t=sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2); (32)
Figure GDA0003908705870000051
12)、循环结束,输出winner1,winner2和winner3的最优值。
与现有技术相比,本幼儿智能音箱及其交互方法具有以下优点:
本发明能够动态添加唤醒词,高效识别幼儿语音指令,智能控制幼儿访问智能音箱的权限,构建高效的神经网络语音训练模型,改进的compact灰狼算法能够在运算能力受限的嵌入式CPU中优化神经网络参数,避免神经网络陷入局部陷阱的问题,可以有效提高预测准确度,加快预测进程。
附图说明
图1为本发明的系统图;
图2为本发明的成人语音识别流程框图;
图3为本发明的幼儿语音识别流程框图;
图4为本发明的神经网络语音识别训练流程图;
图5为本发明的神经网络架构图;
图6为本发明的改进compact灰狼算法流程图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
如图1所示,本幼儿智能音箱,包括音箱本体,音箱本体内设置中央处理器、存储器和网络连接器,音箱本体的表面设置显示屏,其特征在于,中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,存储器内设置存储模块,输出模块通过电路连接显示屏,智能控制模块电控连接语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;语音采集模块用于成人语音信息的采集,语音采集模块包含多个单人语音采集模块;幼儿声纹采集模块用于幼儿语音信号采集;唤醒模块用于语音唤醒智能音箱,唤醒模块包括成人唤醒模块和幼儿唤醒模块;存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据;输出模块用于响应用户指令,输出模块的输出内容包括声音和视频;智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加;网络连接器用于将智能设备连接互联网。
在上述的幼儿智能音箱中,多个单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。
语音采集模块一共可以采集六个成年人(幼儿父母、爷爷奶奶、姥爷姥姥)的语音信息,并通过智能控制模块进行识别训练后,这六个成年人即可控制幼儿操纵智能音箱的权限。
幼儿智能音箱的交互方法,包括以下内容:
如图2所示,A、对成人语音识别的方法:
1)、输入成人样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入成人训练语音;
5)、MFCC特征参数提取;
如图4所示,6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;(如图5所示)
d、调用compact灰狼算法;(如图6所示)
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果;
如图3所示,B、对幼儿语音识别的方法:
1)、输入幼儿样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入幼儿训练语音;
5)、MFCC特征参数提取;
如图4所示,6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;(如图5所示)
d、调用compact灰狼算法;(如图6所示)
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果。
如图6所示,在上述的幼儿智能音箱的交互中,compact灰狼算法,包括如下步骤:
1)、初始化相关参数,如最大迭代次数Max_iter=500,位置上界ub=1,位置下界lb=0,随机生成灰狼位置Position;mu和sicma计算如式(1)和(2)所示:
mu=zeros(3,dim); (1)
sicma=10*ones(3,dim); (2)
mu和sicma表示高斯分布式的均值和方差,dim是搜索空间的维度,在此为优化的神经网络参数个数;
2)、初始化α,β,γ狼位置,计算如下式(3)-(5):
Alpha_pos=ub*generateIndividualR(mu(1),sicma(1)); (3)
Beta_pos=ub*generateIndividualR(mu(2),sicma(2)); (4)
Delta_pos=ub*generateIndividualR(mu(3),sicma(3)); (5)
generateIndividualR函数根据高斯分布式的均值和方差生成灰狼位置;
3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9):
r=rand(); (6)
erfA=erf((mu+1)/(sqrt(2)*sicma)); (7)
erfB=erf((mu-1)/(sqrt(2)*sicma)); (8)
samplerand=erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu; (9)
rand()生成一个[0,1]的随机变量;erf()是误差函数,它是高斯概率密度函数的积分;sqrt()为求平方根函数;erfinv()表示逆误差函数;samplerand为函数返回值;
4)、调用目标函数如下式(10),求出α,β,γ狼的目标函数值分别为Alpha_score,Beta_score和Delta_score;
Figure GDA0003908705870000071
n是神经网络训练样本数,y是训练样本标签,y'表示样本预测结果;
5)、求出灰狼下次移动到的位置,循环遍历灰狼的每个维度,更新如下式(11)-(15):
a=2-l*(2/Max_iter); (11)
X1=Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j)); (12)
X2=Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j)); (13)
X3=Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j)); (14)
Position(j)=(X1+X2+X3)/3; (15)
l是当前迭代次数,j表示灰狼的第j个维度;a用来控制算法的全局和局部搜索能力;X1,X2和X3分别是α,β,γ狼对灰狼的吸引能力;abs()是绝对值函数;
6)、更新后的灰狼位置和α狼做对比,winner1为具有最好的目标函数值的狼,loser1为具有最差的目标函数值的狼;
7)、更新mu(1)和sicma(1),遍历灰狼的每个维度,更新如下式(16)-(21):
winner1(j)=(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (16)
loser1(j)=(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (17)
mut=mu(1,j); (18)
mu(1,j)=mu(1,j)+(1/200)*(winner1(j)-loser1(j)); (19)
t=sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2); (20)
Figure GDA0003908705870000081
8)、更新后的灰狼位置和β狼做对比,winner2为具有最好的目标函数值的狼,loser2为具有最差的目标函数值的狼;
9)、更新mu(2)和sicma(2),遍历灰狼的每个维度,更新如下式(22)-(27):
winner2(j)=(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (22)
loser2(j)=(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (23)
mut=mu(1,j); (24)
mu(2,j)=mu(2,j)+(1/200)*(winner2(j)-loser2(j)); (25)
t=sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2); (26)
Figure GDA0003908705870000082
10)、更新后的灰狼位置和γ狼做对比,winner3为具有最好的目标函数值的狼,loser3为具有最差的目标函数值的狼;
11)、更新mu(3)和sicma(3),遍历灰狼的每个维度,更新如下式(28)-(33):
winner3(j)=(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (28)
loser3(j)=(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (29)
mut=mu(1,j); (30)
mu(3,j)=mu(3,j)+(1/200)*(winner3(j)-loser3(j)); (31)
t=sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2); (32)
Figure GDA0003908705870000091
12)、循环结束,输出winner1,winner2和winner3的最优值。
与现有技术相比,本幼儿智能音箱及其交互方法具有以下优点:
本发明能够动态添加唤醒词,高效识别幼儿语音指令,智能控制幼儿访问智能音箱的权限,构建高效的神经网络语音训练模型,改进的compact灰狼算法能够在运算能力受限的入式CPU中优化神经网络参数,避免神经网络陷入局部陷阱的问题,可以有效提高预测准确度,加快预测进程。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (3)

1.一种幼儿智能音箱,包括音箱本体,所述音箱本体内设置中央处理器、存储器和网络连接器,所述音箱本体的表面设置显示屏,其特征在于,所述中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,所述存储器内设置存储模块,所述输出模块通过电路连接所述显示屏,所述智能控制模块电控连接所述语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;所述语音采集模块用于成人语音信息的采集,所述语音采集模块包含多个单人语音采集模块;所述幼儿声纹采集模块用于幼儿语音信号采集;所述唤醒模块用于语音唤醒智能音箱,所述唤醒模块包括成人唤醒模块和幼儿唤醒模块;所述存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据;所述输出模块用于响应用户指令,所述输出模块的输出内容包括声音和视频;所述智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加;网络连接器用于将智能设备连接互联网;
基于所述幼儿智能音箱的交互方法,包括以下内容:
A、对成人语音识别的方法:
1)、输入成人样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入成人训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果;
B、对幼儿语音识别的方法:
1)、输入幼儿样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入幼儿训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果。
2.如权利要求1所述的幼儿智能音箱,其特征在于,多个所述单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。
3.如权利要求1所述的幼儿智能音箱,其特征在于,compact灰狼算法,包括如下步骤:
1)、初始化相关参数,如最大迭代次数Max_iter=500,位置上界ub=1,位置下界lb=0,随机生成灰狼位置Position;mu和sicma计算如式(1)和(2)所示:
mu=zeros(3,dim); (1)
sicma=10*ones(3,dim); (2)
mu和sicma表示高斯分布式的均值和方差,dim是搜索空间的维度,在此为优化的神经网络参数个数;
2)、初始化α,β,γ狼位置,计算如下式(3)-(5):
Alpha_pos=ub*generateIndividualR(mu(1),sicma(1)); (3)
Beta_pos=ub*generateIndividualR(mu(2),sicma(2)); (4)
Delta_pos=ub*generateIndividualR(mu(3),sicma(3)); (5)
generateIndividualR函数根据高斯分布式的均值和方差生成灰狼位置;
3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9):
r=rand(); (6)
erfA=erf((mu+1)/(sqrt(2)*sicma)); (7)
erfB=erf((mu-1)/(sqrt(2)*sicma)); (8)
samplerand=erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu; (9)
rand()生成一个[0,1]的随机变量;erf()是误差函数,它是高斯概率密度函数的积分;sqrt为求平方根函数;erfinv()表示逆误差函数;samplerand为函数返回值;
4)、调用目标函数如下式(10),求出α,β,γ狼的目标函数值分别为Alpha_score,Beta_score和Delta_score;
Figure FDA0003908705860000031
n是神经网络训练样本数,y是训练样本标签,y'表示样本预测结果;
5)、求出灰狼下次移动到的位置,循环遍历灰狼的每个维度,更新如下式(11)-(15):
a=2-l*(2/Max_iter); (11)
X1=Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j));(12)
X2=Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j));(13)
X3=Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j));(14)
Position(j)=(X1+X2+X3)/3; (15)
l是当前迭代次数,j表示灰狼的第j个维度;a用来控制算法的全局和局部搜索能力;X1,X2和X3分别是α,β,γ狼对灰狼的吸引能力;abs()是绝对值函数;
6)、更新后的灰狼位置和α狼做对比,winner1为具有最好的目标函数值的狼,loser1为具有最差的目标函数值的狼;
7)、更新mu(1)和sicma(1),遍历灰狼的每个维度,更新如下式(16)-(21):
winner1(j)=(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (16)
loser1(j)=(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (17)
mut=mu(1,j); (18)
mu(1,j)=mu(1,j)+(1/200)*(winner1(j)-loser1(j)); (19)
t=sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2); (20)
Figure FDA0003908705860000032
8)、更新后的灰狼位置和β狼做对比,winner2为具有最好的目标函数值的狼,loser2为具有最差的目标函数值的狼;
9)、更新mu(2)和sicma(2),遍历灰狼的每个维度,更新如下式(22)-(27):
winner2(j)=(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (22)
loser2(j)=(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (23)
mut=mu(1,j); (24)
mu(2,j)=mu(2,j)+(1/200)*(winner2(j)-loser2(j)); (25)
t=sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2); (26)
Figure FDA0003908705860000041
10)、更新后的灰狼位置和γ狼做对比,winner3为具有最好的目标函数值的狼,loser3为具有最差的目标函数值的狼;
11)、更新mu(3)和sicma(3),遍历灰狼的每个维度,更新如下式(28)-(33):
winner3(j)=(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (28)
loser3(j)=(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (29)
mut=mu(1,j); (30)
mu(3,j)=mu(3,j)+(1/200)*(winner3(j)-loser3(j)); (31)
t=sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2); (32)
Figure FDA0003908705860000042
12)、循环结束,输出winner1,winner2和winner3的最优值。
CN202011336049.6A 2020-11-25 2020-11-25 一种幼儿智能音箱及其交互方法 Active CN112543390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011336049.6A CN112543390B (zh) 2020-11-25 2020-11-25 一种幼儿智能音箱及其交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011336049.6A CN112543390B (zh) 2020-11-25 2020-11-25 一种幼儿智能音箱及其交互方法

Publications (2)

Publication Number Publication Date
CN112543390A CN112543390A (zh) 2021-03-23
CN112543390B true CN112543390B (zh) 2023-03-24

Family

ID=75015144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011336049.6A Active CN112543390B (zh) 2020-11-25 2020-11-25 一种幼儿智能音箱及其交互方法

Country Status (1)

Country Link
CN (1) CN112543390B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160396A2 (ko) * 2019-04-11 2019-08-22 엘지전자 주식회사 안내 로봇 및 안내 로봇의 동작 방법
CN110534099A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备
CN110696002A (zh) * 2019-08-31 2020-01-17 左建 一种智能早教机器人
CN211063690U (zh) * 2019-12-25 2020-07-21 安徽淘云科技有限公司 绘本识别设备
CN111638787A (zh) * 2020-05-29 2020-09-08 百度在线网络技术(北京)有限公司 用于展示信息的方法和装置
CN111816188A (zh) * 2020-06-23 2020-10-23 漳州龙文维克信息技术有限公司 用于智能机器人的人机语音交互方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957325B2 (en) * 2017-03-23 2021-03-23 Hello Clover, Llc Method and apparatus for speech interaction with children

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160396A2 (ko) * 2019-04-11 2019-08-22 엘지전자 주식회사 안내 로봇 및 안내 로봇의 동작 방법
CN110696002A (zh) * 2019-08-31 2020-01-17 左建 一种智能早教机器人
CN110534099A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备
CN211063690U (zh) * 2019-12-25 2020-07-21 安徽淘云科技有限公司 绘本识别设备
CN111638787A (zh) * 2020-05-29 2020-09-08 百度在线网络技术(北京)有限公司 用于展示信息的方法和装置
CN111816188A (zh) * 2020-06-23 2020-10-23 漳州龙文维克信息技术有限公司 用于智能机器人的人机语音交互方法

Also Published As

Publication number Publication date
CN112543390A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
Zhang et al. Cooperative learning and its application to emotion recognition from speech
CN110415686A (zh) 语音处理方法、装置、介质、电子设备
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
US20210174805A1 (en) Voice user interface
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN115762536A (zh) 一种基于桥接Transformer的小样本优化鸟声识别方法
CN106601229A (zh) 一种基于soc芯片的语音唤醒方法
CN110211599A (zh) 应用唤醒方法、装置、存储介质及电子设备
CN116189681B (zh) 一种智能语音交互系统及方法
CN110853630A (zh) 面向边缘计算的轻量级语音识别方法
CN110334243A (zh) 基于多层时序池化的音频表示学习方法
CN110634476A (zh) 一种快速搭建鲁棒性声学模型的方法及系统
CN109452932A (zh) 一种基于声音的体质辨识方法及设备
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Li A lightweight architecture for query-by-example keyword spotting on low-power iot devices
CN113571045A (zh) 一种闽南语语音识别方法、系统、设备及介质
CN112543390B (zh) 一种幼儿智能音箱及其交互方法
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
CN113707172B (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN114792518A (zh) 一种基于调度域技术的语音识别系统及其方法、存储介质
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN113744734A (zh) 一种语音唤醒方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant