CN112669180B

CN112669180B - 一种基于图像识别的学前教育方法及系统

Info

Publication number: CN112669180B
Application number: CN202011577769.1A
Authority: CN
Inventors: 施桂红
Original assignee: Yancheng Teachers University
Current assignee: Beijing Huazhang Century Education Consulting Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-02-11
Anticipated expiration: 2040-12-28
Also published as: CN112669180A

Abstract

本发明公开了一种基于图像识别的学前教育方法及系统，包括：获取对用户身体的扫描图像及用户的面部图像；根据扫描图像和面部图像确定用户的性别及所处的年龄段；根据用户的性别及所处的年龄段查询数据库获取当前年龄段的该性别的用户对应的若干兴趣爱好；随机选择一个兴趣爱好查找相关视频图像资料进行播放；判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，更换另一兴趣爱好的相关视频图像资料进行播放，直至找到用户感兴趣的视频图像资料。可以准确且全面的挖掘儿童的兴趣爱好，并根据用户的兴趣爱好自动化播放相应的视频图像资料，提高儿童的学习兴趣及学习效率。

Description

一种基于图像识别的学前教育方法及系统

技术领域

本发明涉及学前教育技术领域，特别涉及一种基于图像识别的学前教育方法及系统。

背景技术

儿童的学前教育是家长和幼儿园关注的重点。此段时间幼儿的大脑发育迅速且高度可塑，是儿童人格塑造和能力培养的关键时期。现有技术中，存在一些根据设备用于学前教育。该设备通常只是对儿童进行单一的图像识别，不能准确且全面的挖掘儿童的兴趣爱好，并根据用户的兴趣爱好自动化播放相应的视频图像资料，不能根据儿童的兴趣进行全方位的学前教育，导致儿童的学习兴趣不高，学习效率低。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的第一个目的在于提出一种基于图像识别的学前教育方法，可以准确且全面的挖掘儿童的兴趣爱好，并根据用户的兴趣爱好自动化播放相应的视频图像资料，根据儿童的兴趣进行全方位的学前教育，提高儿童的学习兴趣及学习效率。

本发明的第二个目的在于提出一种基于图像识别的学前教育系统。

为达到上述目的，本发明第一方面实施例提出了一种基于图像识别的学前教育方法，包括：

获取对用户身体的扫描图像及用户的面部图像；

根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段；

根据用户的性别及所处的年龄段查询数据库获取当前年龄段的该性别的用户对应的若干兴趣爱好；

随机选择一个兴趣爱好查找相关视频图像资料进行播放；

判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，更换另一兴趣爱好的相关视频图像资料进行播放，直至找到用户感兴趣的视频图像资料。

根据本发明的一些实施例，所述根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段，包括：

对用户身体进行扫描，根据获取的扫描图像进行特征提取，获取人体的轮廓信息；根据所述轮廓信息基于神经网络进行识别，获取用户的多个身体特征；

基于面部特征算法确定面部图像中的面部区域，并进行截取获取目标图像，对所述目标图像进行预处理；

对进行预处理后的目标图像进行特征提取，提取目标图像的面部特征；

根据所述身体特征及所述面部特征输入预先训练好的人体性别及年龄段识别模型中，输出用户的性别及所处的年龄段。

根据本发明的一些实施例，所述人体性别及年龄段识别模型的训练方法，包括：

获取各个年龄段的不同性别对应的样本身体扫描图像和样本面部图像，对样本身体扫描图像进行特征提取获取样本身体特征；对样本面部图像进行特征提取获取样本面部特征，并标记实际性别及实际所处年龄段；

将所述样本身体特征及样本面部特征输入构建的人体性别及年龄段识别模型进行训练，输出预测性别及预测所处年龄段；

判断所述实际性别与所述预测性别是否一致且所述实际所处年龄段与预测所处年龄段是否一致，在确定两者均一致时，训练完成；反之，修正人体性别及年龄段识别模型的模型参数，继续训练，直至两者均一致为止。

根据本发明的一些实施例，判断用户对当前播放的视频图像资料是否感兴趣，包括：

获取在播放视频图像资料时，用户的眼动图像；

根据所述眼动图像进行特征提取，获取用户的眼球在各个时刻的位置信息，根据所述位置信息确定用户的眼动轨迹；

获取在播放视频图像资料时，用户的坐姿图像；

根据所述坐姿图像进行特征提取，获取用户的坐姿信息；

在确定所述眼动轨迹与预设眼动轨迹的匹配度大于预设匹配度且根据所述坐姿信息确定用户的坐姿端正时，表示用户对当前播放的视频图像资料感兴趣；反之，表示用户对当前播放的视频图像资料不感兴趣。

根据本发明的一些实施例，根据所述坐姿图像进行特征提取，获取用户的坐姿信息，并判断用户的坐姿是否端正，包括：

对所述坐姿图像基于连通区域算法进行解析，获取用户的坐姿轮廓图像，基于图像边缘处理算法，得到用户的坐姿轮廓线条；

根据所述坐姿轮廓线条判断用户的左肩区域轮廓线条与右肩区域轮廓线条是否在第一水平面；

根据所述坐姿轮廓线条获取用户的左手肘区域轮廓线与右手肘区域轮廓线是否在第二水平面；

在确定用户的左肩区域轮廓线条与右肩区域轮廓线条在第一水平面且用户的左手肘区域轮廓线条与右手肘区域轮廓线条在第二水平面时，表示用户的坐姿端正。

根据本发明的一些实施例，在找到用户感兴趣的视频图像资料并播放完成后，基于调查问卷形式记录用户对所述视频图像资料的感兴趣程度信息及建议信息；

根据所述感兴趣程度信息及建议信息，生成用户标签，根据所述用户标签优化播放内容。

根据本发明的一些实施例，还包括：

对根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段进行验证，包括：

根据用户发出的语音，获取语音信号；

根据所述语音信号进行语音分割，得到若干节点，并获取各个节点的第一能量值；

对所述语音信号进行语音编解码处理，得到数字音频信号，对所述数字音频信号进行语音分割，得到若干节点，并获取各个节点的第二能量值；

根据所述第一能量值和第二能量值获取相对应的节点的能量差值，计算得到平均能量差值，根据所述平均能量差值获取滤波系数，根据所述滤波系数对所述语音信号进行滤波处理，得到纯净语音信号；

对所述纯净语音信号进行短时傅里叶变换，提取时频谱的幅度，获取用户的声音特征参数；

根据所述声音特征参数查询声音数据库，获取用户的性别及年龄段；所述声音数据库中包括样本声音特征参数、性别、年龄；根据所述样本声音特征参数与性别、年龄有对应关系。

根据本发明的一些实施例，计算所述眼动轨迹与预设眼动轨迹的匹配度，包括：

计算眼动轨迹的长度L：

其中，(x_i，y_i)为第i个轨迹点的坐标；(x_i+1，y_i+1)为第i+1个轨迹点的坐标；N为眼动轨迹上轨迹点的个数；

对所述眼动轨迹进行轨迹分段处理，分成m个眼动轨迹片段；

截取与眼动轨迹长度相同的预设眼动轨迹，作为目标预设眼动轨迹；对所述目标预设眼动轨迹进行轨迹分段处理，分成m个目标预设眼动轨迹片段；

计算眼动轨迹与预设眼动轨迹的匹配度P：

其中，p_j为第j个眼动轨迹片段与第j个目标预设眼动轨迹片段的匹配度；L₀为预设眼动轨迹的总长度。

为达到上述目的，本发明第二方面实施例提出了一种基于图像识别的学前教育系统，包括：

第一获取模块，用于获取对用户身体的扫描图像及用户的面部图像；

确定模块，用于根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段；

第二获取模块，用于根据用户的性别及所处的年龄段查询数据库获取当前年龄段的该性别的用户对应的若干兴趣爱好；

播放模块，用于随机选择一个兴趣爱好查找相关视频图像资料进行播放；

判断模块，用于判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，更换另一兴趣爱好的相关视频图像资料进行播放，直至找到用户感兴趣的视频图像资料。

根据本发明的一些实施例，所述判断模块，包括：

眼动图像获取子模块，用于获取在播放视频图像资料时，用户的眼动图像；

眼动轨迹确定子模块，用于根据所述眼动图像进行特征提取，获取用户的眼球在各个时刻的位置信息，根据所述位置信息确定用户的眼动轨迹；

坐姿图像获取子模块，用于获取在播放视频图像资料时，用户的坐姿图像；

坐姿信息获取子模块，用于根据所述坐姿图像进行特征提取，获取用户的坐姿信息；

判断子模块，用于在确定所述眼动轨迹与预设眼动轨迹的匹配度大于预设匹配度且根据所述坐姿信息确定用户的坐姿端正时，表示用户对当前播放的视频图像资料感兴趣；反之，表示用户对当前播放的视频图像资料不感兴趣。

根据本发明实施例提出的一种基于图像识别的学前教育方法及系统，根据用户身体的扫描图像及用户的面部图像可以准确的识别用户的性别及所处的年龄段，有利于根据用户的性别及所处的年龄段更加智能化的制定适合用户的学前教育资料。同时根据当前年龄段的该性别的用户对应的若干兴趣爱好，缩小学前教育的内容的搜索范围，便于准确且有效的获取相关的学前教育的内容，并且寻找的内容也更加适合用户。在若干兴趣爱好找到用户感兴趣的视频图像资料进行播放，可以准确且全面的挖掘儿童的兴趣爱好，并根据用户的兴趣爱好自动化播放相应的视频图像资料，根据儿童的兴趣进行全方位的学前教育，提高儿童的学习兴趣及学习效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种基于图像识别的学前教育方法的流程图；

图2是根据本发明一个实施例的一种基于图像识别的学前教育系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明第一方面实施例提出了一种基于图像识别的学前教育方法，包括步骤S1-S5：

S1、获取对用户身体的扫描图像及用户的面部图像；

S2、根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段；

S3、根据用户的性别及所处的年龄段查询数据库获取当前年龄段的该性别的用户对应的若干兴趣爱好；

S4、随机选择一个兴趣爱好查找相关视频图像资料进行播放；

S5、判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，更换另一兴趣爱好的相关视频图像资料进行播放，直至找到用户感兴趣的视频图像资料。

上述技术方案的工作原理：扫描图像是通过扫描设备扫描人体获取的图像；根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段；根据用户的性别及所处的年龄段查询数据库获取当前年龄段的该性别的用户对应的若干兴趣爱好；数据库中包括在0-1岁、1岁-2岁、2岁-3岁等年龄段的不同性别的兴趣爱好。示例的，1-2岁的男生的兴趣爱好是A、B、C；根据兴趣爱好A播放相关视频图像资料，判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，播放兴趣爱好B相关视频图像资料，直至找到用户感兴趣的视频图像资料。

上述技术方案的有益效果：根据用户身体的扫描图像及用户的面部图像可以准确的识别用户的性别及所处的年龄段，有利于根据用户的性别及所处的年龄段更加智能化的制定适合用户的学前教育资料。同时根据当前年龄段的该性别的用户对应的若干兴趣爱好，缩小学前教育的内容的搜索范围，便于准确且有效的获取相关的学前教育的内容，并且寻找的内容也更加适合用户。在若干兴趣爱好找到用户感兴趣的视频图像资料进行播放，可以准确且全面的挖掘儿童的兴趣爱好，并根据用户的兴趣爱好自动化播放相应的视频图像资料，根据儿童的兴趣进行全方位的学前教育，提高儿童的学习兴趣及学习效率。

上述技术方案的工作原理：身体特征包括人体的手部、腰部、胸部、臀部等部位的特征。面部特征包括眼睛、嘴巴、鼻子、眉毛等部位的特征。对用户身体进行扫描，根据获取的扫描图像进行特征提取，获取人体的轮廓信息；根据所述轮廓信息基于神经网络进行识别，获取用户的多个身体特征；基于面部特征算法确定面部图像中的面部区域，并进行截取获取目标图像，对所述目标图像进行预处理；可以消除背景图像对面部特征的影响，保证通过目标图像获取的面部特征的准确性。所述预处理包括图像降噪、图像增强等处理，保证图像的清晰度及对比度。根据所述身体特征及所述面部特征输入预先训练好的人体性别及年龄段识别模型中，输出用户的性别及所处的年龄段。

上述技术方案的有益效果：通过人体的身体特征及所述面部特征基于预先训练好的人体性别及年龄段识别模型中，准确获取用户的性别及所处的年龄段。

上述技术方案的工作原理：获取各个年龄段的不同性别对应的样本身体扫描图像和样本面部图像，对样本身体扫描图像进行特征提取获取样本身体特征；对样本面部图像进行特征提取获取样本面部特征，并标记实际性别及实际所处年龄段；将所述样本身体特征及样本面部特征输入构建的人体性别及年龄段识别模型进行训练，输出预测性别及预测所处年龄段；判断所述实际性别与所述预测性别是否一致且所述实际所处年龄段与预测所处年龄段是否一致，在确定两者均一致时，训练完成；反之，修正人体性别及年龄段识别模型的模型参数，继续训练，直至两者均一致为止。

上述技术方案的有益效果：对人体性别及年龄段识别模型进行有效训练，不断修正模型的参数，保证人体性别及年龄段识别模型的识别准确性。

获取在播放视频图像资料时，用户的眼动图像；

获取在播放视频图像资料时，用户的坐姿图像；

根据所述坐姿图像进行特征提取，获取用户的坐姿信息；

上述技术方案的工作原理：获取在播放视频图像资料时，用户的眼动图像；根据所述眼动图像进行特征提取，获取用户的眼球在各个时刻的位置信息，根据所述位置信息确定用户的眼动轨迹；获取在播放视频图像资料时，用户的坐姿图像；根据所述坐姿图像进行特征提取，获取用户的坐姿信息；在确定所述眼动轨迹与预设眼动轨迹的匹配度大于预设匹配度且根据所述坐姿信息确定用户的坐姿端正时，表示用户对当前播放的视频图像资料感兴趣；反之，表示用户对当前播放的视频图像资料不感兴趣。

上述技术方案的有益效果：根据眼动轨迹及坐姿信息准确判断用户对当前播放的视频图像资料是否感兴趣，提高了判断的准确性。

上述技术方案的工作原理：对所述坐姿图像基于连通区域算法进行解析，获取用户的坐姿轮廓图像，基于图像边缘处理算法，得到用户的坐姿轮廓线条；根据所述坐姿轮廓线条判断用户的左肩区域轮廓线条与右肩区域轮廓线条是否在第一水平面；根据所述坐姿轮廓线条获取用户的左手肘区域轮廓线与右手肘区域轮廓线是否在第二水平面；在确定用户的左肩区域轮廓线条与右肩区域轮廓线条在第一水平面且用户的左手肘区域轮廓线条与右手肘区域轮廓线条在第二水平面时，表示用户的坐姿端正。

上述技术方案的有益效果：准确判断用户的坐姿是否端正，进而提高了判断用户对当前播放的视频图像资料是否感兴趣的准确性。

上述技术方案的工作原理：在找到用户感兴趣的视频图像资料并播放完成后，基于调查问卷形式记录用户对所述视频图像资料的感兴趣程度信息及建议信息；根据所述感兴趣程度信息及建议信息，生成用户标签，根据所述用户标签优化播放内容。

上述技术方案的有益效果：便于下次根据用户对当次提出的感兴趣程度信息及建议信息优化播放内容，深度挖掘用户的兴趣爱好，同时更加准确的播放相关内容，省时省力。

根据本发明的一些实施例，还包括：

根据用户发出的语音，获取语音信号；

上述技术方案的工作原理：根据用户发出的语音，获取语音信号；根据所述语音信号进行语音分割，得到若干节点，并获取各个节点的第一能量值；对所述语音信号进行语音编解码处理，得到数字音频信号，对所述数字音频信号进行语音分割，得到若干节点，并获取各个节点的第二能量值；语音编解码处理将模拟的、连续的声音波形数字化(离散化)，可以得到数字音频。数字音频是把模拟的声音信号通过采样、量化和编码过程转变成数字信号，然后再进行记录、传输及其他加工处理。根据所述第一能量值和第二能量值获取相对应的节点的能量差值，计算得到平均能量差值，根据所述平均能量差值获取滤波系数，根据所述滤波系数对所述语音信号进行滤波处理，得到纯净语音信号；对所述纯净语音信号进行短时傅里叶变换，提取时频谱的幅度，获取用户的声音特征参数；根据所述声音特征参数查询声音数据库，获取用户的性别及年龄段；所述声音数据库中包括样本声音特征参数、性别、年龄；根据所述样本声音特征参数与性别、年龄有对应关系。

上述技术方案的有益效果：确定准确的滤波系数，进行滤波处理，得到纯净语音信号；基于用户的声音再次识别用户的性别及年龄段，同时对根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段进行验证，验证基于图像识别确定的用户的性别及所处的年龄段是否准确。基于图像识别及语音识别两种识别方法，准确获取用户的性别及所处的年龄段，进而保证查找的兴趣爱好的准确性。

计算眼动轨迹的长度L：

对所述眼动轨迹进行轨迹分段处理，分成m个眼动轨迹片段；

计算眼动轨迹与预设眼动轨迹的匹配度P：

上述技术方案的工作原理及有益效果：获取眼动轨迹的长度，对所述眼动轨迹进行轨迹分段处理，分成m个眼动轨迹片段；截取与眼动轨迹长度相同的预设眼动轨迹，作为目标预设眼动轨迹；对所述目标预设眼动轨迹进行轨迹分段处理，分成m个目标预设眼动轨迹片段；分别计算出m个眼动轨迹片段与m个目标预设眼动轨迹片段的匹配度，根据各个匹配度准确计算出眼动轨迹与预设眼动轨迹的匹配度，同时还考虑目标预设眼动轨迹与预设眼动轨迹的长度比、以及随着时间的推移，眼动轨迹片段与目标预设眼动轨迹片段的匹配度具有越来越高的权重。保证计算出的眼动轨迹与预设眼动轨迹的匹配度的准确性，提高判断匹配度与预设匹配度大小的准确性。

如图2所示，本发明第二方面实施例提出了一种基于图像识别的学前教育系统，包括：

上述技术方案的工作原理：扫描图像是通过扫描设备扫描人体获取的图像；第一获取模块，获取对用户身体的扫描图像及用户的面部图像；确定模块根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段；第二获取模块根据用户的性别及所处的年龄段查询数据库获取当前年龄段的该性别的用户对应的若干兴趣爱好；数据库中包括在0-1岁、1岁-2岁、2岁-3岁等年龄段的不同性别的兴趣爱好。示例的，1-2岁的男生的兴趣爱好是A、B、C；播放模块根据兴趣爱好A播放相关视频图像资料，判断模块判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，播放兴趣爱好B相关视频图像资料，直至找到用户感兴趣的视频图像资料。

根据本发明的一些实施例，所述判断模块，包括：

上述技术方案的工作原理：眼动图像获取子模块获取在播放视频图像资料时，用户的眼动图像；眼动轨迹确定子模块根据所述眼动图像进行特征提取，获取用户的眼球在各个时刻的位置信息，根据所述位置信息确定用户的眼动轨迹；坐姿图像获取子模块获取在播放视频图像资料时，用户的坐姿图像；坐姿信息获取子模块根据所述坐姿图像进行特征提取，获取用户的坐姿信息；判断子模块在确定所述眼动轨迹与预设眼动轨迹的匹配度大于预设匹配度且根据所述坐姿信息确定用户的坐姿端正时，表示用户对当前播放的视频图像资料感兴趣；反之，表示用户对当前播放的视频图像资料不感兴趣。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于图像识别的学前教育方法，其特征在于，包括：

获取对用户身体的扫描图像及用户的面部图像；

随机选择一个兴趣爱好查找相关视频图像资料进行播放；

判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，更换另一兴趣爱好的相关视频图像资料进行播放，直至找到用户感兴趣的视频图像资料；

判断用户对当前播放的视频图像资料是否感兴趣，包括：

获取在播放视频图像资料时，用户的眼动图像；

获取在播放视频图像资料时，用户的坐姿图像；

根据所述坐姿图像进行特征提取，获取用户的坐姿信息；

在确定所述眼动轨迹与预设眼动轨迹的匹配度大于预设匹配度且根据所述坐姿信息确定用户的坐姿端正时，表示用户对当前播放的视频图像资料感兴趣；反之，表示用户对当前播放的视频图像资料不感兴趣；

计算所述眼动轨迹与预设眼动轨迹的匹配度，包括：

计算眼动轨迹的长度L：

对所述眼动轨迹进行轨迹分段处理，分成m个眼动轨迹片段；

计算眼动轨迹与预设眼动轨迹的匹配度P：

其中，p_j为第j个眼动轨迹片段与第j个目标预设眼动轨迹片段的匹配度；L₀为预设眼动轨迹的总长度；

还包括：

根据用户发出的语音，获取语音信号；

2.如权利要求1所述的基于图像识别的学前教育方法，其特征在于，所述根据所述扫描图像和所述面部图像确定用户的性别及所处的年龄段，包括：

3.如权利要求2所述的基于图像识别的学前教育方法，其特征在于，所述人体性别及年龄段识别模型的训练方法，包括：

4.如权利要求1所述的基于图像识别的学前教育方法，其特征在于，根据所述坐姿图像进行特征提取，获取用户的坐姿信息，并判断用户的坐姿是否端正，包括：

5.如权利要求1所述的基于图像识别的学前教育方法，其特征在于，在找到用户感兴趣的视频图像资料并播放完成后，基于调查问卷形式记录用户对所述视频图像资料的感兴趣程度信息及建议信息；

6.一种基于图像识别的学前教育系统，其特征在于，包括：

判断模块，用于判断用户对当前播放的视频图像资料是否感兴趣，在确定用户对当前播放的视频图像资料不感兴趣时，更换另一兴趣爱好的相关视频图像资料进行播放，直至找到用户感兴趣的视频图像资料；

所述判断模块，包括：

判断子模块，用于在确定所述眼动轨迹与预设眼动轨迹的匹配度大于预设匹配度且根据所述坐姿信息确定用户的坐姿端正时，表示用户对当前播放的视频图像资料感兴趣；反之，表示用户对当前播放的视频图像资料不感兴趣；

所述判断子模块计算所述眼动轨迹与预设眼动轨迹的匹配度，包括：

计算眼动轨迹的长度L：

对所述眼动轨迹进行轨迹分段处理，分成m个眼动轨迹片段；

计算眼动轨迹与预设眼动轨迹的匹配度P：

所述确定模块，还用于：

根据用户发出的语音，获取语音信号；