CN106409290A

CN106409290A - 一种基于图像分析的幼儿智能语音教育的方法

Info

Publication number: CN106409290A
Application number: CN201610871506.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-02-15
Anticipated expiration: 2036-09-29
Also published as: CN106409290B

Abstract

本发明中提出的一种基于图像分析的幼儿智能语音教育的方法，其主要内容包括：训练数据库和智能教育流程，其过程为，采用幼儿认知教育图片形成素材库，结合知识库形成问题与解决系统。当语音输入问题时，利用长短期记忆模型递归神经网络的语音识别方法进行语音识别。采用VQA模型，包括引导反向传播技术和闭塞模型进行语义分析和图像分析。然后在问题与解决系统中查询知识信息，通过多层感知分类器获得最高概率答案并返回答案，最后语音输出答案并以文字显示。本发明能自动分析语音输入获得用户问题信息，进行自动推理生成问题答案，进行智能语音教育。使用方便，操作快捷，减少了家长和老师的机械性劳动；增加了趣味性，提高幼儿的学习效率。

Description

一种基于图像分析的幼儿智能语音教育的方法

技术领域

本发明涉及智能语音教育领域，尤其是涉及了一种基于图像分析的幼儿智能语音教育的方法。

背景技术

幼儿时期的认知教育对儿童的成长有着重要的作用，现在大多对幼儿的认知教育是由老师和家长利用卡片或显示器等完成，即使是智能教育也是以主动输出知识的方式进行，没有获取用户的知识需求，容易产生乏味无趣的感觉。

本发明提出了一种基于图像分析的幼儿智能语音教育的方法，采用包括动物、食物、植物、生活用品等幼儿认知教育的图片形成素材库，结合知识库形成问题与解决系统。当语音输入问题时，利用长短期记忆模型(LSTM)递归神经网络(RNNs)的语音识别方法，通过端到端的训练方法，进行语音识别；采用VQA模型，包括引导反向传播技术和闭塞模型来确定重要的字词和图像区域，进行语义分析和图像分析；在问题与解决系统中查询知识信息，通过多层感知分类器获得最高概率答案并返回答案、语音输出答案并以文字显示。

本发明的智能性体现在它能自动分析语音输入获得用户问题信息，进行自动推理生成问题答案，进行智能语音教育。而且使用方便，操作快捷，减少了家长和老师的机械性劳动；增加了趣味性，避免幼儿阶段对学习产生厌恶情绪；这种将图片和学习结合，采用问答的形式，使知识更加具体不抽象，提高学习效率。

发明内容

针对语音识别的误差较大等问题，本发明的目的在于提供一种基于图像分析的幼儿智能语音教育的方法，使用幼儿认知教育图片建立素材库，利用长短期记忆模型(LSTM)递归神经网络(RNNs)的语音识别方法，通过端到端的训练方法，进行语音识别；采用VQA模型，包括引导反向传播技术和闭塞模型来确定重要的字词和图像区域，进行语义分析和图像分析；在问题与解决系统中查询知识信息并返回答案、语音输出答案并以文字显示。

为解决上述问题，本发明提供一种利用图片检索定位导航的方法，其主要内容包括：

(一)训练数据库；

(二)智能教育流程；

其中，所述的训练数据库，包括将图像导入素材库，分析推理，结合知识库形成问题与解决系统。

进一步地，所述的素材库，包括动物、食物、植物、生活用品等幼儿认知教育的图片，素材库图片为10000张。

进一步地，所述的知识库，包含了对于数据库中物品的今本知识，包括概念，种类，大小，用途，习惯等相关知识；素材库经过推理和知识库形成对应关联，获得问题与解决系统；所述的问题与解决系统，作为推理规则查询知识信息，是智能教育过程中最重要的一环，决定了推理的正确性和效率，以文本和语音的形式呈现供用户查看。

其中，所述的智能教育流程，包括问题语音输入、语义分析和图像分析、在问题与解决系统中查询知识信息、返回答案、语音输出答案并以文字显示。

进一步地，所述的语音输入，利用长短期记忆模型(LSTM)递归神经网络(RNNs)的语音识别方法，通过端到端的训练方法，和长短期记忆模型结合，实现了16.8％的测试集误差，使用灵活，效果好。

进一步地，所述的语义分析和图像分析，采用VQA模型，视其为一个学习函数a＝f_w(i,q)，输入图像i和图像问题q，参数化参数ω，并产生一个答案a，为了衡量组件i和q的重要性(即像素和单词)，线性近似f围绕每个测试点(i_test,q_test)，

计算的两个关键量和即函数关于每个输入的偏导数(图片和问题)，这些表达式表面上看类似于梯度计算的反向传播神经网络的训练，然而，有两个关键的差异：

(1)计算的是预测输出的概率偏导数，不是真实的输出；

(2)计算相对于输入的偏导数(即图像和嵌入字的像素强度)，没有参数。

进一步地，所述的语义分析，采用引导反向传播技术，它确定了问题中的重要词语，是一种基于梯度的可视化技术，用于可视化神经网络的不同层中的神经元激活；引导反向传播技术限制负向输入层，形成更清晰的图像可视化；

引导反向传播技术(引导BP)和经典反向传播技术(经典BP)基本相同，除了在反向传递时采用线性(ReLUs)，让h^l表示输入层l，h^l+1表示输出，ReLUs定义为：

h^l+1＝relu(h^l)＝max(h^l,0) (2)

使表示ReLU输出的偏导数，(接收作为反向传递的输入)

以上是两BP之间的关键差异。

进一步地，所述的图像分析，采用闭塞模型，封闭输入的部分，观察模型的预测概率的变化来计算图像区域的重要性，系统地阻断输入子集，向前传播输入通过VQA模型，计算答案与原始输入预测概率的变化；因为有2个输入到模型中，我们一次针对一个输入，固定其他的输入(模拟偏导数)；具体来说，要计算一个问题的重要性，通过在问题中去除这个词，并以原始图像作为输入，输入到模型中，问题词的重要性得分计算为原来的预测答案的概率的变化；

我们遵循相同的程序上的图像，以计算图像区域的重要性；将图像划分成一个大小为16x16的网格，并计算原始预测答案的概率的减少。

其中，所述的在问题与解决系统中查询知识信息，采用多层感知分类器预测概率，VQA模型采用基于图像嵌入的卷积神经网络(CNN)，基于问题嵌入的长短期记忆(LSTM)，结合了这两种嵌入，并采用了多层感知器作为分类器来预测答案概率分布。

其中，所述的返回答案和语音输出答案并以文字显示，是通过分类器获得最高概率答案并返回，结果以语音输出和文字显示。

附图说明

图1是本发明一种基于图像分析的幼儿智能语音教育的方法的训练数据库的流程图。

图2是本发明一种基于图像分析的幼儿智能语音教育的方法的幼儿认知教育图片素材库。

图3是本发明一种基于图像分析的幼儿智能语音教育的方法的智能教育流程图。

图4是本发明一种基于图像分析的幼儿智能语音教育的方法的智能教育图片和文字显示过程。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于图像分析的幼儿智能语音教育的方法的训练数据库的流程图。训练数据库包括将图像导入素材库，分析推理，结合知识库形成问题与解决系统。

知识库包含了对于数据库中物品的今本知识，包括概念，种类，大小，用途，习惯等相关知识；素材库经过推理和知识库形成对应关联，获得问题与解决系统；问题与解决系统作为推理规则查询知识信息，是智能教育过程中最重要的一环，决定了推理的正确性和效率，以文本和语音的形式呈现供用户查看。

图2是本发明一种基于图像分析的幼儿智能语音教育的方法的幼儿认知教育图片素材库。素材库包括动物、食物、植物、生活用品等幼儿认知教育的图片，素材库图片为10000张。通过分析推理，结合知识库形成问题与解决系统。

图3是本发明一种基于图像分析的幼儿智能语音教育的方法的智能教育流程图。智能教育流程包括问题语音输入、语义分析和图像分析、在问题与解决系统中查询知识信息、返回答案、语音输出答案并以文字显示。

语音输入利用长短期记忆模型(LSTM)递归神经网络(RNNs)的语音识别方法，通过端到端的训练方法，和长短期记忆模型结合，实现了16.8％的测试集误差，使用灵活，效果好。

语义分析和图像分析采用VQA模型，视其为一个学习函数a＝f_w(i,q)，输入图像i和图像问题q，参数化参数ω，并产生一个答案a，为了衡量组件i和q的重要性(即像素和单词)，线性近似f围绕每个测试点(i_test,q_test)，

(1)计算的是预测输出的概率偏导数，不是真实的输出；

语义分析采用引导反向传播技术，它确定了问题中的重要词语，是一种基于梯度的可视化技术，用于可视化神经网络的不同层中的神经元激活；引导反向传播技术限制负向输入层，形成更清晰的图像可视化；

h^l+1＝relu(h^l)＝max(h^l,0) (2)

使表示ReLU输出的偏导数，(接收作为反向传递的输入)

以上是两BP之间的关键差异。

图像分析采用闭塞模型，封闭输入的部分，观察模型的预测概率的变化来计算图像区域的重要性，系统地阻断输入子集，向前传播输入通过VQA模型，计算答案与原始输入预测概率的变化；因为有2个输入到模型中，我们一次针对一个输入，固定其他的输入(模拟偏导数)；具体来说，要计算一个问题的重要性，通过在问题中去除这个词，并以原始图像作为输入，输入到模型中，问题词的重要性得分计算为原来的预测答案的概率的变化；

在问题与解决系统中查询知识信息，采用多层感知分类器预测概率，VQA模型采用基于图像嵌入的卷积神经网络(CNN)，基于问题嵌入的长短期记忆(LSTM)，结合了这两种嵌入，并采用了多层感知器作为分类器来预测答案概率分布。

返回答案和语音输出答案并以文字显示，是通过分类器获得的最高概率答案并返回，结果以语音输出和文字显示。

图4是本发明一种基于图像分析的幼儿智能语音教育的方法的智能教育图片和文字显示过程。当语音输入问题时，利用长短期记忆模型(LSTM)递归神经网络(RNNs)的语音识别方法，通过端到端的训练方法，进行语音识别。采用VQA模型，包括引导反向传播技术和闭塞模型来确定重要的字词和图像区域，对问题进行语义分析和对图片进行图像分析。然后在问题与解决系统中查询知识信息，通过多层感知分类器获得的最高概率答案并返回答案，最后语音输出答案并以文字显示。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于图像分析的幼儿智能语音教育的方法，其特征在于，主要包括训练数据库(一)；智能教育流程(二)。

2.基于权利要求书1所述的训练数据库(一)，其特征在于，包括将图像导入素材库，分析推理，结合知识库形成问题与解决系统。

3.基于权利要求书2所述的素材库，其特征在于，素材库包括动物、食物、植物、生活用品等幼儿认知教育的图片，素材库图片为10000张。

4.基于权利要求书2所述的结合知识库形成问题与解决系统，其特征在于，知识库包含了对于数据库中物品的今本知识，包括概念，种类，大小，用途，习惯等相关知识；素材库经过推理和知识库形成对应关联，获得问题与解决系统；问题与解决系统作为推理规则查询知识信息，是智能教育过程中最重要的一环，决定了推理的正确性和效率，以文本和语音的形式呈现供用户查看。

5.基于权利要求书1所述的智能教育流程(二)，其特征在于，包括问题语音输入、语义分析和图像分析、在问题与解决系统中查询知识信息、返回答案、语音输出答案并以文字显示。

6.基于权利要求书5所述的语音输入，其特征在于，利用长短期记忆模型(LSTM)递归神经网络(RNNs)的语音识别方法，通过端到端的训练方法，和长短期记忆模型结合，实现了16.8％的测试集误差，使用灵活，效果好。

7.基于权利要求书5所述的语义分析和图像分析，其特征在于，采用VQA模型，视其为一个学习函数a＝f_w(i,q)，输入图像i和图像问题q，参数化参数ω，并产生一个答案a，为了衡量组件i和q的重要性(即像素和单词)，线性近似f围绕每个测试点(i_test,q_test)，

(1)计算的是预测输出的概率偏导数，不是真实的输出；

8.基于权利要求书5所述的语义分析，其特征在于，采用引导反向传播技术，它确定了问题中的重要词语，是一种基于梯度的可视化技术，用于可视化神经网络的不同层中的神经元激活；引导反向传播技术限制负向输入层，形成更清晰的图像可视化；

h^l+1＝relu(h^l)＝max(h^l,0) (2)

使表示ReLU输出的偏导数，(接收作为反向传递的输入)

G^l＝[[h^l>0]]·G^l+1 [经典BP] (3)G^l＝[[h^l>0]]·[[G^l+1>0]]·G^l+1 [引导BP] (4)

以上是两BP之间的关键差异。

9.基于权利要求书5所述的图像分析，其特征在于，采用闭塞模型，封闭输入的部分，观察模型的预测概率的变化来计算图像区域的重要性，系统地阻断输入子集，向前传播输入通过VQA模型，计算答案与原始输入预测概率的变化；因为有2个输入到模型中，我们一次针对一个输入，固定其他的输入(模拟偏导数)；具体来说，要计算一个问题的重要性，通过在问题中去除这个词，并以原始图像作为输入，输入到模型中，问题词的重要性得分计算为原来的预测答案的概率的变化；

10.基于权利要求书5所述的在问题与解决系统中查询知识信息，其特征在于，采用多层感知分类器预测概率，VQA模型采用基于图像嵌入的卷积神经网络(CNN)，基于问题嵌入的长短期记忆(LSTM)，结合了这两种嵌入，并采用了多层感知器作为分类器来预测答案概率分布；返回答案和语音输出答案并以文字显示是通过分类器获得的最高概率答案并返回，结果以语音输出和文字显示。