CN107945803A

CN107945803A - 一种机器人的辅助学习方法和机器人

Info

Publication number: CN107945803A
Application number: CN201711216727.3A
Authority: CN
Inventors: 李承敏; 王文斌; 包振毅; 余倩
Original assignee: Shanghai Yude Technology Co Ltd
Current assignee: Shanghai Yude Technology Co Ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-04-20

Abstract

本发明实施例涉及人机交互领域，公开了一种机器人的辅助学习方法和机器人。本发明中，一种机器人的辅助学习方法，应用于机器人，包括：获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配；如果匹配成功，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。使得在父母忙碌时，仍然可以使得机器人依照其教育方法引导婴幼儿对事物进行认知，通过播放第一语音信息中的用户语音信息，不仅有利于婴幼儿对普通话进行学习，还有利于引导婴幼儿形成良好的行为习惯。

Description

一种机器人的辅助学习方法和机器人

技术领域

本发明实施例涉及人机交互领域，特别涉及一种机器人的辅助学习方法和机器人。

背景技术

随着社会经济的发展，人们生活节奏的加快和职场压力的增加，尤其是女性社会角色的转变，使得大多数家长不能时常陪伴在孩子身边，见证他们的成长，更甚的是，孩子的教育也是无暇顾及。随着机器人产业的兴起以及市场需求发展，企业纷纷瞄准了家庭这一巨大市场蓝海，推出了多种儿童机器人，这些儿童机器人的功能比较齐全，如对话、唱歌、跳舞、讲故事、安全监测、视频记录等等，这些儿童机器人几乎都是针对已经上过幼儿园的儿童的。

然而，发明人发现现有技术中至少存在如下问题：目前没有针对1-3岁这个年龄段的儿童的机器人，很多婴幼儿由爷爷奶奶带，而很多长辈不擅长说普通话，不利于婴幼儿对普通话的学习及良好习惯的养成。

发明内容

本发明实施方式的目的在于提供一种机器人的辅助学习方法和机器人，使得机器人模仿用户引导婴幼儿学习时发出的语音信息，不仅有利于婴幼儿对普通话的学习，还有利于引导婴幼儿形成良好的行为习惯。

为解决上述技术问题，本发明的实施方式提供了一种机器人的辅助学习方法，应用于机器人，包括：获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配；如果匹配成功，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

本发明的实施方式还提供了一种机器人，包括：第一获取模块，匹配模块和播放模块；第一获取模块，用于获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；匹配模块，用于将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配；播放模块，用于在匹配成功后，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

本发明实施方式相对于现有技术而言，通过获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配；如果匹配成功，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。使得在父母忙碌时，仍然可以使得机器人依照其教育方法引导婴幼儿对事物进行认知，通过播放第一语音信息中的用户语音信息，不仅有利于婴幼儿对普通话进行学习，还有利于引导婴幼儿形成良好的行为习惯。

另外，在获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的用户的第一语音信息之后，还包括：获取与各第一图像信息相对应的婴幼儿语音信息，并将婴幼儿语音信息补充到第一语音信息中；将与各第一图像信息相对应的用户语音信息和婴幼儿语音信息建立对应关系；机器人的辅助学习方法还包括：如果识别到的第二图像信息和第一图像信息匹配成功，并且，与婴幼儿互动时识别到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功时，则播放与婴幼儿语音信息对应的第一语音信息中的用户语音信息。通过在婴幼儿主动发出的语音信息与第一语音信息中婴幼儿语音信息匹配时，机器人才播放匹配成功的第一图像信息对应的第一语音信息中的用户语音信息，有利于避免在与婴幼儿互动过程中发出婴幼儿并不关注的内容的语音信息。

另外，在将婴幼儿语音信息补充到第一语音信息中之后，还包括：记录第一语音信息中的婴幼儿语音信息的波形；与婴幼儿互动时识别到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功，具体为：第二语音信息的波形和第一语音信息中婴幼儿语音信息的波形相匹配。通过波形匹配，使得在婴幼儿发出并不清楚的语音信息时，机器人可以通过波形匹配知晓婴幼儿具体说话的内容，有利于与婴幼儿互动的进行。

另外，在获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息之后，还包括：将获取的第一图像信息和第一语音信息上传至网络侧。通过将获取的第一图像信息和第一语音信息上传至网络侧，使得在有另一个用户在搜索到所需要的引导婴幼儿学习的信息时，将第一图像信息和第一语音信息作为另一个用户引导婴幼儿学习的信息，所述用户还可以通过网络侧获取其他用户引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息，提高了机器人的工作效率。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式的一种机器人的辅助学习方法的流程图；

图2是根据本发明第二实施方式的一种机器人的辅助学习方法的流程图；

图3是根据本发明第三实施方式的一种机器人的结构示意图；

图4是根据本发明第四实施方式的一种机器人的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种机器人的辅助学习方法。本实施方式中提供的一种机器人的辅助学习方法应用于机器人，主要辅助1至3岁的儿童的语言、行为、思维方式等等。具体流程如图1所示。

步骤101，获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息。

举例而言，在用户教导婴幼儿说话的过程中，用户指着鱼缸里的鱼对所述婴幼儿说：“这是鱼”，机器人会将用户指着鱼缸里的鱼和所述婴幼儿进行互动的画面存储下来，作为若干个第一图像信息中之一，以及将与该第一图像信息相对应的第一语音信息中的用户语音信息存储下来，即，将“这是鱼”存储下来。

具体的说，在初始阶段，需要用户对机器人预先设置，用于之后机器人对婴幼儿的辅助操作，这就相当于需要给所述机器人树立一个“榜样”，比如，可以将已经录制好的视频扫描上传至所述机器人，在所述视频中包括所述用户与婴幼儿互动时的第一图像信息以及第一语音信息。还可以通过开启所述机器人的摄像头实时记录用户与所述婴幼儿互动的过程，当然，用户也可根据实际需要对摄像头所录制的若干个第一图像信息以及与各第一图像信息相对应的第一语音信息中的用户语音信息进行删减操作，此处不作具体限制。

步骤102，将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配。

具体的说，在用户因忙碌而没有时间与所述婴幼儿互动时，可通过点击机器人上的开始按钮或者通过远程控制实现机器人的开启，机器人基于用户在初始阶段预先设置的信息与婴幼儿进行互动。

此处仍沿用本实施方式中步骤101中的举例进行说明。在机器人与婴幼儿互动时若在识别到的第二图像信息中识别到了所述婴幼儿的旁边是鱼缸，此时，将第二图像信息中识别到的鱼缸与第一图像信息中的鱼缸相匹配。

步骤103，判断是否匹配成功。若判定匹配成功，则进入步骤104；否则，该流程结束。

也就是说，在上述的示例中，第二图像信息中识别到的鱼缸与第一图像信息中的鱼缸匹配成功，即，在将与婴幼儿互动时识别到的第二图像信息和机器人获取的用户引导婴幼儿学习时的若干个第一图像信息有共同标的物时，即匹配成功，进入步骤104；否则，该流程结束。

步骤104，将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

也就是说，在与婴幼儿互动时识别到的第二图像信息和第一图像信息匹配成功后，即发出在步骤101中存储的与第一图像信息相对应的第一语音信息中的用户语音信息，即发出步骤101示例中的“这是鱼”，优选的，所述机器人还可以模仿存储在第一图像信息中用户的动作，即指着鱼缸里的鱼说“这是鱼”。

需要说明的是，这里进行播放的第一语音信息中的用户语音信息，可以是录制下来的用户本身发出的语音信息，还可以是机器人通过模仿用户的语音信息而发出的语音信息，此处不作具体限定。

另外，在实际生活中，若所述婴幼儿因走路不稳摔倒了，用户会对所述婴幼儿说：“不要怕，自己站起来”之类的引导婴幼儿自己站起来的话，机器人可以通过摄像头将所述婴幼儿摔倒的画面存储下来，作为若干个第一图像信息中之一，以及将与该第一图像信息相对应的第一语音信息中的用户语音信息存储下来，即，“不要怕，自己站起来”存储下来。在机器人与婴幼儿互动时若在识别到的第二图像信息中识别到了所述婴幼儿摔倒的画面时，由于和第一图像信息中的所述婴幼儿摔倒的画面匹配成功，因此，发出与所述第一图像信息相对应的第一语音信息中的用户语音信息，即“不要怕，自己站起来”，通过依照用户的教育方法和所述婴幼儿互动，有利于使得所述婴幼儿形成良好的行为习惯。

与现有技术相比，本实施方式通过获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配；如果匹配成功，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。使得在父母忙碌时，仍然可以使得机器人依照其教育方法引导婴幼儿对事物进行认知，通过播放第一语音信息中的用户语音信息，不仅有利于婴幼儿对普通话进行学习，还有利于引导婴幼儿形成良好的行为习惯。

本发明的第二实施方式涉及一种机器人的辅助学习方法。本实施方式是在第一实施方式的基础上做了进一步改进，具体改进之处在于：在本实施方式中，通过在获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的用户的第一语音信息之后，还获取与各第一图像信息相对应的婴幼儿语音信息，并将婴幼儿语音信息补充到第一语音信息中；将与各第一图像信息相对应的用户语音信息和婴幼儿语音信息建立对应关系；在同时满足识别到的第二图像信息和第一图像信息匹配成功，并且，与婴幼儿互动时接收到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功时，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放，通过在婴幼儿主动发出的语音信息与第一语音信息中婴幼儿语音信息匹配时，机器人才播放将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息，有利于避免在与婴幼儿互动过程中发出所述婴幼儿并不关注的内容的语音信息。具体流程如图2所示。

步骤201，获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息。

本实施方式中步骤201与第一实施方式中的步骤101大致相同，此处不再赘述。

另外，在所述获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息之后，还可以将所述获取的所述第一图像信息和所述第一语音信息上传至网络侧。通过将获取的第一图像信息和第一语音信息上传至网络侧，使得在有另一个用户在搜索到所需要的引导婴幼儿学习的信息时，将第一图像信息和第一语音信息作为另一个用户引导婴幼儿学习的信息，所述用户还可以通过网络侧获取其他用户引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息，提高了机器人的工作效率。

另外，需要说明的是，在获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息之后，还可以根据获取的第一图像信息和第一语音信息，进行自学习；根据自学习的结果，与婴幼儿互动。由于在所述机器人中内置有自学习模块，因此，可以通过自学习模块评估已获取的用户行为的正确性或优良度，自动修改系统结构或参数以改进自身品质，可以在用户的监督下对用户引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息加以强化的学习，按预设的指标来评估品质并改进，也可以不需要用户的监督进行自学习，在这种情况下机器人需要通过试探、搜索等办法来探索改进的途径，由于当前人工神经网络、演化计算等高速并行处理技术已日趋成熟，因此，机器人也可通过该方法进行自学习。

步骤202，获取与各第一图像信息相对应的婴幼儿语音信息，并将婴幼儿语音信息补充到第一语音信息中。

具体的说，在步骤201中获取的是用户引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息。其中，在第一语音信息中还可以包括婴幼儿语音信息。

举例而言，在用户教导婴幼儿说话的过程中，用户指着鱼缸里的鱼对所述婴幼儿说：“这是鱼”，所述婴幼儿跟着所述用户学习说话，说：“鱼”(这里所述婴幼儿说的“鱼”并不清楚)，机器人会将用户指着鱼缸里的鱼和所述婴幼儿进行互动的画面存储下来，作为若干个第一图像信息中之一，以及将与该第一图像信息相对应的第一语音信息中的用户语音信息存储下来，即，将“这是鱼”存储下来，然后获取与各第一图像信息相对应的第一语音信息中的婴幼儿语音信息，即所述婴幼儿跟着所述用户学习说话时所说的并不清楚的“鱼”。

步骤203，将与各第一图像信息相对应的用户语音信息和婴幼儿语音信息建立对应关系。

也就是说，在获取到与各第一图像信息相对应的第一语音信息中的婴幼儿语音信息后，将步骤202中的举例说明中的用户发出的语音信息即“这是鱼”和所述婴幼儿发出的语音信息即说的并不清楚的“鱼”建立对应关系。

步骤204，将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配。

步骤205，判断是否匹配成功。若判定匹配成功，则进入步骤206；否则，该流程结束。

本实施方式中步骤204至步骤205和第一实施方式中的步骤102至步骤103大致相同，旨在将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配，并判断是否匹配成功，此处不再赘述。

步骤206，判断与婴幼儿互动时接收到的第二语音信息和第一语音信息中的婴幼儿语音信息是否匹配。若与婴幼儿互动时接收到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功，则进入步骤207；否则，该流程结束。

也就是说，在机器人播放与第一图像信息对应的第一语音信息中的用户语音之前，还需要接收到所述婴幼儿与第一图像信息相对应的第一语音信息中的婴幼儿语音信息。比如说，在步骤202的示例中，若在第二图像信息中识别到的鱼缸与第一图像信息中的鱼缸匹配成功，并且，接收到所述婴幼儿所说的并不清楚的“鱼”时，才进入步骤207，这样做，避免了在所述婴幼儿刚好路过鱼缸时，机器人就发出“这是鱼”的语音信息，而是在所述婴幼儿的注意力的焦点放在“鱼”上时，才进入步骤207。

需要说明的是，在本实施方式中的步骤201之后即在将婴幼儿语音信息补充到第一语音信息中之后，还可以记录第一语音信息中的婴幼儿语音信息的波形，与婴幼儿互动时识别到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功，可以为第二语音信息的波形和第一语音信息中婴幼儿语音信息的波形相匹配。也就是说，将所述婴幼儿所说的话的波形都存起来，比如所述婴幼儿说的：“你好”(发出的语音中“好”为四声，即所述婴幼儿说的话并不清楚)，与用户说的：“你好”(发出的语音为标准普通话)的发音并不相同，此时机器人通过将所述婴幼儿所说的“你好”的波形记录下来，并且，与用户发出的语音建立一一对应关系，那么，若接收到所述婴幼儿发出的“你好”的语音信息时，则可以自动对应出来所述婴幼儿所说的标准读音应为用户所说的“你好”，机器人可以发出标准普通话来提醒所述婴幼儿正确的读音。

步骤207，将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

本实施方式中步骤207与第一实施方式中步骤104大致相同，此处不再赘述。

与现有技术相比，本实施方式提供的一种机器人的辅助学习方法，通过在获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的用户的第一语音信息之后，还获取与各第一图像信息相对应的第一语音信息中的婴幼儿语音信息；将与各第一图像信息相对应的用户语音信息和婴幼儿语音信息建立对应关系；在同时满足识别到的第二图像信息和第一图像信息匹配成功，并且，与婴幼儿互动时接收到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功时，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放，通过在婴幼儿主动发出的语音信息与第一语音信息中婴幼儿语音信息匹配时，机器人才播放将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息，有利于避免在与婴幼儿互动过程中发出所述婴幼儿并不关注的内容的语音信息。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种机器人，如图3所示，包括：第一获取模块301，匹配模块302和播放模块303。

第一获取模块301，用于获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；匹配模块302，用于将与婴幼儿互动时识别到的第二图像信息和第一图像信息进行匹配；播放模块303，用于在匹配模块302匹配成功后，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种机器人。本实施方式是在第三实施方式的基础上做了进一步改进，具体改进之处在于：本实施方式中，通过在获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的用户的第一语音信息之后，还获取与各第一图像信息相对应的第一语音信息中的婴幼儿语音信息；将与各第一图像信息相对应的用户语音信息和婴幼儿语音信息建立对应关系；在同时满足识别到的第二图像信息和第一图像信息匹配成功，并且，与婴幼儿互动时接收到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功时，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放，通过在婴幼儿主动发出的语音信息与第一语音信息中婴幼儿语音信息匹配时，机器人才播放将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息，有利于避免在与婴幼儿互动过程中发出所述婴幼儿并不关注的内容的语音信息。如图4所示。

本实施方式中的机器人，还包括：第二获取模块401，记录模块402，通信模块403。

第二获取模块401，用于在第一获取模块301获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的用户的第一语音信息之后，获取与各第一图像信息相对应的婴幼儿语音信息，并将所述婴幼儿语音信息补充到所述第一语音信息中，将与各第一图像信息相对应的用户语音信息和婴幼儿语音信息建立对应关系。匹配模块302，还用于将与婴幼儿互动时识别到的第二语音信息和第一语音信息中的婴幼儿语音信息进行匹配；如果匹配模块302识别到的第二图像信息和第一图像信息匹配成功，并且，与婴幼儿互动时将接收到的第二语音信息和第一语音信息中的婴幼儿语音信息通过匹配模块302匹配成功时，播放模块303播放与婴幼儿语音信息对应的第一语音信息中的用户语音信息。

记录模块402，用于在第二获取模块401将婴幼儿语音信息补充到第一语音信息中之后，记录第一语音信息中的婴幼儿语音信息的波形。与婴幼儿互动时接收到的第二语音信息和第一语音信息中的婴幼儿语音信息若通过匹配模块302匹配成功，具体为：第二语音信息的波形和第一语音信息中婴幼儿语音信息的波形相匹配。

通信模块403，用于在所述第一获取模块301获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息后，将所述获取的所述第一图像信息和所述第一语音信息上传至网络侧。

由于第二实施方式与本实施方式相互对应，因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种机器人的辅助学习方法，其特征在于，应用于机器人，包括：

获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；

将与所述婴幼儿互动时识别到的第二图像信息和所述第一图像信息进行匹配；

如果匹配成功，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

2.根据权利要求1所述的机器人的辅助学习方法，其特征在于，在所述获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的用户的第一语音信息之后，还包括：

获取与各第一图像信息相对应的婴幼儿语音信息，并将所述婴幼儿语音信息补充到所述第一语音信息中；

将与各第一图像信息相对应的所述用户语音信息和所述婴幼儿语音信息建立对应关系；

所述机器人的辅助学习方法还包括：

如果识别到的第二图像信息和所述第一图像信息匹配成功，并且，与所述婴幼儿互动时接收到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功时，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

3.根据权利要求2所述的机器人的辅助学习方法，其特征在于，在所述将所述婴幼儿语音信息补充到所述第一语音信息中之后，还包括：

记录所述第一语音信息中的婴幼儿语音信息的波形；

所述与所述婴幼儿互动时识别到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功，具体为：所述第二语音信息的波形和所述第一语音信息中婴幼儿语音信息的波形相匹配。

4.根据权利要求1所述的机器人的辅助学习方法，其特征在于，在所述获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息之后，还包括：

将所述获取的所述第一图像信息和所述第一语音信息上传至网络侧。

5.一种机器人，其特征在于，包括：第一获取模块，匹配模块和播放模块；

所述第一获取模块，用于获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息；

所述匹配模块，用于将与所述婴幼儿互动时识别到的第二图像信息和所述第一图像信息进行匹配；

所述播放模块，用于在匹配成功后，则将匹配成功的第一图像信息对应的第一语音信息中的用户语音信息进行播放。

6.根据权利要求5所述的机器人，其特征在于，还包括：第二获取模块；

所述第二获取模块，用于在所述获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的用户的第一语音信息之后，获取与各第一图像信息相对应的婴幼儿语音信息，并将所述婴幼儿语音信息补充到所述第一语音信息中，将与各第一图像信息相对应的所述用户语音信息和所述婴幼儿语音信息建立对应关系；

所述匹配模块，还用于将与所述婴幼儿互动时识别到的第二语音信息和第一语音信息中的婴幼儿语音信息进行匹配；

如果匹配模块识别到的第二图像信息和所述第一图像信息匹配成功，并且，与所述婴幼儿互动时所述匹配模块识别到的第二语音信息和第一语音信息中的婴幼儿语音信息匹配成功时，所述播放模块播放与所述婴幼儿语音信息对应的第一语音信息中的用户语音信息。

7.根据权利要求6所述的机器人，其特征在于，还包括：记录模块；

所述记录模块，用于在所述将所述婴幼儿语音信息补充到所述第一语音信息中之后，记录所述第一语音信息中的婴幼儿语音信息的波形；

8.根据权利要求5所述的机器人，其特征在于，包括：通信模块；

所述通信模块，用于在所述第一获取模块获取引导婴幼儿学习时的若干个第一图像信息，以及与各第一图像信息相对应的第一语音信息中的用户语音信息后，将所述获取的所述第一图像信息和所述第一语音信息上传至网络侧。