CN106202165B

CN106202165B - 人机交互的智能学习方法及装置

Info

Publication number: CN106202165B
Application number: CN201610473735.5A
Authority: CN
Inventors: 严星; 朱晓东
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2020-03-17
Anticipated expiration: 2036-06-24
Also published as: CN106202165A

Abstract

本公开涉及一种人机交互的智能学习方法及装置，应用于终端中，所述方法包括：获取采集到的第一语音信息；对所述第一语音信息进行识别转换成文字信息；将所述文字信息装载到预设的学习数据库中查询，并得到查询结果；将所述查询结果转换成第二语音信息并与用户实现交互。本公开的有益效果为：用户与终端之间通过语音形成互动，通过一问一答(一答一问)的形式在交互过程中让用户不断地完成学习过程，能够取得良好的学习效果，本公开的方法尤其适用于年龄较小的儿童，可以增加学习过程中的趣味性。

Description

人机交互的智能学习方法及装置

技术领域

本公开实施例涉及终端技术领域，尤其涉及一种人机交互的智能学习方法及装置。

背景技术

目前的终端具有越来越高的智能化，例如手机，平板电脑，电视，音箱等，但这些终端都主要用于通信，通过终端系统下载app的方式还可以实现娱乐、办公等，这些app的目标客户均是具有一定辨识能力的成年用户，对于年龄较小的儿童而言不具备学习意义。

通过一些具有学习功能的软件，采用书面文字或者播放学习内容的视频的方式，其通常都是针对目前的较成熟的用户而设置，忽略了处于学习阶段的儿童，且其固然可以实现一定的学习功能，但这种学习方式对于年龄较小的儿童而言缺少人机交互和口语训练，以及必要的学习内容，无法吸引儿童的注意力，也无法实现对于年龄较小的儿童的学习效果。

发明内容

本公开提供一种人机交互的智能学习方法及装置，通过语音交互的方式提升年龄跨度较广的用户与终端之间的智能学习效果。

第一方面，本公开实施例提供了一种人机交互的智能学习方法，应用于终端中，该方法包括：

获取采集到的第一语音信息；

对所述第一语音信息进行识别转换成文字信息；

将所述文字信息装载到预设的学习数据库中查询，并得到查询结果；

将所述查询结果转换成第二语音信息并与用户实现交互。

本公开的实施例提供的技术方案可以包括以下有益效果：通过获取用户或者终端的语音信息将语音信息进行转换，通过查找文字信息的方式使得到查询结果，并将查询结果通过语音形式播放给用户，在此过程中，用户与终端之间形成互动，通过一问一答的形式在交互过程中让用户不断地完成学习过程，能够取得良好的学习效果，本公开的方法尤其适用于年龄较小的儿童，可以增加学习过程中的趣味性。

结合另一方面，在另一方面的一种可能出现的实现方式中，在获取采集到的第一语音信息之前，还包括：

检测是否获取到智能学习指令；

在检测到智能学习指令时，打开终端中的硬件支持；

联网激活学习数据库。

本公开的实施例提供的技术方案可以包括以下有益效果：可通过智能学习指令开启终端的学习模式，例如通过语音开启，在开启时打开终端中的硬件支持，包括麦克风、无线网络模块等，使得学习过程能够更加适应各个终端中的每个环节。

结合另一方面，在另一方面的一种可能出现的实现方式中，所述方法还包括：

获取所述查询结果中的信息类型；

在所述查询结果中的信息类型为第一类型时，直接显示所述查询结果和/或将所述查询结果进行语音转换，结合所述第二语音信息与用户实现交互；

在所述查询结果中的信息类型包含有第二类型时，开启与该第二类型相适应的硬件支持或软件支持，并通过该第二类型相适应的硬件支持或软件支持结合所述第二语音信息的方式与用户实现交互。

本公开的实施例提供的技术方案可以包括以下有益效果：当查询结果中出现了有视频播放、语音播放等类型时，则打开相应的硬件支持以使所述终端中的各相应的硬件实现方式，例如开启终端中的摄像装置以获取用户的动作、图像等内容。

结合另一方面，在另一方面的一种可能出现的实现方式中，所述对所述第一语音信息进行识别转换成文字信息，包括：

上传所述第一语音信息到语音识别引擎；

收取所述语音识别引擎中返回的关于所述第一语音信息的文字信息。

本公开的实施例提供的技术方案可以包括以下有益效果：通过将语音信息上传到语音识别引擎的方式对语音信息进行文字信息的转换，可能通过语音信息对各所述语音信息，包括地方方言、各类不同语言例如英语、德语等均可通过对其转换实现。

结合另一方面，在另一方面的一种可能出现的实现方式中，将所述文字信息装载到预设的学习数据库中查询，并得到查询结果，包括：

获取所述文字信息的关键字；

在所述学习数据库中匹配所述关键字，以得到与所述关键字相匹配的若干学习型数据；

获取所述文字信息中除了关键字以外的逻辑字符；

根据所述逻辑字符在所述若干学习型数据中查找匹配度最高的一学习型数据作为所述查询结果。

本公开的实施例提供的技术方案可以包括以下有益效果：在查找匹配时，先通过关键字匹配进行第一步的匹配，然后通过第二步的逻辑字符的匹配第二步匹配，使得终端的回答及其衍生的相关交互问题最大程度地符合用户的提问，降低终端在交互过程中可能出现的失误。

结合另一方面，在另一方面的一种可能出现的实现方式中，所述获取采集到的第一语音信息之前，还包括：

获取学习内容语音信息；

根据所述学习内容语音信息开启与学习内容相关的学习类型，每一学习类型对应有与学习内容相关的学习数据库。

本公开的实施例提供的技术方案可以包括以下有益效果：对用户的需求进行分类，根据用户的语音控制命令获取用户需要学习的学习内容，并在联网激活学习数据库时优先启动该类型的学习数据库并下载，提升了用户与终端交互进入学习的学习状态进入速度。

结合另一方面，在另一方面的一种可能出现的实现方式中，所述对所述第一语音信息进行识别转换成文字信息之前还包括：

获取所述第一语音信息所属的母语类别；

将所述查询结果转换成第二语音信息并与用户实现交互时，包括：将所述查询结果转换成所述第一语音信息所属的母语类别的第二语音信息，并与用户实现交互。

本公开的实施例提供的技术方案可以包括以下有益效果：可根据用户的需求设置对应的语言类型，其中的母语类别也可以为用户学习的第二语言，从而通过不同语言类型与用户之间的交互实现用户的学习计划，大幅提升了用户的学习兴趣与体验。

结合另一方面，在另一方面的一种可能出现的实现方式中，将所述查询结果转换成第二语音信息并与用户实现交互时，还包括：

根据用户的第一语音信息以及所述查询结果，生成不同的交互语气以及交互问题，并向用户提问。

本公开的实施例提供的技术方案可以包括以下有益效果：在用户提供的答案与学习数据库中的预设答案不同时，终端可对用户使用不同的语气进行引导，通过与答案相关的问题使用户获取最终的正确答案，使得进一步增强用户的学习效果。

第二方面，本公开实施例还提供了一种人机交互的智能学习装置，应用于终端中，该装置包括：

获取模块，被配置用于获取采集到的第一语音信息；

转换模块，被配置用于对所述第一语音信息进行识别转换成文字信息；

查询模块，被配置用于将所述文字信息装载到预设的学习数据库中查询，并得到查询结果；

交互模块，被配置用于将所述查询结果转换成第二语音信息并与用户实现交互。

上述的装置，所述装置还包括：

检测模块，被配置用于检测是否获取到智能学习指令；

启动模块，被配置用于在检测到智能学习指令时，打开终端中的硬件支持；

激活模块，被配置用于联网激活学习数据库。

上述的装置，所述装置还包括：

类型获取子模块，被配置用于获取所述查询结果中的信息类型；

第一类型交互模块，被配置用于在所述查询结果中的信息类型为第一类型时，直接显示所述查询结果和/或将所述查询结果进行语音转换，结合所述第二语音信息与用户实现交互；

第二类型交互模块，被配置用于在所述查询结果中的信息类型包含有第二类型时，开启与该第二类型相适应的硬件支持或软件支持，并通过该第二类型相适应的硬件支持或软件支持结合所述第二语音信息的方式与用户实现交互。

上述的装置，所述转换模块包括：

上传所述第一语音信息到语音识别引擎；

上述的装置，所述查询模块包括：

关键字获取子模块，被配置用于获取所述文字信息的关键字；

匹配子模块，被配置用于在所述学习数据库中匹配所述关键字，以得到与所述关键字相匹配的若干学习型数据；

逻辑字符获取子模块，被配置用于获取所述文字信息中除了关键字以外的逻辑字符；

查找子模块，被配置用于根据所述逻辑字符在所述若干学习型数据中查找匹配度最高的一学习型数据作为所述查询结果。

上述的装置，所述装置还包括：

内容获取模块，被配置用于获取学习内容语音信息；

类型开启模块，被配置用于根据所述学习内容语音信息开启与学习内容相关的学习类型，每一学习类型对应有与学习内容相关的学习数据库。

上述的装置，所述装置还包括：

母语获取模块，被配置用于获取所述第一语音信息所属的母语类别；

所述交互模块包括：母语转换子模块，被配置用于将所述查询结果转换成所述第一语音信息所属的母语类别的第二语音信息，并与用户实现交互。

上述的装置，所述交互模块还包括：

提问模块，被配置用于根据用户的第一语音信息以及所述查询结果，生成不同的交互语气以及交互问题，并向用户提问。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种人机交互的智能学习方法的流程图。

图2是根据一示例性实施例示出的语音开启智能学习模式的流程图。

图3是根据一示例性实施例示出的语音转换文字及匹配的流程图。

图4是根据一示例性实施例示出的查询结果类型判断的流程示意图。

图5是根据一示例性实施例示出的一种人机交互的智能学习装置的框图。

图6是根据一示例性实施例示出的一种人机交互的智能学习的方法的装置的框图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理，但是其中的许多步骤可以并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排，当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

本公开涉及一种人机交互的智能学习方法，其主要运用于通过终端实现较好的学习效果的场景中，其基本思想是：将用户的语音信息转换成文字信息并在预设的学习数据库中查询，将查询到的结果再转换成语音提供给用户，在这一过程中还可根据查询结果生成与查询结果相关的第二学习类型的交互问题，重复上述过程，不断地获取用户的语音信息以及在交互过程中与用户完成的互动，可以让用户学习到较多的相关内容，从而为用户提供了一种通过人机交互的智能学习方法及其装置，为用户尤其是为年龄较小的儿童带来了良好的智能学习体验。

本实施例可适用于带有语音识别模块的智能型终端中以进行交互式智能学习的情况中，该方法可以由语音识别模块的装置来执行，其中该装置可以由软件和/或硬件来实现，一般地可集成于移动终端中，或者终端的中心控制模块来控制，如图1所示，所述方法具体包括如下步骤：

在步骤110中，获取采集到的第一语音信息；

本步骤中可以在终端中提供一智能学习模式以供用户选择，在开启该智能学习模式之后可以实现用户与终端之间的交互并实现特定类型例如启蒙英语的智能学习过程，在该模式中可以联网获取相关的学习数据库；也可以由终端中的应用供用户选择，该应用可以通过相关的服务器及时获取和更新相关的学习数据库。

在检测到外界有语音信息时，其可以智能学习模式的开启，或者是点亮屏幕的操作，也可以打开终端中安装的某一应用程序，其均可以通过在终端所安装系统中的预置系统策略得以实现。

同时，如图2所示，本公开中也可通过以下方式获取采集到的第一语音信息：

步骤111，检测是否获取到智能学习指令；

智能学习指令，可以是特定的语音信息，例如预设的“你好，开启智能学习”语音，又或者特定的手势操作等，例如在用户终端的显示屏幕中设置“O”字母的滑动轨迹，均可以作为智能学习指令用以开启终端中提供的智能学习模式。

步骤112，在检测到智能学习指令时，打开终端中的硬件支持；

在检测到智能学习指令时，开启终端中的智能学习模式，又或者启动终端中的智能学习应用，同时，打开智能学习模式或者智能学习应用可能用到的硬件支持，例如终端的拾音装置麦克风，可以用来获取用户的语音信息，又或者终端中的摄像装置，可以用于获取用户作出的动作，在本步骤中的一些可能的实施场景中，可能会出现终端向用户提问时需要用户作出相应的动作，此时需要打开终端的摄像装置获取用户的动作图像，通过图像分析算法得出用户是否作出正确的动作，从而实现交互学习。

步骤113，联网激活学习数据库。

在开启终端的智能学习模式的同时，还可以联系激活学习数据库，其中的所述学习数据库为保存有与用户需求相关的学习数据，例如各科目数学、语文、物理学等等，不同的学习类别可以有不同的学习数据库，其均可以通过联网，联网的过程可以是通过无线网络，然后从相应的服务器中获取。

通过获取智能学习指令使得终端开启智能学习模式，同时打开相应的硬件支持用以采集用户的第一语音信息，通过联网将所述第一语音信息转换成的文字信息装载到预设的学习数据库中查询，其中的学习数据库也可以下载到终端中，并提供不间隔的更新，使得用户能够在交互的过程中学习到新的知识。

在步骤120中，对所述第一语音信息进行识别转换成文字信息；

识别所述第一语音信息所包括的内容，通过智能语音识别技术转换成文字信息，其中的语音识别技术可通过语音识别模块以及语音识别的语音字典模块等，通过对语音识别并在语音字典中查询的方式获取其最可能的连续的文字信息，其中涉及到的生成的文字信息能够完全还原语音信息所包含的文字内容。

对于可能带有方言的语音信息或不同的语言类型，通过对所述方言进行语音识别，并转换成标准的文字信息，同样也可以实现对不同方言或者不同语言类型的文件的识别和转换。

其中的文字信息也可以为简体中文、英文等不同的文字类型，其对应于所述第一语音信息的语言类型，但在用户与终端的交互学习过程中，对于其中的问题和答案中出现的不同于第一语音信息的语言类型予以保留。

如图3所示，本步骤中进行转换时，可以通过语音识别引擎对所述第一语音信息进行转换，通过将所述第一语音信息通过网络发送至语音识别引擎的方式对语音信息进行识别，也可以通过终端中内置的语音识别词典进行识别，这一过程具体地可包括：

步骤121，上传所述第一语音信息到语音识别引擎；

通过网络通道将终端获取的第一语音信息上传至语音识别引擎，所述语音识别引擎为针对于语音信息进行识别的搜索引擎，其主要为应用语音识别技术对人类语言进行识别并翻译成文字信息的过程。

步骤122，收取所述语音识别引擎中返回的关于所述第一语音信息的文字信息。

语音识别引擎将语音中包括的文字信息提取出来之后，终端请求获取对应的文字信息，并进行步骤130。

在步骤130中，将所述文字信息装载到预设的学习数据库中查询，并得到查询结果；

可以将所述文字信息以关键字查询的方式在预设的学习数据库查询，将匹配度最高的预存数据作为向用户提问的问题或答案与用户完成交互过程，查询结果为与所述第一语音信息的文字信息相对应的答案或者是相关问题，其中的相关问题是用于通过引导用户学习的由终端进行提问的问题。

在本步骤中，查询过程可包括如下步骤：

步骤131，所述获取所述文字信息的关键字；

关键字为对所述文字信息的语法结构进行分析的能够体现文字信息的字或者词，例如，所述文字信息为“宇宙的半径是多少？”，则其关键字可以为“宇宙”、“半径”。

步骤132，在所述学习数据库中匹配所述关键字，以得到与所述关键字相匹配的若干学习型数据；

在所述学习数据库中匹配所述关键字，通过“宇宙”、“半径”的组合对学习数据库中的所有提问或答案进行筛选，可能会得到一个或者两个以上的包括有“宇宙”、“半径”两个关键字的学习型数据，该学习型数据可以为问题，也可以是答案。

步骤133，获取所述文字信息中除了关键字以外的逻辑字符；

例如上步骤中的所述文字信息为“宇宙的半径是多少？”时，除了关键字“宇宙”、“半径”以外，其逻辑字符可以为“？”，通过该逻辑字符可以对所述文字信息进行判断。

步骤134，根据所述逻辑字符在所述若干学习型数据中查找匹配度最高的一学习型数据作为所述查询结果。

根据步骤133中的判断结果，可以得出所述文字信息为提问形式的问题，则可以从步骤132中得出的若干学习型数据中得出匹配程度最高的一个作为用户的问题。

也可以对关键字和逻辑字符之外的非重要字词进行对比，从而得出匹配程度最高的学习型数据。

在步骤140中，将所述查询结果转换成第二语音信息并与用户实现交互。

在得出匹配程度最高的学习型数据时，可通过对所述学习型数据(或该学习型数据的答案)进行转换(播放)并由终端播放或显示，并提供给用户。

在本公开一种可能的实现方式中，在步骤140中得出的查询结果中学习型数据信息类型的不同，例如其中包括有无法通过语音完全播放或显示查询结果包含的内容，例如其包括有视频信息时，则可以选择在通过第二语音信息与用户实现交互之后对视频信息进行播放，该过程中包括如下步骤：

步骤141，获取所述查询结果中的信息类型；

对所述查询结果进行检测，查看是否包括有两种及以上的信息类型。

所述查询结果包括所述学习型数据，在所述查询结果中可以包括有两种以上的信息类型，例如包括有文字信息和视频信息。

当未包括两种及以上的信息类型时，例如仅包括有第一类型即文字信息，则可以直接显示所述查询结果和/或将所述查询结果进行语音转换，结合所述第二语音信息与用户实现交互。

步骤142，在所述查询结果中的信息类型包含有第二类型时，开启与该第二类型相适应的硬件支持或软件支持，并通过该第二类型相适应的硬件支持或软件支持结合所述第二语音信息的方式与用户实现交互。

例如在包括有视频信息时，则打开对应的视频信息的软件例如视频播放软件，在第二语音信息与用户实现交互的同时或之后，播放所述包含有视频信息的查询结果，即在终端中播放其中的视频信息，从而可以为用户提供较为全面的学习体验。

在与用户交互时，根据查询结果中的信息类型将与用户交互时的用语组织成第二语音信息，该第二语音信息根据查询结果的不同而可以为“请听正确答案”、“请看正确答案”等，并在交互之后播放或者显示所述查询结果所包含的学习型数据。

对于在学习数据库中的查询结果，可以为用户的第一语音信息所形成的问题的答案，同时该查询结果也可以为引导性的向用户提问的另一问题，通过引导的方式向用户逐步引导出用户的第一语音信息的答案，以进一步增强学习效果。

在与用户实现交互的过程中，还可以通过根据用户上一阶段的学习成绩来制定一相关内容的学习计划，通过终端的该学习计划，所述用户可以通过相关内容的所有学习，在这一过程中还可以对学习内容的复习等，从而实现了通过人机交互的智能型学习效果。

在本公开示例性实施例的一种可能的实现方式中，在所述获取采集到的第一语音信息之前，还包括：

获取学习内容语音信息；

该学习内容语音信息可以为能够通过语音信息开启相应的学习内容的语音信息。

在终端中预存所述学习类型相关的语音信息或者语音命令，在所述学习内容语音信息与预设的语音命令相匹配时，开启与其对应的学习内容。

例如，用户发出“学习天文”的学习内容语音信息时，在终端预存相应内容的情况下，终端中即打开与“天文”相关的学习类型，并及时联网获取与“天文”对应的学习数据库。

在终端与用户之间的交互学习过程中，当达到预设的学习时间时，终端可以提供给用户中场休息的指令，为用户提供休息时间，间断的休息时间可以使用户的学习效率提升。

图5为本公开实施例五提供的一种人机交互的智能学习装置的结构示意图，该装置可由软件和/或硬件实现，一般地集成于移动终端中，可通过人机交互的智能学习的方法来实现。如图所示，本实施例可以以上述实施例为基础，提供了一种人机交互的智能学习装置，其主要包括了获取模块510、转换模块520、查询模块530以及交互模块540，其中的两两模块之间可实现相互通讯，每一模块也可均与终端的中心控制单元通讯连接。

其中的获取模块510，被配置用于获取采集到的第一语音信息；

其中的转换模块520，被配置用于对所述第一语音信息进行识别转换成文字信息；

其中的查询模块530，被配置用于将所述文字信息装载到预设的学习数据库中查询，并得到查询结果；

其中的交互模块540，被配置用于将所述查询结果转换成第二语音信息并与用户实现交互。

在本公开示例性实施例的另一种实施场景中，所述装置还包括：

检测模块550，被配置用于检测是否获取到智能学习指令；

启动模块560，被配置用于在检测到智能学习指令时，打开终端中的硬件支持；

激活模块570，被配置用于联网激活学习数据库。

在本公开示例性实施例的一种实施场景中，所述装置还包括：

在本公开示例性实施例的一种实施场景中，所述转换模块520包括：

上传所述第一语音信息到语音识别引擎；

在本公开示例性实施例的另一种实施场景中，所述查询模块530包括：

在本公开示例性实施例的另一种实施场景中，如图4所示，所述装置还包括：

内容获取模块580，被配置用于获取学习内容语音信息；

类型开启模块590，被配置用于根据所述学习内容语音信息开启与学习内容相关的学习类型，每一学习类型对应有与学习内容相关的学习数据库。

在激活学习数据库之前首先获取学习内容以及学习类型。

在本公开示例性实施例的另一种实施场景中，所述交互模块540还包括：

上述实施例中提供的人机交互的智能学习装置可执行本公开中任意实施例中所提供的人机交互的智能学习方法，具备执行该方法相应的功能模块和有益效果，未在上述实施例中详细描述的技术细节，可参见本公开任意实施例中所提供的人机交互的智能学习方法。将意识到的是，本公开也扩展到适合于将本公开付诸实践的计算机程序，特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式，或者以任何其它适合在按照本公开的方法的实现中使用的形式。也将注意的是，这样的程序可能具有许多不同的构架设计。例如，实现按照本公开的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中，从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令，例如处理器指令和/或解释器指令(例如，Java解释器指令)。可替换地，子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中，并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如，载体可以包含存储介质，诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地，载体可以是可传输的载体，诸如电学或者光学信号，其可以经由电缆或者光缆，或者通过无线电或者其它手段传递。当程序具体化为这样的信号时，载体可以由这样的线缆或者装置组成。可替换地，载体可以是其中嵌入有程序的集成电路，所述集成电路适合于执行相关方法，或者供相关方法的执行所用。

应该留意的是，上文提到的实施例是举例说明本公开，而不是限制本公开，并且本领域的技术人员将能够设计许多可替换的实施例，而不会偏离所附权利要求的范围。在权利要求中，任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本公开可以通过包括几个明显不同的组件的硬件，以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中，这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话，这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外，如果期望的话，以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话，上文所讨论的各步骤并不限于各实施例中的执行顺序，不同步骤可以以不同顺序执行和/或彼此同时执行。此外，在其他实施例中，以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本公开的各个方面在独立权利要求中给出，但是本公开的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合，而并非仅是权利要求中所明确给出的组合。

这里所要注意的是，虽然以上描述了本公开的示例实施方式，但是这些描述并不应当以限制的含义进行理解。相反，可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本公开的范围。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的计算装置来实现，各模块可以集中在单个计算装置或者计算装置组成的网络组中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的移动终端来实现，各模块可以集中在单个移动终端或者移动终端组成的装置组合中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过编辑可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

图6是根据一示例性实施例示出的一种用于实现人机交互的智能学习方法的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发装置，游戏控制台，平板装置，医疗装置，健身装置，个人数字助理等。

参照图6，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储装置或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电源。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电源相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他装置之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑组件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储装置等。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

1.一种人机交互的智能学习方法，应用于终端中，其特征在于，该方法包括：

获取采集到的第一语音信息；

对所述第一语音信息进行识别转换成文字信息；

将所述查询结果转换成第二语音信息并与用户实现交互；

其中，所述将所述文字信息装载到预设的学习数据库中查询，并得到查询结果，包括：

获取所述文字信息的关键字；

获取所述文字信息中除了关键字以外的逻辑字符，所述逻辑字符为除关键字外用于对所述文字信息进行判断的字符；

2.根据权利要求1所述的方法，其特征在于，在获取采集到的第一语音信息之前，还包括：

检测是否获取到智能学习指令；

在检测到智能学习指令时，打开终端中的硬件支持；

联网激活学习数据库。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述查询结果中的信息类型；

4.根据权利要求1所述的方法，其特征在于，所述对所述第一语音信息进行识别转换成文字信息，包括：

上传所述第一语音信息到语音识别引擎；

5.根据权利要求1所述的方法，其特征在于，所述获取采集到的第一语音信息之前，还包括：

获取学习内容语音信息；

6.根据权利要求1所述的方法，其特征在于，所述对所述第一语音信息进行识别转换成文字信息之前还包括：

获取所述第一语音信息所属的母语类别；

7.根据权利要求1所述的方法，其特征在于，将所述查询结果转换成第二语音信息并与用户实现交互时，还包括：

8.一种人机交互的智能学习装置，应用于终端中，其特征在于，该装置包括：

获取模块，被配置用于获取采集到的第一语音信息；

交互模块，被配置用于将所述查询结果转换成第二语音信息并与用户实现交互；

所述查询模块包括：

逻辑字符获取子模块，被配置用于获取所述文字信息中除了关键字以外的逻辑字符，所述逻辑字符为除关键字外用于对所述文字信息进行判断的字符；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

检测模块，被配置用于检测是否获取到智能学习指令；

激活模块，被配置用于联网激活学习数据库。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

11.根据权利要求8所述的装置，其特征在于，所述转换模块包括：

上传所述第一语音信息到语音识别引擎；

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

内容获取模块，被配置用于获取学习内容语音信息；

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8所述的装置，其特征在于，所述交互模块还包括：

15.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现上述权利要求1-7中任一项所述方法的步骤。