CN108735216B

CN108735216B - 一种基于语义识别的语音搜题方法及家教设备

Info

Publication number: CN108735216B
Application number: CN201810603486.6A
Authority: CN
Inventors: 杨昊民
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2020-10-16
Anticipated expiration: 2038-06-12
Also published as: CN108735216A

Abstract

一种基于语义识别的语音搜题方法及家教设备，包括：家教设备捕捉用户发出的语音信息，并对该语音信息进行语义识别处理，得到语音信息对应的语义内容，以及判断预设的唤醒词集合中是否存在与目标语义内容相匹配的目标唤醒词，该唤醒词集合至少包括捕捉语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词；在判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词时，根据目标语义内容确定目标问题，并搜索目标问题的目标答案，以及输出目标答案。实施本发明实施例，能够简化搜题步骤，进而提高搜题效率。

Description

一种基于语义识别的语音搜题方法及家教设备

技术领域

本发明涉及电子设备技术领域，具体涉及一种基于语义识别的语音搜题方法及家教设备。

背景技术

目前，市面上出现许多具有题目搜索功能的产品，例如学习平板、家教机等，可以帮助学生解决学习上遇到的难题。当学生使用家教机搜索题目时，如果家教机处于休眠状态，那么学生首先对家教机进行唤醒，然后点击家教机的显示界面的搜题功能图标进入搜题界面，再通过拍照的方式拍摄想要搜索的题目以获得该题目的答案。可见，这种搜题方式的搜题步骤繁琐，搜题效率低。

发明内容

本发明实施例公开一种基于语义识别的语音搜题方法及家教设备，能够简化搜题步骤，进而提高搜题效率。

本发明实施例第一方面公开了一种基于语义识别的语音搜题方法，所述方法包括：

捕捉用户发出的语音信息，并对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容；

判断预设的唤醒词集合中是否存在与所述目标语义内容相匹配的目标唤醒词，所述唤醒词集合至少包括捕捉所述语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词；

如果所述唤醒词集合中存在与所述目标语义内容相匹配的所述目标唤醒词，根据所述目标语义内容确定目标问题；

搜索所述目标问题的目标答案，以及输出所述目标答案。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容，包括：

对所述语音信息进行特征提取处理，得到所述语音信息的声学特征以及声纹特征；

判断家教设备中预先存储的所有声纹特征中是否存在与所述声纹特征相匹配的某一声纹特征；

当所述所有声纹特征中存在所述某一声纹特征时，通过预设的语音识别模型对所述语音信息的声学特征进行识别，得到所述语音信息的识别文本；

对所述语音信息的识别文本进行语义分析，得到所述语音信息对应的目标语义内容。

作为一种可选的实施方式，在本发明实施例第一方面中，所述根据所述目标语义内容确定目标问题之后，以及所述搜索所述目标问题的目标答案之前，所述方法还包括：

获取用户的个人数据，所述个人数据至少包括用户的当前年龄；

获取与所述当前年龄相匹配的学习科目列表；

统计所述目标问题与所述学习科目列表中每个学习科目的相关度；

确定与所述目标问题相关度最高的学习科目为目标学习科目；

所述搜索所述目标问题的目标答案，包括：

在所述目标学习科目对应的知识范围搜索所述目标问题的目标答案。

作为一种可选的实施方式，在本发明实施例第一方面中，所述输出所述目标答案之前，所述方法还包括：

生成包含所述目标答案的显示界面；

检测家教设备的显示屏是否显示有其他应用程序的应用界面；

如果有，获取所述其他应用程序的显示等级，并判断所述显示等级是否均低于目标显示等级；

如果所述显示等级均低于所述目标显示等级，隐藏所述其他应用程序的应用界面；

所述输出所述目标答案，包括：

在所述家教设备的显示屏输出所述目标答案的显示界面。

作为一种可选的实施方式，在本发明实施例第一方面中，所述捕捉用户发出的语音信息之后，所述方法还包括：

提取所述语音信息中的噪音信息；

获取距离所述语音信息的捕捉时间最近的上一条语音信息；

根据所述上一条语音信息以及所述噪音信息确定用户所处的当前场景；

判断所述当前场景是否位于预设的搜题场景集合中，如果是，执行所述的对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容。

本发明实施例第二方面公开了一种家教设备，其特征在于，包括：

捕捉单元，用于捕捉用户发出的语音信息；

识别单元，用于对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容；

判断单元，用于判断预设的唤醒词集合中是否存在与所述目标语义内容相匹配的目标唤醒词，所述唤醒词集合至少包括捕捉所述语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词；

确定单元，用于在所述判断单元判断出所述唤醒词集合中存在与所述目标语义内容相匹配的所述目标唤醒词时，根据所述目标语义内容确定目标问题；

搜索单元，用于搜索所述目标问题的目标答案；

输出单元，用于输出所述目标答案。

作为一种可选的实施方式，在本发明实施例第二方面中，所述识别单元对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容的方式具体为：

当判断出所述所有声纹特征中存在所述某一声纹特征时，通过预设的语音识别模型对所述语音信息的声学特征进行识别，得到所述语音信息的识别文本；

作为一种可选的实施方式，在本发明实施例第二方面中，所述家教设备还包括：

第一获取单元，用于在所述确定单元根据所述目标语义内容确定所述目标问题之后，获取用户的个人数据，以及获取与所述当前年龄相匹配的学习科目列表，所述个人数据至少包括用户的当前年龄；

统计单元，用于统计所述目标问题与所述学习科目列表中每个学习科目的相关度；

所述确定单元，还用于确定与所述目标问题相关度最高的学习科目为目标学习科目；

所述搜索单元，具体用于在所述确定单元确定出与所述目标问题相关度最高的学习科目为目标学习科目之后，在所述目标学习科目对应的知识范围搜索所述目标问题的目标答案。

生成单元，用于生成包含所述目标答案的显示界面；

检测单元，用于检测家教设备的显示屏是否显示有其他应用程序的应用界面；

第二获取单元，用于在所述检测单元检测出所述家教设备的显示屏显示有其他应用程序的应用界面时，获取所述其他应用程序的显示等级；

所述判断单元，还用于判断所述显示等级是否均低于目标显示等级；

隐藏单元，用于在所述判断单元判断出所述显示等级均低于所述目标显示等级，隐藏所述其他应用程序的应用界面；

所述输出单元，具体用于在所述隐藏单元隐藏所述其他应用程序的应用界面之后，在所述家教设备的显示屏输出所述目标答案的显示界面。

提取单元，用于在所述捕捉单元捕捉用户发出的所述语音信息之后，提取所述语音信息中的噪音信息；

第三获取单元，用于获取距离所述语音信息的捕捉时间最近的上一条语音信息；

所述确定单元，还用于根据所述上一条语音信息以及所述噪音信息确定用户所处的当前场景；

所述判断单元，还用于判断所述当前场景是否位于预设的搜题场景集合中；

所述识别单元，具体用于在所述判断单元判断出所述当前场景位于预设的搜题场景集合中时，对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容。

本发明实施例第三方面公开了另一种家教设备，所述可穿戴设备包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的任意一种方法中的全部或部分步骤。

本发明实施例第四方面公开了一种计算机可读存储介质，其特征在于，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的任意一种方法中的全部或部分步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，家教设备捕捉用户发出的语音信息，并对该语音信息进行语义识别处理，得到语音信息对应的语义内容，以及判断预设的唤醒词集合中是否存在与目标语义内容相匹配的目标唤醒词，该唤醒词集合至少包括捕捉语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词；在判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词时，根据目标语义内容确定目标问题，并搜索目标问题的目标答案，以及输出目标答案。可见，实施本发明实施例，能够通过语义识别的方式对用户发出的语音信息进行有效识别，并且在判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词之后直接启动语音搜题功能进行搜题，与现有技术中用户需要先唤醒家教机，进一步启动语音搜题进入搜题界面，再在搜题界面输入题目才能进行搜题相比，本发明实施例简化了搜题步骤，进而提高了搜题效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于语义识别的语音搜题方法的流程示意图；

图2是本发明实施例公开的另一种基于语义识别的语音搜题方法的流程示意图；

图3是本发明实施例公开的又一种基于语义识别的语音搜题方法的流程示意图；

图4是本发明实施例公开的一种家教设备的结构示意图；

图5是本发明实施例公开的另一种家教设备的结构示意图；

图6是本发明实施例公开的又一种家教设备的结构示意图；

图7是本发明实施例公开的一种家教机的部分结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开一种基于语义识别的语音搜题方法及家教设备，能够简化搜题步骤，进而提高搜题效率。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于语义识别的语音搜题方法的流程示意图。其中，如图1所示，该基于语义识别的语音搜题方法可以包括以下步骤：

101、家教设备捕捉用户发出的语音信息。

本发明实施例中，可选的，家教设备捕捉用户发出的语音信息可以包括：家教设备检测是否接入耳机设备，如果是，确定耳机设备的类型，并根据耳机设备的类型确定目标捕捉模式，并以该目标捕捉模式捕捉用户发出的语音信息；如果否，以预设的普通捕捉模式捕捉用户发出的语音信息。举例来说，耳机设备可以包括蓝牙耳机(无线)、有线耳机；捕捉模式可以包括蓝牙耳机对应的无线捕捉模式(通过蓝牙耳机的麦克风捕捉语音信息)、有线耳机对应的有线捕捉模式(通过有线耳机的麦克风捕捉语音信息)以及预设的普通捕捉模式(通过家教设备的麦克风捕捉语音信息)；那么，当用户使用蓝牙耳机时，家教设备可以检测到接入耳机设备，并确定耳机设备的类型为蓝牙耳机，进一步根据蓝牙耳机确定无线捕捉模式，然后通过无线捕捉模式捕捉用户发出的语音信息。

可见，本发明实施例，可以基于用户当前所使用的耳机情况，针对性提供多种语音信息的捕捉方式，既提高了用户的使用体验，也实现了语音信息的定向捕捉，减少了捕捉语音信息的过程中所捕捉到的背景噪音。

102、家教设备对语音信息进行语义识别处理，得到该语音信息对应的目标语义内容。

本发明实施例中，当家教设备捕捉到的语音信息的语音数据量(内存)过大时，容易增加家教设备对语音信息进行语义识别的处理时长和处理难度，因此，家教设备可以在家教设备对语音信息进行语义识别处理之前，对捕捉到的原始语音信息进行截取操作，以截取到该原始语音信息中包含的用户真正说话的语音信息，即有效语音数据。具体来说，家教设备对捕捉到的原始语音信息进行截取操作，以截取到有效语音数据的方式可以包括：确定捕捉到用户发出的语音信息作为原始语音信息；从原始语音信息的起始时刻开始，通过依次判断原始语音信息中每一时刻的语音信息与预设的声音能量阈值的大小关系，确定原始语音信息中用户说话的开始点(语音开始点)和结束点(语音结束点)，并截取原始语音信息中的语音开始点与语音结束点之间的语音数据作为语音信息(有效语音数据)。举例来说，第一时刻之前的语音信息的声音能量小于声音能量阈值，而从该第一时刻开始的一段时间内的语音信息的声音能量均大于声音阈值，可以判断出用户开始说话是在第一时刻；而在第一时刻之后，第二时刻的语音信息的声音能量小于声音能量阈值并且从该第二时刻起持续一段时间的语音信息的声音能量均小于声音能量阈值，那么可以判断出用户结束说话是在第二时刻。可见，本发明实施例，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率。

作为一种可选的实施方式，家教设备对语音信息进行语义识别处理，得到语音信息对应的目标语义内容可以包括：

对语音信息进行特征提取处理，得到该语音信息的声学特征以及声纹特征；

判断家教设备中预先存储的所有声纹特征中是否存在与该声纹特征相匹配的某一声纹特征；

当所有声纹特征中存在上述某一声纹特征时，通过预设的语音识别模型对语音信息的声学特征进行识别，得到语音信息的识别文本；

对语音信息的识别文本进行语义分析，得到语音信息对应的目标语义内容。

本发明实施例中，上述预设的语音识别模式可以是声学模型和语言模型，本发明实施例不做限定。

103、家教设备判断预设的唤醒词集合中是否存在与目标语义内容相匹配的目标唤醒词，如果是，执行步骤104；如果否，结束本流程；其中，该唤醒词集合至少包括捕捉语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词。

本发明实施例中，家教设备可以预设有唤醒词集合，该唤醒词集合中的任意一个唤醒词均可以触发启动家教设备的语音搜题功能，进一步地，该唤醒词可以包括捕捉上述语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词(例如“怎么计算”、“怎么读”等)，本发明实施例不做限定。可选的，该唤醒词集合还可以包括捕捉语音信息之前用户使用具有语音交互功能的其它应用与家教设备进行语音交互时输入的所有语音信息的语义内容中出现频率或出现次数较高的关键词，本发明实施例不做限定。

本发明实施例中，需要说明的是，当步骤103的判断结果为否，即预设的唤醒词集合中不存在与目标语义内容相匹配的目标唤醒词时，该家教设备还可以执行以下操作：

将该目标语义内容发送至与家教设备相匹配的监护人设备(家长侧设备或老师侧设备)，由监护人设备的用户根据该目标语义内容识别该语音信息是否为家教设备的用户问问题的语音信息；

在接收到监护人设备返回的用于表示该语音信息为家教设备的用户问问题的语音信息时，确定语音信息中包含的目标关键字，并根据目标关键字确定用户所需要问的问题，搜索与该问题、家教设备的用户的年龄段相匹配的答案并显示；

将该音信息中包含的目标关键字确定为新增唤醒词，并将新增唤醒词增加至唤醒词集合中；或者，

将目标语义内容发送至家教设备的云端服务器，由云端服务器在云端数据中寻找与目标语义内容相匹配的目标唤醒词，并在寻找到与目标语义内容相匹配的目标唤醒词之后，将该目标唤醒词发送给家教设备；

接收目标唤醒词，并根据目标唤醒词建立该家教设备的唤醒词集合，以及执行步骤104。

其中，云端数据可以是根据海量用户的家教设备的唤醒词集合中的唤醒词综合统计、计算得到的，并且海量用户与本发明实施例中的用户的年龄段相同且位于同一区域。

本发明实施例中，由于不同用户的表达能力不同，有的用户能够相对完整的表达自己想要知道的问题，有的用户则只能表达出一部分信息，如“李白是谁”以及“李白”均可以是用户表达的想要知道李白是谁的问题。且由于作为用户的家长或老师对家教设备的用户的表达能力以及学习能力比较熟悉，因此，在家教设备无法匹配出目标唤醒词时，可以通过家长或老师进行确认，减少了因唤醒词集合中的唤醒词不全而导致无法唤醒语音搜题的情况发生，且还能够根据家长或老师的判断逐步更新并完善唤醒词集合，进而有利于提高家教设备的唤醒词识别效率。进一步的，家教设备还可以将与目标关键词的词性相匹配的其它词语增加至唤醒词集合中，以进一步更新和完善唤醒词集合的内容。举例来说，当用户语音输入“李白”时，若唤醒词集合中不包括李白且家长或教师确定用户输入“李白”是问题时，家教设备自动确定用户想要了解诗人李白的相关信息，进一步确认用户可能会了解与李白相同朝代的其它诗人或与李白有相同名气的其它诗人等，则家教设备将与李白相同朝代的其它诗人或与李白有相同名气的其它诗人的名字增加至唤唤醒词集合中。

本发明实施例中，当用户为第一次使用家教设备时，该家教设备中不存在预设的唤醒词集合，因此，可以通过云端数据实现与目标语义内容的匹配，并在匹配之后云端服务器将云端数据中匹配成功的目标唤醒词发送给家教设备，由家教设备根据目标唤醒词建立唤醒词集合。可见，实施本发明实施例，不仅能够通过云端数据的识别提高唤醒词的识别准确率，而且根据云端服务器发送的目标唤醒词建立唤醒词集合还可以加快唤醒词集合的建立速度，进而提高了家教设备的唤醒词识别效率。

104、家教设备根据目标语义内容确定目标问题。

本发明实施例中，可选的，家教设备在根据目标语义内容确定目标问题之后，还可以对目标问题进行关键词提取，以提取出用于代表该目标问题的至少一个关键词，并确定至少一个关键词的所属类别，根据关键词的所属类别确定目标问题的类别，获取与该类别对应的本地数据库，在该本地数据库执行步骤105。举例来说，目标问题可以是：“关于春天的诗句有哪些？”，对该目标问题进行关键词提取，得到的关键词是“春天”、“诗句”，进一步确定关键词的所属类别为语文(人文)，因此，可以获取与语文对应的本地数据库，并在语文对应的数据库执行步骤105。

105、家教设备搜索目标问题的目标答案。

本发明实施例中，上述目标答案的形式可以是视频、语音或者文字，本发明实施例不做限定；可选的，家教设备还可以确定目标问题对应的知识点，并搜索目标问题的题目解析以及知识点解析；进一步可选的，家教设备还可以搜索与该目标问题的相似度高于预设相似度阈值的至少一个扩展问题及其对应的答案。

106、家教设备输出目标答案。

本发明实施例中，作为一种可选的实施方式，家教设备输出目标答案的方式可以包括：

家教设备获取其所处环境的当前光线强度，并判断该当前光线强度是否大于预设光线强度阈值；

如果否，家教设备检测其与用户之间的第一距离；

家教设备判断第一距离是否大于预设距离；

如果第一距离大于预设距离，家教设备以语音的形式输出目标答案；或者，

家教设备检测距离其所在位置的预设范围内是否存在可投影面，如果存在，将目标题目以及目标答案投影至该可投影面。

可见，本发明实施例，可以根据用户所处的环境适应性调整目标答案的输出方式，提高了用户的使用体验，同时不同的输出方式也增强了语音搜题的趣味性。

可见，通过图1所描述的方法，能够通过语义识别的方式对用户发出的语音信息进行有效识别，并且在判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词之后直接启动语音搜题功能进行搜题，简化了搜题步骤，进而提高了搜题效率；以及，既提高了用户的使用体验，也实现了语音信息的定向捕捉，减少了捕捉语音信息的过程中所捕捉到的背景噪音；以及，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率；此外，还可以根据用户所处的环境适应性调整目标答案的输出方式，提高了用户的使用体验，同时不同的输出方式也增强了语音搜题的趣味性。

实施例二

请参阅图2，图2是本发明实施例公开的另一种基于语义识别的语音搜题方法的流程示意图。其中，如图2所示，该基于语义识别的语音搜题方法可以包括以下步骤：

本发明实施例中，该基于语义识别的语音搜题方法包括步骤201～204，针对步骤201～204的描述，请参照实施例一中针对步骤101～104的详细描述，本发明实施例不再赘述。

205、家教设备获取用户的个人数据，该个人数据至少包括用户的当前年龄。

206、家教设备获取与上述当前年龄相匹配的学习科目列表。

本发明实施例中，可选的，家教设备可以根据用户的当前年龄确定出该当前年龄所处的年龄段，并获取与该年龄段对应的学习科目列表。

207、家教设备统计目标问题与学习科目列表中每个学习科目的相关度。

208、家教设备确定与目标问题相关度最高的学习科目为目标学习科目。

209、家教设备在目标学习科目对应的知识范围搜索目标问题的目标答案。

针对步骤205～209，家教设备可以根据用户的当前年龄确定用户当前所涉及的学习科目，并根据学习科目列表中每个科目与该目标问题的相关程度，进一步确定该目标问题属于的学习科目，再在该学习科目对应的知识范围搜索目标问题的目标答案。可见，本发明实施例，可以通过确定目标问题所在的学习科目，进一步根据学习科目确定搜索目标问题的搜索范围，进而提高了搜题的效率。

210、家教设备输出目标答案。

可见，通过图2所描述的方法，能够通过语义识别的方式对用户发出的语音信息进行有效识别，并且在判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词之后直接启动语音搜题功能进行搜题，简化了搜题步骤，进而提高了搜题效率；以及，既提高了用户的使用体验，也实现了语音信息的定向捕捉，减少了捕捉语音信息的过程中所捕捉到的背景噪音；以及，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率；以及，还可以根据用户所处的环境适应性调整目标答案的输出方式，提高了用户的使用体验，同时不同的输出方式也增强了语音搜题的趣味性；此外，可以通过确定目标问题所在的学习科目，进一步根据学习科目确定搜索目标问题的搜索范围，进而提高了搜题的效率。

实施例三

请参阅图3，图3是本发明实施例公开的另一种基于语义识别的语音搜题方法的流程示意图。其中，如图3所示，该基于语义识别的语音搜题方法可以包括以下步骤：

301、家教设备捕捉用户发出的语音信息。

302、家教设备提取语音信息中的噪音信息。

303、家教设备获取距离语音信息的捕捉时间最近的上一条语音信息。

304、家教设备根据上一条语音信息以及噪音信息确定用户所处的当前场景。

305、家教设备判断当前场景是否位于预设的搜题场景集合中，如果是，执行步骤306；如果否，结束本流程。

本发明实施例中，该基于语义识别的语音搜题方法包括步骤306～313，针对步骤306～313的描述，请参照实施例二中针对步骤202～209的详细描述，本发明实施例不再赘述。

在一个可选的实施例中，在执行完毕步骤313之后，该方法还可以包括以下操作：

家教设备生成包含目标答案的显示界面；

家教设备检测家教设备的显示屏是否显示有其他应用程序的应用界面，如果有，

家教设备获取其他应用程序的显示等级，并判断显示等级是否均低于目标显示等级。

如果显示等级均低于目标显示等级，家教设备隐藏其他应用程序的应用界面；

家教设备在家教设备的显示屏输出目标答案的显示界面。

本发明实施例中，应用程序的显示等级可以是用户在家教设备上预先设置的，也可以是家教设备在接收到家长侧的监控终端发送的修改指令之后，按照修改指令对应用程序的显示等级进行修改得到的。

可见，本发明实施例，能够基于应用程序的显示等级与目标显示等级之间等级高低的判断，合理控制家教设备的显示屏的界面的数量及类型，以确保目标答案及时、有效的输出。

314、家教设备输出目标答案。

本发明实施例中，作为一种可选的实施方式，家教设备输出目标答案的方式具体可以包括：在家教设备的显示屏输出目标答案的显示界面。

可见，通过图3所描述的方法，能够简化搜题步骤，进而提高了搜题效率；以及，既能够提高用户的使用体验，也能够实现语音信息的定向捕捉，从而减少了捕捉语音信息的过程中所捕捉到的背景噪音；以及，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率；以及，还可以根据用户所处的环境适应性调整目标答案的输出方式，提高了用户的使用体验，同时不同的输出方式也增强了语音搜题的趣味性；此外，可以通过确定目标问题所在的学习科目，进一步根据学习科目确定搜索目标问题的搜索范围，进而提高了搜题的效率；此外，能够基于应用程序的显示等级与目标显示等级之间等级高低的判断，合理控制家教设备的显示屏的界面的数量及类型，以确保目标答案及时、有效的输出。

实施例四

请参阅图4，图4是本发明实施例公开的一种家教设备的结构示意图。如图4所示，该家教设备可以包括：

捕捉单元401，用于捕捉用户发出的语音信息，并将语音信息提供给识别单元402。

本发明实施例中，可选的，捕捉单元401捕捉用户发出的语音信息可以包括：

检测是否接入耳机设备，如果是，确定耳机设备的类型，并根据耳机设备的类型确定目标捕捉模式，并以该目标捕捉模式捕捉用户发出的语音信息；如果否，以预设的普通捕捉模式捕捉用户发出的语音信息。举例来说，耳机设备可以包括蓝牙耳机(无线)、有线耳机；捕捉模式可以包括蓝牙耳机对应的无线捕捉模式(通过蓝牙耳机的麦克风捕捉语音信息)、有线耳机对应的有线捕捉模式(通过有线耳机的麦克风捕捉语音信息)以及预设的普通捕捉模式(通过家教设备的麦克风捕捉语音信息)；那么，当用户使用蓝牙耳机时，家教设备可以检测到接入耳机设备，并确定耳机设备的类型为蓝牙耳机，进一步根据蓝牙耳机确定无线捕捉模式，然后通过无线捕捉模式捕捉用户发出的语音信息。

识别单元402，用于对语音信息进行语义识别处理，得到语音信息对应的目标语义内容，并将该目标语义内容提供给判断单元403。

本发明实施例中，当家教设备捕捉到的语音信息的语音数据量(内存)过大时，容易增加家教设备对语音信息进行语义识别的处理时长和处理难度，因此，识别单元402可以在家教设备对语音信息进行语义识别处理之前，对捕捉到的原始语音信息进行截取操作，以截取到该原始语音信息中包含的用户真正说话的语音信息，即有效语音数据。具体来说，识别单元402对捕捉到的原始语音信息进行截取操作，以截取到有效语音数据的方式可以包括：确定捕捉到用户发出的语音信息作为原始语音信息；从原始语音信息的起始时刻开始，通过依次判断原始语音信息中每一时刻的语音信息与预设的声音能量阈值的大小关系，确定原始语音信息中用户说话的开始点(语音开始点)和结束点(语音结束点)，并截取原始语音信息中的语音开始点与语音结束点之间的语音数据作为语音信息(有效语音数据)。举例来说，第一时刻之前的语音信息的声音能量小于声音能量阈值，而从该第一时刻开始的一段时间内的语音信息的声音能量均大于声音阈值，可以判断出用户开始说话是在第一时刻；而在第一时刻之后，第二时刻的语音信息的声音能量小于声音能量阈值并且从该第二时刻起持续一段时间的语音信息的声音能量均小于声音能量阈值，那么可以判断出用户结束说话是在第二时刻。可见，本发明实施例，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率。

作为一种可选的实施方式，识别单元402对语音信息进行语义识别处理，得到语音信息对应的目标语义内容的方式具体可以为：

对语音信息进行特征提取处理，得到语音信息的声学特征以及声纹特征；

判断家教设备中预先存储的所有声纹特征中是否存在与声纹特征相匹配的某一声纹特征；

当判断出所有声纹特征中存在某一声纹特征时，通过预设的语音识别模型对语音信息的声学特征进行识别，得到语音信息的识别文本；

判断单元403，用于判断预设的唤醒词集合中是否存在与目标语义内容相匹配的目标唤醒词，并将判断结果提供给确定单元404，其中，唤醒词集合至少包括捕捉语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词。

确定单元404，用于在判断单元403判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词时，根据目标语义内容确定目标问题，并将目标问题提供给搜索单元405。

搜索单元405，用于搜索目标问题的目标答案，并提供给输出单元406。

本发明实施例中，上述目标答案的形式可以是视频、语音或者文字，本发明实施例不做限定；可选的，搜索单元405还可以确定目标问题对应的知识点，并搜索目标问题的题目解析以及知识点解析；进一步可选的，搜索单元405还可以搜索与该目标问题的相似度高于预设相似度阈值的至少一个扩展问题及其对应的答案。

输出单元406，用于输出目标答案。

本发明实施例中，作为一种可选的实施方式，输出单元406输出目标答案的方式可以包括：

获取其所处环境的当前光线强度，并判断该当前光线强度是否大于预设光线强度阈值；

如果否，检测其与用户之间的第一距离；

判断第一距离是否大于预设距离；

如果第一距离大于预设距离，以语音的形式输出目标答案；或者，

检测距离其所在位置的预设范围内是否存在可投影面，如果存在，将目标题目以及目标答案投影至该可投影面。

可见，通过图4所描述的家教设备，能够通过语义识别的方式对用户发出的语音信息进行有效识别，并且在判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词之后直接启动语音搜题功能进行搜题，简化了搜题步骤，进而提高了搜题效率；以及，既提高了用户的使用体验，也实现了语音信息的定向捕捉，减少了捕捉语音信息的过程中所捕捉到的背景噪音；以及，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率；此外，还可以根据用户所处的环境适应性调整目标答案的输出方式，提高了用户的使用体验，同时不同的输出方式也增强了语音搜题的趣味性。

实施例五

请参阅图5，图5是本发明实施例提供的另一种家教设备的结构示意图，其中，图5所示的家教设备是由图4所示的家教设备进一步进行优化得到的。与图5所示的家教设备相比较，图5所示的家教设备还包括：

第一获取单元407，用于在上述确定单元404根据目标语义内容确定目标问题之后，获取用户的个人数据，以及获取与当前年龄相匹配的学习科目列表，并将该学习科目列表提供给统计单元408，其中，该个人数据至少包括用户的当前年龄。

统计单元408，用于统计目标问题与学习科目列表中每个学习科目的相关度，并提供给确定单元404。

上述确定单元404，还用于确定与目标问题相关度最高的学习科目为目标学习科目，并将确定结果提供给搜索单元405。

上述搜索单元405，具体用于在上述确定单元404确定出与目标问题相关度最高的学习科目为目标学习科目之后，在目标学习科目对应的知识范围搜索目标问题的目标答案。

可见，通过图5所描述的家教设备，能够通过语义识别的方式对用户发出的语音信息进行有效识别，并且在判断出唤醒词集合中存在与目标语义内容相匹配的目标唤醒词之后直接启动语音搜题功能进行搜题，简化了搜题步骤，进而提高了搜题效率；以及，既提高了用户的使用体验，也实现了语音信息的定向捕捉，减少了捕捉语音信息的过程中所捕捉到的背景噪音；以及，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率；以及，还可以根据用户所处的环境适应性调整目标答案的输出方式，提高了用户的使用体验，同时不同的输出方式也增强了语音搜题的趣味性；此外，可以通过确定目标问题所在的学习科目，进一步根据学习科目确定搜索目标问题的搜索范围，进而提高了搜题的效率。

实施例六

请参阅图6，图6是本发明实施例提供的又一种家教设备的结构示意图，其中，图6所示的家教设备是由图5所示的家教设备进一步进行优化得到的。与图5所示的家教设备相比较，图6所示的家教设备还包括：

生成单元409，用于在搜索单元405搜索目标问题的目标答案之后，生成包含目标答案的显示界面，并触发检测单元410启动。

检测单元410，用于检测家教设备的显示屏是否显示有其他应用程序的应用界面，并将检测结果提供给第二获取单元411。

第二获取单元411，用于在上述检测单元410检测出家教设备的显示屏显示有其他应用程序的应用界面时，获取其他应用程序的显示等级，并提供给判断单元403。

本发明实施例中，应用程序的显示等级可以是用户在家教设备上预先设置的，也可以是第二获取单元411在接收到家长侧的监控终端发送的修改指令之后，按照修改指令对应用程序的显示等级进行修改得到的。

上述判断单元403，还用于判断显示等级是否均低于目标显示等级，并将判断结果提供给隐藏单元412。

隐藏单元412，用于在上述判断单元403判断出显示等级均低于目标显示等级，隐藏其他应用程序的应用界面，并触发输出单元406启动。

上述输出单元406，具体用于在上述隐藏单元412隐藏其他应用程序的应用界面之后，在家教设备的显示屏输出目标答案的显示界面。

作为一种可选的实施方式，如图6所示，上述家教设备还可以包括：

提取单元413，用于在上述捕捉单元401捕捉用户发出的语音信息之后，提取语音信息中的噪音信息，并提供给确定单元404。

第三获取单元414，用于获取距离语音信息的捕捉时间最近的上一条语音信息，并提供给确定单元404。

上述确定单元404，还用于根据上一条语音信息以及噪音信息确定用户所处的当前场景，并将确定结果提供给判断单元403。

上述判断单元403，还用于判断当前场景是否位于预设的搜题场景集合中，并将判断结果提供给识别单元402。

上述识别单元402，具体用于在上述判断单元403判断出当前场景位于预设的搜题场景集合中时，对语音信息进行语义识别处理，得到语音信息对应的目标语义内容。

可见，通过图6所描述的家教设备，能够简化搜题步骤，进而提高了搜题效率；以及，既能够提高用户的使用体验，也能够实现语音信息的定向捕捉，从而减少了捕捉语音信息的过程中所捕捉到的背景噪音；以及，可以根据声音能量阈值确定捕捉到的用户的语音信息中的有效语音数据，从而提高了语音识别的效率以及准确率；以及，还可以根据用户所处的环境适应性调整目标答案的输出方式，提高了用户的使用体验，同时不同的输出方式也增强了语音搜题的趣味性；此外，可以通过确定目标问题所在的学习科目，进一步根据学习科目确定搜索目标问题的搜索范围，进而提高了搜题的效率；此外，能够基于应用程序的显示等级与目标显示等级之间等级高低的判断，合理控制家教设备的显示屏的界面的数量及类型，以确保目标答案及时、有效的输出。

本发明实施例还提供了一种家教机，如图7所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。以图7的家教机为例：

图7示出的是与本发明实施例提供的终端相关的家教机的部分结构框图。参考图7，家教机包括：射频(Radio Frequency，RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线通信模块1170、处理器1180、电源1190以及摄像头1100等部件。本领域技术人员可以理解，图7中示出的家教机结构并不构成对家教机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对家教机的各个构成部件进行具体的介绍：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，

CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1120可用于存储可执行程序代码，与存储器1120耦合的处理器1180通过运行存储在存储器1120的可执行程序代码，从而执行家教机的各种功能应用以及数据处理，特别是用于执行实施例一至实施例三任一种基于用户行为的溺水报警方法的全部或部分步骤。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据家教机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与家教机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及家教机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以

采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图7中，触控面板1131与显示面板1141是作为两个独立的部件来实现家教机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现家教机的输入和输出功能。

家教机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与家教机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一家教机，或者将音频数据输出至存储器1120以便进一步处理。

无线通信模块1170可用于在执行向外部设备发送信息、接收外部设备的控制指令等，特别地，在接收到外部设备的控制指令之后发送至处理器1180，由处理器1180处理。无线通信模块1170可包括如无线保真(wireless fidelity，WiFi)模块等。其中，WiFi属于短距离无线传输技术，家教机通过WiFi模块可以用于发送信息、帮助用户收发电子邮件、浏览网页和访问流式媒体以及接收外部设备的控制指令等，它为用户提供了无线的宽带互联网访问。

处理器1180是家教机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行家教机的各种功能和处理数据，从而对家教机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

家教机还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，家教机还可以包括蓝牙模块等，在此不再赘述。

在本发明实施例中，该家教机所包括的处理器1180用于执行存储器1120中存储的可执行程序代码，还具有以下功能：

控制音频电路1160捕捉用户发出的语音信息，并对语音信息进行语义识别处理，得到语音信息对应的目标语义内容；

判断预设的唤醒词集合中是否存在与目标语义内容相匹配的目标唤醒词，唤醒词集合至少包括捕捉语音信息之前用户通过语音搜题功能输入的所有语音问题的语义内容中出现频率超过预设频率阈值的关键词；

如果唤醒词集合中存在与目标语义内容相匹配的目标唤醒词，根据目标语义内容确定目标问题；

搜索目标问题的目标答案，以及输出目标答案。

可见，通过该家教机所包括的处理器1180，能够简化搜题步骤，进而提高搜题效率。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上所述，以上实施例仅用以说明本申请的技术方案而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，然而本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于语义识别的语音搜题方法，其特征在于，所述方法包括：

搜索所述目标问题的目标答案；

获取家教设备所处环境的当前光线强度，并判断所述当前光线强度是否大于预设光线强度阈值；

如果否，检测所述家教设备与用户之间的第一距离；

判断所述第一距离是否大于预设距离；

如果所述第一距离大于所述预设距离，以语音的形式输出目标答案；或者，

检测距离所述家教设备所在位置的预设范围内是否存在可投影面，如果存在，将目标题目以及目标答案投影至该可投影面。

2.根据权利要求1所述的方法，其特征在于，所述对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标语义内容确定目标问题之后，以及所述搜索所述目标问题的目标答案之前，所述方法还包括：

获取与所述当前年龄相匹配的学习科目列表；

所述搜索所述目标问题的目标答案，包括：

4.根据权利要求1~3任一项所述的方法，其特征在于，所述输出所述目标答案之前，所述方法还包括：

生成包含所述目标答案的显示界面；

所述输出所述目标答案，包括：

在所述家教设备的显示屏输出所述目标答案的显示界面。

5.根据权利要求1~3任一项所述的方法，其特征在于，所述捕捉用户发出的语音信息之后，所述方法还包括：

提取所述语音信息中的噪音信息；

获取距离所述语音信息的捕捉时间最近的上一条语音信息；

6.一种家教设备，其特征在于，包括：

捕捉单元，用于捕捉用户发出的语音信息；

搜索单元，用于搜索所述目标问题的目标答案；

输出单元，用于获取家教设备所处环境的当前光线强度，并判断所述当前光线强度是否大于预设光线强度阈值；在所述当前光线强度小于等于预设光线强度阈值时，检测所述家教设备与用户之间的第一距离，并判断第一距离是否大于预设距离；在所述第一距离大于所述预设距离时，以语音的形式输出目标答案；或者，检测距离所述家教设备所在位置的预设范围内是否存在可投影面；在存在所述可投影面时，将目标题目以及目标答案投影至该可投影面。

7.根据权利要求6所述的家教设备，其特征在于，所述识别单元对所述语音信息进行语义识别处理，得到所述语音信息对应的目标语义内容的方式具体为：

8.根据权利要求7所述的家教设备，其特征在于，所述家教设备还包括：

9.根据权利要求6~8任一项所述的家教设备，其特征在于，所述家教设备还包括：

生成单元，用于生成包含所述目标答案的显示界面；

10.根据权利要求6~8任一项所述的家教设备，其特征在于，所述家教设备还包括：