CN115357748A

CN115357748A - 头戴式装置

Info

Publication number: CN115357748A
Application number: CN202210977146.6A
Authority: CN
Inventors: 孟宾宾
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2022-11-18
Also published as: CN106897372B; CN106897372A

Abstract

本发明公开了一种头戴式装置。其中，该装置包括：语音交互模块，用于接收当前标识对象的语音查询信息，其中，当前标识对象佩戴有头戴式装置，语音查询信息中携带有用于查询与当前标识对象所在的目标环境的查询关键词；摄像头，用于拍摄当前标识对象在当前观察视角下观察的环境图像；处理器，用于获取环境图像的特征信息，并从特征信息中查询与查询关键词匹配的目标特征信息，其中，特征信息用于表示环境图像中的对象；扬声器，用于在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示环境图像中的目标对象，目标对象由目标特征信息表示。本发明解决了由于无法识别图像特征信息造成的语音查询系统不智能的技术问题。

Description

头戴式装置

技术领域

本发明涉及智能识别领域，具体而言，涉及一种头戴式装置。

背景技术

随着技术进步，智能技术的发展倾向于满足越来越多的人们的生活工作需求，例如，一些语音问答系统能够满足盲人的一些信息查询需求，目前市场上有的盲人问答系统都只是解决知识层面的问题，一般通过语音交互，先通过Speech2Text把问题转化成文本，然后进行知识库搜索，返回对应问题的答案，最后在通过Text2Speech的过程，把答案告诉提问者。

现有一些产品的最大问题在于仅仅解决的是文本语义方面的问题，只能识别文字或者语言，但是针对盲人群体面临的环境认知的问题，目前还没有一款产品能够解决。世界是丰富多彩的，盲人也需要了解这个世界的样子。再比如，现在盲人上网，用的大都是“读屏”软件，而读屏软件只能读取文字信息，穿插在文字中的图片信息，读屏软件是无法读取的。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种头戴式装置，以至少解决由于无法识别图像特征信息造成的语音查询系统不智能的技术问题。

根据本发明实施例的一个方面，提供了一种头戴式装置，包括：语音交互模块，用于接收当前标识对象的语音查询信息，其中，上述当前标识对象佩戴有上述头戴式装置，上述语音查询信息中携带有用于查询与上述当前标识对象所在的目标环境的查询关键词；摄像头，用于拍摄上述当前标识对象在当前观察视角下观察的环境图像；处理器，用于获取上述环境图像的特征信息，并从上述特征信息中查询与上述查询关键词匹配的目标特征信息，其中，上述特征信息用于表示上述环境图像中的对象；扬声器，用于在查询到上述目标特征信息的情况下，播放语音查询结果，其中，上述语音查询结果用于指示上述环境图像中的目标对象，上述目标对象由上述目标特征信息表示。

在本发明实施例中，通过一种头戴式装置接收语音查询信息和获取待识别图像的特征信息，然后从特征信息中查询与查询关键词匹配的目标特征信息，在查询到目标特征信息的情况下，播放语音查询结果，达到了识别图像中的特征信息后语音输出查询结果的目的，从而实现了提高语音查询系统的智能程度的技术效果，进而解决了由于无法识别图像特征信息造成的语音查询系统不智能的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音查询方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的语音查询方法的流程图；

图3是根据本发明实施例的语音查询系统的原理示意图；

图4是根据本发明实施例的一种可选的语音查询装置的示意图；

图5是根据本发明实施例的一种可选的语音查询装置的示意图；

图6是根据本发明实施例的一种终端的结构框图；

图7是根据本发明实施例的一种可选的头戴式装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种语音查询的方法实施例。

可选地，在本实施例中，上述语音查询方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的语音查询方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的语音查询方法也可以是由安装在其上的客户端来执行。

在一种应用场景中，用户，尤其是盲人用户在路上行走时无法获知周围环境情况，用户可以通过语音查询周围环境情况，例如，用户问：地上有什么？在接收到用户的语音查询问题时，获取此时采集到的周围环境的图像，提取图像中的特征信息，得到地上有鸽子和自行车，以语音播报的方式播报给用户，这样，盲人用户即可及时了解周围环境情况，提高设备的智能性，提升用户体验。

图2是根据本发明实施例的一种可选的语音查询方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，接收语音查询信息，其中，语音查询信息用于指示查询关键词。

步骤S204，获取待识别图像的特征信息，其中，特征信息用于表示待识别图像中的对象。

步骤S206，从特征信息中查询与查询关键词匹配的目标特征信息。

步骤S208，在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示图像中的目标对象，目标对象由目标特征信息表示。

通过上述步骤S202至步骤S208，通过接收语音查询信息和获取待识别图像的特征信息，然后从特征信息中查询与查询关键词匹配的目标特征信息，在查询到目标特征信息的情况下，播放语音查询结果，由于可以根据语音查询信息识别图像的特征信息并以语音方式播报，解决了由于无法识别图像特征信息造成的语音查询系统不智能的技术问题，进而达到识别图像中的特征信息后语音输出查询结果的技术效果。

在步骤S202提供的技术方案中，本发明实施例的语音查询方法可以由语音查询系统实现，可选的应用场景包括：用户穿戴或佩戴集成语音查询系统的装置，以实现对周围环境的语音问答，或者，用户通过安装有语音查询系统的终端浏览网页信息，实现对网页中图片的语音问答。接收到的语音查询信息可以是用户发出的语音查询信息，例如，用户对语音查询系统说：地上有什么？或者，网页上有什么？语音查询信息中带有查询关键词，例如，地上，网页，什么等关键词，语音查询信息中可能还携带有其他副词，语气词等。

在步骤S204提供的技术方案中，待识别图像可以是实时拍摄到的周围环境的图像，也可以是网页中的图像，特征信息用于表示待识别图像中的对象，图像中的对象可以是图像中呈现出的物体，例如，桌子，椅子，小鸟，天空等，也可以是物体的其他特征，例如，颜色，大小等。获取待识别的图像的特征信息的步骤可以是在接收到语音查询信息之后，也可以是在接收到语音查询信息之前，待识别图像的获取可以是实时的，也可以是每隔预定的时间，例如，每隔一秒，在获取到待识别图像之后，从待识别图像中获取特征信息。

在步骤S206提供的技术方案中，在获取待识别图像的特征信息之后，从特征信息中查询与查询关键词匹配的目标特征信息。一个待识别的图像可能含有多个特征信息，由于不是每个特征信息都是用户关注的结果，因此，对于获取到的待识别图像的特征信息，根据查询关键词从特征信息中查询与关键词匹配的目标特征信息，在查询过程中，可以通过多种方式进行特征信息与关键词的匹配和查询。

在步骤S208提供的技术方案中，在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示图像中的目标对象，目标对象由目标特征信息表示。如果查询到目标特征信息，则播放语音查询结果，例如，在接收到用户的问题：“地上有什么”之后，从待识别的图像中获取到地面上有鸽子，则确定查询到目标特征信息，输出语音查询结果，即可以用语音播放“鸽子”。

作为一种可选的实施例，从特征信息中查询与查询关键词匹配的目标特征信息包括：将特征信息和查询关键词输入到已完成训练的查询模型，其中，已完成训练的查询模型用于从特征信息中查询与查询关键词匹配的目标特征信息；在查询模型输出了目标特征信息的情况下，确定出查询到目标特征信息。

从特征信息中查询与查询关键词匹配的目标特征信息可以通过查询模型来实现，将特征信息和查询关键词输入到已完成训练的查询模型中，查询模型可以预先经过神经网络训练得到，如果将特征信息和查询关键词输入到已完成训练的查询模型，查询模型输出目标特征信息，则表明查询到目标特征信息，此时，可以确定查询到目标特征信息，如果将特征信息和查询关键词输入到已完成训练的查询模型，查询模型没有输出目标特征信息，或者报错，表明没有查询到目标特征信息，此时，确定没有查询到目标特征信息。

作为一种可选的实施例，在从特征信息中查询与查询关键词匹配的目标特征信息之前，通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，其中，在进行训练的过程中，将预先得到的多个图像中的对象特征以及预先得到的信息特征作为查询模型的输入，对象特征用于表示多个图像中的对象，信息特征用于表示预定的查询问题集合中的查询问题。

对预先设置的查询模型进行训练时，可以通过卷积神经网络训练，例如，可以通过残差(Residential Computer Network，简称为ResNet)卷积神经网络对预先设置的查询模型进行训练。模型训练时，查询模型的输入为：预先得到的多个图像中的对象特征和预先得到的信息特征，其中，对象特征可以表示多个图像中的对象，多个图像可以是ImageNet数据集中的图像，信息特征可以是预定的查询问题集合中的问题的特征。

作为一种可选的实施例，通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型可以是：获取对象特征和信息特征之间的相关度；不断调整查询模型中的参数的取值，直到获取到最高的相关度，其中，已完成训练的查询模型中的参数的取值为相关度最高时的参数的取值。

通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型可以通过以下步骤，首先获取对象特征和信息特征之间的相关度，在调整查询模型中的参数取值的同时，继续获取对象特征和信息特征之间的相关度，以得到对象特征和信息特征之间相关度最大的取值，在相关度取值最大时，将这些参数的取值作为查询模型训练完成的参数取值。

作为一种可选的实施例，在接收语音查询信息之后、且在获取待识别图像的特征信息之前，获取与语音查询信息所对应的待识别图像，其中，待识别图像是在接收语音查询信息之后拍摄得到的、或是在接收语音查询信息之后从网页上获取得到的。

获取与语音查询信息对应的待识别图像的时刻可以是在接收到语音查询之后，获取待识别的图像的特征信息之前，例如，在接收到语音查询信息之后，获取待识别的图像，然后获取待识别的图像的特征信息。

本发明实施例的语音查询方法可以作为一种基于图像分析的盲人自动问答方法，在一种可选的应用场景中，盲人在行走时，想要了解周围环境的情况，可以提出问题“当前是在公园吗？”，在接收到语音问题之后，根据采集到的图像中的特征信息得到结果，然后输出语音结果——“是的”。如果用户提问：“地面上有什么？”在接收到用户的语音问题之后，根据采集到的图像中的特征信息得到结果，输出语音结果“鸽子和自行车”。在一种可选的应用场景中，在盲人用户上网时，可以接收用户的语音查询信息，例如，图片中有什么？获取网页中的图像的特征信息，特征信息可以是图片中有树叶，在查询到与用户的问题匹配的图片信息之后，播放语音结果，“树叶”，通过这样的语音查询方法，能够提高用户的上网体验，提高盲人生活的灵活度。

通过本发明实施例的技术方案，可以为盲人群体提供更多视觉环境相关问答，可以让盲人更多的了解周围环境或者网页上的信息，而不只是停留在文字识别阶段。

本发明还提供了一种优选实施例，该优选实施例包括以下部分：

本发明的技术方案可以通过语音查询系统实现，该系统的内部原理主要采用基于图像语音查询系统的原理，该原理采用图像识别结合自然语言处理的方法，是一个多模型的学习问题。

由于系统需要给出关于视觉场景内容的相关答案，因此物体识别的功能是必须要有的，其次由于需要处理用户提出的问题，因此文本分析的功能也必须有。

图3是根据本发明实施例的语音查询系统的原理示意图，如图3所示，在通过语音查询系统进行语音查询过程时，可以包括训练阶段和测试阶段。其中，训练阶段包括：图像采集过程，采集用于训练的图像，对采集到的图像进行特征提取，提取图像中的特征，将提取出的特征输入到编码器中编码，同样，训练问题集也输入到编码器中，编码器根据训练的图像和训练问题集生成模型，在测试阶段，将测试问题输入到生成模型能够得到解码器，解码器能够输出问题的答案，以实现模型训练。

具体地，本发明实施例的语音查询系统包括以下模块：

一、物体特征提取的模块

在物体识别模块中利用ResNet卷积神经网络架构，然后在ImageNet数据集(22000个类别)上进行微调，可以很好的覆盖生活中常见的物体类别。利用Restnet提取的图片中物体的高层次特征(因为它是目前在物体分类领域可以达到最好效果的网络框架)。首先，获取到图片的输入尺寸(相机的分辨率)为1280*720，然后放缩到448*448的尺寸，并作为ResNet的输入，最后提取ResNet的最后一个池化层的特征数据，其维度1024*14*14，记为I。14*14是对应输入图像中区域的个数，1024是每一个区域对应的特征维度。而这些区域的尺寸在原图上对应为32*32。除了上述的尺寸数值，也可以通过别的数值实现，此处仅作为示例，不用于限定具体数值。

二、问题模型构造模块

最新的研究表明长短时记忆神经网络(LSTM)与卷积神经网络(CNN)对于文本语义都有很好的捕捉能力，但是本发明实施例中更倾向于使用CNN的方法。

首先利用word2vec工具把输入的问题进行分词处理，进而向量化(将语言信息转化为文本的特征信息)，然后将该问题所有词的向量(v_i,i＝0,..N)组合成一个新的向量V_I，最后把个向量输入到一个新的CNN网络中。这个模块用的CNN规模相对前一个模块要小很多，一般3个左右卷层即可，对应的卷积核的尺寸为size＝1(unigram)，size＝2(bigram)，size＝3(trigram)。经过卷积层处理之后，用一个max pooling(最大池化)层作用在得到的所有卷积层的输出上面，得到(h₁,h₂,h₃)，再对得到的特征进行组合得到问题的特征向量H_c。

三、图像与对应语义关联模块

上述两个模块得到了图像中各个区域的特征I和所题问题的特征H_c，再次利用堆栈注意力网络(Stacked Attention Networks)，通过多次推理来预测答案。

在一般情况下，一个答案只与图像中的一个区域的物体有关，而一般图像中会有很多物体。因此，利用全局的图像特征信息来预测答案，因为来自与答案无关的区域的一些噪声，会导致产生一些可选的的答案。如果经过多个“注意力(attention)”层的处理，会逐步过滤掉无关的噪声区域，是的答案与问题更加相关。

首先对特征I和H_c进行一步神经网络层的处理，然后利用softmax层来产生在原图像上所有区域注意力分布向量P，即每个区域对该问题的响应概率，最后计算图像每个区域特征权重的加权I_P。I_P与H_c再输入到栈式编码网络中，得到编码器C。

当用户提问时，首先对问题进行向量化，然后把文本特征输入解码器中，就可以得到关于问题的答案。

本发明实施例的语音查询方法可以是应用程序型产品，此类型产品的形态可以是：盲人在上网时，终端(例如手机，电脑)安装此应用程序后，在传统的“读屏”之外，使用者还可以询问：“图片中有什么？”，“这个画面是哪里？”，“这个东西是什么颜色？”等问题，在接收到用户提问时，根据显示界面上显示的图片特征得到查询结果，将查询结果语音输出。而这些是传统的“读屏”方式所解决不了的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述语音查询方法的语音查询装置。图4是根据本发明实施例的一种可选的语音查询装置的示意图，如图4所示，该装置可以包括：

接收单元10，用于接收语音查询信息，其中，语音查询信息用于指示查询关键词。

获取单元20，用于获取待识别图像的特征信息，其中，特征信息用于表示待识别图像中的对象。

查询单元30，用于从特征信息中查询与查询关键词匹配的目标特征信息。

播放单元40，用于在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示图像中的目标对象，目标对象由目标特征信息表示。

需要说明的是，该实施例中的接收单元10可以用于执行本申请实施例1中的步骤S202，该实施例中的获取单元20可以用于执行本申请实施例1中的步骤S204，该实施例中的查询单元30可以用于执行本申请实施例1中的步骤S206，该实施例中的播放单元40可以用于执行本申请实施例1中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，可以解决了由于无法识别图像特征信息造成的语音查询系统不智能的技术问题，进而达到提高语音查询系统的智能程度的技术效果。

可选地，查询单元30包括：输入模块，用于将特征信息和查询关键词输入到已完成训练的查询模型，其中，已完成训练的查询模型用于从特征信息中查询与查询关键词匹配的目标特征信息；确定模块，用于在查询模型输出了目标特征信息的情况下，确定出查询到目标特征信息。

可选地，该装置还包括：训练单元，用于在从特征信息中查询与查询关键词匹配的目标特征信息之前，通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，其中，在进行训练的过程中，将预先得到的多个图像中的对象特征以及预先得到的信息特征作为查询模型的输入，对象特征用于表示多个图像中的对象，信息特征用于表示预定的查询问题集合中的查询问题。

本发明实施例还提供了一种用于实施上述语音查询方法的语音查询装置。图5是根据本发明实施例的一种可选的语音查询装置的示意图，如图5所示，该装置可以包括：

语音交互模块110，用于接收语音查询信息，其中，语音查询信息用于指示查询关键词。

摄像头120，用于拍摄待识别图像。

处理器130(图中未示出)，用于获取待识别图像的特征信息，从特征信息中查询与查询关键词匹配的目标特征信息，其中，特征信息用于表示待识别图像中的对象。

扬声器140(图中未示出)，用于在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示图像中的目标对象，目标对象由目标特征信息表示。

可选地，该装置还包括无线收发器150，用于与预设的服务器通信。无线收发器50可以与后台服务器连接，例如，可以通过无线网络与后台服务器(预设的服务器)实现通信，可以将拍摄的待识别图像发送到后台服务器，将接收到的语音查询信息发送到后台服务器，也可以接收服务器发挥的语音查询结果。预设的服务器可以是云端服务器，也可以是一些功能较强大的移动终端等。

本发明实施例还提供了一种用于实施上述语音查询方法的头戴式装置。图7是根据本发明实施例的另一种可选的头戴式装置的示意图，如图7所示，该装置可以包括：

语音交互模块702，用于接收当前标识对象的语音查询信息，其中，当前标识对象佩戴有头戴式装置，语音查询信息中携带有用于查询与当前标识对象所在的目标环境的查询关键词；

摄像头704，用于拍摄当前标识对象在当前观察视角下观察的环境图像；

处理器706，用于获取环境图像的特征信息，并从特征信息中查询与查询关键词匹配的目标特征信息，其中，特征信息用于表示环境图像中的对象；

扬声器708，用于在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示环境图像中的目标对象，目标对象由目标特征信息表示

本发明实施例的语音查询装置可以是一种移动设备型产品，例如，可以是眼镜，也可以是帽子，或者其他穿戴在用户身上的设备等。类型产品形态可以是：一个可以戴在头上的简易装置，该装置配置三颗微型高清摄像头，可以360度获取周围的场景图像。顶部配置一个网络信号收发器(无线收发器)，可以与后台进行数据传输。此处的硬件配置需要轻便，安全。提问方式采用语音交互，系统给的答案回复也采用语音。

作为一种可选的方式，上述处理器还用于：

S1，将特征信息和查询关键词输入到已完成训练的查询模型，其中，已完成训练的查询模型用于从特征信息中查询与查询关键词匹配的目标特征信息；

S2，在查询模型输出了目标特征信息的情况下，确定出查询到目标特征信息。

作为一种可选的方式，上述头戴式装置还包括：无线收发器，用于与预设的服务器通信。

作为一种可选的方式，上述无线收发器包括：

联网模块，用于响应于网络连接请求，与预设服务器建立网络连接；

收发模块，用于在与预设服务器建立网络连接的情况下，将环境图像以及语音查询信息发送给预设服务器；接收预设服务器返回的后台识别结果；将后台识别结果发送给扬声器，以播放后台识别结果。

在一种可选的应用场景中，在盲人用户上网时，可以接收用户的联网请求以与预设服务器建立网络连接；进一步在接收到用户的语音查询信息的情况下，将语音查询信息和获取的环境图像通过网络发送给预设服务器，以在预设服务器中进行后台识别。可以理解的是，预设服务器中运行的查询模型的运算能力比预置于上述头戴式设备中的查询模型的运算能力更高，且识别结果更精准。例如，用户的问题是“图片中有什么？”进而将该语音查询信息和图片通过收发模块发送给预设服务器。在预设服务器中获取图像的特征信息，特征信息可以是图片中有树叶，在预设服务器中查询到与用户的问题匹配的图片信息之后，接收预设服务器返回的后台识别结果，并播放语音结果，“树叶”，通过这样的语音查询方法，能够提高用户的上网体验，提高盲人生活的灵活度

作为一种可选的方式，在接收语音查询信息之后、且在获取待识别图像的特征信息之前，装置还用于：获取与语音查询信息所对应的待识别图像，其中，待识别图像是在接收语音查询信息之后拍摄得到的、或是在接收语音查询信息之后从网页上获取得到的。

作为一种可选的方式，上述在接收语音查询信息之后，装置还用于：在语音查询信息为环境认知类型的查询信息的情况下，确定当前标识对象为视觉障碍类型的标识对象。

可以理解的是，上述头戴式设备在接收到的语音查询信息为环境认知类型的信息的情况下，可以通过接收到的查询信息的类型确认当前用户为盲人用户。比如，在接收到的查询信息为“地上有什么？”、“当前是公园吗？”等用于了解环境中存在的客观事物的问题的情况下，即可判断当前用户为盲人用户。

作为一种可选的方式，上述处理器中运行的已完成训练的查询模型是通过以下方式训练得到的：通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，其中，在进行训练的过程中，将预先得到的多个图像中的对象特征以及预先得到的信息特征作为查询模型的输入，对象特征用于表示多个图像中的对象，信息特征用于表示预定的查询问题集合中的查询问题。

作为一种可选的方式，上述通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，包括：

S1，获取对象特征和信息特征之间的相关度；

S2，不断调整查询模型中的参数的取值，直到获取到最高的相关度，其中，已完成训练的查询模型中的参数的取值为相关度最高时的参数的取值。

可以理解的是，可以在通过上述训练方法得到上述已完成训练的查询模型的情况下，将上述查询模型预先内置于上述处理器中。在另一种可选的方式中，在通过上述训练方法得到上述已完成训练的查询模型的情况下，通过上述无线收发器接收上述已完成训练的查询模型，以在上述处理器中运行上述查询模型。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

实施例3

根据本发明实施例，还提供了一种用于实施上述语音查询方法的服务器或终端。

图6是根据本发明实施例的一种终端的结构框图，如图6所示，该终端可以包括：一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205(如上述实施例中的发送装置)，如图6所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本发明实施例中的语音查询方法和装置对应的程序指令/模块，处理器201通过运行存储在存储器203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音查询方法。存储器203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器203可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器201可以通过传输装置205调用存储器203存储的应用程序，以执行下述步骤：接收语音查询信息，其中，语音查询信息用于指示查询关键词；获取待识别图像的特征信息，其中，特征信息用于表示待识别图像中的对象；从特征信息中查询与查询关键词匹配的目标特征信息；在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示图像中的目标对象，目标对象由目标特征信息表示。

处理器201还用于执行下述步骤：将特征信息和查询关键词输入到已完成训练的查询模型，其中，已完成训练的查询模型用于从特征信息中查询与查询关键词匹配的目标特征信息；在查询模型输出了目标特征信息的情况下，确定出查询到目标特征信息。

处理器201还用于执行下述步骤：通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，其中，在进行训练的过程中，将预先得到的多个图像中的对象特征以及预先得到的信息特征作为查询模型的输入，对象特征用于表示多个图像中的对象，信息特征用于表示预定的查询问题集合中的查询问题。

处理器201还用于执行下述步骤：获取对象特征和信息特征之间的相关度；不断调整查询模型中的参数的取值，直到获取到最高的相关度，其中，已完成训练的查询模型中的参数的取值为相关度最高时的参数的取值。

处理器201还用于执行下述步骤：获取与语音查询信息所对应的待识别图像，其中，待识别图像是在接收语音查询信息之后拍摄得到的、或是在接收语音查询信息之后从网页上获取得到的。

采用本发明实施例，通过接收语音查询信息和获取待识别图像的特征信息，然后从特征信息中查询与查询关键词匹配的目标特征信息，在查询到目标特征信息的情况下，播放语音查询结果，达到了识别图像中的特征信息后语音输出查询结果的目的，从而实现了提高语音查询系统的智能性的技术效果，进而解决了由于无法识别图像特征信息造成的语音查询系统不智能的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图6所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，终端还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行语音查询方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，接收语音查询信息，其中，语音查询信息用于指示查询关键词；

S2，获取待识别图像的特征信息，其中，特征信息用于表示待识别图像中的对象；

S3，从特征信息中查询与查询关键词匹配的目标特征信息；

S4，在查询到目标特征信息的情况下，播放语音查询结果，其中，语音查询结果用于指示图像中的目标对象，目标对象由目标特征信息表示。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将特征信息和查询关键词输入到已完成训练的查询模型，其中，已完成训练的查询模型用于从特征信息中查询与查询关键词匹配的目标特征信息；在查询模型输出了目标特征信息的情况下，确定出查询到目标特征信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，其中，在进行训练的过程中，将预先得到的多个图像中的对象特征以及预先得到的信息特征作为查询模型的输入，对象特征用于表示多个图像中的对象，信息特征用于表示预定的查询问题集合中的查询问题。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：获取对象特征和信息特征之间的相关度；不断调整查询模型中的参数的取值，直到获取到最高的相关度，其中，已完成训练的查询模型中的参数的取值为相关度最高时的参数的取值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：获取与语音查询信息所对应的待识别图像，其中，待识别图像是在接收语音查询信息之后拍摄得到的、或是在接收语音查询信息之后从网页上获取得到的。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种头戴式装置，其特征在于，包括：

语音交互模块，用于接收当前标识对象的语音查询信息，其中，所述当前标识对象佩戴有所述头戴式装置，所述语音查询信息中携带有用于查询与所述当前标识对象所在的目标环境的查询关键词；

摄像头，用于拍摄所述当前标识对象在当前观察视角下观察的环境图像；

处理器，用于获取所述环境图像的特征信息，并从所述特征信息中查询与所述查询关键词匹配的目标特征信息，其中，所述特征信息用于表示所述环境图像中的对象；

扬声器，用于在查询到所述目标特征信息的情况下，播放语音查询结果，其中，所述语音查询结果用于指示所述环境图像中的目标对象，所述目标对象由所述目标特征信息表示。

2.根据权利要求1所述的装置，其特征在于，所述处理器还用于：

将所述特征信息和所述查询关键词输入到已完成训练的查询模型，其中，所述已完成训练的查询模型用于从所述特征信息中查询与所述查询关键词匹配的所述目标特征信息；

在所述查询模型输出了所述目标特征信息的情况下，确定出查询到所述目标特征信息。

3.根据权利要求1所述的装置，其特征在于，所述头戴式装置还包括：

无线收发器，用于与预设的服务器通信。

4.根据权利要求3所述的装置，其特征在于，所述无线收发器包括：

收发模块，用于在与所述预设服务器建立网络连接的情况下，将所述环境图像以及所述语音查询信息发送给所述预设服务器；接收所述预设服务器返回的后台识别结果；将所述后台识别结果发送给所述扬声器，以播放所述后台识别结果。

5.根据权利要求1所述的装置，其特征在于，在接收语音查询信息之后、且在获取待识别图像的特征信息之前，所述装置还用于：

获取与所述语音查询信息所对应的所述待识别图像，其中，所述待识别图像是在接收所述语音查询信息之后拍摄得到的、或是在接收所述语音查询信息之后从网页上获取得到的。

6.根据权利要求1所述的装置，其特征在于，在接收语音查询信息之后，所述装置还用于：

在所述语音查询信息为环境认知类型的查询信息的情况下，确定所述当前标识对象为视觉障碍类型的标识对象。

7.根据权利要求2所述的装置，其特征在于，所述处理器中运行的所述已完成训练的查询模型是通过以下方式训练得到的：

通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，其中，在进行所述训练的过程中，将预先得到的多个图像中的对象特征以及预先得到的信息特征作为所述查询模型的输入，所述对象特征用于表示所述多个图像中的对象，所述信息特征用于表示预定的查询问题集合中的查询问题。

8.根据权利要求7所述的装置，其特征在于，所述通过卷积神经网络对预先设置的查询模型进行训练，得到已完成训练的查询模型，包括：

获取所述对象特征和所述信息特征之间的相关度；

不断调整所述查询模型中的参数的取值，直到获取到最高的所述相关度，其中，所述已完成训练的查询模型中的参数的取值为所述相关度最高时的所述参数的取值。