CN111161719B

CN111161719B - 一种通过语音操作的ar眼镜及通过语音操作ar眼镜的方法

Info

Publication number: CN111161719B
Application number: CN201811325922.4A
Authority: CN
Inventors: 白欲立; 屠程远
Original assignee: Lenovo New Vision Beijing Technology Co Ltd
Current assignee: Lenovo New Vision Beijing Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2023-01-20
Anticipated expiration: 2038-11-08
Also published as: CN111161719A

Abstract

本申请提供了一种通过语音操作的AR眼镜及通过语音操作AR眼镜的方法。所述AR眼镜，包括：第一声音采集模块，用于采集第一声音信息，其中，所述第一声音信息，包括佩戴者的语音信息；第二声音采集模块，用于采集第二声音信息，其中，所述第二声音信息，包括周围环境声音信息；处理器，用于调用保存在存储模块中的第一程序生成第一进程以及调用所述第二程序生成第二进程；其中，所述第二进程，用于根据所述第二声音信息生成并保存第二流媒体文件；所述第一进程，用于获得所述第一声音信息和第二流媒体文件信息生成语音指令信息并根据所述语音指令信息执行相应操作。解决了在复杂环境中AR眼镜语音识别率低的问题。

Description

一种通过语音操作的AR眼镜及通过语音操作AR眼镜的方法

技术领域

本申请涉及增强现实技术领域，具体涉及通过语音操作的AR眼镜，以及通过语音操作AR眼镜的方法。

背景技术

增强现实技术(Augmented Reality，简称AR)是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。

AR眼镜可以实现诸多功能，可以看作是一台微型的手机，通过跟踪眼球视线轨迹判断用户目前处于的状态，并且可以开启相应功能，如果需要打电话或者发短信只需要开启语音输入功能即可。

AR眼镜需要实时采集周边环境的声音，并传输到后台并进行记录。同时，也需要准确的识别佩戴人的语音指令信息，以便AR眼镜实现各种功能操作。但是，由于佩戴AR眼镜的使用者常常处于复杂的环境中，周围环境的噪声造成语音识别率大大降低。

发明内容

本申请提供一种通过语音操作的AR眼镜，以及一种通过语音操作AR眼镜的方法；以解决在复杂环境中AR眼镜语音识别率低的问题。

为了解决上述技术问题，本申请实施例提供了如下的技术方案：

本申请提供了一种通过语音操作的AR眼镜，包括：第一声音采集模块、第二声音采集模块、存储模块和处理模块；

所述第一声音采集模块，与所述处理模块信号连接，用于采集第一声音信息并传送给所述处理器，其中，所述第一声音信息，包括佩戴者的语音信息；

所述第二声音采集模块，与所述处理模块信号连接，用于采集第二声音信息并传送给所述处理器，其中，所述第二声音信息，包括周围环境声音信息；

所述存储模块，与所述处理模块信号连接，用于存储第一程序和第二程序；

所述处理器，用于调用所述存储模块的第一程序生成第一进程以及调用所述第二程序生成第二进程；

其中，所述第二进程，用于获取所述第二声音信息，根据所述第二声音信息生成并保存第二流媒体文件；

所述第一进程，用于获得所述第一声音信息和第二流媒体文件信息，根据所述第一声音信息和第二流媒体文件信息生成语音指令信息并根据所述语音指令信息执行相应操作。

优选的，所述第一声音采集模块，设置在所述佩戴者的嘴部附近。

进一步的，所述第一声音采集模块，朝向所述佩戴者的嘴部。

优选的，所述第二声音采集模块，设置在远离所述佩戴者的嘴部的位置。

进一步的，所述第二声音采集模块，朝向与所述佩戴者的嘴部朝向相反的方向。

本申请提供了一种通过语音操作AR眼镜的方法，包括：

获取第一声音信息和第二进程保存的第二流媒体文件信息；

根据所述第一声音信息和第二流媒体文件信息生成语音指令信息；

根据所述语音指令信息执行相应操作；

其中，所述第一声音信息，包括佩戴者的语音信息；所述第二流媒体文件由所述第二进程根据获取的所述第二声音信息生成并保存；所述第二声音信息，包括周围环境声音信息。

优选的，所述获取第二进程保存的第二流媒体文件信息，包括：

获取第二进程保存的带有时间戳的第二流媒体文件信息。

进一步的，所述获取所述第一声音信息，还包括获取与所述佩戴者的语音信息相关联的语音时间信息，其中，所述语音时间信息包括：语音开始时间信息和语音结束时间信息；

所述根据所述第一声音信息和第二流媒体文件信息生成语音指令信息，包括：

根据所述第一声音信息和语音时间信息及带有时间戳的第二流媒体文件信息生成语音指令信息。

进一步的，所述根据所述第一声音信息和语音时间信息及带有时间戳的第二流媒体文件信息生成语音指令信息，包括：

根据所述第一声音信息和语音时间信息获得第一语音信息；

根据所述语音时间信息与所述第二流媒体文件中时间戳的对应关系，从所述第二流媒体文件信息中截取第二流媒体片段信息；

根据所述第二流媒体片段信息和所述第一语音信息生成语音指令信息。

进一步的，所述根据所述第二流媒体片段信息和所述第一语音信息生成语音指令信息，包括：

根据所述第二流媒体片段信息与所述第一语音信息消除所述第一语音信息中的噪音，生成第二语音信息；

对所述第二语音信息进行整形和/或放大及语音识别，生成语音指令信息。

基于上述实施例的公开可以获知，本申请实施例具备如下的有益效果：

本申请提供了一种通过语音操作的AR眼镜及通过语音操作AR眼镜的方法。所述AR眼镜，包括：第一声音采集模块、第二声音采集模块、存储模块和处理模块；所述第一声音采集模块，与所述处理模块信号连接，用于采集第一声音信息并传送给所述处理器，其中，所述第一声音信息，包括佩戴者的语音信息；所述第二声音采集模块，与所述处理模块信号连接，用于采集第二声音信息并传送给所述处理器，其中，所述第二声音信息，包括周围环境声音信息；所述存储模块，与所述处理模块信号连接，用于存储第一程序和第二程序；所述处理器，用于调用所述存储模块的第一程序生成第一进程以及调用所述第二程序生成第二进程；其中，所述第二进程，用于获取所述第二声音信息，根据所述第二声音信息生成并保存第二流媒体文件；所述第一进程，用于获得所述第一声音信息和第二流媒体文件信息，根据所述第一声音信息和第二流媒体文件信息生成语音指令信息并根据所述语音指令信息执行相应操作。解决了在复杂环境中AR眼镜语音识别率低的问题。

附图说明

图1为本申请实施例提供的通过语音操作的AR眼镜的结构示意图；

图2为本申请实施例提供的通过语音操作AR眼镜的方法的流程图。

具体实施方式

下面，结合附图对本申请的具体实施例进行详细的描述，但不作为本申请的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所公开的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请提供一种通过语音操作的AR眼镜；本申请还提供一种通过语音操作 AR眼镜的方法。以解决在复杂环境中AR眼镜语音识别率低的问题。在下面的实施例中逐一进行详细说明。

对本申请提供的第一实施例，即一种通过语音操作的AR眼镜的实施例。

下面结合图1对本实施例进行详细说明，其中，图1为本申请实施例提供的通过语音操作的AR眼镜的结构示意图。

请参见图1所示，本实施例提供了一种通过语音操作的AR眼镜，包括：第一声音采集模块、第二声音采集模块、存储模块和处理模块。

所述第一声音采集模块，与所述处理模块信号连接，用于采集第一声音信息并传送给所述处理器，其中，所述第一声音信息，包括佩戴者的语音信息。

优选的，所述第一声音采集模块，朝向所述佩戴者的嘴部。

例如，所述第一声音采集模块是设置在所述AR眼镜上的第一微型麦克风；所述第一微型麦克风设置在佩戴AR眼镜的人的嘴部附近；最好的，所述第一微型麦克风的开口方向朝向佩戴AR眼镜的人的嘴部。这样，可以提高采集语音信息的效果。

虽然，所述第一声音信息中包括周围环境声音信息和佩戴者的语音信息，但是，所述佩戴者的语音信息在所述第一声音信息为主要信息，而所述周围环境声音信息在所述第一声音信息为次要信息，也就是背景声音信息；在所述第一声音信息的波形上，所述佩戴者的语音信息的振幅也要远远大于所述周围环境声音信息的振幅数倍。也就是所述第一声音信息中，所述佩戴者的语音信息的音量远远高于所述周围环境声音信息的音量。

所述第二声音采集模块，与所述处理模块信号连接，用于采集第二声音信息并传送给所述处理器，其中，所述第二声音信息，包括周围环境声音信息。

优选的，所述第二声音采集模块，朝向与所述佩戴者的嘴部朝向相反的方向。

例如，所述第二声音采集模块是设置在所述AR眼镜上的第二微型麦克风；所述第二微型麦克风设置在远离所述佩戴AR眼镜的人的嘴部；最好的，所述第二微型麦克风的开口方向朝向佩戴AR眼镜的人的嘴部朝向相反的方向。目的是使所述第二微型麦克风尽量少的采集到佩戴者的语音信息，同时，尽可能多的采集周围环境声音信息。

虽然，所述第二声音信息中包括周围环境声音信息和佩戴者的语音信息，但是，所述周围环境声音信息在所述第二声音信息为主要信息，而所述佩戴者的语音信息在所述第二声音信息为次要信息，也就是背景声音信息；在所述第二声音信息的波形上，所述周围环境声音信息的振幅也要远远大于所述佩戴者的语音信息的振幅数倍。也就是所述第二声音信息中，所述周围环境声音信息的音量远远高于所述佩戴者的语音信息的音量。

所述存储模块，与所述处理模块信号连接，用于存储第一程序和第二程序。

由于同一个进程在同时处理两个不同声源的声音时，会造成处理困难，常因处理能力的问题而使采集的声音效果不佳。因此，本实施例设计了两个不同的程序，分别处理不同声源的声音。

所述处理器，用于调用所述存储模块的第一程序生成第一进程以及调用所述第二程序生成第二进程。

其中，所述第二进程，用于获取所述第二声音信息，根据所述第二声音信息生成并保存第二流媒体文件。

所述流媒体文件，是指依照预设格式而生成的文件，用于保存音频信息或视频信息。当播放时，按照所述预设格式将所述流媒体文件读出，并播放或显示。例如，WAV、mp3格式音频文件，MPEG、AVI格式视频文件。

所述第一进程的方法在下面的第二实施例将详细描述，在此不再赘述。

本实施例解决了在复杂环境中AR眼镜语音识别率低的问题。

与本申请提供的第一实施例相对应，本申请还提供了第二实施例，即一种通过语音操作AR眼镜的方法。由于第二实施例与所述第一实施例相关联，所以一些方面描述得比较简单，相关的部分请参见第一实施例的对应说明即可。

图2示出了本申请提供的一种通过语音操作AR眼镜的方法的实施例。图2 为本申请实施例提供的通过语音操作AR眼镜的方法的流程图。

请参见图2所示，本申请提供一种通过语音操作AR眼镜的方法，包括：

步骤101，获取第一声音信息和第二进程保存的第二流媒体文件信息。

本实施例中的AR眼镜的存储模块中存储这第一程序和第二程序；所述处理器，用于调用所述存储模块的第一程序生成第一进程以及调用所述第二程序生成第二进程。

本实施例是从第一进程的角度出发，提供了一种通过语音操作AR眼镜的方法。

其中，所述第一声音信息，包括佩戴者的语音信息。虽然，所述第一声音信息中包括周围环境声音信息和佩戴者的语音信息，但是，所述佩戴者的语音信息在所述第一声音信息为主要信息，而所述周围环境声音信息在所述第一声音信息为次要信息，也就是背景声音信息；在所述第一声音信息的波形上，所述佩戴者的语音信息的振幅也要远远大于所述周围环境声音信息的振幅数倍。也就是所述第一声音信息中，所述佩戴者的语音信息的音量远远高于所述周围环境声音信息的音量。只有将所述第一声音信息中的所述周围环境声音信息消除掉才能获得清晰的所述佩戴者的语音信息。

本实施例利用一时间段内第二声音信息作为参照对象，消除该时间段内所述第一声音信息中的噪音，也就是消除所述第一声音信息中的周围环境声音信息，以提高所述第一声音信息中语音信息的质量。

优选的，所述获取所述第一声音信息，还包括获取与所述佩戴者的语音信息相关联的语音时间信息，其中，所述语音时间信息包括：语音开始时间信息和语音结束时间信息。例如，当所述第一声音信息的值首次大于预设语音值时，则获得语音开始时间信息；当所述第一声音信息的值最后一次大于语音值超过预设时间，则获得语音结束时间信息。

所述第二流媒体文件，由所述第二进程根据获取的所述第二声音信息生成并保存；所述第二声音信息，包括环境声音信息。

为了从所述第二声音信息中获得所述语音开始时间信息和语音结束时间信息间的第三声音信息，优选的，所述获取第二进程保存的第二流媒体文件信息，包括：获取第二进程保存的带有时间戳的第二流媒体文件信息。以便通过所述第二流媒体文件中的时间戳与所述语音时间信息的对应关系，从所述所述第二流媒体文件中提取出第二流媒体片段信息。

步骤102，根据所述第一声音信息和第二流媒体文件信息生成语音指令信息。

优选的，根据所述第一声音信息和语音时间信息及带有时间戳的第二流媒体文件信息生成语音指令信息，包括以下步骤：

步骤102-1，根据所述第一声音信息和语音时间信息获得第一语音信息。

步骤102-2，根据所述语音时间信息与所述第二流媒体文件中时间戳的对应关系，从所述第二流媒体文件信息中截取第二流媒体片段信息。

步骤102-3，根据所述第二流媒体片段信息和所述第一语音信息生成语音指令信息。进一步的，包括以下步骤：

步骤102-3-1，根据所述第二流媒体片段信息与所述第一语音信息消除所述第一语音信息中的噪音，生成第二语音信息。

例如，继续上述的例子，按照预设振幅压缩规则对所述第二流媒体片段信息进行波形压缩，将波形压缩后的第二流媒体片段信息与所述第一语音信息进行对比，将同一时间内所述第一语音信息中与波形压缩后的第二流媒体片段信息相同或相近的数据删除后，获得所述第二语音信息。

步骤102-3-2，对所述第二语音信息进行整形和/或放大及语音识别，生成语音指令信息。

所述音频整形，就是将音频信息变得悦耳、动听。目的是使所述第二语音信息更易于识别。

所述音频放大，就是将音频信息按照预设比例增大，也就是振幅增大，声音变高。目的是使所述第二语音信息更易于识别。

所述对所述第二语音信息进行整形和/或放大及语音识别，生成语音指令信息，也就是对加工后的所述第二语音信息通过预设语音识别算法生成语音指令信息。

步骤103，根据所述语音指令信息执行相应操作。

通常操作动作与所述语音指令信息具有一一对应的关系。当获得正确的语音指令信息后,本进程按照所述语音指令信息执行相应的操作。

本实施例解决了在复杂环境中AR眼镜语音识别率低的问题。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种通过语音操作的AR眼镜，其特征在于，包括：第一声音采集模块、第二声音采集模块、存储模块和处理模块；

所述第一声音采集模块，与所述处理模块信号连接，用于采集第一声音信息并传送给处理器，其中，所述第一声音信息，包括佩戴者的语音信息；

所述第一进程，用于获得所述第一声音信息和第二流媒体文件信息，所述获取所述第一声音信息，包括获取与所述佩戴者的语音信息相关联的语音时间信息，其中，所述语音时间信息包括：语音开始时间信息和语音结束时间信息；所述获取第二进程保存的第二流媒体文件信息，包括：获取第二进程保存的带有时间戳的第二流媒体文件信息；根据所述第一声音信息和第二流媒体文件信息生成语音指令信息，具体包括：根据所述第一声音信息和语音时间信息及带有时间戳的第二流媒体文件信息生成语音指令信息；所述根据所述第一声音信息和语音时间信息及带有时间戳的第二流媒体文件信息生成语音指令信息，包括：根据所述第一声音信息和语音时间信息获得第一语音信息；根据所述语音时间信息与所述第二流媒体文件中时间戳的对应关系，从所述第二流媒体文件信息中截取第二流媒体片段信息；根据所述第二流媒体片段信息和所述第一语音信息生成语音指令信息；并根据所述语音指令信息执行相应操作。

2.根据权利要求1所述的AR眼镜，其特征在于，所述第一声音采集模块，设置在所述佩戴者的嘴部附近。

3.根据权利要求2所述的AR眼镜，其特征在于，所述第一声音采集模块，朝向所述佩戴者的嘴部。

4.根据权利要求1所述的AR眼镜，其特征在于，所述第二声音采集模块，设置在远离所述佩戴者的嘴部的位置。

5.根据权利要求4所述的AR眼镜，其特征在于，所述第二声音采集模块，朝向与所述佩戴者的嘴部朝向相反的方向。

6.一种通过语音操作AR眼镜的方法，其特征在于，包括：

获取第一声音信息和第二进程保存的第二流媒体文件信息；所述获取所述第一声音信息，包括获取与佩戴者的语音信息相关联的语音时间信息，其中，所述语音时间信息包括：语音开始时间信息和语音结束时间信息；所述获取第二进程保存的第二流媒体文件信息，包括：获取第二进程保存的带有时间戳的第二流媒体文件信息；

根据所述第一声音信息和第二流媒体文件信息生成语音指令信息，具体包括：根据所述第一声音信息和语音时间信息及带有时间戳的第二流媒体文件信息生成语音指令信息；所述根据所述第一声音信息和语音时间信息及带有时间戳的第二流媒体文件信息生成语音指令信息，包括：根据所述第一声音信息和语音时间信息获得第一语音信息；根据所述语音时间信息与所述第二流媒体文件中时间戳的对应关系，从所述第二流媒体文件信息中截取第二流媒体片段信息；根据所述第二流媒体片段信息和所述第一语音信息生成语音指令信息；

根据所述语音指令信息执行相应操作；

其中，所述第一声音信息，包括佩戴者的语音信息；所述第二流媒体文件由所述第二进程根据获取的第二声音信息生成并保存；所述第二声音信息，包括周围环境声音信息。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二流媒体片段信息和所述第一语音信息生成语音指令信息，包括：