CN111966321A

CN111966321A - 音量调节方法、ar设备及存储介质

Info

Publication number: CN111966321A
Application number: CN202010857141.0A
Authority: CN
Inventors: 闫鹏飞
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-20

Abstract

本申请实施例公开了一种音量调节方法、AR设备及存储介质，该生成方法包括：在按照当前音量进行音频播放时，若当前音量大于预设音量阈值，则采集环境声音信息；对环境声音信息进行解析处理，获得环境声音信息对应的关键字；根据关键字确定调节模式；按照调节模式对当前音量进行调节处理。

Description

音量调节方法、AR设备及存储介质

技术领域

本发明涉及虚拟现实技术领域，尤其涉及一种音量调节方法、AR设备及存储介质。

背景技术

增强现实(Augmented Reality，AR)技术是一种将虚拟信息与真实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，两种信息互为补充，从而实现对真实世界的“增强”。

AR设备，如AR智能眼镜能够让用户接收到更加生动的信息，从而使用户完全沉浸在AR音视频场景中。但是，AR设备在为用户提供生动的音视频信息的同时，往往会存在影响用户与他人沟通和交流的问题。

然而，目前的AR设备，无法在提供生动的音视频信息的基础上，有效地解决影响用户交流和沟通的问题，降低了AR设备的智能性。

发明内容

本申请实施例提供了一种音量调节方法、AR设备及存储介质，有效地解决了影响用户交流和沟通的问题，大大提升了AR设备的智能性。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供了一种音量调节方法，所述方法包括：

在按照当前音量进行音频播放时，若所述当前音量大于预设音量阈值，则采集环境声音信息；

对所述环境声音信息进行解析处理，获得所述环境声音信息对应的关键字；

根据所述关键字确定调节模式；

按照所述调节模式对所述当前音量进行调节处理。

第二方面，本申请实施例提供了一种AR设备，所述AR设备包括：采集单元，解析单元，确定单元，调节单元，

所述采集单元，用于在按照当前音量进行音频播放时，若所述当前音量大于预设音量阈值，则采集环境声音信息；

所述解析单元，用于对所述环境声音信息进行解析处理，获得所述环境声音信息对应的关键字；

所述确定单元，用于根据所述关键字确定调节模式；

所述调节单元，用于按照所述调节模式对所述当前音量进行调节处理。

第三方面，本申请实施例提供了一种AR设备，所述AR设备包括处理器、存储有所述处理器可执行指令的存储器，当所述指令被所述处理器执行时，实现如上所述的音量调节方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有程序，应用于AR设备中，所述程序被处理器执行时，实现如上所述的音量调节方法。

本申请实施例提供了一种音量调节方法、AR设备及存储介质，AR设备在按照当前音量进行音频播放时，若当前音量大于预设音量阈值，则采集环境声音信息；对环境声音信息进行解析处理，获得环境声音信息对应的关键字；根据关键字确定调节模式；按照调节模式对当前音量进行调节处理。也就是说，在申请的实施例中，AR设备在播放音频时，可以通过对外部环境的声音进行采集，来实现音量的调节，具体地，AR设备可以从环境声音信息中提取关键字，然后根据有关键字对应的调节模式对当前音量进行调节处理，从而可以在保证生动的音视频信息的基础上，实现音量的智能调节，有效地解决了影响用户交流和沟通的问题，大大提升了AR设备的智能性。

附图说明

图1为音量调节方法的实现流程示意图一；

图2为AR眼镜的结构示意图；

图3为AR设备的结构示意图一；

图4为音量调节方法的实现流程示意图二；

图5为音量调节方法的实现流程示意图三；

图6为目标对象的示意图；

图7为AR设备的结构示意图二；

图8为音量调节方法的实现流程示意图四；

图9为音量调节方法的实现流程示意图五；

图10为AR设备的组成结构示意图一；

图11为AR设备的组成结构示意图二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释相关申请，而非对该申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关申请相关的部分。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

AR的三大技术要点：三维注册(跟踪注册技术)、虚拟现实融合显示、人机交互。其流程是首先通过摄像头和传感器将真实场景进行数据采集，并传入处理器对其进行分析和重构，再通过AR头显或智能移动AR设备上的摄像头、陀螺仪、传感器等配件实时更新用户在现实环境中的空间位置变化数据，从而得出虚拟场景和真实场景的相对位置，实现坐标系的对齐并进行虚拟场景与现实场景的融合计算，最后将其合成影像呈现给用户。用户可通过AR头显或智能移动AR设备上的交互配件，如话筒、眼动追踪器、红外感应器、摄像头、传感器等AR设备采集控制信号，并进行相应的人机交互及信息更新，实现增强现实的交互操作。其中，三维注册是AR技术之核心，即以现实场景中二维或三维物体为标识物，将虚拟信息与现实场景信息进行对位匹配，即虚拟物体的位置、大小、运动路径等与现实环境必须完美匹配，达到虚实相生的地步。

用户通常在接受信息时看到的影像都是2D或者2.5D，AR设备，如AR智能眼镜，可以呈现出全息立体影像，让用户接收到更加生动的信息，从而使用户完全沉浸在AR音视频场景中。

然而，AR设备在为用户提供生动的音视频信息的同时，会存在影响用户与他人沟通和交流的问题。例如，无论AR眼镜分体式的还是一体式的，为了实现更好的声音体验，扬声器一般都会部署在用户耳朵的附近，在提升声音体验的同时，往往因为AR设备声音大于外部的声音，当用户完全沉浸在AR音视频场景时，可能会导致AR眼镜以外的声音无法清晰地被用户获取，从而影响正常的交流和沟通。此时，目标对象想要和AR用户进行交流，只能通过加大目标对象的声音，或者通过肢体接触，如轻拍、在其眼前晃动手势等方法，才能引起体验用户的注意，让用户察觉有人在和他说话。

但是，对于一些AR音视频场景，AR用户如果通过降低音量来解决无法清晰地获取AR眼镜以外的声音的问题，体验感也会相应地降低，甚至完全没有沉浸的感觉。

也就是说，目前的AR设备，无法在提供生动的音视频信息的基础上，有效地解决影响用户交流和沟通的问题。

为了解决现有的解码处理所存在的问题，在本申请的实施例中，AR设备在播放音频时，可以通过对外部环境的声音进行采集，来实现音量的调节，具体地，AR设备可以从环境声音信息中提取关键字，然后根据有关键字对应的调节模式对当前音量进行调节处理，从而可以在保证生动的音视频信息的基础上，实现音量的智能调节，有效地解决了影响用户交流和沟通的问题，大大提升了AR设备的智能性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请一实施例提供了一种音量调节方法，图1为音量调节方法的实现流程示意图一，如图1所示，在本申请的实施例中，AR设备调节音量的方法可以包括以下步骤：

步骤101、在按照当前音量进行音频播放时，若当前音量大于预设音量阈值，则采集环境声音信息。

在本申请的实施例中，AR设备在按照当前音量进行音频播放时，如果当前音量大于预设音量阈值，那么AR设备可以针对周围环境进行语音信息的采集，获得环境声音信息。

在本申请的实施例中，AR设备为能够实现AR技术的AR设备，如AR眼镜、AR头盔、AR头显等。具体地，AR设备具备通信功能，从而可以与终端进行连接和信息的交互。其中，终端为任何具备通信和存储功能的设备，例如：平板电脑、手机、电子阅读器、遥控器、个人计算机(Personal Computer，PC)、笔记本电脑、车载设备、网络电视、可穿戴设备、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置等设备。

进一步地，在本申请的实施例中，图2为AR眼镜的结构示意图。如图2所示，AR眼镜10可以包括本体11，其中，本体11可以包括镜架111、镜片112、触控部113、控制板114。

具体地，在本申请中，触控部113可以设置在镜架111上，从而可以通过触摸生成不同的触摸手势。

可以理解的是，在本申请中，控制板114中可以设置有检测装置、控制模块等多种功能性的单元，例如，控制板114中可以设置控制单元、气压温度传感器、地磁传感器、光强传感器、九轴传感器、全球定位系统(Global Positioning System，GPS)装置、麦克风、音频模块、显示模块、摄像模块以及通信模块。

进一步地，在本申请的实施例中，控制板114通过上述多种功能性的单元，可以检测周围环境的不同类型的数据和信息，例如，AR眼镜10通过气压温度传感器，可以周期性/根据控制信号采集用户所处环境的海拔、气压和温度信息；AR眼镜10通过地磁传感器，可以周期性检测用户朝向的方位；AR眼镜10通过光强传感器，可以周期性采集，或者根据控制信号采集用户所处环境的采光信息；AR眼镜10通过九轴传感器，可以周期性的检测，或者根据控制信号检测获取人体动作信息；AR眼镜10通过GPS装置，可以周期性的检测，或者根据控制信号检测获取用户的位置信息；AR眼镜10通过麦克风，可以周期性采集，或者根据控制信号采集用户的语音信息；AR眼镜10通过摄像模块，可以根据控制信号采集场景信息；AR眼镜10通过音频模块，可以根据控制信号播放音频数据或对语音进行识别；AR眼镜10通过显示模块，可以根据控制信号进行相应的显示；AR眼镜10通过通信模块，可以根据控制信号进行与外界的信息交互。

需要说明的是，在本申请的实施例中，AR设备在按照当前音量进行音频播放时，可以将当前音量与预设音量阈值进行比较，从而根据比较结果判定是否进行环境声音信息的采集。

具体地，音量又称音强、响度，是指人耳对所听到的声音大小强弱的主观感受，其客观评价尺度是声音的振幅大小。这种感受源自物体振动时所产生的压力，即声压。物体振动通过不同的介质，将其振动能量传导开去。人们为了对声音的感受量化成可以监测的指标，就把声压分成“级”——声压级，以便能客观的表示声音的强弱，其单位称为“分贝”(dB)。

可以理解的是，在本申请的实施例中，AR设备可以预先设置一个音量上限值，即预设音量阈值，该预设音量阈值可以用于判定是否对周围环境进行语音采集。

进一步地，在本申请的实施例中，如果当前音量大于预设音量阈值，那么可以认为当前音量较大，可能会使AR设备的佩戴者无法准确接收外部环境中的其他声音信息，因此确定需要进行环境声音信息的采集。

示例性的，在本申请的实施例中，如果当前音量为115分贝，预设音量阈值为110分贝，那么AR设备在按照115分贝进行音频播放时，便需要采集环境声音信息。

进一步地，在本申请的实施例中，图3为AR设备的结构示意图一，如图3所示，AR设备20可以配置有音频模块21和语音识别模块22，具体地，AR设备20在通过音频模块21按照当前音量播放音频时，如果当前音量大于预设音量阈值，那么AR设备20可以通过语音识别模块22对周围环境的语音信息进行采集，从而获得环境声音信息。

进一步地，在本申请的实施例中，如果当前音量小于或者等于预设音量阈值，那么可以认为当前音量并不会使AR设备的佩戴者无法准确接收外部环境中的其他声音信息，因此确定不需要进行环境声音信息的采集。

可以理解的是，在本申请中，如果当前音量小于或者等于预设音量阈值，那么AR设备20便不需要开启语音识别模块22。

步骤102、对环境声音信息进行解析处理，获得环境声音信息对应的关键字。

在本申请的实施例中，如果当前音量大于预设音量阈值，那么AR设备在采集环境声音信息之后，可以对环境声音信息进行解析处理，从而可以获得环境声音信息对应的关键字。

需要说明的是，在本申请的实施例中，AR设备在采集获得周围环境所对应的环境声音信息之后，便可以对环境声音信息进行解析处理，以进一步确定出环境声音信息中的关键信息，关键字。

进一步地，在本申请的实施例中，环境声音信息的解释处理具体可以包括噪音的去处和关键字的提取等处理。具体地，AR设备可以先对环境声音信息进行预处理，获得去噪后的语音信息；然后再对去噪后的语音信息进行特征提取，获得关键字。

示例性的，在本申请的实施例中，语音识别模块22还可以包括有预处理单元22a和特征提取单元22b，其中，AR设备在对环境声音信息进行解析处理，获得环境声音信息对应的关键字时，对于采集获得的环境声音信息，AR设备可以先通过预处理单元22a进行噪音的去处，从而可以除去环境声音信息中的冗余信息，获得去噪后的语音信息，然后可以通过特征提取单元22b进行特征提取处理，获得影响语音识别的关键信息和表达语言含义的特征信息，级获得关键字。

可以理解的是，在本申请的实施例中，在进行特征提取时，AR设备可以使用预先训练好的声学模型进行关键字的获取，其中，AR设备可以基于获取的语音特征，通过学习算法训练获得声学模型，在识别时，将输入的语音特征与声学模型进行匹配与比较，从而可以得到最佳的识别结果。

需要说明的是，在本申请中，对于去噪后的语音信息，AR设备需要先将语音转换为文字，然后可以对转换获得的、去噪后的语音信息对应的文字信息进行特征提取，从而获得关键字。

示例性的，在本申请中，假设去噪后的语音信息对应的文字信息为“请问现在几点了”，那么在进行特征提取处理之后，获得的关键字可以为“请问”和“几点”。

步骤103、根据关键字确定调节模式。

在本申请的实施例中，AR设备在对环境声音信息进行解析处理，获得环境声音信息对应的关键字之后，可以进一步根据关键字确定出用于进行音量调节的调节模式。

需要说明的是，在本申请的实施例中，调节模式可以包括音量增大模式、音量减小模式、暂停播放模式、静音模式以及更换音频模式等多种不同的音量调节方式。其中，音量增大模式和音量减小模用于对AR设备播放音频时所使用的音量大小进行调节，暂停播放模式则是用于音频的播放停止处理，更换音频模式可以用于对正在播放的音频进行更换处理，切换至另一个音频进行播放。

进一步地，在本申请的实施例中，在根据关键字确定调节模式时，AR设备可以先根据关键字确定语义信息，然后可以基于语义信息确定调节模式。

其中，语义可以表征关键字在语境下的意义，对于不同的语境，相同的关键字所表达的意义可以是不同的。例如，关键字“王”在“我叫王明”的语境中的含义是姓氏，而在“胜者为王”的语境中的含义是最高地位的简称。

需要说明的是，在本申请的实施例中，AR设备在根据关键字确定语义信息时，可以基于关键字进行语义分析，得到目标对象通过关键字所表达的真实意思，即获得语义信息。例如，对环境声音信息进行特征提取之后获得的关键字为“会议”、“时间”、“请问”，那么通过语义分析处理，AR设备可以确定与该关键字对应的语义信息为“询问会议时间”。

进一步地，在本申请的实施例中，在基于语义信息确定调节模式时，AR设备可以直接基于预设语义与模式的对应关系，对语义信息进行匹配处理，获得调节模式。

也就是说，在本申请中，AR设备可以预先对不同语义所对应的不同模式之间的对应关系进行设置，从而可以在获得语义信息之后，基于该预设语义与模式的对应关系，确定出与语义信息所对应的调节模式。

示例性的，在本申请中，AR设备中存储的预设语义与模式的对应关系如表1所示：

表1

语义	模式
		询问……	音量减小模式
请求……	音量减小模式
		问好	音量减小模式
重要的事情	暂停播放模式
		紧急处理	暂停播放模式
换一个音乐试试	更换音频模式
		无语义	音量增大模式
……	……

其中，如果语义信息为“询问……”、“请求……”、“问好”等，那么对应的调节模式可以为音量减小模式，如果语义信息为“重要的事情”、“紧急处理”等，那么对应的调节模式可以为暂停播放模式，如果语义信息为“换一个音乐试试”等，那么对应的调节模式可以为更换音频模式，如果无语义，且环境声音信息的音量大于当前音量，那么可以认为环境声音信息可能会对AR设备输出的音频产生干扰，因此AR设备可以增大音量，即对应的调节模式可以为音量增大模式。

进一步地，在本申请的实施例中，AR设备在基于语义信息确定调节模式时，还可以先基于预设语义与场景的对应关系，确定语义信息对应的目标场景，然后再根据目标场景，确定调节模式。

也就是说，在本申请中，AR设备可以预先对不同语义所对应的不同场景之间的对应关系进行设置，从而可以在获得语义信息之后，基于该预设语义与场景的对应关系，先确定出与语义信息所对应的目标场景。

示例性的，在本申请中，AR设备中存储的预设语义与场景的对应关系如表2所示：

表2

语义	场景
		询问……	对话场景
问好	对话场景
		秘密	私密场景
紧急处理	优先处理场景
		换一个音乐试试	指示切换场景
无语义	干扰场景
		……	……

其中，如果语义信息为“询问……”、“问好”等，那么对应的目标场景可以为对话场景，如果语义信息为“秘密”等，那么对应的目标场景可以为私密场景，如果语义信息为“紧急处理”等，那么对应的目标场景可以为优先处理场景，如果语义信息为“换一个音乐试试”等，那么对应的目标场景可以为指示切换场景，如果无语义，且环境声音信息的音量大于当前音量，那么可以认为环境声音信息可能会对AR设备输出的音频产生干扰，因此可以确定为干扰场景。

进一步地，在本申请的实施例中，AR设备在根据目标场景确定调节模式时，对于不同的目标场景，确定出的调节模式也可能是不同的。例如，如果语义信息对应的目标场景为对话场景，则可以确定需要使用的调节模式为音量减小模式，如果语义信息对应的目标场景为优先处理场景、私密场景，则可以确定需要使用的调节模式为暂停播放模式，如果语义信息对应的目标场景为指示切换场景，那么对应的调节模式可以为更换音频模式，如果语义信息对应的目标场景为干扰场景，则可以确定需要使用的调节模式为音量增大模式。

由此可见，在本申请中，AR设备在确定出语义信息之后，可以采用多种方法进行调节模式的确定。既可以直接通过预设语义与模式的对应关系进行匹配处理，获得与语义信息对应的调节模式，也可以先利用预设语义与场景的对应关系，确定出改语义信息所对应的目标场景，然后按照目标场景进一步进行调节模式的确定。

步骤104、按照调节模式对当前音量进行调节处理。

在本申请的实施例中，AR设备在根据关键字确定调节模式之后，便可以按照调节模式对当前音量进行调节。

进一步地，在本申请的实施例中，AR设备在按照调节模式对当前音量进行调节处理时，如果调节模式为音量减小模式，AR设备可以降低当前音量，如果调节模式为音量增大模式，AR设备可以提高当前音量，如果调节模式为暂停播放模式，AR设备可以停止音频的播放，如果调节模式为静音模式，AR设备可以将当前音量设置为0，如果调节模式为更换音频模式，AR设备可以停止当前音频的播放，切换为下一个音频或预设的目标的音频进行播放处理。

可以理解的是，在本申请的实施例中，如果调节模式为音量减小模式或者音量增大模式，AR设备在将当前音量进行减小或增大时，既可以按照预先设置的音量上限值进行音量的增大处理，或者可以按照预先设置的音量下限值进行音量的减小处理。还可以先根据环境声音信息的音量来确定减小或增大的目标值，然后按照目标值对当前音量进行调整。

示例性的，在本申请中，当调节模式为音量减小模式时，AR设备可以先确定环境声音信息对应的实时音量；然后再根据实时音量和当前音量，确定目标音量；最后便可以按照目标音量进行音频播放。

示例性的，在本申请中，当调节模式为音量增大模式时，即环境声音信息中没有可以利用的语义信息，且环境声音信息对应的实时音量较大，对音频的播放造成了干扰时，AR设备也可以根据实时音量和当前音量，确定目标音量；最后便可以按照目标音量进行音频播放。

其中，在本申请中，无论是音量减小模式还是音量增大模式，AR设备在根据实时音量和当前音量确定目标音量时，既可以按照实时音量和当前音量之间的差值设置目标音量，也可以按照实时音量和当前音量之间的比值设置目标音量，还可以仅基于实时音量设置目标音量，本申请不作具体限定。

进一步地，在本申请的实施例中，图4为音量调节方法的实现流程示意图二，如图4所示，AR设备在按照调节模式对当前音量进行调节处理之后，即步骤104之后，AR设备调节音量的方法还可以包括以下步骤：

步骤105、持续进行语音信息的采集处理，若在预设时间阈值内未采集到语音信息，则重新按照当前音量进行音频播放。

在本申请的实施例中，AR设备在按照调节模式完成对当前音量的调节之后，还可以持续进行语音信息的采集处理，若在预设时间阈值内没有采集到语音信息，那么AR设备可以重新按照当前音量进行音频播放。

也就是说，在本申请中，AR设备在基于调节模式完成对当前音量的调节处理之后，AR设备还可以继续对周围的环境进行语音信息进行采集和识别，如果在一定的时间之内，级在预设时间阈值内没有再采集到任何语音信息，即可以认为不再有与AR设备的佩戴者有关的对话或交互场景，因此，可以恢复原有的播放模式，即重新按照当前音量进行音频播放。

可以理解的是，在本申请的实施例中，AR设备在进行周围环境的语音信息的采集过程中，从不再采集到语音信息开始进行计时，如果记录的时间超过了预设时间阈值，则恢复使用当前音量进行音频的播放。其中，预设时间阈值可以为AR设备预先设置的时间上限值，例如，AR设备可以预先将预设时间阈值设置为10秒。

进一步地，在本申请的实施例中，如果调节模式为更换音频模式，AR设备在停止当前音频的播放，切换为下一个音频或预设的目标的音频进行播放处理之后，若在预设时间阈值内未采集到语音信息，则AR设备根据预先设置的播放策略，可以重新播放切换前的音频，也可以继续播放切换后的音频。

图5为音量调节方法的实现流程示意图三，如图5所示，在根据关键字确定调节模式之前，即步骤103之前，AR设备调节音量的方法还可以包括以下步骤：

步骤106、在按照当前音量进行音频播放时，若当前音量大于预设音量阈值，则开启拍摄装置，并通过拍摄装置采集目标对象的图像信息。

在本申请的实施例中，AR设备在按照当前音量进行音频播放时，如果当前音量大于预设音量阈值，那么AR设备还可以开启拍摄装置，然后可以通过拍摄装置采集目标对象的图像信息。

需要说明的是，在本申请的实施例中，目标对象可以为AR设备所能够采集范围之内的对象，具体地，目标对象的面部可以被AR设备拍摄到。例如，与AR设备的使用者面对面站立的人。图6为目标对象的示意图，如图6所示，AR设备能够采集范围为区域A，区域A中的对象B为目标对象。

进一步地，在本申请的实施例中，AR设备在按照当前音量进行音频播放时，可以将当前音量与预设音量阈值进行比较，从而根据比较结果判定是否开启AR设备所配置的拍摄装置。

可以理解的是，在本申请的实施例中，AR设备可以预先设置一个音量上限值，即预设音量阈值，该预设音量阈值可以用于判定是否进行拍摄装置的开启。

进一步地，在本申请的实施例中，如果当前音量大于预设音量阈值，那么可以认为当前音量较大，可能会使AR设备的佩戴者无法准确接收外部环境中的其他声音信息，因此确定需要开启拍摄装置，以使用拍摄装置进行目标对象的图像的采集。

示例性的，在本申请的实施例中，如果当前音量为90分贝，预设音量阈值为110分贝，那么AR设备在按照90分贝进行音频播放时，便可以不进行拍摄装置的开启。

进一步地，在本申请的实施例中，图7为AR设备的结构示意图二，如图7所示，AR设备20还可以配置有拍摄装置23，具体地，AR设备20在通过音频模块21按照当前音量播放音频时，如果当前音量大于预设音量阈值，那么AR设备20在通过语音识别模块22对周围环境的语音信息进行采集，获得环境声音信息的同时，还可以开启拍摄装置23，并通过拍摄装置23采集目标对象的图像信息。

相应地，在本申请的实施例中，如果当前音量小于或者等于预设音量阈值，那么可以认为当前音量并不会使AR设备的佩戴者无法准确接收外部环境中的其他声音信息，因此确定不需要对目标对象进行图像采集，即不需要开启拍摄装置。

需要说明的是，在本申请的实施例中，AR设备在按照当前音量进行音频播放时，如果当前音量大于预设音量阈值，那么AR设备可以采集获得环境声音信息，还可以开启拍摄装置，并利用拍摄装置采集目标对象的图像信息。

可以理解的是，在本申请中，AR设备可以先进行环境声音信息的采集，然后进行目标对象的图像信息的采集，还可以先进行目标对象的图像信息的采集，然后进行环境声音信息的采集，也可以同时采集环境声音信息和目标对象的图像信息，本申请不作具体限定。

步骤107、根据图像信息和关键字判断是否满足预设调节条件。

在本申请的实施例中，AR设备在开启拍摄装置，并通过拍摄装置采集目标对象的图像信息之后，可以根据图像信息和关键字判断是否满足预设调节条件。

进一步地，在本申请的实施例中，AR设备在根据图像信息和关键字判断是否满足预设调节条件时，可以先根据图像信息确定目标对象的面部变化特征；如果面部变化特征包括唇部讲话特征，且关键字与预存关键字匹配，那么可以判定满足预设调节条件；如果面部变化特征不包括唇部讲话特征，或者，关键字与预存关键字匹配，那么可以判定不满足预设调节条件。

可以理解的是，在本申请的实施例中，预设调节条件用于对是否调节当前音量进行判断。具体地，AR设备可以基于图像信息和语音信息，对是否满足预设调节条件进行多个方面的判定。

进一步地，在本申请的实施例中，AR设备可以从目标对象的图像信息中提取目标对象的面部变化特征，其中，面部变化特征可以包括有目标对象的唇部讲话特征。例如，如果目标对象的面部变化特征包括目标对象的唇部的开合动作，那么可以认为目标对象在讲话，即可以确定面部变化特征包括唇部讲话特征。

需要说明的是，在本申请的实施例中，预存关键字可以为AR设备预先存储的、用于对是否进行音量调节进行判定。例如，预设关键字可以包括“你好”，如果AR设备采集获得的关键字为“你好”、“请问”、“会议”，那么可以认为关键字与预存关键字匹配。

也就是说，在本申请中，AR设备在采集获得环境声音信息和目标对象的图像信息之后，可以先结合图像信息中所提取的面部变化特征和环境声音信息中提取的关键字对是否进行音量调节进行判断，即判断是否满足预设调节条件。

步骤108、若判定满足预设调节条件，则执行调节模式的确定流程。

在本申请的实施例中，AR设备在根据图像信息和关键字判断是否满足预设调节条件之后，如果判定满足预设调节条件，那么AR设备可以进一步执行步骤103所提出的调节模式的确定流程。

进一步地，在本申请的实施例中，如果面部变化特征包括唇部讲话特征，且关键字与预存关键字匹配，那么可以认为目标对象在与AR设备的佩戴者进行对话和沟通，而AR设备播放音频的当前音量可能会影响目标对象在与AR设备的佩戴者之间的正常交流，因此，AR设备需要进行音量的调整，进而需要进一步根据关键字确定调节模式。

综上所述，在本申请的实施例中，通过上述步骤101至步骤108所提出的音量调节方法，AR设备可以先判断AR设备的使用者与周围的目标对象是否存在交流和沟通，从而进一步确定是否需要对当前音量进行调整，从而实现AR设备的音量的智能调节，从而使AR设备的使用者清晰的听到目标对象的说话内容。

也就是说，在本申请中，AR设备可以通过对环境声音信息的采集和解析，获得对应的关键字，并基于关键字进行调节模式的选择，以进一步根据调节模式进行音量的调节。具体地，通过关键字确定出语义信息，可以进一步智能识别出AR设备的使用者所处的目标场景，以根据目标场景进行对应的调节模式的音量调节，从而避免AR设备的使用者因为沉浸在AR设备输出的音频中而无法获取到周围环境中的，如目标对象的说话的内容，解决了影响AR设备使用者的沟通和交流的问题。

进一步地，本申请提出的音量调节方法，可以跨多个平台，如Android、IOS等操作系统。

需要说明的是，在本申请的实施例中，本申请提出的具体实施方式也可以应用到语音调节场景以外的其他场景以及操作的行为，可以不局限在AR设备的使用者的交流的场景，且在提取到关键字之后，也可以基于关键字执行不同的行为，同样也不局限于音量的调节，还可以执行其他操作，可扩展性强。

由此可见，在本申请中，AR设备可以通过语音识别、面部识别等技术，检测目标对象和AR设备使用者之间是否存在对话的场景，进而可以基于关键字解析获得的语义信息进行音量调节处理。

在一种实施场景下，当目标对象在使用者正面时，AR设备可以使用摄像头进行面部识别，检测到目标对象存在张嘴、闭嘴等说话行为，同时语音识别模块识别出有效的关键字，则可以确定目标对象是在对使用者说话，进而可以根据关键字对当前音量进行适应性的调节。

在另一种实施场景下，无论目标对象在使用者周围的哪一个位置，AR设备均可以通过语音识别模块识别出有效的关键字，然后可以在预先设定的关键字的数据库中进行查询，如果有匹配的关键字，则可以进一步利用该关键字确定出对应的调节模式，进而可以按照调节模式对当前音量进行调节。

进一步地，在本申请的实施例中，AR设备在解析获得环境声音信息中的关键字之后，还可以针对关键字进行检索和信息查询等处理。例如，使用者在谈话过程中，交谈到某本书的书名，该书名在预先设定的数据库中定义过，则AR设备可以快速检索该书名的相关信息，显示在AR设备配置的显示模块中，以方便使用者能够快速观看该信息。

本申请实施例提供了一种音量调节方法，AR设备在按照当前音量进行音频播放时，若当前音量大于预设音量阈值，则采集环境声音信息；对环境声音信息进行解析处理，获得环境声音信息对应的关键字；根据关键字确定调节模式；按照调节模式对当前音量进行调节处理。也就是说，在申请的实施例中，AR设备在播放音频时，可以通过对外部环境的声音进行采集，来实现音量的调节，具体地，AR设备可以从环境声音信息中提取关键字，然后根据有关键字对应的调节模式对当前音量进行调节处理，从而可以在保证生动的音视频信息的基础上，实现音量的智能调节，有效地解决了影响用户交流和沟通的问题，大大提升了AR设备的智能性。

基于上述实施例，在本申请的又一实施例中，本申请所提出的音量调节方法，可以应用在AR设备播放音频的场景中。具体地，图8为音量调节方法的实现流程示意图四，如图8所示，当AR设备在按照当前音量播放音频时，如果AR设备使用者的正面存在有目标对象与该AR设备的使用者进行交谈，那么，AR设备进行音量调节的方法可以包括以下步骤：

步骤201、判断当前音量是否大于预设音量阈值，若是，则执行步骤202，否则执行步骤208。

在本申请的实施例中，AR设备在按照当前音量播放音频时，可以先对当前音量和预设音量阈值进行比较，判断当前音量是否大于预设音量阈值，如果当前音量大于预设音量阈值，那么可以认为需要进行音量调节。

可以理解的是，在本申请中，AR设备所配置的音频模块，如扬声器可以按照当前音量进行音频的输出，其中，AR设备可以通过多种方式检测音频模块是否输出音频，例如，AR设备可以使用音频混合器服务(AudioFlinger，AF)检测脉冲编码调制(Pulse CodeModulation，PCM)数据，以及当前音量的大小。

步骤202、开启拍摄装置采集目标对象的图像信息，同时通过语音识别模块采集环境声音信息。

在本申请的实施例中，如果当前音量大于预设音量阈值，那么AR设备可以开启拍摄装置，然后利用拍摄装置对AR设备的使用者的周围的目标对象进行图像信息的采集，同时，AR设备还可以开启语音识别模块，如麦克风，然后使用语音识别模块对周围环境中的语音进行采集，获得环境声音信息。

步骤203、根据图像信息确定目标对象的面部变化特征，同时根据环境声音信息确定对应的关键字。

在本申请的实施例中，AR设备在分别采集获得图像信息和环境声音信息之后，可以再进一步地对图像信息进行特征提取，获得目标对象的面部变化特征，还可以对环境声音信息进行解析处理，从而可以获得环境声音信息对应的关键字。

步骤204、判断面部变化特征是否包括唇部讲话特征，且关键字是否与预存关键字匹配，如果是，则执行步骤205，否则执行步骤208。

在本申请的实施例中，AR设备在分别获得目标对象的面部变化特征和关键字之后，可以再次对是否进行语音调节进行判断。具体地，如果面部变化特征包括唇部讲话特征，且关键字与预存关键字匹配，那么AR设备可以认为目标对象正在与AR设备的使用者进行交流和沟通，因此，AR设备可以确定需要进行音量的调节。

步骤205、基于关键字确定语义信息。

在本申请的实施例中，AR设备在进行音量的调节时，可以先利用关键字对目标对象讲话内容的语义进行确定，即确定出与关键字对应的语义信息。

步骤206、确定与语义信息对应的调节模式。

在本申请的实施例中，AR设备可以利用预设语义与模式的对应关系，确定出与语义信息所对应的调节模式。具体地，AR设备可以直接基于预设语义与模式的对应关系，对语义信息进行匹配处理，获得调节模式。

调节模式可以包括音量增大模式、音量减小模式、暂停播放模式、静音模式以及更换音频模式等多种不同的音量调节方式。

步骤207、按照调节模式调节当前音量。

在本申请的实施例中，AR设备在确定出用于进行音量调节的调节模式之后，便可以按照调节模式对当前音量进行调节处理。

AR设备在按照调节模式对当前音量进行调节处理时，如果调节模式为音量减小模式，AR设备可以降低当前音量，如果调节模式为音量增大模式，AR设备可以提高当前音量，如果调节模式为暂停播放模式，AR设备可以停止音频的播放，如果调节模式为静音模式，AR设备可以将当前音量设置为0，如果调节模式为更换音频模式，AR设备可以停止当前音频的播放，切换为下一个音频或预设的目标的音频进行播放处理。

步骤208、继续按照当前音量输出音频。

在本申请的实施例中，如果当前音量小于或者等于预设音量阈值，那么AR设备可以认为即使按照当前音量输出音频，也不会对使用者与外界的沟通造成影响，因此不需要对当前音量进行调节，可以继续按照当前音量播放音频。

进一步地，在本申请的实施例中，如果目标对象的面部变化特征不包括唇部讲话特征，或者，关键字与预存关键字不匹配，那么AR设备可以认为目标对象并没有与AR设备的使用者进行交流和沟通，因此不需要对当前音量进行调节，可以继续按照当前音量播放音频。

由此可见，本申请提出的音量调节方法，AR设备可以采用对外部环境声音和视觉的检测，来选择性地调整AR设备的音量，从而在保证AR设备的效果的基础上，解决AR设备的使用者无法清晰地获取目标对象的讲话内容的问题。具体的，在本申请中，可以根据目标对象和使用者交流的最常用的特征来进行归类，根据归类的特征进行智能识别，从而实现AR设备的智能调整音量。

可以理解的是，在本申请中，当AR设备的使用者完全沉浸在AR音视频场景，目标对象在该使用者的正面方向与使用者打招呼时，AR设备可以启用摄像头和麦克风，对目标对象进行面部识别和语音的采集，如果检测到目标对象有张嘴、闭嘴的特征，且提取的语音的关键字也与预设关键字匹配，则可以认为目标对象在与使用者在说话，因此可以在确定出调节模式之后，基于调节模式完成对当前音量的调整，保证使用者与目标对象的正常沟通。

基于上述实施例，在本申请的又一实施例中，本申请所提出的音量调节方法，可以应用在AR设备播放音频的场景中。具体地，图9为音量调节方法的实现流程示意图五，如图9所示，当AR设备在按照当前音量播放音频时，无论AR设备使用者的正面是否存在有目标对象与该AR设备的使用者进行交谈，AR设备进行音量调节的方法可以包括以下步骤：

步骤301、判断当前音量是否大于预设音量阈值，若是，则执行步骤302，否则执行步骤308。

步骤302、通过语音识别模块采集环境声音信息。

在本申请的实施例中，如果当前音量大于预设音量阈值，那么AR设备可以开启语音识别模块，如麦克风，然后使用语音识别模块对周围环境中的语音进行采集，获得环境声音信息。

步骤303、根据环境声音信息确定对应的关键字。

在本申请的实施例中，AR设备在采集获得环境声音信息之后，可以再进一步地对环境声音信息进行解析处理，从而可以获得环境声音信息对应的关键字。

步骤304、判断关键字是否与预存关键字匹配，如果是，则执行步骤305，否则执行步骤308。

在本申请的实施例中，AR设备在获得关键字之后，可以再次对是否进行语音调节进行判断。具体地，如果关键字与预存关键字匹配，那么AR设备可以认为AR设备的使用者需要与外界进行交流和沟通，因此，AR设备可以确定需要进行音量的调节。

需要说明的是，在本申请的实施例中，预设关键字还可以包括AR设备的使用者的姓名或称呼，例如，预设关键字可以为“李明”，那么，在解析环境声音信息获得的关键字为“你好”、“李明”等时，可以认为匹配预设关键字。

步骤305、基于关键字确定语义信息。

步骤306、确定与语义信息对应的目标场景，并根据目标场景确定调节模式。

在本申请的实施例中，AR设备可以先基于预设语义与场景的对应关系，确定语义信息对应的目标场景，然后再根据目标场景，确定调节模式。其中，AR设备在根据目标场景确定调节模式时，对于不同的目标场景，确定出的调节模式也可能是不同的。

具体地，调节模式可以包括音量增大模式、音量减小模式、暂停播放模式、静音模式以及更换音频模式等多种不同的音量调节方式。

步骤307、按照调节模式调节当前音量。

步骤308、继续按照当前音量输出音频。

步骤309、若在预设时间阈值内未采集到语音信息，则重新按照当前音量进行音频播放。

也就是说，在本申请的实施例中，无论目标对象是否在AR设备的使用者的正面，AR设备均可以利用语音识别模块先进行环境声音信息的采集，例如，目标对象可能直呼使用者的姓名或者尊称，而AR设备在采集获得如姓名或称呼的关键字之后，便可以确定对当前音量进行调节处理。

也就是说，在本申请中，AR设备可以预先对至少一个使用者的姓名或者常用的称谓进行设置，并将这些姓名或称谓作为预设关键字存储到数据库中。

可以理解的是，在本申请中，AR设备可以通过语音识别模块采集外部环境的声音，获得环境声音信息，然后将其作为语音输入源进行分析，经过语音信号预处理环节，除去冗余信息；接着进行特征提取，提取影响语音识别的关键信息和表达语言含义的特征信息，紧扣特征信息，用最小单元识别字词；声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征与声学模型(模式)进行匹配与比较，得到最佳的识别结果。

需要说明的是，在本申请的实施例中，AR设备可以直接根据语音识别的结果，即关键字，在存储的数据库中查询匹配的关键字，如果查询到特定的称谓关键字，则可以判定目标对象在和使用者打招呼或者进行对话，因此，AR设备可以对当前音量进行调节。

进一步地，在本申请的实施例中，如果AR设备检测到使用者和目标对象超过预设时间阈值都没有持续说话，则判定此次对话结束，因此可以恢复当前音量。具体地，AR设备可以通过语音识别模块所采集的声音的音量高低来区别是使用者的声音还是目标对象的声音，例如，使用者距离麦克风的距离更近，因此采集到的声音的音量高于目标对象的声音的音量。

基于上述实施例，在本申请的另一实施例中，图10为AR设备的组成结构示意图一，如图10所示，本申请实施例提出的AR设备20还可以包括：采集单元24，解析单元25，确定单元26，调节单元27，开启单元28，判断单元29，播放单元210。

所述采集单元24，用于在按照当前音量进行音频播放时，若所述当前音量大于预设音量阈值，则采集环境声音信息；

所述解析单元25，用于对所述环境声音信息进行解析处理，获得所述环境声音信息对应的关键字；

所述确定单元26，用于根据所述关键字确定调节模式；

所述调节单元27，用于按照所述调节模式对所述当前音量进行调节处理。

进一步地，在本申请的实施例中，所述开启单元28，用于所述根据所述关键字确定调节模式之前，在按照所述当前音量进行音频播放时，若所述当前音量大于所述预设音量阈值，则开启拍摄装置；

所述采集单元24，还用于通过所述拍摄装置采集目标对象的图像信息；

所述判断单元29，用于根据所述图像信息和所述关键字判断是否满足预设调节条件；以及若判定满足所述预设调节条件，则执行所述调节模式的确定流程。

进一步地，在本申请的实施例中，所述判断单元29，具体用于根据所述图像信息确定所述目标对象的面部变化特征；若所述面部变化特征包括唇部讲话特征，且所述关键字与预存关键字匹配，则判定满足所述预设调节条件；若所述面部变化特征不包括唇部讲话特征，或者，所述关键字与所述预存关键字匹配，则判定不满足所述预设调节条件。

进一步地，在本申请的实施例中，所述确定单元26，具体用于根据所述关键字确定语义信息；基于所述语义信息确定所述调节模式。

进一步地，在本申请的实施例中，所述确定单元26，还具体用于基于预设语义与模式的对应关系，对所述语义信息进行匹配处理，获得所述调节模式。

进一步地，在本申请的实施例中，所述确定单元26，还具体用于基于预设语义与场景的对应关系，确定所述语义信息对应的目标场景；根据所述目标场景，确定所述调节模式。

进一步地，在本申请的实施例中，所述解析单元25，具体用于对所述环境声音信息进行预处理，获得去噪后的语音信息；对所述去噪后的语音信息进行特征提取，获得所述关键字。

进一步地，在本申请的实施例中，所述调节模式包括音量增大模式、音量减小模式、暂停播放模式、静音模式以及更换音频模式。

进一步地，在本申请的实施例中，当所述调节模式为音量减小模式时，所述调节单元27，具体用于确定所述环境声音信息对应的实时音量；根据所述实时音量和所述当前音量，确定目标音量；按照所述目标音量进行音频播放。

进一步地，在本申请的实施例中，所述采集单元24，还用于所述按照所述调节模式对所述当前音量进行调节处理之后，持续进行语音信息的采集处理；

所述播放单元210，用于若在预设时间阈值内未采集到语音信息，则重新按照所述当前音量进行音频播放。

在本申请的实施例中，进一步地，图11为AR设备的组成结构示意图二，如图11示，本申请实施例提出的AR设备20还可以包括处理器211、存储有处理器211可执行指令的存储器212，进一步地，AR设备20还可以包括通信接口213，和用于连接处理器211、存储器212以及通信接口213的总线214。

在本申请的实施例中，上述处理器211可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(ProgRAMmable Logic Device，PLD)、现场可编程门阵列(Field ProgRAMmable GateArray，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的AR设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。AR设备20还可以包括存储器212，该存储器212可以与处理器211连接，其中，存储器212用于存储可执行程序代码，该程序代码包括计算机操作指令，存储器212可能包含高速RAM存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。

在本申请的实施例中，总线214用于连接通信接口213、处理器211以及存储器212以及这些器件之间的相互通信。

在本申请的实施例中，存储器212，用于存储指令和数据。

进一步地，在本申请的实施例中，上述处理器211，用于在按照当前音量进行音频播放时，若所述当前音量大于预设音量阈值，则采集环境声音信息；对所述环境声音信息进行解析处理，获得所述环境声音信息对应的关键字；根据所述关键字确定调节模式；按照所述调节模式对所述当前音量进行调节处理。

在实际应用中，上述存储器212可以是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatilememory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器211提供指令和数据。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机AR设备(可以是个人计算机，服务器，或者网络AR设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ReadOnly Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供了一种AR设备，该AR设备在按照当前音量进行音频播放时，若当前音量大于预设音量阈值，则采集环境声音信息；对环境声音信息进行解析处理，获得环境声音信息对应的关键字；根据关键字确定调节模式；按照调节模式对当前音量进行调节处理。也就是说，在申请的实施例中，AR设备在播放音频时，可以通过对外部环境的声音进行采集，来实现音量的调节，具体地，AR设备可以从环境声音信息中提取关键字，然后根据有关键字对应的调节模式对当前音量进行调节处理，从而可以在保证生动的音视频信息的基础上，实现音量的智能调节，有效地解决了影响用户交流和沟通的问题，大大提升了AR设备的智能性。

本申请实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上所述的音量调节方法。

具体来讲，本实施例中的一种音量调节方法对应的程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种音量调节方法对应的程序指令被一电子设备读取或被执行时，包括如下步骤：

根据所述关键字确定调节模式；

按照所述调节模式对所述当前音量进行调节处理。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、AR设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理AR设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理AR设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理AR设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理AR设备上，使得在计算机或其他可编程AR设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程AR设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种音量调节方法，其特征在于，所述方法包括：

根据所述关键字确定调节模式；

按照所述调节模式对所述当前音量进行调节处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述关键字确定调节模式之前，所述方法还包括：

在按照所述当前音量进行音频播放时，若所述当前音量大于所述预设音量阈值，则开启拍摄装置，并通过所述拍摄装置采集目标对象的图像信息；

根据所述图像信息和所述关键字判断是否满足预设调节条件；

若判定满足所述预设调节条件，则执行所述调节模式的确定流程。

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像信息和所述关键字判断是否满足预设调节条件，包括：

根据所述图像信息确定所述目标对象的面部变化特征；

若所述面部变化特征包括唇部讲话特征，且所述关键字与预存关键字匹配，则判定满足所述预设调节条件；

若所述面部变化特征不包括唇部讲话特征，或者，所述关键字与所述预存关键字匹配，则判定不满足所述预设调节条件。

4.根据权利要求1或3所述的方法，其特征在于，所述根据所述关键字确定调节模式，包括：

根据所述关键字确定语义信息；

基于所述语义信息确定所述调节模式。

5.根据权利要求4所述方法，其特征在于，所述基于所述语义信息确定所述调节模式，包括：

基于预设语义与模式的对应关系，对所述语义信息进行匹配处理，获得所述调节模式。

6.根据权利要求4所述方法，其特征在于，所述基于所述语义信息确定所述调节模式，包括：

基于预设语义与场景的对应关系，确定所述语义信息对应的目标场景；

根据所述目标场景，确定所述调节模式。

7.根据权利要求1所述的方法，其特征在于，所述对所述环境声音信息进行解析处理，获得所述环境声音信息对应的关键字，包括：

对所述环境声音信息进行预处理，获得去噪后的语音信息；

对所述去噪后的语音信息进行特征提取，获得所述关键字。

8.根据权利要求1所述的方法，其特征在于，所述调节模式包括音量增大模式、音量减小模式、暂停播放模式、静音模式以及更换音频模式。

9.根据权利要求8所述的方法，其特征在于，当所述调节模式为音量减小模式时，所述按照所述调节模式对所述当前音量进行调节处理，包括：

确定所述环境声音信息对应的实时音量；

根据所述实时音量和所述当前音量，确定目标音量；

按照所述目标音量进行音频播放。

10.根据权利要求1所述的方法，其特征在于，所述按照所述调节模式对所述当前音量进行调节处理之后，所述方法还包括：

持续进行语音信息的采集处理，若在预设时间阈值内未采集到语音信息，则重新按照所述当前音量进行音频播放。

11.一种AR设备，其特征在于，所述AR设备包括：采集单元，解析单元，确定单元，调节单元，

所述确定单元，用于根据所述关键字确定调节模式；

12.一种AR设备，其特征在于，所述AR设备包括处理器、存储有所述处理器可执行指令的存储器，当所述指令被所述处理器执行时，实现如权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其上存储有程序，应用于AR设备中，其特征在于，所述程序被处理器执行时，实现如权利要求1-10任一项所述的方法。