CN108363557A

CN108363557A - 人机交互方法、装置、计算机设备和存储介质

Info

Publication number: CN108363557A
Application number: CN201810108122.0A
Authority: CN
Inventors: 刘国华
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-08-03
Anticipated expiration: 2038-02-02
Also published as: WO2019149160A1; US20200374630A1; US11483657B2; CN108363557B; JP2021513123A; JP7066877B2

Abstract

本申请涉及一种人机交互方法、装置、计算机设备和存储介质，其中方法包括：检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能，采集用户语音消息，同时检测用户语音音量的大小，响应用户语音操作，当用户语音音量大于预设第二阈值时，调小输出音量，返回检测当前输出音量的步骤。整个过程中，通过设备本身输出音量大小控制语音识别功能的开启，以便准确响应用户语音操作，并且在用户语音大于一定时，减小输出音量，以便凸显以及准确采集用户后续语音消息，给用户操作来带便捷，可以实现良好的人机交互。

Description

人机交互方法、装置、计算机设备和存储介质

技术领域

本申请涉及人机交互技术领域，特别是涉及一种人机交互方法、装置、计算机设备和存储介质。

背景技术

人机交互是指人与设备之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与设备之间的信息交换过程。

随着科学技术的发展，人机交互技术的应用领域越来越宽广，小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室，用户都可以通过人机交互界面与系统交流，并进行操作。目前在人机交互技术中，主流的人机交互方式主要包括3种，第一种是传统按键方式；第二种是特定语音词激活方式，如：在对话前先说“小冰你好”，设备才识别后面所听到的语音；第三种是“举手发言”，即先用一个特定手势动作来让设备启动语音识别。

上述人机交互方式，虽然在一定程度上可以实现人机交互功能，但是由于交互方式单一，需要预先设定一定特定手势动作，交互过程并不十分自然，在一定程度上给用户操作带来不便。

发明内容

基于此，有必要针对上述技术问题，提供一种能够给用户带来便捷操作的人机交互方法、装置、计算机设备和存储介质。

一种人机交互方法，所述方法包括：

检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能；

当侦听到用户语音时，采集用户语音消息；

检测用户语音音量，并响应用户语音操作；

当用户语音音量大于预设第二阈值时，减小输出音量，返回所述检测当前输出音量的步骤。

在其中一个实施例中，所述检测当前输出音量之后还包括：

当所述输出音量大于预设第一阈值时，关闭语音识别功能。

在其中一个实施例中，所述检测当前输出音量之后还包括：

当未检测到用户人脸时，关闭语音识别功能。

在其中一个实施例中，所述当所述输出音量小于预设第一阈值时，启动语音识别功能包括：

当所述输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能。

在其中一个实施例中，所述当所述输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能的步骤包括：

当所述输出音量小于预设第一阈值时，启动人脸头部姿态检测；

当检测到正脸时，启动语音识别功能。

当所述输出音量小于预设第一阈值时，获取用户与设备处于相对正视状态下的正视图像数据；

实时采集用户当前图像数据，将当前采集的图像数据与所述正视图像数据比较；

当所述当前采集的图像数据和所述正视图像数据一致时，判定用户与设备处于相对正视状态，启动语音识别功能。

在其中一个实施例中，所述响应用户语音操作包括：

识别当前播放图像类型，所述图像类型包括视频图像、照片图像以及语音节目；

根据预设图像类型与语音响应指令词对应关系，获取当前播放图像类型对应的支持响应指令词集；

解析所述用户语音消息，获取所述用户语音消息对应指令词；

当获取的指令词属于所述当前播放图像类型对应的支持响应指令词集时，响应用户语音操作；

当获取的指令词不属于所述当前播放图像类型对应的支持响应指令词集时，不响应用户语音操作。

一种人机交互装置，所述装置包括：

输出音量检测模块，用于检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能；

侦听模块，用于当侦听到用户语音时，采集用户语音消息；

响应模块，用于检测用户语音音量，并响应用户语音操作；

音量调节模块，用于当用户语音音量大于预设第二阈值时，减小输出音量，控制输出音量检测模块重新执行所述检测当前输出音量的操作。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述人机交互方法、装置、计算机设备和存储介质，检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能，采集用户语音消息，同时检测用户语音音量的大小，响应用户语音操作，当用户语音音量大于预设第二阈值时，调小输出音量，返回检测当前输出音量的步骤。整个过程中，通过设备本身输出音量大小控制语音识别功能的开启，以便准确响应用户语音操作，并且在用户语音大于一定时，减小输出音量，以便凸显以及准确采集用户后续语音消息，给用户操作来带便捷，可以实现良好的人机交互。

附图说明

图1为一个实施例中人机交互方法的应用环境图；

图2为一个实施例中人机交互方法的流程示意图；

图3为一个实施例中人机交互装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人机交互方法，可以应用于如图1所示的应用环境中。其中，设备运行时，检测自身输出音量，当输出音量小于预设第一阈值时，启动自身语音识别功能，例如开启自身内置的拾音模块，用户发出语音消息，以进行语音操作，当设备侦听到该语音消息时，采集语音消息，检测语音音量，并且响应用户语音操作，例如进行切换操作，另外，设备还会检测用户语音音量是否大于预设值，当大于时，减小自身输出音量，并且返回检测当前输出音量的操作。

在其中一个实施例，如图2所示，提供一种人机交互方法，以该方法应用于图1中的设备为例进行说明，包括以下步骤：

S200：检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能。

设备检测自身当前输出音量，其检测方式可以是直接检测输出至设备中发声设备(例如扬声器)的电信号。例如当设备为电视机时，电视机中控制系统可以检测当前输出到电视机扬声器的电信号，来检测当前输出音量。预设第一阈值是预先设定的阈值，这个值可以根据实际情况的需要进行设定，例如可以设定为30分贝、35分贝或40分贝等。语音识别功能是指能够采集并响应用户语音操作的功能，其具体启动可以通过启用语音模块或拾音模块来实现。以设备为电视机为例，电视机上内置有麦克风(或者麦克风阵列)以及声音处理模块，能够拾取电视机前面观众的语音，当电视机输出音量小于预设第一阈值时，启动这些内置硬件设备，并且电视机内部控制系统启用语音识别功能。

S400：当侦听到用户语音时，采集用户语音消息。

设备在启动语音识别功能后，保持语音侦听状态，当侦听到用户语音时，采集用户语音消息。设备自身输出的语音信号对于设备来说是已知的，设备可以将采集到的语音信号“减去(去噪)”已知的输出的语音信号即可得到当前采集的用户语音消息。以设备为电视机为例，电视机在启动语音识别功能之后，保持语音侦听状态，当侦听到用户语音时，将采集到的语音信号去除电视机自身播放的语音信号得到用户语音消息。

S600：检测用户语音音量，并响应用户语音操作。

根据采集到的用户语音消息，检测用户语音音量，并且执行语音识别操作，响应用户语音操作。以设备为电视机为例，电视机侦听到用户发出“下一个节目”语音时，采集该用户的“下一个节目”语音消息，检测用户发出该语音消息的音量为40分贝，响应用户该语音消息，将电视机节目切换至下一个节目。需要指出的时，响应用户语音操作和检测用户语音是两个并行的动作，两者可以并行(同时)实现。

S800：当用户语音音量大于预设第二阈值时，减小输出音量，返回检测当前输出音量的步骤。

当步骤S600检测到用户语音音量大于预设第二阈值时，减小输出音量，以便后续用户语音消息能够更加及时、准确被侦听到。预设第二阈值是预先设定的值，其可以根据实际情况的需要进行设定，例如40分贝、35分贝等。

上述人机交互方法，检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能，采集用户语音消息，同时检测用户语音音量的大小，响应用户语音操作，当用户语音音量大于预设第二阈值时，调小输出音量，返回检测当前输出音量的步骤。整个过程中，通过设备本身输出音量大小控制语音识别功能的开启，以便准确响应用户语音操作，并且在用户语音大于一定时，减小输出音量，以便凸显以及准确采集用户后续语音消息，给用户操作来带便捷，可以实现良好的人机交互。

在其中一个实施例中，检测当前输出音量之后还包括：

当输出音量大于预设第一阈值时，关闭语音识别功能。当设备输出音量大于预设第一阈值时，此时设备输出声音较大，用户一般是没有进行语音操作的意图，为避免外部噪音干扰，关闭语音识别功能，例如可以关闭设备中拾音模块。以设备为电视机为例，当电视机输出音量大于预设第一阈值(40分贝)时，电视机关闭自身内置的拾音模块，以关闭语音识别功能，不响应语音操作。

在其中一个实施例中，当输出音量大于预设第一阈值时，关闭语音识别功能包括：当输出音量大于预设第一阈值且未检测到用户人脸时，关闭语音识别功能。

为避免用户无法在特殊情况实现语音操作，在这里，当设备输出音量大于预设第一阈值时，进一步检测是否存在用户人脸，当不存在用户人脸时表明当前用户无语音操作的需求，关闭语音识别功能。非必要的，当检测到存在用户人脸时，不关闭语音识别功能，以便用户可以紧急、突发启动语音操作功能。以设备为电视机为例，当电视机检测到输出音量大于预设第一阈值时，进一步检测当前可视角度范围内是否存在合法、已知用户人脸，当不存在时，关闭语音识别功能；当存在时，不关闭语音识别功能。非必要的，用户人脸检测也可以在输出音量之前进行，当未检测到用户人脸时，不论输出音量大小，直接关闭语音识别功能，避免外部环境杂音的干扰。

在其中一个实施例中，当用户语音音量大于预设第二阈值时，启动语音识别功能，响应用户语音操作。

针对可能存在特殊情况语音控制需求，在本实施例中，当用户语音音量大于预设第二阈值时，表明当前用户迫切需要进行语音控制，因此，此时重新启动语音识别功能，并响应用户语音操作。

在其中一个实施例中，当输出音量小于预设第一阈值时，启动语音识别功能包括：当输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能。

当输出音量小于预设第一阈值时，进一步检测是否存在人脸，当存在用人脸时，说明用户有进行语音操作的需求，启动语音识别功能。非必要的，当检测到不存在用户人脸时，不启动语音识别功能。以设备为电视机为例，当电视机检测到输出音量小于预设第一阈值时，进一步检测在可视角度范围内是否存在用户人脸，当检测到用户人脸时，启动语音识别功能；当未检测到用户人脸时，不启动语音识别功能。

在其中一个实施例中，当输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能的步骤包括：当输出音量小于预设第一阈值时，启动人脸头部姿态检测；当检测到正脸时，启动语音识别功能。

当输出音量小于预设第一阈值时，进一步检测当前设备周围是否存在用户(操作人员)，对此，进行人脸头部姿态检测，当检测到用户正脸时，启动语音识别功能，当未检测到用户正脸时，不启动语音识别功能。以设备为电视机为例，电视机中内置的摄像头能够检测观众人脸的位置，将此人脸位置信息提供给阵列拾音模块，拾音能够对该位置目标用户实现精准拾音，有利于屏蔽其它声音。

在其中一个实施例中，当输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能的步骤包括：当输出音量小于预设第一阈值时，获取用户与设备处于相对正视状态下的正视图像数据；实时采集用户当前图像数据，将当前采集的图像数据与正视图像数据比较；当当前采集的图像数据和正视图像数据一致时，判定用户与设备处于相对正视状态，启动语音识别功能。

当输出音量小于预设第一阈值时，启动正视识别。具体来说，在正视识别过程中，设备可以为电视机、空调、电脑以及机器人等，另外设备还可以包括车载设备等。用户与设备处于相对正视状态是指用户正视设备，例如当设备为电视机时，用户正视电视机的状态即为用户与电视机处于相对正视状态。可以通过图像采集设备获取用户与设备处于相对正视状态下的正视图像数据，又由于图像采集设备一般是无法设置于设备正中心的，所以图像采集设备采集用户与设备处于相对正视状态下图像时，从图像采集设备角度看去用户眼睛或用户人脸并不是正对图像采集设备的，一般会呈现一定的角度。为了有利于后续精准判定正视状态，先获取图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据。用户与设备处于相对正视状态下的正视图像数据可以是历史记录中采集好的数据，也可以是当场采集的数据。图像采集设备可以是摄像头等设备，在这里，用户与设备处于相对正视状态下的正视图像数据是通过图像采集设备采集的图像采集设备可以设置于设备上，还可以设置设备的辅助设备或外围设备上，例如当设备为电视机时，图像采集设备可以设置于电视，也可以设置于与电视配套的机顶盒上。更具体来说，摄像头拍摄的用户与设备处于相对正视状态下的正视图像数据，进行图像处理和图像目标坐标换算之后即可确定设备和用户人脸相对位置，即可以获取用户与设备处于相对正视状态下用户的人脸图像数据。判定用户与设备处于相对正视状态可以选择采用头部姿态估计(head pose estimation)或者视线跟踪(gaze tracking)等技术来实现。用户与设备处于相对正视状态的前提下，通过计算机的视觉识别技术和语音识别技术识别用户行为和意图，根据预设用户的行为与意图与操作对应关系，控制设备执行与用户当前的行为与意图对应的操作。即只有判定用户与设备处于相对正视状态的前提下，设备才会启动响应用户操作，这样，一方面避免误操作，例如可以避免电视机错误启动、错误切换电视机节目等；另一方面，由于用户与设备处于相对正视状态时，即有极大可能性用户对设备进行操作，给用户带来便利。具体来说，计算机的视觉识别技术和语音识别技术主要可以包括人脸识别、人脸检测、人脸跟踪、语音识别、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、瞳孔识别以及虹膜识别等。采用上述丰富的计算机的视觉识别技术和语音识别技术能够从人脸、语音、瞳孔、手势等方面实现人机交互，更进一步丰富用户生活，给用户带来便捷操作。

在其中一个实施例中，响应用户语音操作包括：识别当前播放图像类型，图像类型包括视频图像、照片图像以及语音节目；根据预设图像类型与语音响应指令词对应关系，获取当前播放图像类型对应的支持响应指令词集；解析用户语音消息，获取用户语音消息对应指令词；当获取的指令词属于当前播放图像类型对应的支持响应指令词集时，响应用户语音操作；当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时，不响应用户语音操作。

交互设备可以包括电视机、平板电脑、笔记本电脑以及触摸屏等显示设备，还可以为机器人或投影仪。当显示设备需要响应用户语音操作时，识别当前播放图像类型，图像类型主要包括视频图像、照片图像以及语音节目，不同的图像类型对应有不同的预设语音响应指令词，例如针对视频图像有“快进”、“后退”、“下一个节目”、“切换至XX节目”等；针对照片图像有“上一张”、“下一张”、“放大”、“缩小”等。针对当前播放图像类型，获取对应的支持响应指令词，解析用户语音消息，获得对应的指令词，当获取的指令词属于当前播放图像类型对应的支持响应指令词集时，响应用户语音操作，否则不响应。以交互设备为电视机为例，当电视机当前正常播放电视接口节目时，识别当前播放图像类型为视频图像中的电视直播节目，获取电视直播节目对应的支持响应指令词为“下一个节目”、“上一个节目”以及“切换至XX台”，解析当前获取的用户语音消息，获取用户语音消息对应指令词为“切换至XX台”，判定“切换至XX台”属于当前支持响应指令词，响应用户“切换至XX台”的语音操作；若解析当前获取的用户语音消息，获取用户语音消息对应指令词为“下一张”时，判定“下一张”不属于当前支持响应指令词，不响应用户“下一张”的语音操作。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行

如图3所示，一种人机交互装置，装置包括：

输出音量检测模块200，用于检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能；

侦听模块400，用于当侦听到用户语音时，采集用户语音消息；

响应模块600，用于检测用户语音音量，并响应用户语音操作；

音量调节模块800，用于当用户语音音量大于预设第二阈值时，减小输出音量，控制输出音量检测模块重新执行检测当前输出音量的操作。

上述人机交互装置，检测当前输出音量，当输出音量小于预设第一阈值时，启动语音识别功能，采集用户语音消息，同时检测用户语音音量的大小，响应用户语音操作，当用户语音音量大于预设第二阈值时，调小输出音量，返回检测当前输出音量的步骤。整个过程中，通过设备本身输出音量大小控制语音识别功能的开启，以便准确响应用户语音操作，并且在用户语音大于一定时，减小输出音量，以便凸显以及准确采集用户后续语音消息，给用户操作来带便捷，可以实现良好的人机交互。

在其中一个实施例中，输出音量检测模块200还用于当输出音量大于预设第一阈值时，关闭语音识别功能。

在其中一个实施例中，输出音量检测模块200还用于当输出音量大于预设第一阈值且未检测到用户人脸时，关闭语音识别功能。

在其中一个实施例中，输出音量检测模块200还用于当输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能。

在其中一个实施例中，输出音量检测模块200还用于当输出音量小于预设第一阈值时，启动人脸头部姿态检测；当检测到正脸时，启动语音识别功能。

在其中一个实施例中，输出音量检测模块200还用于当输出音量小于预设第一阈值时，获取用户与设备处于相对正视状态下的正视图像数据；实时采集用户当前图像数据，将当前采集的图像数据与正视图像数据比较；当当前采集的图像数据和正视图像数据一致时，判定用户与设备处于相对正视状态，启动语音识别功能。

在其中一个实施例中，响应模块600还用于识别当前播放图像类型，图像类型包括视频图像、照片图像以及语音节目；根据预设图像类型与语音响应指令词对应关系，获取当前播放图像类型对应的支持响应指令词集；解析用户语音消息，获取用户语音消息对应指令词；当获取的指令词属于当前播放图像类型对应的支持响应指令词集时，响应用户语音操作；当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时，不响应用户语音操作。

关于人机交互装置的具体限定可以参见上文中对于人机交互方法的限定，在此不再赘述。上述人机交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人机交互方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

当侦听到用户语音时，采集用户语音消息；

检测用户语音音量，并响应用户语音操作；

当用户语音音量大于预设第二阈值时，减小输出音量，返回检测当前输出音量的步骤。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：当输出音量大于预设第一阈值时，关闭语音识别功能。

在其中一个实施例中，处理器执行计算机程序时还实现步骤：当输出音量大于预设第一阈值且未检测到用户人脸时，关闭语音识别功能。

在其中一个实施例中，处理器执行计算机程序时还实现步骤：当输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能。

在其中一个实施例中，处理器执行计算机程序时还实现步骤：当输出音量小于预设第一阈值时，启动人脸头部姿态检测；当检测到正脸时，启动语音识别功能。

在其中一个实施例中，处理器执行计算机程序时还实现步骤：当输出音量小于预设第一阈值时，获取用户与设备处于相对正视状态下的正视图像数据；实时采集用户当前图像数据，将当前采集的图像数据与正视图像数据比较；当当前采集的图像数据和正视图像数据一致时，判定用户与设备处于相对正视状态，启动语音识别功能。

在其中一个实施例中，处理器执行计算机程序时还实现步骤：识别当前播放图像类型，图像类型包括视频图像、照片图像以及语音节目；根据预设图像类型与语音响应指令词对应关系，获取当前播放图像类型对应的支持响应指令词集；解析用户语音消息，获取用户语音消息对应指令词；当获取的指令词属于当前播放图像类型对应的支持响应指令词集时，响应用户语音操作；当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时，不响应用户语音操作。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

当侦听到用户语音时，采集用户语音消息；

检测用户语音音量，并响应用户语音操作；

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当输出音量大于预设第一阈值时，关闭语音识别功能。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当输出音量大于预设第一阈值且未检测到用户人脸时，关闭语音识别功能。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当输出音量小于预设第一阈值时，启动人脸头部姿态检测；当检测到正脸时，启动语音识别功能。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当输出音量小于预设第一阈值时，获取用户与设备处于相对正视状态下的正视图像数据；实时采集用户当前图像数据，将当前采集的图像数据与正视图像数据比较；当当前采集的图像数据和正视图像数据一致时，判定用户与设备处于相对正视状态，启动语音识别功能。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：识别当前播放图像类型，图像类型包括视频图像、照片图像以及语音节目；根据预设图像类型与语音响应指令词对应关系，获取当前播放图像类型对应的支持响应指令词集；解析用户语音消息，获取用户语音消息对应指令词；当获取的指令词属于当前播放图像类型对应的支持响应指令词集时，响应用户语音操作；当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时，不响应用户语音操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人机交互方法，所述方法包括：

当侦听到用户语音时，采集用户语音消息；

检测用户语音音量，并响应用户语音操作；

2.根据权利要求1所述的方法，其特征在于，所述检测当前输出音量之后还包括：

当所述输出音量大于预设第一阈值时，关闭语音识别功能。

3.根据权利要求2所述的方法，其特征在于，所述检测当前输出音量之后还包括：

当未检测到用户人脸时，关闭语音识别功能。

4.根据权利要求1所述的方法，其特征在于，所述当所述输出音量小于预设第一阈值时，启动语音识别功能包括：

5.根据权利要求4所述的方法，其特征在于，所述当所述输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能的步骤包括：

当检测到正脸时，启动语音识别功能。

6.根据权利要求4所述的方法，其特征在于，所述当所述输出音量小于预设第一阈值且检测到人脸时，启动语音识别功能的步骤包括：

7.根据权利要求1所述的方法，其特征在于，所述响应用户语音操作包括：

8.一种人机交互装置，其特征在于，所述装置包括：

侦听模块，用于当侦听到用户语音时，采集用户语音消息；

响应模块，用于检测用户语音音量，并响应用户语音操作；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。