CN109815804A

CN109815804A - 基于人工智能的交互方法、装置、计算机设备及存储介质

Info

Publication number: CN109815804A
Application number: CN201811553461.6A
Authority: CN
Inventors: 邱柏宏
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-28

Abstract

本发明公开一种基于人工智能的交互方法、装置、设备及介质，该基于人工智能的交互方法包括：获取客户端发送的人脸识别交互请求，将帧图像输入到预先配置好的人脸检测模型中进行识别，获取标准人脸图像；将标准人脸图像输入到人脸特征点检测模型中进行识别，获取人脸特征点；基于人脸特征点和识别维度，对标准人脸图像进行裁剪，获取待识别人脸图像，将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果；根据识别结果，查询与识别维度相对应的标准交互动作表，获取识别结果对应的目标交互动作，该方法可有效解决目前前端交互方式需依赖于硬件设备进行操作，导致用户操作不便且效率不高的问题。

Description

基于人工智能的交互方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于人工智能的交互方法、装置、设备及介质。

背景技术

随着信息时代的不断发展，手机、电脑和电视等电子设备得到了广泛的应用，极大地丰富人们的日常生活。当前的人机交互主要依赖于触摸屏、键盘或者鼠标等硬件设备来发出操作指令，例如，在触摸屏上进行滑动来浏览或阅读页面内容等。该种操作方式主要依赖于用户双手操作硬件设备，一旦用户双手因各种客户原因无法操作硬件设备，则不能继续进行人机交互，导致人机交互过程受到限制，使其操作不便。

发明内容

本发明实施例提供一种基于人工智能的交互方法、装置、计算机设备及存储介质，以解决目前人机交互方式主要依赖用户双手对硬件设备进行操作，导致用户操作不便的问题。

一种基于人工智能的交互方法，包括：

获取客户端发送的人脸识别交互请求，所述人脸识别交互请求包括帧图像和识别维度；

将所述帧图像输入到预先配置好的人脸检测模型中进行识别，获取标准人脸图像；

将所述标准人脸图像输入到人脸特征点检测模型中进行识别，获取人脸特征点；

基于所述人脸特征点和所述识别维度，对所述标准人脸图像进行裁剪，获取待识别人脸图像，将所述待识别人脸图像输入到与所述识别维度相对应的人脸识别模型进行识别，获取识别结果；

根据所述识别结果，查询与所述识别维度相对应的标准交互动作表，获取所述识别结果对应的目标交互动作，执行所述目标交互动作，在所述客户端上显示执行所述目标交互动作对应的交互界面。

一种基于人工智能的交互装置，包括：

人脸识别交互请求获取模块，用于获取客户端发送的人脸识别交互请求，所述人脸识别交互请求包括帧图像和识别维度；

标准人脸图像获取模块，用于将所述帧图像输入到预先配置好的人脸检测模型中进行识别，获取标准人脸图像；

人脸特征点获取模块，用于将所述标准人脸图像输入到人脸特征点检测模型中进行识别，获取人脸特征点；

识别结果获取模块，用于基于所述人脸特征点和所述识别维度，对所述标准人脸图像进行裁剪，获取待识别人脸图像，将所述待识别人脸图像输入到与所述识别维度相对应的人脸识别模型进行识别，获取识别结果；

目标交互动作获取模块，用于根据所述识别结果，查询与所述识别维度相对应的标准交互动作表，获取所述识别结果对应的目标交互动作，执行所述目标交互动作，在所述客户端上显示执行所述目标交互动作对应的交互界面。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于人工智能的交互方法。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于人工智能的交互方法。

上述基于人工智能的交互方法、装置、计算机设备及存储介质中，在获取客户端发送的人脸识别交互请求后，将其中的帧图像输入到预先配置好的人脸检测模型中进行识别，获取标准人脸图像，以排除不含人脸的图像的干扰。再将标准人脸图像输入到人脸特征点检测模型进行识别，获取人脸特征点，以便基于人脸特征点和人脸识别交互请求中的识别维度，对标准人脸图像进行裁剪，获取待识别人脸图像，以使获取到的待识别人脸图像具有针对性，有助于提高后续识别结果的准确性。然后，将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果，以避免采用泛化模型对待识别人脸图像进行识别的识别准确率较低的情况，提高识别结果的准确性。最后，根据识别结果查询与识别维度相对应的标准交互动作表，获取识别结果对应的目标交互动作，执行目标交互动作，在客户端上显示执行目标交互动作对应的交互界面，以实现将前端交互与人工智能结合进行交互的目的，无需人工干预，即可通过人工智能自动识别用户意图，方便操作，进而提高用户前端操作效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于人工智能的交互方法的一应用环境示意图；

图2是本发明一实施例中基于人工智能的交互方法的一流程图；

图3是步骤S14的一具体流程图；

图4是步骤S14的一具体流程图；

图5是步骤S14的一具体流程图；

图6是本发明一实施例中基于人工智能的交互方法的一流程图；

图7是本发明一实施例中基于人工智能的交互方法的一流程图；

图8是本发明一实施例中基于人工智能的交互装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于人工智能的交互方法，该基于人工智能的交互方法可应用在需要进行人机交互的应用程序或网站中，用于智能分析用户意图，无需依赖于用户双手操作硬件设备进行人机交互，释放用户双手。该基于人工智能的交互方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种基于人工智能的交互方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：获取客户端发送的人脸识别交互请求，人脸识别交互请求包括帧图像和识别维度。

其中，该基于人工智能的交互方法可应用在各领域需要进行人机交互的应用程序或网站中，用于智能分析用户意图，无需依赖硬件进行人机交互，释放用户双手。人脸识别交互请求是用于触发服务器通过人脸识别进行前端交互的请求。帧图像是指视频流中连续的视频帧所对应的视频图像。识别维度是指人脸识别交互的识别特征维度。本实施例中，识别维度包括但不限于眼动情况和头部姿态，以满足不同用户的行为习惯，灵活配置交互方式。眼动情况包括用户的眨眼情况、眨眼次数、眼睛中心位置相对于眼眶位置的转动角度(如眼睛向上转动或向下转动)。具体地，用户在进入网站或应用程序时可选择人脸识别的前端交互模式进行交互，同时，网站或应用程序会弹出提示信息，提示用户打开摄像头，以实时录制用户面部动作。同时，用户还需选择人脸识别的前端交互模式对应的识别维度，以使服务器获取客户端发送的人脸识别交互请求。

S12：将帧图像输入到预先配置好的人脸检测模型中进行识别，获取标准人脸图像。

其中，标准人脸图像是将帧图像输入到预先配置好的人脸检测接口进行识别所得到的人脸图片。本实施例中，人脸检测接口可采用CascadeCNN网络对标注好人脸位置的图片进行训练实现。

CascadeCNN(人脸检测)是对经典的Violajones方法的深度卷积网络实现，是一种检测速度较快的人脸检测方法。该Violajones是一种人脸检测框架。本实施例中，采用CascadeCNN方法对标注好人脸位置的图片进行训练，以实现人脸检测接口，提高了人脸检测的检测效率。具体地，将帧图像输入到预先配置好的人脸检测接口中，检测帧图像中的人脸位置，进而提取人脸图片，即标准人脸图像。

S13：将标准人脸图像输入到人脸特征点检测模型中进行识别，获取人脸特征点。

其中，人脸特征点是将标准人脸图像输入到特征点检测模型进行识别所得到的特征坐标点。该人脸特征点包括左眼、右眼、鼻尖、左嘴角和右嘴角等五个特征点。具体地，将标准人脸图像输入到特征点检测模型中进行识别，特征点检测模型会得出上述五个特征点的定位坐标。人脸特征点检测模型可采用DCNN网络对标注好人脸特征点位置的图片进行训练实现。DCNN(深度卷积神经网络)是一种深度卷积神经网络。

S14：基于人脸特征点和识别维度，对标准人脸图像进行裁剪，获取待识别人脸图像，将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果。

其中，识别结果是将待识别人脸图像输入到与识别维度相对应的人脸识别模型中进行识别所获取的结果。具体地，服务器基于人脸特征点的定位坐标按照用户预先选取的识别维度对标准人脸图像进行裁剪，获取待识别人脸图像，以便输入到与识别维度相对应的人脸识别模型中进行识别。本实施例中，待识别人脸图像包括但不限于眼部图像和脸部图像等。人脸识别模型包括但不限于头部姿态检测模型、眨眼检测模型和虹膜边缘检测模型。每一识别维度对应一人脸识别模型，通过采用与识别维度相对应的人脸识别模型进行识别，避免采用泛化模型对待识别人脸图像进行识别所导致的识别准确率较低的情况，提高识别结果的准确性。

S15：根据识别结果，查询与识别维度相对应的标准交互动作表，获取识别结果对应的目标交互动作，执行目标交互动作，在客户端上显示执行目标交互动作对应的交互界面。

其中，标准交互动作表是预先按照大多数用户行为习惯设置的交互动作对照表。该标准交互动作表与识别维度相对应，每一标准交互动作表包括识别结果和识别结果对应的目标交互动作，例如用户选取头部姿态作为识别维度，假设识别结果为头部姿态向上偏移，则根据识别结果，查找数据库中与头部姿态对应的标准交互动作表，获取与头部姿态向上偏移的目标交互动作(如：上翻)。

具体地，服务器在获取到目标交互动作后会执行目标交互动作，并在客户端上显示执行目标交互动作对应的交互界面，如显示上翻后的交互界面，通过根据识别结果查找与识别维度相对应的标准交互动作表，以实现将前端交互与人工智能结合进行交互的目的，无需人工干预，即可通过人工智能自动识别用户意图，提高用户前端操作效率，解放用户双手，并可有效解决部分特殊残疾人士无法通过手部动作操作前端页面的问题。

本实施例中，在获取客户端发送的人脸识别交互请求后，将其中的帧图像输入到预先配置好的人脸检测模型中进行识别，获取标准人脸图像，以排除不含人脸的图像的干扰。再将标准人脸图像输入到人脸特征点检测模型进行识别，获取人脸特征点，以便基于人脸特征点和人脸识别交互请求中的识别维度，对标准人脸图像进行裁剪，获取待识别人脸图像，以使获取到的待识别人脸图像具有针对性，有助于提高后续识别结果的准确性。然后，将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果，以避免采用泛化模型对待识别人脸图像进行识别的识别准确率较低的情况，提高识别结果的准确性。最后，根据识别结果查询与识别维度相对应的标准交互动作表，获取识别结果对应的目标交互动作，执行目标交互动作，在客户端上显示执行目标交互动作对应的交互界面，以实现将前端交互与人工智能结合进行交互的目的，无需人工干预，即可通过人工智能自动识别用户意图，提高用户前端操作效率，解放用户双手，并可有效解决部分特殊残疾人士无法通过手部动作操作前端页面的问题。

在一实施例中，人脸识别模型包括头部姿态检测模型。如图3所示，步骤S14中，即将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果，具体包括如下步骤：

S1411：若识别维度为头部姿态，则将待识别人脸图像输入到与头部姿态相对应的头部姿态检测模型中进行识别，获取至少一个头部姿态偏移方向的偏移概率值。

其中，偏移概率值是指待识别人脸图像中头部姿态偏移方向的概率值。头部姿态偏移方向包括上、下、左、右、前和后这6种头部姿态偏移方向。具体地，由于待识别人脸图像包括了用户当前的头部姿态，故将待识别人脸图像输入到预先训练好的头部姿态检测模型中进行识别，由于头部姿态检测模型是基于预先标注好头部姿态的人脸图像进行训练的，故头部姿态检测模型会根据当前用户的头部姿态进行检测，即可获取头部姿态检测模型输出的与每一头部姿态偏移方向对应的亲和度，即每一头部姿态偏移方向的概率值。

头部姿态检测模型可采用卷积神经网络对umdface数据库中的数据进行训练所获取到的模型。卷积神经网络(CNN)是一种多层神经网络，擅长处理图像尤其是大图像的相关机器学习问题。CNN的基本结构包括两层，卷积层和池化层。由于神经网络的层数越多，计算时间越长，头部姿态区别度较高，本实施例中，采用10层卷积神经网络能够实现在较短时间内达到训练精度要求。采用10层卷积神经网络对umdface数据库中的数据进行训练，以获取头部姿态检测模型，大大缩短了头部姿态检测模型的训练时间，提高模型识别的效率。其中，umdface数据库是一种包含不同人的人脸信息(如人脸框和人脸姿势)的图像数据库。

S1412：将大于头部偏移阈值的偏移概率值对应的头部姿态偏移方向作为识别结果。

其中，第一预设阈值为头部姿态偏移方向对应的阈值。可理解地，每一头部姿态偏移方向均对应一头部偏移阈值。具体地，若一头部姿态偏移方向的偏移概率值超过对应的头部偏移阈值，则确定当前人脸向对应方向偏移。本实施例中，通过得出目标客户的头部姿态能够很好地反映目标客户的意图，以便后续基于识别结果自动得知用户操作意图，无需手动操作，提高用户操作效率。

本实施例所提供的基于人工智能的交互方法中，服务器对识别维度进行判断，若识别维度为头部姿态，则将待识别人脸图像输入到与头部姿态相对应的头部姿态检测模型中进行识别，获取至少一个头部姿态偏移方向的偏移概率值，将大于头部偏移阈值的偏移概率值对应的头部姿态偏移方向作为识别结果，以便后续基于识别结果自动得知用户操作意图，无需手动操作，提高用户操作效率。

在另一实施例中，人脸识别模型包括眨眼检测模型和虹膜边缘检测模型。所述待识别人脸图像携带时序标签。如图4所示，步骤S14中，即将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果，具体包括如下步骤：

S1421：若识别维度为眼部动作，则将携带时序标签的待识别人脸图像输入到与眼部动作相对应的眨眼检测模型中进行识别，获取模型输出，根据预设时间范围对模型输出进行数量统计，获取预设时间范围内的眨眼次数。

S1422：若预设时间范围内的眨眼次数大于眨眼阈值，则将眨眼次数作为识别结果。

其中，模型输出是反映待识别人脸图像中的用户是否睁眼。具体地，将携带时序标签的待识别人脸图像输入到与眼部动作相对应的眨眼检测模型进行识别，眨眼检测模型会根据当前待识别人脸图像中的眼部张合程度进行识别，即可输出待识别人脸图像对应的模型输出，如0(睁眼)或1(闭眼)，通过对待识别人脸图像对应的模型输出进行数量统计，即可获取预设时间范围内的眨眼次数。例如，在预设时间范围内(如0.5s)对应的所有携带时序标签的待识别人脸图像中，每一携带时序标签的待识别人脸图像中均对应一模型输出(即0或者1)，其中，若预设时间范围内的模型输出序列为“01000100”，按照每三位为一组逐位向后统计，即得到“010”、“100”、“000”、“001”、“010”和“100”，当出现“010”，则可认为发生眨眼一次，则输出序列对应的眨眼次数为2次。由于正常状态下，在预设时间范围内用户眨眼次数不会超过眨眼阈值，通过对预设时间范围(即一段时间区间)内的模型输出序列进行数量统计，即可获取预设时间范围内的眨眼次数，并根据该眨眼次数与眨眼阈值的比较结果，以有效判断用户是否有操作意向。眨眼阈值是用于判定用户是否有操作意向的阈值。预设时间范围可根据经验值设定，如0.5s。一般来说，若预设时间范围内的眨眼次数大于眨眼阈值，则认定该用户具有操作意向。

具体地，如图5所示，步骤S14中，即将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果，还包括如下步骤：

S1423：若识别维度为眼部动作，则将待识别人脸图像输入到与眼部动作相对应的虹膜边缘检测模型中进行识别，获取眼动情况的识别概率值。

S1424：若识别概率值大于眼动阈值，则将识别概率值对应的眼动情况作为识别结果。

其中，眼动情况指眼睛中心相对应眼眶位置的转动情况，如眼镜中心向左移动或向右移动。具体地，在采用眨眼检测模型对待识别人脸图像进行识别的同时，服务器还会将待识别人脸图像输入到与眼部动作相对应的虹膜边缘检测模型中进行识别，以识别虹膜边缘的位置，虹膜边缘点围成的闭合区域的中心即为眼睛中心的准确位置，追踪眼睛中心位置相对于眼眶位置(特征点定位得到)的变化，即可得到眼睛中心位置相对于眼眶位置的转动角度即为眼动情况。一般来说，若虹膜边缘检测模型输出的眼睛转动角度对应的识别概率大于眼动阈值，则判定用户具有操作意向。眼动阈值是用于判定用户是否有明显眼动情况的阈值。

可理解地，眼部动作对应的人脸识别模型包括眨眼检测模型和虹膜边缘检测模型，若预设时间范围内的眨眼次数大于眨眼阈值，则认定该用户具有操作意向，则将眨眼次数作为识别结果如0.5s内眨眼2次。同时，检测用户的眼动情况，若用户有明显眼动情况，则将眼动情况作为识别结果，如眼睛向左看(即眼动情况)。以有效检测待识别人脸图像中用户的眼部动作，以智能分析用户操作意图，无需用户手动操作，以实现智能交互的目的。

本实施例中，若识别维度为眼部动作，则将待识别人脸图像分别输入到与眼部动作相对应的眨眼检测模型和虹膜边缘检测模型中进行识别，获取预设时间范围内的眨眼次数和眼动情况，并将眨眼次数和眼动情况作为识别结果，以有效检测待识别人脸图像中用户的眼部动作，以智能分析用户操作意图，无需用户手动操作，以实现智能交互的目的。

在一实施例中，如图6所示，步骤S15之后，该基于人工智能的交互方法还包括如下步骤：

S161：获取交互动作修改指令，交互动作修改指令包括用户ID、识别维度和与识别结果相对应的自定义交互动作。

其中，用户ID是用于识别用户的唯一标识。识别维度使当前用户所选择的识别维度。自定义交互动作是用户根据需要自定义的交互动作。交互动作修改指令是用户对标准交互动作表中的目标交互动作进行修改的指令，可在步骤S15，即在客户端上显示执行目标交互动作对应的交互界面的步骤之后被触发。具体地，在客户端上显示执行目标交互动作对应的交互界面的步骤之后，用户可直接手动操作自定义交互动作以使服务器获取交互动作修改指令。

例如，若用户选择头部姿态作为识别维度，其对应的识别结果为头部姿态偏移方向向上，其在标准交互动作表中对应的目标交互动作为“上翻”，由于不同用户的交互习惯不同，若用户需要将目标交互动作修改为“下翻”，则可直接在交互界面上点击动作修改按钮，以进入交互动作修改界面，在该交互动作修改界面显示根据识别结果和对应的目标交互动作，以便用户通过对该交互动作修改界面上显示的目标交互动作修改为自定义交互动作，并点击确定按钮，以输入交互动作修改指令。服务器会通过预先设置的屏幕监听事件进行监听，在预设有时长内当监听到用户触摸屏幕或操作页面时，获取用户当前的交互动作即自定义交互动作。其中，预设有效时间是预先设定的指在服务器在执行目标交互动作后，可对目标交互动作进行修改的有效市场。

需说明，用户若需要对目标交互动作进行修改，需注册并登录应用程序或网站才可有权限对目标交互动作进行修改。

S162：基于与识别结果相对应自定义交互动作更新与识别维度相对应的标准交互动作表，并将该更新后的标准交互动作表与用户ID关联存储。

具体地，当服务器接收到交互动作修改指令时，会先根据识别维度查找与识别维度相对应的标准交互动作表，获取与识别结果对应的头部姿态或眼动情况，将头部姿态或眼动情况对应的目标交互动作更改为自定义交互动作，以更新标准交互动作表，并将该更新后的标准交互动作表与用户ID关联存储，以实现个性化配置交互动作的目的，更加符合用户行为习惯，提高用户操作效率。

本实施例中，服务器通过获取交互动作修改指令，以便根据自定义交互动作更新与识别维度相对应的标准交互动作表，并将该更新后的标准交互动作表与用户ID关联存储，以实现个性化配置交互动作的目的，更加符合用户行为习惯，提高用户操作效率。

在一实施例中，如图7所示，该基于人工智能的交互方法还包括如下步骤：

S171：获取模式切换配置指令，模式切换配置指令包括识别维度和自定义切换动作。

其中，模式切换配置指令是用于触发服务器对人脸模式切换指令进行配置的指令。自定义切换动作是由用户自定义的切换动作。具体地，用户模式切换配置页面中，选择所需修改的识别维度，并对识别维度对应的默认切换动作进行修改，以使服务器获取模式切换配置指令。本实施例中前端交互模式包括人脸识别交互和语音交互两种前端交互模式。人脸模式切换指令是用于触发服务器从人脸识别交互模式切换到语音交互模式的切换指令。需说明，由于人脸识别交互模式中包括两种识别维度，因此系统提供模式切换配置功能，以使用户可根据不同的操作习惯自定义切换动作，而从语音交互模式切换为人脸识别交互模式的切换指令则无需进行配置，可直接根据原始语音得知用户的切换意图。

S172：基于模式切换配置指令查找数据库，获取与识别维度相对应的模式切换信息表。

其中，模式切换信息表是预先设置的包括不同识别维度对应的默认切换动作的信息表。默认切换动作是开发人员预先配置的切换动作。可理解地，该模式切换信息表包括识别维度和对应的默认切换动作，如眼部动作对应的默认切换动作为0.5s眨眼2次。

S173：将模式切换信息表中的默认切换动作替换为自定义切换动作，以完成模式切换配置。

具体地，将模式切换信息表中的默认切换动作替换为自定义切换动作，以完成模式切换配置，以实现个性化配置前端交互动作，提高用户操作效率。

本实施例中，服务器获取模式切换配置指令，基于模式切换配置指令查找数据库，获取与式切换配置指令中的识别维度相对应的模式切换信息表，以便将模式切换信息表中的默认切换动作替换为自定义切换动作，以实现个性化配置前端交互动作，提高用户操作效率。

在一实施例中，如图2所示，步骤S11之前，该基于人工智能的交互方法还包括如下步骤：

S21：获取前端交互请求，前端交互请求包括前端交互模式。

其中，前端交互请求是用于触发服务器进行前端交互的请求。具体地，用户可在应用程序或网站中，根据自身需要选择所需的前端交互模式，以使服务器获取前端交互请求，以便后续基于用户选择的前端交互模式进行人机交互。该前端交互模式包括人脸识别交互模式和语音交互模式。人脸识别交互是指基于用户人脸特征进行人机交互的模式。语音交互是指基于用户通过语音模块录制的语音信息进行人机交互的模式。用户可根据需要自行选取前端交互模式，充分满足用户需要。

S22：若前端交互模式为人脸识别交互，则控制客户端进入人脸交互界面，以执行获取客户端发送的人脸识别交互请求的步骤。

可以理解地，在前端交互模式为人脸识别交互的情况下，可控制客户端进入启动人脸采集模块，以执行上述实施例的具体步骤，为避免重复，在此不一一赘述。

S23：若前端交互模式为语音交互，则控制客户端启动语音采集模块，获取客户端发送的语音交互请求，语音交互请求包括原始语音。

其中，原始语音是指采用客户端的语音采集模块实时采集到的未经处理的语音信息，如“向上翻页”、“点击”以及“放大网页”等。具体地，若前端交互模式为语音交互，则控制客户端启动语音采集模块，以进入语音前端交互模式，用户可通过程序中提供的语音采集模块(如麦克风)录入原始语音，以使服务器获取语音交互请求。

S24：对原始语音进行降噪处理，获取目标语音。

具体地，由于由语音采集模块采集到原始语音一般都带有噪声，包括背景环境中的噪声以及前端设备(如，麦克风)录音过程中产生的噪声。这些携带噪声的原始语音在进行语音识别时，会影响语音识别的准确性，因此，需要对原始语音进行降噪处理，以从该语音信号中尽可能提取到更纯净的原始语音，使语音识别更加准确。其中，对原始语音进行降噪的方法包括但不限于采用谱减法、EEMD分解算法和SVD奇异值算法等。

S25：对目标语音进行特征提取，获取语音特征。

本实施例中，语音特征包括但不限于采用滤波器特征。滤波器(Filter-Bank，简称Fbank)特征是语音识别过程中常用的语音特征。由于现有技术中常用的梅尔特征在进行模型识别过程中会对信息进行降维处理，导致部分信息的丢失，为避免上述问题出现，本案中采用滤波器特征代替常用的梅尔特征。

S26：将语音特征输入到预先配置好的语音识别模型中进行识别，获取识别文本。

可理解，语音识别模型包括预先训练好的声学模型和语言模型。其中，声学模型是用来获取目标语音特征对应的音素序列。音素是由语音中最小的单位，可理解为汉字里面的拼音。例如：汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等。声学模型的训练方法包括但不限于采用GMM-HMM(混合高斯模型)进行训练。语言模型是用于将音素序列转换为自然语言文本的模型。具体地，服务器将语音特征输入到预先训练好的声学模型中进行识别，获取目标语音特征对应的音素序列，然后将获取的音素序列输入到预先训练好的语言模型中进行转换，获取对应的识别文本。

S27：采用关键词匹配算法对识别文本进行关键词匹配，获取目标关键词。

S28：基于目标关键词查询预先设置的标准交互关键词表，获取目标交互动作，执行目标交互动作，在客户端上显示执行目标交互动作对应的交互界面。

其中，标准交互关键词表包括预设关键词和对应的目标交互动作。预设关键词是预先设置好的关键词如“向上”、“上翻”、“向下”、“下翻”、“点击”等。目标关键词是指识别文本中包括的预设关键词。关键词匹配算法包括但不限于采用DFA算法、AC自动机和KMP(Knuth-Morris-Pratt，努特-莫里斯-普拉特)算法。本实施例中，采用AC自动机对识别文本进行关键词匹配。AC(Aho-Corasick)自动机是一种字典匹配算法，它用于在输入文本(即识别文本)中查找标准交互关键词表中的目标关键词，以获取目标交互动作。该AC自动机应用有限自动机巧妙地将字符比较转化为了状态转移，时间复杂度是线性的，算法效率快，提高目标交互动作的获取效率。

本实施例中，通过获取前端交互模式，对交互模式进行判断，若交互模式为人脸识别交互，则控制客户端启动人脸采集模块(如，摄像头)，以执行获取客户端发送的人脸识别交互请求的步骤。若前端交互模式为语音交互，则控制客户端启动语音采集模块，以获取客户端发送的语音交互请求，以便对语音交互请求中的原始语音进行降噪处理，获取目标语音，排除噪音干扰。接着，对目标语音进行特征提取，获取语音特征，以便将语音特征输入到预先配置好的语音识别模型中进行识别，获取识别文本，以实现结合人工智能进行前端交互的目的。最后，基于预先设置的标准交互关键词表，采用关键词匹配算法对识别文本进行关键词匹配，获取目标交互动作，以实现自动识别用户意图的目的，解放用户双手，并可有效解决部分特殊残疾人士无法通过手部动作操作前端页面的问题。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于人工智能的交互装置，该基于人工智能的交互装置与上述实施例中基于人工智能的交互方法一一对应。如图8所示，该基于人工智能的交互装置包括人脸识别交互请求获取模块11、标准人脸图像获取模块12、人脸特征点获取模块13、识别结果获取模块14、目标交互动作获取模块15、前端交互请求获取模块21、第一前端交互请求处理模块22、第二前端交互请求处理模块23和目标语音获取模块24。各功能模块详细说明如下：

人脸识别交互请求获取模块11，用于获取客户端发送的人脸识别交互请求，人脸识别交互请求包括帧图像和识别维度。

标准人脸图像获取模块12，用于将帧图像输入到预先配置好的人脸检测模型中进行识别，获取标准人脸图像。

人脸特征点获取模块13，用于将标准人脸图像输入到人脸特征点检测模型中进行识别，获取人脸特征点。

识别结果获取模块14，用于基于人脸特征点和识别维度，对。标准人脸图像进行裁剪，获取待识别人脸图像，将待识别人脸图像输入到与识别维度相对应的人脸识别模型进行识别，获取识别结果。

目标交互动作获取模块15，用于根据识别结果，查询与识别维度相对应的标准交互动作表，获取识别结果对应的目标交互动作，执行目标交互动作，在客户端上显示执行目标交互动作对应的交互界面。

前端交互请求获取模块21，用于获取前端交互请求，前端交互请求包括前端交互模式。

第一前端交互请求处理模块22，用于若前端交互模式为人脸识别交互模式，则控制客户端启动人脸采集模块，以执行获取客户端发送的人脸识别交互请求的步骤。

第二前端交互请求处理模块23，用于若前端交互模式为语音交互模式，则控制客户端启动语音采集模块，以获取客户端发送的语音交互请求，语音交互请求包括原始语音。

目标语音获取模块24，用于对原始语音进行降噪处理，获取目标语音。

语音特征获取模块25，用于对目标语音进行特征提取，获取语音特征。

识别文本获取模块26，用于将语音特征输入到预先配置好的语音识别模型中进行识别，获取识别文本。

目标关键词获取模块27，用于采用关键词匹配算法对识别文本进行关键词匹配，获取目标关键词。

目标交互动作获取模块28，用于基于目标关键词查询预先设置的标准交互关键词表，获取目标交互动作，执行目标交互动作，在客户端上显示执行目标交互动作对应的交互界面。

具体地，人脸识别模型包括头部姿态检测模型；识别结果获取模块包括偏移概率值获取单元和识别结果获取单元。

偏移概率值获取单元，用于若识别维度为头部姿态，则将待识别人脸图像输入到与头部姿态相对应的头部姿态检测模型中进行识别，获取至少一个头部姿态偏移方向的偏移概率值。

识别结果获取单元，用于将大于头部偏移阈值的偏移概率值对应的头部姿态偏移方向作为识别结果。

具体地，人脸识别模型包括眨眼检测模型，待识别人脸图像携带时序标签；识别结果获取模块包括眨眼次数获取单元和第一识别结果获取单元。

眨眼次数获取单元，用于若识别维度为眼部动作，则将携带时序标签的待识别人脸图像输入到与眼部动作相对应的眨眼检测模型中进行识别，获取模型输出，根据预设时间范围对模型输出进行数量统计，获取预设时间范围内的眨眼次数。

第一识别结果获取单元，用于若预设时间范围内的眨眼次数大于眨眼阈值，则将眨眼次数作为识别结果。

具体地，人脸识别模型还包括虹膜边缘检测模型，识别结果获取模块包括识别概率值获取单元和识别结果获取单元。

识别概率值获取单元，用于若识别维度为眼部动作，则将待识别人脸图像输入到与眼部动作相对应的虹膜边缘检测模型中进行识别，获取眼动情况的识别概率值。

第二识别结果获取单元，用于若识别概率值大于眼动阈值，则将识别概率值对应的眼动情况作为识别结果。

具体地，该基于人工智能的交互装置还包括交互动作修改指令获取单元和标准交互动作表更新单元。

交互动作修改指令获取单元，用于获取交互动作修改指令，交互动作修改指令包括用户ID、识别维度和与识别结果相对应的自定义交互动作。

标准交互动作表更新单元，用于基于与识别结果相对应自定义交互动作更新与识别维度相对应的标准交互动作表，并将该更新后的标准交互动作表与用户ID关联存储。

具体地，该基于人工智能的交互装置还包括模式切换配置指令获取单元、模式切换信息表获取单元和模式切换配置单元。

模式切换配置指令获取单元，用于获取模式切换配置指令，模式切换配置指令包括识别维度和自定义切换动作。

模式切换信息表获取单元，用于基于模式切换配置指令查找数据库，获取与识别维度相对应的模式切换信息表。

模式切换配置单元，用于将模式切换信息表中的默认切换动作替换为自定义切换动作，以完成模式切换配置。

关于基于人工智能的交互装置的具体限定可以参见上文中对于基于人工智能的交互方法的限定，在此不再赘述。上述基于人工智能的交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络模型和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于人工智能的交互方法过程中生成或获取的数据，如目标交互动作。该计算机设备的网络模型用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的交互方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的基于人工智能的交互方法的步骤，例如图2所示的步骤，或者图3至图7中所示的步骤。或者，处理器执行计算机程序时实现基于人工智能的交互装置这一实施例中的各模块/单元的功能，例如图8所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一非易失性存储介质，该非易失性存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中用户帐号解锁方法的步骤，例如图2所示的步骤，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述基于人工智能的交互装置这一实施例中的各模块/单元的功能，例如图8所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的交互方法，其特征在于，包括：

2.如权利要求1所述的基于人工智能的交互方法，其特征在于，所述人脸识别模型包括头部姿态检测模型；

所述将所述待识别人脸图像输入到与所述识别维度相对应的人脸识别模型进行识别，获取识别结果，包括：

若所述识别维度为头部姿态，则将所述待识别人脸图像输入到与所述头部姿态相对应的头部姿态检测模型中进行识别，获取至少一个头部姿态偏移方向的偏移概率值；

将大于头部偏移阈值的所述偏移概率值对应的头部姿态偏移方向作为所述识别结果。

3.如权利要求1所述的基于人工智能的交互方法，其特征在于，所述人脸识别模型包括眨眼检测模型；所述待识别人脸图像携带时序标签；

若所述识别维度为眼部动作，则将所述携带时序标签的待识别人脸图像输入到与所述眼部动作相对应的眨眼检测模型中进行识别，获取眨眼结果，根据预设时间范围对所述眨眼结果进行数量统计，获取预设时间范围内的眨眼次数；

若所述预设时间范围内的眨眼次数大于眨眼阈值，则将所述眨眼次数作为所述识别结果。

4.如权利要求1所述的基于人工智能的交互方法，其特征在于，所述人脸识别模型包括虹膜边缘检测模型；

若所述识别维度为眼部动作，则将所述待识别人脸图像输入到与所述眼部动作相对应的虹膜边缘检测模型中进行识别，获取眼动情况的识别概率值；

若所述识别概率值大于眼动阈值，则将所述识别概率值对应的眼动情况作为所述识别结果。

5.如权利要求1所述的基于人工智能的交互方法，其特征在于，在所述客户端上显示执行所述目标交互动作对应的交互界面的步骤之后，所述基于人工智能的交互方法还包括：

获取交互动作修改指令，所述交互动作修改指令包括用户ID、识别维度和与所述识别结果相对应的自定义交互动作；

基于所述与所述识别结果相对应自定义交互动作更新与所述识别维度相对应的标准交互动作表，并将该更新后的标准交互动作表与用户ID关联存储。

6.如权利要求1所述的基于人工智能的交互方法，其特征在于，所述基于人工智能的交互方法还包括：

获取模式切换配置指令，所述模式切换配置指令包括识别维度和自定义切换动作；

基于所述模式切换配置指令查找数据库，获取与所述识别维度相对应的模式切换信息表；

将所述模式切换信息表中的默认切换动作替换为所述自定义切换动作，以完成模式切换配置。

7.如权利要求1所述的基于人工智能的交互方法，其特征在于，在所述获取客户端发送的人脸识别交互请求之前，所述基于人工智能的交互方法还包括：

获取前端交互请求，所述前端交互请求包括前端交互模式；

若所述前端交互模式为人脸识别交互模式，则控制所述客户端启动人脸采集模块，以执行所述获取客户端发送的人脸识别交互请求的步骤；

若所述前端交互模式为语音交互模式，则控制所述客户端启动语音采集模块，以获取客户端发送的语音交互请求，所述语音交互请求包括原始语音；

对所述原始语音进行降噪处理，获取目标语音；

对所述目标语音进行特征提取，获取语音特征；

将所述语音特征输入到预先配置好的语音识别模型中进行识别，获取识别文本；

采用关键词匹配算法对所述识别文本进行关键词匹配，获取目标关键词；

基于所述目标关键词查询预先设置的标准交互关键词表，获取目标交互动作，执行所述目标交互动作，在所述客户端上显示执行所述目标交互动作对应的交互界面。

8.一种基于人工智能的交互装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于人工智能的交互方法。

10.一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于人工智能的交互方法。