CN110647732B

CN110647732B - 一种基于生物识别特征的语音交互方法、系统、介质和设备

Info

Publication number: CN110647732B
Application number: CN201910872901.2A
Authority: CN
Inventors: 周曦; 张锦宇; 李继伟
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Wuhu Yuncong Technology Co ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2022-02-25
Anticipated expiration: 2039-09-16
Also published as: CN110647732A

Abstract

本发明提出一种基于生物识别特征的语音交互方法，包括：采集生物识别特征，根据所述生物识别特征控制语音交互过程，并通过语音管理界面，输出语音响应信息；其中，通过触发语音索引，进入语音管理界面，进行语音输入；本发明可有效增强用户体验，减少硬件处理过程，节约成本。

Description

一种基于生物识别特征的语音交互方法、系统、介质和设备

技术领域

本发明涉及人工智能控制领域，尤其涉及一种基于生物识别特征的语音交互方法、系统、介质和设备。

背景技术

在人机交互过程往往是通过输入输出设备实现人与计算机间的信息交换，人机交互系统依赖于各色各样的传感器，其中基于计算机视觉和音频信号处理的人机交互系统有着广泛的应用前景。

然而目前主流的人机交互系统大多集成了复杂的硬件结构，以处理音频和图像信息。待处理的信息量越大，对硬件的要求也就越高，这无疑极大地增加了人机交互系统的成本。此外，目前的人机交互系统在处理音频信号时，往往只是针对单一的音频信号进行处理，缺乏智能化控制，容易产生冗余音频信息，影响人机交互的效率。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种基于生物识别特征的语音交互方法、系统、介质和设备，主要解决音频处理过于依赖硬件设备成本高且缺乏智能化控制的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种基于生物识别特征的语音交互方法，包括：

采集生物识别特征，根据所述生物识别特征控制语音交互过程，并通过语音管理界面，输出语音响应信息；其中，通过触发语音索引，进入语音管理界面，进行语音输入。

可选地，所述语音索引包括网络链接、二维码。

可选地，触发语音索引的方式包括：点击所述网络链接、扫描二维码。

可选地，所述生物识别特征包括人脸特征、手势特征、指纹特征、音频特征。

可选地，识别所述生物识别特征，并根据识别结果获取所述语音管理界面的语音索引，根据所述语音索引启动语音管理界面。

可选地，设置所述语音索引的权限等级，根据所述识别结果获取对应权限的语音索引。

可选地，根据所述语音管理界面反馈的第一提示信息，提示用户进行语音输入。

可选地，设置停顿延迟，通过所述停顿延迟控制语音输入状态。

可选地，检测所述语音输入的停顿间隔，所述停顿间隔在所述停顿延迟范围内，则持续采集用户输入音频。

可选地，在所述停顿延迟内未检测到所述语音输入，输出第二提示信息，进而对语音输入状态进行核验。

可选地，所述第二提示信息至少包括结束确认信息、响应失效信息中的一种。

可选地，所述对语音输入状态进行核验包括：

采集特定生物识别特征；

识别所述特定生物识别特征，获取核验信息；

根据所述核验信息控制所述语音管理界面。

可选地，所述语音管理界面获取远端服务器中存储的第一提示信息。

可选地，所述第一提示信息至少包括界面文本提示信息、语音提示信息。

可选地，根据所述生物识别特征进行验证，并根据验证结果控制语音交互。

可选地，采集所述生物识别特征后，获取所述语音交互信息前，获取语音导引信息。

可选地，采集所述生物识别特征后，若验证通过，则触发身份特征业务的语音导引信息；若验证不通过，则触发访客特征业务的语音导引信息。

可选地，设置所述语音导引信息播放优先级高于其他语音信息。

可选地，根据所述生物识别特征控制语音交互中断。

可选地，在语音交互过程中持续检测所述生物识别特征，根据检测结果控制语音交互中断。

可选地，语音交互中断后，根据所述生物识别特征唤醒语音交互。

可选地，语音交互过程中未检测到所述生物识别特征时，设置语音交互中断时延，在所述中断时延内保持语音交互。

可选地，获取语音交互信息后，将所述语音交互信息发送至服务器端进行语音交互信息处理，并记录语音交互信息。

可选地，识别所述语音交互信息，获取结束语音交互的终止特征，根据所述终止特征控制语音交互的终断。

可选地，通过所述服务器将所述语音交互信息转换为文本信息进行实时显示。

可选地，根据所述采集的生物识别特征进行实时注册。

一种基于生物识别特征的语音交互系统，包括：

特征采集模块，用于采集生物识别特征；

交互控制模块，用于根据所述生物识别特征控制语音交互过程，并通过语音管理界面，输出语音响应信息；其中，通过触发语音索引，进入语音管理界面，进行语音输入。

可选地，所述特征采集模块包括图像采集单元、指纹采集单元、音频采集单元。

可选地，还包括识别模块，用于识别所述生物识别特征。

可选地，所述识别模块包括人脸识别单元、指纹识别单元、手势识别单元。

可选地，所述所述索引信息包括：网络链接、二维码。

可选地，用于根据所述音频管理界面反馈的第一提示信息，提示用户进行语音输入。

可选地，还包括显示模块，用于实时显示语音交互信息。

可选地，还包括延迟模块，用于设置停顿延迟，通过所述停顿延迟控制用户音频的输入状态。

可选地，还包括停顿检测模块，用于检测所述用户输入音频的停顿间隔，所述停顿间隔在所述停顿延迟范围内，则持续采集用户输入音频。

可选地，还包括实时注册模块，用于根据所述采集的生物识别特征进行实时注册。

可选地，还包括通信模块，用于与服务器建立连接。

一种设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行所述的智能控制的音频处理。

一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行所述的智能控制的音频处理。

如上所述，本发明一种基于生物识别特征的语音交互方法、系统、介质和设备，具有以下有益效果。

通过用户生物识别特征控制音频采集过程，引入智能化控制，增强用户个人体验的同时有效控制音频信号的输入；通过音频管理界面处理音频信息，减少音频信号处理过程对于硬件的依赖，可有效降低成本。

附图说明

图1为本发明一实施例中基于生物识别特征的语音交互方法的流程图。

图2为本发明一实施例中基于生物识别特征的语音交互系统的模块图。

图3为本发明一实施例中终端设备的结构示意图。

图4为本发明另一实施例中终端设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种基于生物识别特征的语音交互方法，包括步骤S01-S02。

在步骤S01中，采集生物识别特征：

在一实施例中，生物识别特征可包括人脸特征、手势特征、指纹特征、音频特征中的至少一种。如可通过手机、pad等移动终端的摄像模组采集用户人脸图像和手势图像时，并对图像进行特征提取，获取人脸特征和手势特征。以LBP局部二值模型特征提取算法为例，通过窗函数将图像划分为小块，以没一小块图像中某一像素作为中心像素点，定义像素点的8个邻域，以中心像素点的灰度值为阈值，将周围8个邻域像素点的灰度值与中心像素点的灰度值进行比较。如某邻域像素点的灰度值小于中心像素点的灰度值，则将该像素点位置标记为0，反之，则标记为1，以此方法计算得到一组二进制组合。统计每一小块图像中同一组二进制组合出现的频率直方图。连接所有小块的频率直方图，构建图像的特征向量。也可采用方向梯度直方图特征提取算法，对采集的人脸或手势图像进行特征提取，获取对应的用户生物识别特征。同样的，可通过手机等移动终端的指纹模组采集用户的指纹特征。在另一实施例中，也可通过在其他终端设备上设置采集图像、指纹、音频的装置，实时采集对应的用户生物识别特征。

在步骤S02中，根据生物识别特征控制语音交互过程，并通过语音管理界面，输出语音响应信息；其中，通过触发语音索引，进入语音管理界面，进行语音输入：：

将步骤S01获取的用户生物识别特征输入对应的识别模块进行特征识别。以人脸特征识别为例，将人脸特征输入预先训练好的人脸识别模型中，将采集的人脸特征与人脸特征库中对应的特征进行对比，获取当前用户人脸特征与特征库中人脸特征的匹配情况。根据匹配情况获取用户访问权限。如匹配成功，则根据用户访问权限，获取语音管理界面的语音索引信息。如匹配不成功，则切换为普通访客，获取对应权限的语音索引。

在一实施例中，根据用户身份类别可设置索引信息的不同权限等级，如注册用户可获取包含历史记录查询、修改、删除等功能的音频管理界面对应的索引信息，而普通访客，只能获取功能较为单一的音频管理界面对应的索引信息，如只能进行简单的音频录入等。

在一实施例中，用户也可直接通过语音输入“普通访客”，获取输入的音频特征，与语音库中对应的音频模板进行比对，匹配用户的普通访客权限，直接获取对应权限的索引信息。

在一实施例中，索引信息包括网络链接、二维码、验证码等。以网络链接为例，对用户的生物识别特征进行识别后，根据用户身份权限，获取对应的网络链接，用户打开网络链接，向服务器端发送访问请求，服务器端反馈对应的音频管理界面。当用户使用手机等移动终端时，可直接通过网络链接获取语音管理界面。在另一实施例中，可根据识别结果在手机端显示一个动态二维码，用户通过手机识别二维码，获取对应的语音管理界面。也可向手机端发送短信验证码，输入验证码获取语音管理界面。

在一实施例中，可设置语音索引的有效时间，在有效时间内，用户未进行对应操作则对应的索引信息自动失效。

服务器端响应用户请求，将对应的音频管理界面反馈给终端设备后，语音管理界面将第一提示信息发送给终端设备。第一提示信息可以包括文本提示信息和语音提示信息中至少一种。如将语音提示信息发送给音频播放器，提示用户点击语音管理界面某一按钮启动音频录入功能等。同样的也可通过界面提示对话框的形式文本提示信息，逐步引导用户执行相应操作。

启动语音管理界面后通过生物识别特征控制语音交互过程，以人脸图像处理为例，识别人脸图像进行身份验证。当采集的人脸图像与人脸数据库中人脸图像相匹配时，从数据库中提取与人脸图像对应的用户身份信息。当采集的人脸图像信息与人脸数据库中的人脸图像不匹配时，获取语音导引信息。可将语音导引信息发送给对应的音频处理设备进行音频播放。如当用户身份验证显示人脸不匹配时，通过导引信息提示用户正对摄像头，重新采集图像进行验证，或引导新用户进行注册。以新用户进行实时注册为例，当识别到对应特征库中不存在当前用户对应的特征时，获取导引信息，与当前用户确认是否需要注册，如用户选择注册，则引导当前用户将手指放在指定区域录入指纹，或调整位姿将脸部正对摄像头，采集脸部特征，并录入基本信息，逐步完成注册。

用户可分为专业用户和普通访客，专业用户需要登录获取特定权限，比如管理员可通过人脸验证，获取其他用户的语音交互记录。普通访客可以不需要注册，根据导引信息，选择以普通访客的身份进行信息查询。

在一实施例中，智能终端上也可设置红外感应器，红外感应器检测用户与智能终端的相对距离，当距离达到设定阈值时，发送命令唤醒对应的处于低功耗状态下的用户识别特征采集模块。

在一实施例中，设置语音导引信息的优先级高于其他语音信息。当需要播放语音导引信息时，检查音频传输信道是否被占用，如未被占用，则直接将语音导引信息经由音频传输信道发送给对应的音频播放器，播放音频导引信息，引导用户执行相应操作；如检测到音频传输信道被占用，则打断音频信道中传输的音频数据，优先传输语音导引数据。如当采集的人脸图像与人脸数据库中图像不匹配时，通过语音导引信息提示用户信息不匹配，是否需要进行实时注册等。

在一实施例中，语音导引信息可储存在服务器端，智能终端通过WiFi、蓝牙等方式与服务器建立连接，当需要进行语音导引时，从服务器端下载语音导引信息。

在一实施例中，当生物识别特征通过验证后，可获取语音导引信息，提示用户实时执行对应操作以启动语音交互功能。如点击手机端屏幕的某一图标，进入语音交互界面等。

在一实施例中，在进行语音交互前，可预先检测音频传输信道中是否正在传输语音导引信息或其他音频信息，如检测到语音导引信息，在用户执行语音导引信息对应的操作前，清除音频信道中的音频信息，避免音频信息对用户的语音交互造成干扰。

根据验证的用户身份权限，启动语音交互，在语音交互过程中，持续检测用户识别特征。以人脸特征检测为例，在指定区域内检测到用户人脸特征，则保持语音交互，若未监测到人脸特征，则根据需求中断语音交互。

在一实施例中，可设置中断时延，当未在指定区域采集到人脸图像时，启动中断时延，在中断时延内，仍保持正常的语音交互功能，即用户输入语音信息，仍可获取智能终端设备相应的语音反馈信息，当未检测到人脸图像的时间超过中断时延时，中断语音交互功能。

在一实施例中，可设置语音交互的中断时间阈值，在阈值范围内，可通过重新获取用户识别特征，唤醒语音交互功能。如设定中断时延为1分钟，中断时间阈值为5分钟，当用户暂离智能终端人脸采集区域的时间在1分钟到5分钟这一时间段时，用户可通过摄像头重新采集人脸，唤醒之前的语音交互功能，不必再经过验证引导以开启语音交互功能，也可继续完成之前未完成或只完成到一半的语音交互流程。用户也可通过指纹扫描等其他方式唤醒中断的语音交互流程。当用户离开时间超过5分钟时，智能终端自动终断当前语音交互流程。

在一实施例中，在语音交互过程中，获取用户输入的语音信息，并发送给服务器，通过服务器对用户输入的语音信息进行识别。将语音信息转化为文本信息，发送给智能终端进行实时显示。同时将根据语音信息获取的文本信息输入存储器，用于记录用户语音交互的内容，便于根据记录文本分析用户需求。且智能终端反馈给用户的信息出现问题时，也可根据记录信息进行有效调整。

在对用户输入的语音信息进行识别前，服务器通过音频处理器，对用户语音信息进行特征提取，可获取用户结束语音交互的终止特征，如“再见”、“关闭”等音频编码，服务器端匹配到对应的特征，则发送命令控制智能终端结束当前语音交互。

在一实施例中，智能终端也可通过获取用户的特定手势特征，输入服务器端，控制语音交互的终断。如在语音交互过程中，智能终端通过摄像头采集用户的手势特征，当用户做出双手交叉的手势时，服务器端将该手势特征与手势特征库中的特征进行比对，获取双手交叉的手势对应的控制命令。以双手交叉的手势表示结束当前语音交互，则服务器端发送控制命令给智能终端，终断当前语音交互。

在一实施例中，服务器端根据用户输入的语音信息，获取用户的需求信息，并根据需求信息，从数据库中获取对应的文本数据，将文本数据转换为语音数据发送给智能终端，通过智能终端的音频播放设备向用户播放对应的响应信息。如当用户通过语音输入“查询当月呆账”，服务器端从数据库中获取对应数据，并将数据转化为语音，通过语音播报当月呆账金额。

在一实施例中，在用户进行语音录入时，检测音频传输信道空闲的时间间隔，以确定用户输入音频的停顿间隔。设置停顿延迟机制，当检测的停顿间隔在停顿延迟范围内时，持续采集用户输入音频，音频传输信道状态保持占用状态。如可设置停顿延迟为3秒，用户音频输入突然暂停了2秒，用户暂停后仍可继续之前的音频输入，可有效保持音频录入的连续性。当检测到用户音频输入停顿，且在停顿延迟时间内未检测到新的音频输入时，音频管理界面可从服务器端获取第二提示信息。

在一实施例中，第二提示信息也可包括结束确认信息、响应失效信息，通过通过结束确认信息引导用户核验音频输入状态。如通过语音播放第二提示信息，提示用户确认是否完成音频录入，可通过显示界面提供确认选项供用户选择。

在一实施例中，也可通过结束确认信息引导用户输入的特定的生物识别特征，如特定手势、眨眼、特定语音等。以用户输入特定语音信息为例，通过音频处理装置接收用户的语音验证信息，进行简单指令的识别，如“完成”、“未完成”、“等待”等音频指令。

在一实施例中，在展示第二提示信息后，可设置响应时间，在响应时间内未接收到用户的任何输入信息，则向用户发送响应失效信息，并结束音频采集。语音管理界面将所述音频文件发送至服务器端进行进一步的音频处理，包括音频识别及信息反馈等。

请参阅图2，本实施例提供一种音频处理系统，用于执行前述方法实施例中所述的音频处理方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似，因而不再对同样的技术细节做重复性赘述。

在一实施例中，音频处理系统包括特征采集模块10和交互控制模块11。特征采集模块10用于辅助执行前述方法实施例介绍的步骤S01，交互控制模块11用于辅助执行前述方法实施例介绍的步骤S02。

在一实施例中，特征采集模块10包括图像采集单元、指纹采集单元和音频采集单元。图像采集单元可用于采集用户人脸图像和手势图像，同样的，指纹采集单元和音频采集单元可分别用于采集指纹和音频输入信息。根据采集的图像、指纹和音频，经过特征提取后，分别获取对应的用户生物识别特征。

在一实施例中，系统还包括识别模块，智能终端将采集的用户识别特征输入识别模块中进行对应特征的识别，识别模块包括人脸识别单元、指纹识别单元、和手势识别单元。以人脸特征识别为例，将人脸特征输入预先训练好的人脸识别模型中，将采集的人脸特征与人脸特征库中对应的特征进行对比，获取当前用户人脸特征与特征库中人脸特征的匹配情况。索引获取单元根据特征匹配情况获取用户访问权限。如匹配成功，则根据用户访问权限，获取音频管理界面的索引信息。如匹配不成功，则切换为普通访客，获取对应权限的索引信息。根据用户身份类别可设置索引信息的不同权限等级，如注册用户可获取包含历史记录查询、修改、删除等功能的音频管理界面对应的索引信息，而普通访客，只能获取功能较为单一的音频管理界面对应的索引信息，如只能进行简单的音频录入等。索引识别单元识别对应权限等级的索引信息，根据索引信息启动音频管理界面。索引信息包括网络链接、二维码、验证码等。以网络链接为例，对用户的生物识别特征进行识别后，根据用户身份权限，获取对应的网络链接，用户打开网络链接，向服务器端发送访问请求，服务器端反馈对应的音频管理界面。当用户使用手机等移动终端时，可直接通过网络链接获取音频管理界面。在另一实施例中，可根据识别结果在手机端显示一个动态二维码，用户通过手机识别二维码，获取对应的音频管理界面。也可向手机端发送短信验证码，输入验证码获取音频管理界面。

在一实施例中，系统还包括提示模块，导引模块用于获取第一提示信息和第二提示信息，第一提示信息和第二提示信息可以为文本提示信息，也可为语音提示信息。

在一实施例中，系统还包括停顿检测模块和延迟模块，在用户进行音频录入时，停顿检测模块检测音频传输信道空闲的时间间隔，确定用户输入音频的停顿间隔。延迟模块设置停顿延迟机制，当检测的停顿间隔在停顿延迟范围内时，持续采集用户输入音频，音频传输信道状态保持占用状态。如可设置停顿延迟为3秒，用户音频输入突然暂停了2秒，用户暂停后仍可继续之前的音频输入，可有效保持音频录入的连续性。当检测到用户音频输入停顿，且在停顿延迟时间内未检测到新的音频输入时，音频管理界面可从服务器端获取第二提示信息。

在一实施例中，系统还包括通信模块、显示模块、导引模块和实时注册模块。

以人脸特征处理为例，特征采集模块10将获取的用户识别特征通过通信模块发送给服务器端的识别模块，通过识别模块识别人脸图像进行身份验证。当采集的人脸图像与人脸数据库中人脸图像相匹配时，从数据库中提取与人脸图像对应的用户身份信息。当采集的人脸图像信息与人脸数据库中的人脸图像不匹配时，通过导引模块获取语音导引信息，并将语音导引信息发送给对应的音频处理设备进行音频播放。如当用户身份验证显示人脸不匹配时，通过导引信息提示用户正对摄像头，重新采集图像进行验证，或引导新用户进行注册。以新用户进行实时注册为例，当识别到对应特征库中不存在当前用户对应的特征时，导引模块获取导引信息，与当前用户确认是否需要注册，如果用户选择注册，则引导当前用户通过实施注册模块进行新用户注册，如引导用户将手指放在指定区域录入指纹，或调整位姿将脸部正对摄像头，采集脸部特征，并录入基本信息，逐步完成注册。

在语音交互过程中，智能终端设备通过音频采集器采集用户输入的语音信息，并发送给服务器，通过服务器对用户输入的语音信息进行识别。将语音信息转化为文本信息，发送给智能终端进行实时显示。同时将根据语音信息获取的文本信息输入存储器，用于记录用户语音交互的内容，便于根据记录文本分析用户需求。且智能终端反馈给用户的信息出现问题时，也可根据记录信息进行有效调整。

本申请实施例还提供了一种设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中基于生物识别特征的语音交互方法所包含步骤的指令(instructions)。

图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图4为本申请的另一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第一处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述图1所示方法的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。

综上所述，本发明一种基于生物识别特征的语音交互方法、系统、介质和设备，通过生物特征识别控制音频采集过程，增加智能化控制可有效增强用户体验；识别用户输入间隔控制音频采集过程，不需要对音频内容进行过多处理，可有效简化音频采集过程；通过音频管理界面进行音频处理，减少对于硬件的依赖，可有效节约成本。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于生物识别特征的语音交互方法，其特征在于，包括：

采集生物识别特征，识别所述生物识别特征，并根据识别结果获取语音管理界面的语音索引，根据所述语音索引启动语音管理界面；采集所述生物识别特征后，若验证通过，则触发身份特征业务的语音导引信息；若验证不通过，则触发访客特征业务的语音导引信息；

根据所述生物识别特征控制语音交互过程，根据所述生物识别特征控制语音交互中断，语音交互过程中未检测到所述生物识别特征时，设置语音交互中断时延，在所述中断时延内保持语音交互；并通过语音管理界面，输出语音响应信息，包括在语音交互过程中持续检测所述生物识别特征，根据检测结果控制语音交互中断；其中，通过触发语音索引，进入所述语音管理界面，进行语音输入，设置停顿延迟，通过所述停顿延迟控制语音输入状态，检测所述语音输入的停顿间隔，所述停顿间隔在所述停顿延迟范围内，则持续采集用户输入音频。

2.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，所述语音索引包括网络链接、二维码。

3.根据权利要求2所述的基于生物识别特征的语音交互方法，其特征在于，触发语音索引的方式包括：点击所述网络链接、扫描二维码。

4.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，所述生物识别特征包括人脸特征、手势特征、指纹特征、音频特征。

5.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，设置所述语音索引的权限等级，根据所述识别结果获取对应权限的语音索引。

6.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，根据所述语音管理界面反馈的第一提示信息，提示用户进行语音输入。

7.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，在所述停顿延迟内未检测到所述语音输入，输出第二提示信息，进而对语音输入状态进行核验。

8.根据权利要求7所述的基于生物识别特征的语音交互方法，其特征在于，所述第二提示信息至少包括结束确认信息、响应失效信息中的一种。

9.根据权利要求7所述的基于生物识别特征的语音交互方法，其特征在于，所述对语音输入状态进行核验包括：

采集特定生物识别特征；

识别所述特定生物识别特征，获取核验信息；

根据所述核验信息控制所述语音管理界面。

10.根据权利要求6所述的基于生物识别特征的语音交互方法，其特征在于，所述语音管理界面获取远端服务器中存储的第一提示信息。

11.根据权利要求10所述的基于生物识别特征的语音交互方法，其特征在于，所述第一提示信息至少包括界面文本提示信息、语音提示信息。

12.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，根据所述生物识别特征进行验证，并根据验证结果控制语音交互。

13.根据权利要求12所述的基于生物识别特征的语音交互方法，其特征在于，采集所述生物识别特征后，获取语音交互信息前，获取语音导引信息。

14.根据权利要求13所述的基于生物识别特征的语音交互方法，其特征在于，设置所述语音导引信息播放优先级高于其他语音信息。

15.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，语音交互中断后，根据所述生物识别特征唤醒语音交互。

16.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，获取语音交互信息后，将所述语音交互信息发送至服务器端进行语音交互信息处理，并记录语音交互信息。

17.根据权利要求16所述的基于生物识别特征的语音交互方法，其特征在于，识别所述语音交互信息，获取结束语音交互的终止特征，根据所述终止特征控制语音交互的中断。

18.根据权利要求16所述的基于生物识别特征的语音交互方法，其特征在于，通过所述服务器将所述语音交互信息转换为文本信息进行实时显示。

19.根据权利要求1所述的基于生物识别特征的语音交互方法，其特征在于，根据采集的生物识别特征进行实时注册。

20.一种基于生物识别特征的语音交互系统，其特征在于，包括：

特征采集模块，用于采集生物识别特征，识别所述生物识别特征，并根据识别结果获取语音管理界面的语音索引，根据所述语音索引启动语音管理界面；采集所述生物识别特征后，若验证通过，则触发身份特征业务的语音导引信息；若验证不通过，则触发访客特征业务的语音导引信息；

交互控制模块，用于根据所述生物识别特征控制语音交互过程，根据所述生物识别特征控制语音交互中断，语音交互过程中未检测到所述生物识别特征时，设置语音交互中断时延，在所述中断时延内保持语音交互；并通过语音管理界面，输出语音响应信息，包括在语音交互过程中持续检测所述生物识别特征，根据检测结果控制语音交互中断；其中，通过触发语音索引，进入所述语音管理界面，进行语音输入，设置停顿延迟，通过所述停顿延迟控制语音输入状态，检测所述语音输入的停顿间隔，所述停顿间隔在所述停顿延迟范围内，则持续采集用户输入音频。

21.根据权利要求20所述的基于生物识别特征的语音交互系统，其特征在于，所述特征采集模块包括图像采集单元、指纹采集单元、音频采集单元。

22.根据权利要求20所述的基于生物识别特征的语音交互系统，其特征在于，还包括识别模块，用于识别所述生物识别特征。

23.根据权利要求22所述的基于生物识别特征的语音交互系统，其特征在于，所述识别模块包括人脸识别单元、指纹识别单元、手势识别单元。

24.根据权利要求20所述的基于生物识别特征的语音交互系统，其特征在于，所述语音索引包括：网络链接、二维码。

25.根据权利要求20所述的基于生物识别特征的语音交互方法，其特征在于，触发语音索引的方式包括：点击网络链接、扫描二维码。

26.根据权利要求20所述的基于生物识别特征的语音交互系统，其特征在于，还包括提示模块，用于根据所述语音管理界面反馈的第一提示信息，提示用户进行语音输入。

27.根据权利要求20所述的基于生物识别特征的语音交互系统，其特征在于，还包括显示模块，用于实时显示语音交互信息。

28.根据权利要求20所述的基于生物识别特征的语音交互系统，其特征在于，还包括实时注册模块，用于根据采集的生物识别特征进行实时注册。

29.根据权利要求20所述的基于生物识别特征的语音交互系统，其特征在于，还包括通信模块，用于与服务器建立连接。

30.一种设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-19中一个或多个所述的方法。

31.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-19中一个或多个所述的方法。