CN114822554A

CN114822554A - 基于语音的交互处理方法及装置

Info

Publication number: CN114822554A
Application number: CN202210460865.0A
Authority: CN
Inventors: 赵鹏飞
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-07-29
Anticipated expiration: 2042-04-28
Also published as: CN114822554B

Abstract

本说明书实施例提供了基于语音的交互处理方法及装置，其中，一种基于语音的交互处理方法包括：在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互；基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得；确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏；基于所述目标显示屏执行所述交互指令的交互处理。

Description

基于语音的交互处理方法及装置

技术领域

本文件涉及数据处理技术领域，尤其涉及一种基于语音的交互处理方法及装置。

背景技术

随着互联网经济的不断发展，越来越多的销售行业开始引进电子收银机，如商场、超市、餐饮连锁等等，使用电子收银机进行点单、结算、收款，提高结算效率，实现现代化、自动化管理。用户与电子收银机的人机交互方式主要通过物理点击完成，通过电子收银机的显示屏展示商品详情，进而完成点单和支付。语音作为IoT设备进行人机交互的重要方式，在电子收银机上的应用场景却不多。

发明内容

本说明书一个或多个实施例提供了一种基于语音的交互处理方法，包括：在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互。基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得。确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏。基于所述目标显示屏执行所述交互指令的交互处理。

本说明书一个或多个实施例提供了一种基于语音的交互处理装置，包括：身份识别模块，被配置为在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互。交互指令查询模块，被配置为基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得。交互类型确定模块，被配置为确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏。交互处理模块，被配置为基于所述目标显示屏执行所述交互指令的交互处理。

本说明书一个或多个实施例提供了一种基于语音的交互处理设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互。基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得。确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏。基于所述目标显示屏执行所述交互指令的交互处理。

本说明书一个或多个实施例提供了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互。基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得。确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏。基于所述目标显示屏执行所述交互指令的交互处理。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；

图1为本说明书一个或多个实施例提供的一种基于语音的交互处理方法处理流程图；

图2为本说明书一个或多个实施例提供的一种应用于收银台场景的基于语音的交互处理方法处理流程图；

图3为本说明书一个或多个实施例提供的一种基于语音的交互处理装置示意图；

图4为本说明书一个或多个实施例提供的一种基于语音的交互处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

本说明书提供的一种基于语音的交互处理方法实施例：

参照图1，本实施例提供的基于语音的交互处理方法，具体包括步骤S102至步骤S108。

步骤S102，在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别。

实际应用中，用户通过语音唤醒IoT设备的过程中，需要设置固定唤醒词，以该固定唤醒词激活语音识别功能，实现与IoT设备的语音交互，但在收银台场景中，用户操作收银设备属于高频操作，若总是利用固定唤醒词先唤醒收银设备，再根据需求操作收银设备，则会导致用户与收银设备的交互效率较低，进而导致用户与收银设备的交互体验不佳。

本实施例提供的基于语音的交互处理方法，用户在与收银设备进行语音交互的过程中，无需设置固定唤醒词，可灵活输入语音信息，提升语音交互的灵活性，收银设备检测用户输入的语音信息，对检测到的用户的语音信息进行声纹特征提取，并基于提取的声纹特征对用户进行身份识别，在识别获得用户的用户信息的情况下，在指令集中查询与语音信息的语义信息匹配的交互指令，并确定该交互指令的交互类型，在此基础上，在主显示屏与子显示屏中确定执行交互指令的目标显示屏，并利用目标显示屏执行交互指令的交互处理，以通过灵活输入语音信息实现与收银设备的交互，提升语音交互的效率，进而提升用户与收银设备的语音交互体验。

本实施例所述用户，包括所述商家的商家成员(比如店主、管理人员、店员)、商家的消费用户，其中，消费用户包括处于语音采集范围内的用户。

所述收银设备，包括配置1个显示屏或者2个显示屏的收银设备；此外，所述收银设备也可以是配置2个以上显示屏的收银设备，还可以是其他类型的收银设备。可选的，所述主显示屏配置于所述收银设备，所述收银设备连接有配置所述子显示屏的IoT设备；所述主显示屏用于商家成员进行交互，所述子显示屏用于消费用户进行交互。

其中，所述主显示屏是指配置于收银设备并面向商家成员的显示屏，所述子显示屏是指配置于IoT设备并面向消费用户的显示屏。

例如，收银设备为一台POS设备，POS设备配置有主显示屏，IoT设备为一台支付设备(比如刷脸支付设备)，支付设备配置有子显示屏，将POS设备与支付设备进行连接，商家成员与POS设备的主显示屏进行交互，消费用户与支付设备的子显示屏进行交互，以通过主交互屏和子交互屏的配合实现用户与收银设备的交互，提升用户体验，其中，商家成员可通过主显示屏打卡签到、登录成员收款账号、为消费用户点单、查看会员积分、结算收款等；消费用户可通过子显示屏点单、登录会员账户、支付。

此外，收银设备还可同时配置2个显示屏，可选的，所述主显示屏和所述子显示屏配置于所述收银设备；所述主显示屏用于商家成员进行交互，所述子显示屏用于消费用户进行交互。

其中，所述主显示屏是指配置于收银设备并面向商家成员的显示屏，所述子显示屏是指配置于收银设备并面向消费用户的显示屏。

例如，收银设备为一台双屏的POS设备，该POS设备配置有主显示屏与子显示屏，主显示屏面向商家成员，即商家成员与主显示屏进行交互，子显示屏面向消费用户，即消费用户与子显示屏进行交互。其中，商家成员可通过主显示屏打卡签到、登录成员收款账号、为消费用户点单、查看会员积分、结算收款等；消费用户可通过子显示屏点单、登录会员账户、支付。

所述收银设备通过主显示屏和子显示屏进行用户交互，主显示屏面向商家成员，子显示屏面向消费用户，针对性地为用户提供交互服务。

具体实施时，商家的收银设备检测用户的语音信息，具体为收银设备调用语音传感器实时检测用户的语音信息，在检测的语音信息中提取声纹特征，并基于声纹特征对用户进行身份识别。

在具体的身份识别过程中，为了提升身份识别的效率与精确度，可构建声纹特征库，作为身份识别的依据，在声纹特征库中匹配基准声纹特征，以此确定所述用户的用户标识。本实施例提供的一种可选实施方式中，在基于声纹特征对用户进行身份识别的过程中，执行如下操作：

在声纹特征库中检测与所述声纹特征匹配的基准声纹特征，并基于所述基准声纹特征确定所述用户的用户标识。

其中，声纹特征库，是指表征基准声纹特征与用户标识的绑定关系的特征库；所述基准声纹特征，是指存储于声纹特征库中作为比对基准的声纹特征。

具体而言，声纹特征库中存储有每个商家成员或者每个商家会员的基准声纹特征，每个商家成员的基准声纹特征与该商家成员的成员标识具有绑定关系，其中，成员标识是指能够表征商家成员身份的标识，比如成员收款账号、成员序号(比如“01”成员的成员序号为“01”)或者成员身份凭证号码；类似地，每个商家会员的基准声纹特征与该商家会员的会员标识具有绑定关系，其中，会员标识包括下述一项：会员账号、在商家平台的注册账号。基于此，在声纹特征库中检测与所述声纹特征匹配的基准声纹特征，若检测到，说明所述用户为商家成员或者商家会员，且根据检测到的基准声纹特征确定与其绑定的用户标识，即确定成员标识或者会员标识，进一步确定所述用户为哪位商家成员或者商家会员。

下述提供2种声纹特征库的构建方式，分别从商家成员和商家会员2类用户出发，具体说明声纹特征库的构建过程。

(1)商家成员

在上述基于声纹特征库检测基准声纹特征，并确定用户标识的基础上，所述声纹特征库，通过如下方式构建：

在检测到所述主显示屏展示的声纹录入接口被触发后，读取商家成员的成员登录信息中包含的成员标识并获取所述商家成员录入的语音信息；

在录入的语音信息中提取基准声纹特征，建立提取的基准声纹特征与所述商家成员的成员标识的绑定关系，并基于所述绑定关系构建所述声纹特征库。

(2)商家会员

获取商家会员的语音信息，并读取所述商家会员的会员登录信息中包含的会员标识；

在所述商家会员的语音信息中提取基准声纹特征，建立提取的基准声纹特征与所述会员标识的绑定关系，并基于建立的绑定关系构建所述声纹特征库。

此外，为了提升声纹特征库的数据全面性，声纹特征库还可同时存储每个商家成员的基准声纹特征与成员标识和每个商家会员的基准声纹特征与会员标识，在检测到主显示屏展示的声纹录入接口被触发后，读取商家成员的成员登录信息中包含的成员标识并获取商家成员录入的语音信息；在录入的语音信息中提取基准声纹特征，建立提取的基准声纹特征与商家成员的成员标识的绑定关系；以及，获取商家会员的语音信息，并读取商家会员的会员登录信息中包含的会员标识；在商家会员的语音信息中提取基准声纹特征，建立提取的基准声纹特征与会员标识的绑定关系，最后基于商家成员的基准声纹特征与商家成员的成员标识的绑定关系，以及商家会员的基准声纹特征与商家会员的会员标识的绑定关系构建声纹特征库。

另外，除上述声纹特征库中存储每个商家成员的基准声纹特征与成员标识和/或每个商家会员的基准声纹特征与会员标识之外，声纹特征库中还可存储商家的非会员的消费用户的基准声纹特征与非会员的消费用户标识，其中，非会员的消费用户标识可以是该消费用户在商家平台的注册账号。

步骤S104，基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令。

上述在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于声纹特征对该用户进行身份识别，本步骤中，在识别获得用户信息的基础上，在指令集中查询与用户的语音信息的语义信息匹配的交互指令，利用“身份”提升交互的针对性。

其中，所述语义信息在对所述语音信息进行语义识别后获得，具体基于所述用户的用户信息，利用语义识别算法对语音信息进行语义识别获得所述用户的语义信息，再在指令集中查询与用户的语义信息匹配的交互指令。

本实施例所述用户信息，包括用户标识，其中，所述用户标识可以是商家成员的成员收款账号、成员序号或者成员身份凭证号码，也可以是商家会员的会员账号或者在商家平台的注册账号；所述指令集，是指语义信息与交互指令的集合，所述交互指令，是指用户的语音信息的语义信息所对应的进行响应的指令，比如语音信息为“刷脸支付”，交互指令即为“刷脸支付”，此外，交互指令还可以是其他类型的指令。

实际应用中，商家成员在为消费用户结算的过程中，可登录自己的成员收款账号，在此情况下，便于商家对每个商家成员的业绩数据进行统计，针对于此，为了克服收银设备容易受多身份干扰的问题，提升语音交互的针对性，本实施例提供的一种可选实施方式中，在基于识别获得的所述用户的用户信息，在指令集中查询与用户的语义信息匹配的交互指令的过程中，执行如下操作：

基于所述用户的用户标识，检测所述用户的用户账号在所述收银设备上的登录状态；

若所述登录状态为已登录，在所述指令集中查询与所述语义信息匹配的交互指令；

若所述登录状态为未登录，在主显示屏或者子显示屏展示账号登录提醒。

其中，若所述用户为商家成员，则用户账号为成员收款账号；若所述用户为商家会员，所述用户账号为会员账号或者在商家平台的注册账号。

具体的，若所述用户的用户账号处于已登录状态，则在指令集中查询与语义信息匹配的交互指令；若所述用户的用户账号处于未登录状态，则在主显示屏或者子显示屏展示账号登录提醒和/或通过语音播放器播放账号登录提醒。若所述用户为商家成员，则在主显示屏展示账号登录提醒，若所述用户为商家会员，则在子显示屏展示账号登录提醒。

此外，除上述提供的查询交互指令的实现方式之外，在基于识别获得的所述用户的用户信息，在指令集中查询与用户的语义信息匹配的交互指令的过程中，还可执行如下操作：

基于识别获得的所述用户的用户标识，检测所述用户的用户账号在所述收银设备上的登录状态；

在所述指令集中查询与所述登录状态以及所述语义信息匹配的交互指令。

具体指令集中存在语义信息、用户账号的登录状态、交互指令3者映射关系，例如，商家成员的语义信息为“刷脸支付”，在指令集中查询到的交互指令有2种情况，若用户账号的登录状态为已登录，则交互指令为“刷脸支付”；若用户账号的登录状态为未登录，则交互指令为“账号登录”。

需要补充的是，在实际的应用场景中，部分商家在收银设备上仅登录专用收款账号，比如管理人员的收款账号，商家成员均基于该专用收款账号开展日常经营活动，所以在基于识别获得的所述用户的用户信息，在指令集中查询与用户的语义信息匹配的交互指令的过程中，还可基于用户的用户标识在指令集中查询与语义信息匹配的交互指令。

步骤S106，确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏。

上述基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令，本步骤中，确定交互指令的交互类型，并依据交互类型，在主显示屏与子显示屏中确定目标显示屏。

本实施例所述交互类型，是指利用交互指令进行交互的交互类型，比如交互指令为“刷脸支付”，则交互类型为“支付交互类型”；交互指令为“会员登录”，则交互类型为“会员登录类型”，此外，交互指令的交互类型还可以是其他形式的交互类型。

具体实施时，主显示屏和子显示屏和不同的用户进行交互，交互指令的交互类型也存在多种类型，每种交互类型下对应的执行交互指令的显示屏也有所不同，针对于此，依据确定的交互指令的交互类型，在主显示屏和子显示屏中确定目标显示屏。

沿用上例，交互指令为“刷脸支付”，则交互类型为“支付交互类型”，由于支付是消费用户在子显示屏完成，所以在“支付交互类型”下确定目标显示屏为子显示屏；交互指令为“会员登录”，则交互类型为“会员登录类型”，在“会员登录类型”下确定目标显示屏为子显示屏；交互指令为“收款账号登录”，则交互类型为“收款账号登录类型”，由于收款账号登录为商家成员基于主显示屏进行登录，所以在“收款账号登录类型”下确定目标显示屏为主显示屏。

步骤S108，基于所述目标显示屏执行所述交互指令的交互处理。

上述确定交互指令的交互类型，并根据所述交互类型在主显示屏和子显示屏中确定目标显示屏，本步骤中，基于目标显示屏执行交互指令的交互处理。

如上所述，交互指令可以是“刷脸支付”，也可以是“会员登录”，还可以是“收款账号登录”，此外，交互指令还可以是其他类型的交互指令。下面分别针对上述3种交互指令在目标显示屏的交互处理过程进行详细说明。

(1)支付交互指令

在上述主显示屏配置于收银设备，收银设备连接有配置子显示屏的IoT设备，主显示屏用于商家成员进行交互，子显示屏用户消费用户进行交互的基础上，本实施例基于目标显示屏执行交互指令的支付交互处理。具体的，基于目标显示屏执行交互指令的交互处理过程采用如下方式实现：

基于所述子显示屏采集目标消费用户的生物特征；

根据采集的生物特征对所述目标消费用户进行核身处理，并在核身通过后进行支付。

其中，所述生物特征，包括人脸特征、虹膜特征、指纹特征或者掌纹特征。

需要说明的是，上述可选实施方式也可在主显示屏和子显示屏配置于收银设备；主显示屏用于商家成员进行交互，子显示屏用于消费用户进行交互的基础上执行。

此外，在实际的应用场景中，针对采集的目标消费用户的生物特征进行核身处理之后，获得的核身处理结果可能为核身未通过，在此情况下，可在主显示屏显示生物特征采集提醒，即对商家成员进行提醒，比如生物特征采集提醒为“请重新采集顾客的人脸信息”，商家成员基于该生物特征采集提醒录入语音信息，比如录入语音信息“刷脸支付”，根据语音信息在子显示屏进行生物特征采集处理。

本实施例提供的一种可选实施方式中，基于目标显示屏执行交互指令的交互处理过程采用如下方式实现：

基于所述子显示屏采集目标消费用户的生物特征，并根据采集的生物特征对所述目标消费用户进行核身处理；

若核身未通过，在所述主显示屏显示生物特征采集提醒，并读取商家成员基于所述生物特征采集提醒录入的语音信息；

根据读取的语音信息在所述子显示屏进行生物特征采集处理。

(2)会员登录指令

在主显示屏和子显示屏配置于收银设备，主显示屏用于商家成员进行交互，子显示屏用于消费用户进行交互的基础上，本实施例基于目标显示屏执行交互指令的会员登录处理。具体的，基于目标显示屏执行交互指令的交互处理过程采用如下方式实现：

基于所述子显示屏采集目标消费用户的生物特征或者会员账号；

根据所述生物特征或者所述者会员账号对所述目标消费用户进行会员身份核验，在核验通过后进行会员服务处理。

其中，会员服务处理包括但不限于下述至少一项：查看会员积分、会员支付处理、发放会员权益、查看会员优惠信息。

需要说明的是，上述可选实施方式也可在主显示屏配置于收银设备，收银设备连接有配置子显示屏的IoT设备，主显示屏用于商家成员进行交互，子显示屏用户消费用户进行交互的基础上执行。

(3)收款账号登录指令

实际应用中，若所述用户为商家成员，则每个商家成员在为消费用户进行结算之前，可登录自己的收款账号，在此情况下，便于商家统计每个商家成员的业绩数据。本实施例在执行交互指令的收款账号登录处理的过程中，提供2种实现方式。

a.基于所述主显示屏采集所述商家成员的生物特征；根据所述生物特征在所述主显示屏针对所述商家成员的成员收款账号进行登录处理。

为了提升账号登录的安全性，在账号登录的过程中，基于主显示屏采集商家成员的生物特征，并针对采集的生物特征对商家成员进行身份核验，在身份核验通过后，基于主显示屏针对商家成员的成员收款账号进行登录处理。

b.查询所述商家成员的成员收款账号以及留存的账号密钥；基于所述成员收款账号以及所述账号密钥在所述主显示屏进行账号登录处理。

具体的，根据商家成员在收款设备上的历史登录信息，可查询获得商家成员的成员收款账号以及留存的账号密钥，基于此，在商家成员录入针对账号登录的语音信息之后，基于成员收款账号以及账号密钥在主显示屏可直接进行账号登录处理。

此外，为了进一步提升账号管理安全，可先查询所述商家成员的成员收款账号以及留存的账号密钥，再基于所述主显示屏采集所述商家成员的生物特征，对采集的生物特征进行核验处理，在核验通过后，基于所述成员收款账号以及所述账号密钥在所述主显示屏进行账号登录处理。

下述以本实施例提供的一种基于语音的交互处理方法在收银台场景的应用为例，对本实施例提供的基于语音的交互处理方法进行进一步说明，参见图2，应用于收银台场景的基于语音的交互处理方法，具体包括步骤S202至步骤S212。

步骤S202，在商家的收银设备检测的商家成员的语音信息中提取声纹特征。

步骤S204，在声纹特征库中检测与声纹特征匹配的基准声纹特征，并基于基准声纹特征确定商家成员的成员标识。

其中，成员标识包括成员收款账号、成员序号(比如“01”成员的成员序号为“01”)和/或成员身份凭证号码。

步骤S206，基于商家成员的成员标识，在指令集中查询与语音信息的语义信息匹配的交互指令。

步骤S208，确定交互指令的交互类型，并根据交互类型在主显示屏和子显示屏中确定目标显示屏。

在确定目标显示屏之后，若所述交互类型为会员登录类型，则基于目标显示屏执行交互指令的会员登录处理，具体在基于目标显示屏执行交互指令的会员登录处理的过程中，基于子显示屏采集目标消费用户的生物特征或者会员账号；根据生物特征或者会员账号对目标消费用户进行会员身份核验，在核验通过后进行会员服务处理；

若所述交互类型为账号登录类型，则基于目标显示屏执行交互指令的账号登录处理，具体在基于目标显示屏执行交互指令的账号登录处理的过程中，可采用2种方式实现：(1)基于主显示屏采集商家成员的生物特征；根据生物特征在主显示屏针对商家成员的成员收款账号进行登录处理；(2)查询商家成员的成员收款账号以及留存的账号密钥；基于成员收款账号以及账号密钥在主显示屏进行账号登录处理。

步骤S210，若所述交互类型为支付交互类型，基于子显示屏采集目标消费用户的生物特征。

步骤S212，根据采集的生物特征对目标消费用户进行核身处理，并在核身通过后进行支付。

需要补充的是，本实施例交互类型有会员登录类型、账号登录类型以及支付交互类型3种，在3种交互类型下执行的交互处理过程的执行顺序在此不作具体限定，根据实际应用场景确定，并且在3种交互类型下执行的交互处理过程的执行数量在此也不作具体限定，即可执行3种交互类型的交互处理过程中的1者或者多者。

综上所述，本实施例提供的基于语音的交互处理方法，在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于声纹特征对用户进行身份识别，其中，收银设备通过主显示屏和子显示屏进行用户交互，基于用户的用户标识和用户的用户账号在收银设备上的登录状态，在指令集中查询与用户的语义信息匹配的交互指令；该语义信息在对语音信息进行语义识别后获得；确定交互指令的交互类型，并根据交互类型在主显示屏和子显示屏中确定目标显示屏；

一方面，基于子显示屏采集目标消费用户的生物特征；根据采集的生物特征对目标消费用户进行核身处理，并在核身通过后进行支付；另一方面，基于子显示屏采集目标消费用户的生物特征或者会员账号；根据生物特征或者会员账号对目标消费用户进行会员身份核验，在核验通过后进行会员服务处理；再一方面，若用户为商家成员，基于主显示屏采集商家成员的生物特征，根据生物特征在主显示屏针对商家成员的成员收款账号进行登录处理；或者，查询商家成员的成员收款账号以及留存的账号密钥，基于成员收款账号以及账号密钥在主显示屏进行账号登录处理，以通过灵活输入语音信息实现与收银设备的交互，提升语音交互的效率，进而提升用户与收银设备的语音交互体验。

本说明书提供的一种基于语音的交互处理装置实施例如下：

在上述的实施例中，提供了一种基于语音的交互处理方法，与之相对应的，还提供了一种基于语音的交互处理装置，下面结合附图进行说明。

参照图3，其示出了本实施例提供的一种基于语音的交互处理装置示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供一种基于语音的交互处理装置，包括：

身份识别模块302，被配置为在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互；

交互指令查询模块304，被配置为基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得；

交互类型确定模块306，被配置为确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏；

交互处理模块308，被配置为基于所述目标显示屏执行所述交互指令的交互处理。

本说明书提供的一种基于语音的交互处理设备实施例如下：

对应上述描述的一种基于语音的交互处理方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种基于语音的交互处理设备，该基于语音的交互处理设备用于执行上述提供的基于语音的交互处理方法，图4为本说明书一个或多个实施例提供的一种基于语音的交互处理设备的结构示意图。

本实施例提供的一种基于语音的交互处理设备，包括：

如图4所示，基于语音的交互处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器401和存储器402，存储器402中可以存储有一个或一个以上存储应用程序或数据。其中，存储器402可以是短暂存储或持久存储。存储在存储器402的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括基于语音的交互处理设备中的一系列计算机可执行指令。更进一步地，处理器401可以设置为与存储器402通信，在基于语音的交互处理设备上执行存储器402中的一系列计算机可执行指令。基于语音的交互处理设备还可以包括一个或一个以上电源403，一个或一个以上有线或无线网络接口404，一个或一个以上输入/输出接口405，一个或一个以上键盘406等。

在一个具体的实施例中，基于语音的交互处理设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对基于语音的交互处理设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互；

基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得；

确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏；

基于所述目标显示屏执行所述交互指令的交互处理。

本说明书提供的一种存储介质实施例如下：

对应上述描述的一种基于语音的交互处理方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种存储介质。

本实施例提供的存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：

基于所述目标显示屏执行所述交互指令的交互处理。

需要说明的是，本说明书中关于存储介质的实施例与本说明书中关于基于语音的交互处理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应方法的实施，重复之处不再赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪30年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种基于语音的交互处理方法，包括：

基于所述目标显示屏执行所述交互指令的交互处理。

2.根据权利要求1所述的基于语音的交互处理方法，所述主显示屏配置于所述收银设备，所述收银设备连接有配置所述子显示屏的IoT设备；

所述主显示屏用于商家成员进行交互，所述子显示屏用于消费用户进行交互。

3.根据权利要求2所述的基于语音的交互处理方法，所述基于所述目标显示屏执行所述交互指令的交互处理，包括：

基于所述子显示屏采集目标消费用户的生物特征；

4.根据权利要求1所述的基于语音的交互处理方法，所述主显示屏和所述子显示屏配置于所述收银设备；所述主显示屏用于商家成员进行交互，所述子显示屏用于消费用户进行交互。

5.根据权利要求4所述的基于语音的交互处理方法，所述基于所述目标显示屏执行所述交互指令的交互处理，包括：

根据所述生物特征或者所述会员账号对所述目标消费用户进行会员身份核验，在核验通过后进行会员服务处理。

6.根据权利要求1所述的基于语音的交互处理方法，若所述用户为商家成员，所述基于所述目标显示屏执行所述交互指令的交互处理，包括：

基于所述主显示屏采集所述商家成员的生物特征；

根据所述生物特征在所述主显示屏针对所述商家成员的成员收款账号进行登录处理；

或者，

查询所述商家成员的成员收款账号以及留存的账号密钥；

基于所述成员收款账号以及所述账号密钥在所述主显示屏进行账号登录处理。

7.根据权利要求1所述的基于语音的交互处理方法，所述基于所述声纹特征对所述用户进行身份识别，包括：

8.根据权利要求7所述的基于语音的交互处理方法，所述声纹特征库，通过如下方式构建：

在录入的语音信息中提取基准声纹特征，建立提取的基准声纹特征与所述商家成员的成员标识的绑定关系，并基于所述绑定关系构建所述声纹特征库；

或者，

9.根据权利要求1所述的基于语音的交互处理方法，所述基于所述目标显示屏执行所述交互指令的交互处理，包括：

10.根据权利要求1所述的基于语音的交互处理方法，所述基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令，包括：

若所述登录状态为已登录，在所述指令集中查询与所述语义信息匹配的交互指令。

11.一种基于语音的交互处理装置，包括：

身份识别模块，被配置为在商家的收银设备检测的用户的语音信息中提取声纹特征，并基于所述声纹特征对所述用户进行身份识别；所述收银设备通过主显示屏和子显示屏进行用户交互；

交互指令查询模块，被配置为基于识别获得的所述用户的用户信息，在指令集中查询与所述用户的语义信息匹配的交互指令；所述语义信息在对所述语音信息进行语义识别后获得；

交互类型确定模块，被配置为确定所述交互指令的交互类型，并根据所述交互类型在所述主显示屏和所述子显示屏中确定目标显示屏；

交互处理模块，被配置为基于所述目标显示屏执行所述交互指令的交互处理。

12.一种基于语音的交互处理设备，包括：

处理器；以及，

被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：

基于所述目标显示屏执行所述交互指令的交互处理。

13.一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：

基于所述目标显示屏执行所述交互指令的交互处理。