CN109215643A

CN109215643A - 一种交互方法、电子设备及服务器

Info

Publication number: CN109215643A
Application number: CN201710542032.8A
Authority: CN
Inventors: 许毅
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2019-01-15
Anticipated expiration: 2037-07-05
Also published as: US11238870B2; US20200211572A1; CN109215643B; WO2019007249A1

Abstract

本说明书中一个或者多个实施方式公开了一种交互方法、电子设备及服务器，其中，所述方法包括：接收用户语音输入的音频信息；从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

Description

一种交互方法、电子设备及服务器

技术领域

本说明书中一个或者多个实施方式涉及计算机技术领域，特别涉及一种交互方法、电子设备及服务器。

背景技术

随着大数据时代的来临，越来越多的平台都会对用户的历史数据进行分析，从而总结出用户的行为特征，并且可以根据用户的行为特征，向其推送相应的信息。例如，用户在网购时，网购平台可以对用户的历史订单进行分析，从而得出用户比较感兴趣的商品类型以及用户的消费能力。当用户在浏览网购平台的页面时，网购平台可以向用户推荐其感兴趣的商品。

目前，用户通常会在平台中注册自身的账号信息。当用户在平台中登陆了账号信息后，用户在平台中产生的数据便可以与登陆的账号信息相关联。这样，平台可以针对账号信息关联的历史数据进行分析，从而得到该账号信息对应的用户的行为特征。

由上可见，现有技术中的这种数据分析的方式，通常是针对账号信息进行的。如果不同的用户使用同一个账号信息，那么基于账号信息推送的业务信息则会不太准确。

发明内容

本说明书中一个或者多个实施方式的目的是提供一种交互方法、电子设备及服务器，能够为用户提供准确的业务信息。

为实现上述目的，本说明书中一个实施方式提供一种交互方法，包括：接收用户语音输入的音频信息；从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种电子设备，所述电子设备包括语音录入单元、存储器以及处理器，其中：所述语音录入单元，用于接收用户语音输入的音频信息；所述存储器，用于存储用户的身份信息；所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收用户语音输入的音频信息；从所述音频信息识别出所述音频信息指向的业务功能信息；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述业务功能信息和所述表征信息发送给服务器，以用于所述服务器将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种电子设备，所述电子设备包括语音录入单元、存储器、网络通信端口以及处理器，其中：所述语音录入单元，用于接收用户语音输入的音频信息；所述存储器，用于存储用户的身份信息；所述网络通信端口，用于与服务器进行数据交互；所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能信息；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述业务功能信息和所述表征信息通过所述网络通信端口发送给所述服务器，以用于所述服务器将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收用户语音输入的音频信息；从所述音频信息识别出所述音频信息指向的业务功能信息；根据所述音频信息确定所述用户的身份信息；将所述业务功能信息和所述身份信息发送给服务器，以用于所述服务器确定与所述身份信息相关联的表征信息，以将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种电子设备，所述电子设备包括语音录入单元、存储器、网络通信端口以及处理器，其中：所述语音录入单元，用于接收用户语音输入的音频信息；所述存储器，用于存储用户的身份信息；所述网络通信端口，用于与服务器进行数据交互；所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能信息；根据所述音频信息确定所述用户的身份信息；将所述业务功能信息和所述身份信息通过所述网络通信端口发送给服务器，以用于所述服务器确定与所述身份信息相关联的表征信息，以将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收用户语音输入的音频信息；从所述音频信息识别出所述音频信息指向的业务功能信息；将所述业务功能信息和所述用户的音频信息发送给服务器，以用于所述服务器根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种电子设备，所述电子设备包括语音录入单元、网络通信端口以及处理器，其中：所述语音录入单元，用于接收用户语音输入的音频信息；所述网络通信端口，用于与服务器进行数据交互；所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能信息；将所述业务功能信息和所述用户的音频信息通过所述网络通信端口发送给所述服务器，以用于所述服务器根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收用户语音输入的音频信息；将所述用户的音频信息发送给服务器，以用于所述服务器从所述音频信息识别出所述音频信息指向的业务功能信息，根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种电子设备，所述电子设备包括语音录入单元、网络通信端口以及处理器，其中：所述语音录入单元，用于接收用户语音输入的音频信息；所述网络通信端口，用于与服务器进行数据交互；所述处理器，用于将所述用户的音频信息通过所述网络通信端口发送给服务器，以用于所述服务器从所述音频信息识别出所述音频信息指向的业务功能信息，根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收客户端发出的音频信息；从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种服务器，所述服务器包括网络通信端口、存储器以及处理器，其中：所述网络通信端口，用于接收客户端发出的音频信息；所述存储器，用于存储用户的身份信息；所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收客户端发出的音频信息以及业务功能信息；根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种服务器，所述服务器包括网络通信端口、存储器以及处理器，其中：所述网络通信端口，用于接收客户端发出的音频信息以及业务功能信息；所述存储器，用于存储用户的身份信息；所述处理器，用于根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收客户端发出的身份信息以及业务功能信息；确定与所述身份信息相关联的表征信息；所述表征信息用于表示用户的特征；将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种服务器，所述服务器包括网络通信端口、存储器以及处理器，其中：所述网络通信端口，用于接收客户端发出的身份信息以及业务功能信息；所述存储器，用于存储表征信息；所述处理器，用于确定与所述身份信息相关联的表征信息；所述表征信息用于表示用户的特征；将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种交互方法，包括：接收客户端发出的业务功能信息和表征信息；其中，所述表征信息用于表示用户的特征；将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

为实现上述目的，本说明书中另一个实施方式还提供一种服务器，所述服务器包括网络通信端口和处理器，其中：所述网络通信端口，用于接收客户端发出的业务功能信息和表征信息；其中，所述表征信息用于表示用户的特征；所述处理器，用于将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

由上可见，本说明书一个或者多个实施方式提供的技术方案，可以将用户的身份信息与用户的音频信息进行关联。由于不同用户的声音特质也往往不同，因此在对用户的音频信息进行分析时，能够准确地识别出该用户的身份信息。该身份信息可以具备对应的表征信息，该表征信息便可以表示用户的行为特征。这样，当用户通过语音下达针对业务功能的执行指令时，便可以执行与该用户的表征信息相符的业务功能，从而能够准确地向用户提供相应的业务信息。

附图说明

为了更清楚地说明本说明中一个或者多个实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个实施方式提供的交互方法流程图；

图2为本说明书一个实施方式中身份信息的确定方法流程图；

图3为本说明书一个实施方式中智能音箱的交互示意图；

图4为本说明书另一个实施方式中智能音箱的交互示意图；

图5为本说明书一个实施方式中智能洗衣机的交互示意图；

图6为本说明书一个实施方式中自动服务机的交互示意图；

图7为本说明书一个实施方式中电子设备的结构示意图；

图8为本说明书一个实施方式中交互方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中一个或者多个实施方式的技术方案，下面将结合本说明书中一个或者多个实施方式的附图，对本说明书中一个或者多个实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本本说明书中的一部分实施方式，而不是全部的实施方式。基于本说明书中的一个或者多个实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本说明书中一个或者多个实施方式保护的范围。

本说明书一个实施方式提供一种交互方法，所述交互方法可以应用于客户端和服务器的系统架构中。其中，客户端可以是具有录音功能的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于上述电子设备中的软件。例如，电子设备中提供录音功能，软件可以通过调用该录音功能录制音频信息。

在本说明书一个实施方式中，客户端可以是具有录音功能的电子设备。根据客户端数据处理能力的不同，可以被划分成以下类别。

表1

在本实施方式中，初级网络设备的硬件设备较为简单，可以进行通过麦克风进行录音，

生成音频信息。并将生成的音频信息通过网路通信模块发送给服务器。初级网络设备可以包括麦克风、网络通信单元、传感器和扬声器。初级网络设备可以基本上不需要对数据进行加工处理。初级网络设备还可以设置有其它的传感器，用于采集初级网络设备的工作参数。具体的，例如，初级网络设备可以是物联网设备、边缘节点设备等。

在本实施方式中，简单网络设备可以主要包括：麦克风、网络通信单元、处理器、存储器、扬声器等。简单网络设备相较于初级网络设备增强了数据处理的能力。简单网络设备可以具有一个能处理简单逻辑运算的处理器，使得简单网络设备在采集到数据之后，可以对数据进行初步的预处理，比如可以根据音频信息生成特征矩阵。简单网络设备可以具有一个具有简单显示功能的显示模块，可以用于向用户反馈信息。具体的，例如，简单网络设备可以是智能可穿戴设备、POS(point of sale)机等。例如，智能手环、较初级的智能手表、智能眼镜，或是线下购物场所内的结算设备(例如，POS机)、移动式结算设备(例如，手持式POS机、附加在手持设备上的结算模块)等。

在本实施方式中，中级网络设备可以主要包括麦克风、网络通信单元、处理器、存储器显示器、扬声器等。中级网络设备的处理器的主频通常小于2.0GHz，内存容量通常少于2GB，存储器的容量通常少于128GB。中级网络设备可以对录制的音频信息进行一定程度的处理，比如生成特征矩阵，对特征矩阵进行端点检测处理、降噪处理、语音识别等。具体的，例如，中级网络设备可以包括：智能家居中的智能家用电器、智能家庭终端、智能音箱、较高级的智能手表、较为初级的智能手机(比如，价位在1000元左右)、车载智能终端。

在本实施方式中，智能网络设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。智能网络设备可以具有较强的数据处理能力。智能网络设备的处理器的主频通常大于2.0GHz，内存的容量通常小于12GB，存储器的容量通常小于1TB。可以对音频信息生成特征矩阵之后，可以进行端点检测处理、降噪处理、语音识别等。进一步的，智能网络设备还可以根据音频信息生成语音特征向量。在一些情况下，可以将语音特征向量与用户特征向量进行匹配，识别用户的身份。但这种匹配限于有限个数的用户特征向量，比如一个家庭中的各个家庭成员的用户特征向量。具体的，例如，智能网络设备可以包括：性能较好的智能手机、平板电脑、台式电脑、笔记本电脑等。

在本实施方式中，高性能设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。高性能设备可以具有大规模的数据运算处理能力，还可以提供强大的数据存储能力。高性能设备的处理器主频通常在3.0GHz以上，内存的容量通常大于12GB，存储器容量可以在1TB以上。高性能设备可以对音频信息生成特征矩阵、端点检测处理、降噪处理、语音识别、生成语音特征向量，以及将语音特征向量与存储的大量的用户特征向量进行匹配。具体的，例如，高性能设备可以是工作站、配置很高的台式电脑、Kiosk智能电话亭、自助服务机等。

当然，上述只是示例的方式列举了一些客户端。随着科学技术进步，硬件设备的性能可能会有提升，使得上述目前数据处理能力较弱的电子设备，也可能具备较强的处理能力。所以下文中实施方式引用上述表1中的内容，也仅作为示例参考，并不构成限定。

在本实施方式中，服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然，上述服务器也可以是指运行于所述电子设备中的软体。上述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。

请参阅图1，本说明书一个实施方式提供一种交互方法，该方法的执行主体可以是客户端，所述方法可以包括以下步骤。

S11：接收用户语音输入的音频信息。

在本实施方式中，涉及用户的音频信息采集方法，具体地，可以通过客户端采集用户的音频信息。客户端可以在用户操作启动录音功能时，开始启动进行录取用户的语音，生成音频信息。客户端也可以自动启动录音功能，比如给客户端设置指定条件，当该条件达成时，启动录音功能。具体的，例如，指定一个时间，到达该时间时启动录音；或者，指定一个地点，到达该地点时启动录音；或者，设置一个环境音量，当环境音量符合设定的条件时，开始录音。在本实施方式中，生成音频信息的数量，可以是一个，也可以是多个。具体的，客户端在一次录音过程中，可以持续的将该次录音过程中的全部内容作为一个音频信息。也可以为，客户端在一次录音过程中，划分多个音频信息。比如，按照录音的时长划分音频信息。例如，每录制五分钟，形成一个音频信息。或者，按照数据量进行划分音频信息。例如，每个音频信息最多5MB。

S13：从所述音频信息识别出所述音频信息指向的业务功能。

在本实施方式中，可以预先定义有业务指令集，在业务指令集中包括至少一个业务指令。业务指令可以指向一个特定的功能。当从用户的音频信息中识别出业务指令时，可以表示要执行该业务指令指向的业务功能。也可以为，仅仅通过预设识别算法得出用户说话表达的内容。具体的，预设识别算法可以采用隐式马尔科夫算法或神经网络算法等，对音频信息进行语音识别。

在本实施方式中，所述客户端可以作为模块集成于各种设备中。例如，所述客户端可以集成于咖啡机中，这样，用户对咖啡机说“我要喝咖啡”，那么该音频信息指向的业务功能便可以是制作咖啡。又例如，所述客户端可以是智能手机中的语音识别模块，当用户说“我要付款”时，该音频信息指向的业务功能便可以是付款。

在本说明书一个实施方式中，在识别业务功能时，可以通过语音转文字的技术来实现。具体地，首先可以将所述音频信息转换为对应的文字信息。具体地，可以识别所述音频信息中的音素，然后根据音素组合表，将各个音素组合为对应的文字信息。在得到文字信息后，可以将所述文字信息与业务指令库中的业务指令进行匹配。所述业务指令库中可以存储业务指令，所述业务指令可以是通过文字或者词向量的形式进行存储的。这样，将识别出的文字信息与业务指令库中的各个业务指令进行匹配，从而可以将匹配得到的业务指令作为所述音频信息指向的业务功能。具体地，在进行业务指令匹配时，可以通过计算词向量之间的距离来实现。首先，可以将识别出的文字信息转换为对应的词向量，然后可以将转换得到的词向量与业务指令库中的各个业务指令的词向量求取欧氏距离。欧式距离越小，表明文字信息与业务指令越相似。这样，可以将欧氏距离最小的业务指令作为所述音频信息指向的业务功能。

S15：根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征。

在本实施方式中，可以将用户的语音特征与所述用户的身份信息相关联。

在本实施方式中，可以采用音频信息采集方法获得用户的音频信息。其中，音频信息中的音频数据可以是用户的说话声音的录音。如此，根据音频信息生成的语音表征向量，可以对应表征的音频信息，也可以表征用户的一部分声音特质。由于每个用户生长发育过程，是各部不相同的，使得用户说话的声音，都具有一定的声音特质。进而，可以通过每个用户的声音特质分不同的用户。如此，语音表征向量可以通过表征用户的一部分声音特质，而可以用于标识用户。

在本实施方式中，针对用户采集的音频信息可以是一个或多个，可以对应每个音频信息采用音频信息处理方法生成对应的语音特征向量。当然，在一些情况下，也可以将一个以上音频信息同时进行按照音频信息处理方法进行运算处理，得到语音特征向量。此时，该语音特征向量可以对应该一个以上音频信息。

在本实施方式中，根据得到的语音特征向量，确定可以用于标识用户的用户特征向量。具体的，例如，若仅生成了一个语音特征向量，则可以将该语音特征向量作为用户的用户特征向量；若生成了多个语音特征向量，可以将在该多个语音特征向量中，选择一个相对表达用户的声音特质较多的语音特征向量，作为用户的用户特征向量；若生成了多个语音特征向量，还可以为将该多个语音特征向量中的部分或全部，进行进一步运算处理输出用户的用户特征向量。该运算处理可以包括但不限于针对该多个语音特征向量进行相应维度求和之后，再进一步计算均值。当然，还可以有其它算法，比如，运算处理时对多个语音特征向量的加权求和。

在本实施方式中，将用户的用户特征向量与用户的身份信息进行关联。用户的身份信息可以用于表示一个用户。用户的身份信息可以包括但不限于：用户名、昵称、真实姓名、身份证、性别、联系电话、通信地址等等。将用户特征向量与用户的身份信息相关联，可以实现采集一个用户说话的音频信息后，可以通过音频信息的语音特征向量与用户特征向量的关联性，确定该用户的身份信息。

请参阅图2，在本说明书一个实施方式中，针对身份信息的确定方法，可以包括以下步骤。

步骤S101：生成所述音频信息的语音特征向量。

在本实施方式中，可以约束用户语音输入的表达内容。比如，提供给用户一段文字让用户朗读。或者，询问用户问题，让用户回答。当然，也可以不约束用户表达的内容，而随机录制用户说的一句话或者一段话。

在本实施方式中，客户端可以在接收到用户的音频信息之后，生成语音特征向量。具体的，例如，用户可以根据其意志控制客户端，了解商品或者服务的信息。用户可以通过与客户端对话的方式，了解不同商品或者服务的细节参数等。在用户想要购买时，才启动生成用户的语音特征向量，进而确定用户的身份信息。进一步示例，客户端是智能音箱的场景下，可以为用户对智能音箱说“我要喝咖啡”，智能音箱通过语音识别出用户表达的内容之后，才进一步的生成用户的语音特征向量。

在本实施方式中，生成语音特征向量时，可以先根据所述音频信息生成特征矩阵。具体地，可以根据预设算法，从音频信息中采集数据，输出包括所述音频信息的音频数据的特征的特征矩阵。用户的声音会有用户自身的特征，比如音色、语调、语速等等。录制成音频信息时，可以从音频数据中的频率、振幅等角度，体现每个用户自身的声音特征。使得将音频信息按照预设算法生成的特征矩阵，会包括音频信息中音频数据的特征。进而，基于特征矩阵生成的语音特征向量，可以用于表征该音频信息和音频数据。所述预设算法可以是MFCC(Mel Frequency Cepstrum Coefficient)、MFSC(Mel Frequency SpectralCoefficient)、FMFCC(Fractional Mel Frequency Cepstrum Coefficient)、DMFCC(Discriminative)、LPCC(Linear Prediction Cepstrum Coefficient)等。当然，所属领域技术人员在本申请技术精髓启示下，还可能采用其它算法实现生成音频信息的特征矩阵，但只要其实现的功能和效果与本申请方式相同或相似，均应涵盖于本申请保护范围内。

在本实施方式中，在生成了特征矩阵后，可以将所述特征矩阵按照多个特征维度进行降维处理，得到多个用于表征特征维度的维度值，所述多个维度值形成所述语音特征向量。具体地，可以对所述特征矩阵按照不同的特征维度进行降维处理，得到可以表征每个特征维度的维度值。进一步的，将维度值按照指定顺序排列便可以形成音频信息的语音表征向量。具体的，可以通过卷积或者映射的算法对特征矩阵进行降维处理。在一个具体的示例中，可以采用DNN(Deep Neural Network)、CNN(Convolutional Neural Network)和RNN(Recurrent Neural Network)、深度学习或者上述算法的结合等，从特征矩阵中按照不同维度进行降维。

在一个实施方式中，为了进一步区分出音频信息中用户语音的音频数据和非用户语音的音频数据。语音特征向量的生成方法中，还可以包括端点检测处理。进而，可以在特征矩阵中减少将非用户语音的音频数据对应的数据，如此，可以在一定程度上提升生成的语音特征向量与用户之间的关联程度。端点检测处理的方法可以包括但不限于基于能量的端点检测、基于倒谱特征的端点检测、基于信息熵的端点检测、基于自身相关相似距离的端点检测等，在此不再列举。

步骤S103：将所述语音特征向量与用户特征向量进行匹配。

步骤S105：将匹配得到的用户特征向量关联的身份信息作为所述用户的身份信息。

在本实施方式中，客户端中可以预先按照用户注册方法设置有用户的用户特征向量。如此，可以通过将语音特征向量与用户特征向量进行匹配，实现对用户的身份进行验证。

在本实施方式中，将语音特征向量与用户特征向量进行匹配的方式，可以为根据二者进行运算，在二者之间符合某种关系时，可以认为匹配成功。具体的，例如，将二者做差后求和，将得到的数值作为匹配值，将该匹配值与一个设定阈值比较，在所述匹配值小于或等于设定阈值的情况下认为所述语音特征向量与所述用户特征向量匹配成功。或者，也可以将所述语音特征向量与所述用户特征向量求和，将得到的数值作为匹配值，在所述匹配值大于或等于设定阈值的情况下认为所述语音特征向量与所述用户特征向量匹配成功。

在本实施方式中，客户端中可以具备多个用户的特征向量，这样，在获取到当前用户的语音特征向量之后，可以将该语音特征向量与多个用户的特征向量依次进行对比。在与各个用户的特征向量进行对比时，均可以得到对应的匹配值。这样，可以将匹配值最大的用户的特征向量作为匹配得到的用户特征向量。在本实施方式中，在确定了所述语音特征向量对应的用户特征向量之后，便可以将该用户特征向量关联的身份信息作为所述用户的身份信息。

在本实施方式中，在确定了用户的身份信息后，所述身份信息通常与表征信息相关联。所述表征信息可以用于表示所述用户的特征。具体地，所述表征信息是针对用户的历史数据分析得到的。所述特征可以体现用户的偏好。例如，所述表征信息表明该用户比较喜欢喝拿铁、在线下支付时经常使用微信支付、导航时通常选择规避拥堵的路线等。

S17：将所述表征信息作为所述业务功能的输入，执行所述业务功能。

在本实施方式中，当客户端确定了用户的音频信息指向的业务功能，并且确定了用户的表征信息后，便可以将该表征信息作为执行业务功能的输入数据，确定出符合用户表征信息的实现方式，并通过该实现方式来执行所述业务功能。例如，用户当前的音频信息是“我要喝咖啡”，客户端根据用户的音频信息识别出该用户的表征信息后，确定该表征信息表明用户偏爱喝拿铁，那么客户端在执行制作咖啡这个业务功能时，便可以制作拿铁咖啡，从而符合用户的偏好。

在一个实施方式中，在从所述音频信息识别出所述音频信息指向的业务功能时，可以判断在所述音频信息中是否存在启动关键词。所述启动关键词可以是激活客户端的指定词汇或者短语。在本实施方式中，客户端可以在判定存在所述启动关键词的情况下，才从所述音频信息识别出所述音频信息指向的业务功能。如此，在用户正常工作生活过程中，不会受到客户端的干扰。而在用户需要使用客户端时，可以通过给客户端发出启动指令，开始与客户端进行交互。

在本实施方式中，客户端可以处于一种待机的状态，录制用户语音的音频信息，以识别用户是否向客户端做出启动指令。具体的，例如，启动指令可以为识别到用户说“你好，XXX”。当客户端识别到用户说“你好，XXX”时，便启动交互过程。

在一个实施方式中，生成所述语音特征向量的方式包括以下至少一种：任意选择一个所述用户的音频信息生成所述语音特征向量；或者向所述用户提供指定信息，并根据所述用户依照所述指定信息输入的语音信息生成所述语音特征向量。

在本实施方式中，可以针对不同的场景，生成语音特征向量所基于的音频信息不同。针对业务功能简单的场景，可以根据任意一个录制的用户语音的音频信息生成语音特征向量，以达到可以快速执行业务功能的目的。例如，该业务功能简单的场景可以是点播歌曲的场景。

在本实施方式中，对于一些相对复杂的或者安全系数需要较高的场景时，可以要求录制用户设定的指定信息。所述指定信息可以是预先录制的一段文字、一句话或者模拟发声而无具体的含义。例如，用户将自己的生日作为所述指定信息，或者学一段鸟叫的口技作为指定信息。这样，在用户下达用于表征业务功能的语音信息后，客户端还可以播放语音提示信息，该语音提示信息可以表明要求用户依照所述指定信息生成相应的语音信息。例如，客户端可以播放“请用正常语速阅读以下内容：XXXX”。这样，客户端在接收到依照所述指定信息输入的语音信息后，便可以基于该语音信息生成语义特征向量。这样处理的目的在于能够准确地识别出用户的身份信息。具体地，这种复杂的场景例如可以是涉及线下支付的场景。

在一个实施方式中，有时候用户提供的音频信息可能不太准确，或者音频信息中不包含确切的操作指令，在这种情况下，客户端可能会识别出多个业务功能。例如，用户的音频信息可以为“打开”，但是用户并没有指示具体打开什么。此时，客户端便可以针对该音频信息，向用户播放包含多个业务功能的提示语音信息。例如，所述提示语音信息可以为“您想打开什么？1.窗户；2.门；3.空调；4.电视，请您选择”。此时，用户可以针对该提示语音信息下达语音选择指令。例如，用户可以说“窗户”或者“1”。此时，客户端接收到所述用户下达的语音选择指令时，可以将所述语音选择指令指向的业务功能作为所述音频信息中识别出的业务功能。

在一个实施方式中，所述表征信息中可以包括针对所述业务功能的用户偏好数据。例如，所述业务功能为“支付”，那么针对该业务功能的用户偏好数据可以是“微信支付”，这样，客户端便可以从多个支付方式中选择微信支付的方式来实现支付的过程。此外，为了确保执行业务功能的准确性，客户端还可以向用户播放符合所述用户偏好数据的语音确认信息。例如，在确定用户偏好的支付方式为“微信支付”后，客户端可以播放“请问是否采用微信支付的方式？”。这样，在接收到用户下达的语音确认指令后，便可以执行符合所述用户偏好数据的业务功能。例如，用户回答“是的”，那么客户端便可以采用微信支付的方式完成支付的过程。

在一个实施方式中，用户如果没有在客户端中进行注册，或者用户在客户端中不存在身份信息，那么根据所述音频信息便无法确定所述用户的身份信息。此时，客户端便无法获取用户的表征信息，也就无法针对用户的偏好来执行业务功能。此时，客户端可以调用与所述业务功能相关联的备选信息集。所述备选信息集中包含的备选信息均可以表征所述业务功能的一种实现方式。例如，所述业务功能为“制作咖啡”，而与该业务功能相关的实现方式有“制作拿铁”、“制作卡布奇诺”、“制作焦糖咖啡”等。这样，客户端可以向用户播放所述备选信息集中的备选信息，以供用户选择。在用户下达语音选择指令后，客户端可以接收用户下达的语音选择指令，所述语音选择指令可以指向所述备选信息集中的目标备选信息。例如，用户选择的可以是“制作焦糖咖啡”。这样，客户端可以根据所述目标备选信息表征的实现方式，执行所述业务功能。也就是说，客户端可以开始制作焦糖咖啡。

请参阅图3。在一个场景示例中，客户端可以是具有一定程度上的运算能力的家用智能设备。例如，可以是上表1中的类别3型设备。在一个家用场景下，客户端可以被制造为智能音箱。智能音箱可以具有麦克风、扬声器、Wifi模块、存储器、处理器等等。智能音箱可以实现普通的音频播放功能，并且配备有处理设备和网络设备以通过与用户对话以及与服务器数据交互，实现购物功能。

在本场景示例中，智能音箱可以通过识别唤醒词启动进一步的功能，在智能音箱识别到用户说出唤醒词之前，可以处于一种待机的状态。用户需要使用智能音箱时，可以说“你好，音箱”。智能音箱会录制该用户说的语音，并识别得出用户说话的内容为唤醒词。此时，智能音箱可以通过扬声器发生回答用户，“您好，您需要帮忙么？”。

在本场景示例中，用户想要购买空气净化器。用户可能会说：“我想买一台空气净化器，你有什么推荐么？”。智能音箱通过麦克风录音生成音频信息后，可以识别出该音频信息对应的身份信息。该身份信息可以与当前用户的偏好数据相关联。此时，智能音箱可以确定该用户对美的和小米的产品比较感兴趣。因此，智能音箱可以通过扬声器播放语音：“我有两个推荐，第一个是小米空气净化器2代，第二个是美的KJ210G-C46空气净化器”。用户可能会说：“我要购买小米空气净化器2代”。智能音箱便可以执行小米空气净化器2代的购买流程。

需要说明的是，智能音箱还可以与网购平台的服务器相连。智能音箱可以根据自身的配置，实现不同的功能。例如，智能音箱可以仅仅具备语音录入的功能，在获取到用户的音频信息后，可以将音频信息交由服务器处理。当然，智能音箱本身还可以实现一部分处理功能。例如，智能音箱可以对用户的音频信息进行识别，得到业务功能和身份信息之后，再将业务功能和身份信息发送给服务器，进行后续处理。当然，在实际应用过程中，该交互过程中的一个或者多个步骤可以分别在智能音箱和服务器中完成，本说明书对此并不作限定。

请参阅图4。在一个场景示例中，智能音箱可以主动预测用户关注的商品或服务。

在本场景示例中，智能音箱可以位于用户家庭的客厅。用户在看电视过程中，智能音箱可以通过对电视声音的录音，得到音频信息，进而识别得到频道编码。或者，智能音箱可以通过识别电视节目的内容，与服务器进行交互，由服务器反馈相应的电视频道。

在本场景示例中，智能音箱可以存储有电视频道的节目清单。或者，也可以从服务器拉去电视频道的节目清单。在用户观看电视的过程中，可能对某一个广告的商品感兴趣，要进行购买。此时，用户可以说：“你好，音箱”，“我要购买这个广告中的商品”。智能音箱可以根据用户说话的时间点，和节目清单中给出的时间，确定用户要购买的商品信息。进一步的，智能音箱可以根据用户的语音的音频信息生成语音特征文件进行匹配，验证用户的身份。在验证成功时，将用户的个人信息和商品信息发送给服务器，以使服务器从用户的金融账户中支付商品信息中的价款给该商品的卖家。

请参阅图5。在一个场景示例中，客户端可以是具有数据采集能力的家用物联网设备。例如，可以是上表1中的类别1型设备。在一个家用场景下，客户端可以被制造为洗衣机。洗衣机除了自身实现洗衣服所具有的功能之外，还具有传感器、Wifi模块、麦克风和扬声器等等。洗衣机的传感器可以是温度传感器，用于感测洗衣机的环境温度，或者转速传感器，用于感测洗衣机波轮或者滚筒的转速。麦克风可以录制音频数据，扬声器可以播放服务器提供的音频数据。

在本场景示例中，麦克风录制音频数据，通过Wifi模块与家庭网络互连，将音频数据发送给服务器。服务器可以反馈音频数据给所述洗衣机，通过所述扬声器播放。

在本场景示例中，用户家中缺少洗衣液，需要进行购买。用户可以对洗衣机说：“你好，洗衣机”。麦克风会将该语音录制成音频信息通过Wifi发送给服务器。服务器接收到音频信息之后，通过语音识别发现是唤醒词。并向洗衣机发送音频信息通过扬声器播放：“您好，您需要我帮您做什么？”。用户可能说：“我需要购买洗衣液，你有品牌推荐么？”，服务器接收到音频信息后，进行语音识别和语义分析，得到向用户推荐的品牌，通过发送音频信息答复用户：“目前XX品牌洗衣液正在打折促销，2L洗衣液仅花费10元，您需要购买么？”。用户可能回答：“好的，我购买这个打折促销的2L洗衣液”。服务器接收到音频信息之后，通过语音识别和语义分析得出用户同意购买该推荐的商品。

请参阅图6。在一个场景示例中，客户端可以是具有很强数据处理能力的公共服务设备。例如，可以是上表1中的类别5型设备。在一个家用场景下，客户端可以被制造为自助服务机。

在本场景示例中，自助服务机可以提供缴纳的水电费、上网费、订阅报刊杂志等功能。用户可以在自助服务机进行注册。用户注册成功之后，自助服务机中存储用户的用户特征向量和用户录入的个人信息，以用户再次操作时根据用户特征向量验证用户的身份。

在本场景示例中，已经完成注册的用户操作自助服务机订阅报纸。用户可以对自助服务机说：“你好，我要订阅报纸。”。自助服务机录制音频信息，并进行语音识别和语音分析之后，确认用户表达的内容。并根据音频信息生成语音特征向量，将该语音特征向量与本地存储的用户特征向量进行匹配，得到与该音频特征向量对应的用户特征向量，如此确定了用户的个人信息。与该个人信息关联的表征信息表明，该用户之前一直是订阅姑苏晚报。此时，自助服务机可以回答：“你好XX先生，您是需要订阅姑苏晚报吗？”。用户说：“是的”。此时，自助服务机可以为该用户进行姑苏晚报的订阅流程。

请参阅图7，本说明书一个实施方式还提供一种电子设备，所述电子设备包括语音录入单元100、存储器200以及处理器300。

其中，所述语音录入单元100，用于接收用户语音输入的音频信息。

所述存储器200，用于存储用户的身份信息。

所述处理器300，用于从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

在本实施方式中，所述电子设备可以是具备用户交互界面的电子设备。例如，所述电子设备可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、智能电视机等。通过所述用户交互界面，用户可以向所述电子设备下达业务指令。

此外，在本实施方式中，所述电子设备还可以是不具备用户交互界面的电子设备。例如，所述电子设备可以是智能音箱、智能麦克风、机顶盒、电视盒子等。在这种情况下，用户可以通过语音与所述电子设备进行交互。具体地，所述电子设备可以根据上述的音频信息采集方法，采集得到用户的音频信息。然后可以通过上述的识别业务功能的方法，识别出该音频信息指向的业务功能。然后，所述电子设备还可以根据该音频信息，确定用户的身份信息，从而可以确定与该身份信息相关联的表征信息。所述表征信息可以包括用户偏好数据，这样，根据所述用户偏好数据，从而可以按照用户的偏好，执行该业务功能。

请参阅图8，本说明书中还提供一种交互方法，所述方法的执行主体为客户端，所述方法可以包括以下步骤。

S21：接收用户语音输入的音频信息。

S23：从所述音频信息识别出所述音频信息指向的业务功能信息。

S25：根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征。

S27：将所述业务功能信息和所述表征信息发送给服务器，以用于所述服务器将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

由上可见，本实施方式中的各个步骤的执行过程与前述实施方式中的描述类似，只不过前述实施方式中的部分步骤的执行主体从客户端转变为服务器。各个步骤的具体实现方式，可以参见前述实施方式的描述，这里便不再赘述。

本说明书还提供一种电子设备，所述电子设备包括语音录入单元、存储器、网络通信端口以及处理器。

其中，所述语音录入单元，用于接收用户语音输入的音频信息。

所述存储器，用于存储用户的身份信息。

所述网络通信端口，用于与服务器进行数据交互。

所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能信息；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述业务功能信息和所述表征信息通过所述网络通信端口发送给所述服务器，以用于所述服务器将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

本说明书还提供一种交互方法，所述方法的执行主体可以是客户端，所述方法可以包括以下步骤。

S31：接收用户语音输入的音频信息。

S33：从所述音频信息识别出所述音频信息指向的业务功能信息。

S35：根据所述音频信息确定所述用户的身份信息。

S37：将所述业务功能信息和所述身份信息发送给服务器，以用于所述服务器确定与所述身份信息相关联的表征信息，以将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

所述存储器，用于存储用户的身份信息。

所述网络通信端口，用于与服务器进行数据交互。

所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能信息；根据所述音频信息确定所述用户的身份信息；将所述业务功能信息和所述身份信息通过所述网络通信端口发送给服务器，以用于所述服务器确定与所述身份信息相关联的表征信息，以将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

本说明书还提供一种交互方法，所述方法的执行主体可以是客户端，所述方法包括以下步骤。

S41：接收用户语音输入的音频信息。

S43：从所述音频信息识别出所述音频信息指向的业务功能信息。

S45：将所述业务功能信息和所述用户的音频信息发送给服务器，以用于所述服务器根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

本说明书还提供一种电子设备，所述电子设备包括语音录入单元、网络通信端口以及处理器。

所述网络通信端口，用于与服务器进行数据交互。

所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能信息；将所述业务功能信息和所述用户的音频信息通过所述网络通信端口发送给所述服务器，以用于所述服务器根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

本说明书还提供一种交互方法，所述方法的执行主体可以为客户端，所述方法包括以下步骤。

S51：接收用户语音输入的音频信息。

S53：将所述用户的音频信息发送给服务器，以用于所述服务器从所述音频信息识别出所述音频信息指向的业务功能信息，根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

所述网络通信端口，用于与服务器进行数据交互。

所述处理器，用于将所述用户的音频信息通过所述网络通信端口发送给服务器，以用于所述服务器从所述音频信息识别出所述音频信息指向的业务功能信息，根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

本说明书还提供一种交互方法，所述交互方法的执行主体可以是服务器，所述方法可以包括以下步骤。

S61：接收客户端发出的音频信息。

S63：从所述音频信息识别出所述音频信息指向的业务功能。

S65：根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征。

S67：将所述表征信息作为所述业务功能的输入，执行所述业务功能。

在本实施方式中，从所述音频信息识别出所述音频信息指向的业务功能包括：将所述音频信息转换为对应的文字信息；将所述文字信息与业务指令库中的业务指令进行匹配，并将匹配得到的业务指令作为所述音频信息指向的业务功能。

在本实施方式中，根据所述音频信息确定所述用户的身份信息包括：生成所述音频信息的语音特征向量；将所述语音特征向量与用户特征向量进行匹配；将匹配得到的用户特征向量关联的身份信息作为所述用户的身份信息。

在本实施方式中，在生成语音特征向量的步骤中包括：根据所述音频信息生成特征矩阵；将所述特征矩阵按照多个特征维度进行降维处理，得到多个用于表征特征维度的维度值，所述多个维度值形成所述语音特征向量。

在本实施方式中，从所述音频信息识别出所述音频信息指向的业务功能包括：判断在所述音频信息中是否存在启动关键词；在存在所述启动关键词的情况下，才从所述音频信息识别出所述音频信息指向的业务功能。

在本实施方式中，当从所述音频信息中识别出至少两个业务功能时，所述方法还包括：向所述客户端反馈包含所述两个业务功能的提示语音信息；接收所述客户端发来的语音选择指令，并将所述语音选择指令指向的业务功能作为所述音频信息中识别出的业务功能。

在本实施方式中，所述表征信息中包括针对所述业务功能的用户偏好数据；相应地，在执行所述业务功能之前，所述方法还包括：向所述客户端反馈符合所述用户偏好数据的语音确认信息；在接收到所述客户端发来的语音确认指令后，执行符合所述用户偏好数据的业务功能。

在本实施方式中，若根据所述音频信息无法确定所述用户的身份信息，所述方法还包括：调用与所述业务功能相关联的备选信息集，并将所述备选信息集反馈至所述客户端；其中，所述备选信息集中的备选信息表征所述业务功能的一种实现方式；接收所述客户端发来的语音选择指令，所述语音选择指令指向所述备选信息集中的目标备选信息；根据所述目标备选信息表征的实现方式，执行所述业务功能。

本说明书还提供一种服务器，所述服务器包括网络通信端口、存储器以及处理器。

其中，所述网络通信端口，用于接收客户端发出的音频信息。

所述存储器，用于存储用户的身份信息。

所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

S71：接收客户端发出的音频信息以及业务功能信息。

S73：根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征。

S75：将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

其中，所述网络通信端口，用于接收客户端发出的音频信息以及业务功能信息。

所述存储器，用于存储用户的身份信息。

所述处理器，用于根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

S81：接收客户端发出的身份信息以及业务功能信息。

S83：确定与所述身份信息相关联的表征信息；所述表征信息用于表示用户的特征。

S85：将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

在本实施方式中，所述表征信息中包括针对业务功能的用户偏好数据；相应地，在执行所述业务功能之前，所述方法还包括：向所述客户端反馈符合所述用户偏好数据的语音确认信息；在接收到所述客户端发来的语音确认指令后，执行符合所述用户偏好数据的业务功能。

其中，所述网络通信端口，用于接收客户端发出的身份信息以及业务功能信息。

所述存储器，用于存储表征信息。

所述处理器，用于确定与所述身份信息相关联的表征信息；所述表征信息用于表示用户的特征；将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

S91：接收客户端发出的业务功能信息和表征信息；其中，所述表征信息用于表示用户的特征。

S93：将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

本说明书还提供一种服务器，所述服务器包括网络通信端口和处理器。

其中，所述网络通信端口，用于接收客户端发出的业务功能信息和表征信息；其中，所述表征信息用于表示用户的特征。

所述处理器，用于将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

在本说明书中，所述语音录入单元可以将声音转换成电信号形成音频信息。所述语音录入单元可以采取电阻式麦克风、电感式麦克风、电容式麦克风、铝带式麦克风、动圈式麦克风或驻极体麦克风等形式。

所述存储器包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

所述网络通信端口可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的80号端口，也可以是负责进行FTP数据通信的21号端口，还可以是负责进行邮件数据通信的25号端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种交互方法，其特征在于，包括：

接收用户语音输入的音频信息；

从所述音频信息识别出所述音频信息指向的业务功能；

根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；

将所述表征信息作为所述业务功能的输入，执行所述业务功能。

2.根据权利要求1所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能包括：

将所述音频信息转换为对应的文字信息；

将所述文字信息与业务指令库中的业务指令进行匹配，并将匹配得到的业务指令作为所述音频信息指向的业务功能。

3.根据权利要求1所述的方法，其特征在于，根据所述音频信息确定所述用户的身份信息包括：

生成所述音频信息的语音特征向量；

将所述语音特征向量与用户特征向量进行匹配；

将匹配得到的用户特征向量关联的身份信息作为所述用户的身份信息。

4.根据权利要求3所述的方法，其特征在于，在生成语音特征向量的步骤中包括：

根据所述音频信息生成特征矩阵；

将所述特征矩阵按照多个特征维度进行降维处理，得到多个用于表征特征维度的维度值，所述多个维度值形成所述语音特征向量。

5.根据权利要求3所述的方法，其特征在于，在生成语音特征向量的步骤中包括以下至少之一：

任意选择一个所述用户的音频信息生成所述语音特征向量；或者，

向所述用户提供指定信息，并根据所述用户依照所述指定信息输入的语音信息生成所述语音特征向量。

6.根据权利要求1所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能包括：

判断在所述音频信息中是否存在启动关键词；

在存在所述启动关键词的情况下，才从所述音频信息识别出所述音频信息指向的业务功能。

7.根据权利要求1所述的方法，其特征在于，当从所述音频信息中识别出至少两个业务功能时，所述方法还包括：

向所述用户播放包含所述两个业务功能的提示语音信息；

接收所述用户下达的语音选择指令，并将所述语音选择指令指向的业务功能作为所述音频信息中识别出的业务功能。

8.根据权利要求1所述的方法，其特征在于，所述表征信息中包括针对所述业务功能的用户偏好数据；相应地，在执行所述业务功能之前，所述方法还包括：

向用户播放符合所述用户偏好数据的语音确认信息；

在接收到用户下达的语音确认指令后，执行符合所述用户偏好数据的业务功能。

9.根据权利要求1所述的方法，其特征在于，若根据所述音频信息无法确定所述用户的身份信息，所述方法还包括：

调用与所述业务功能相关联的备选信息集，并向用户播放所述备选信息集中的备选信息；其中，所述备选信息集中的备选信息表征所述业务功能的一种实现方式；

接收用户下达的语音选择指令，所述语音选择指令指向所述备选信息集中的目标备选信息；

根据所述目标备选信息表征的实现方式，执行所述业务功能。

10.一种电子设备，其特征在于，所述电子设备包括语音录入单元、存储器以及处理器，其中：

所述语音录入单元，用于接收用户语音输入的音频信息；

所述存储器，用于存储用户的身份信息；

所述处理器，用于从所述音频信息识别出所述音频信息指向的业务功能；根据所述音频信息确定所述用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；将所述表征信息作为所述业务功能的输入，执行所述业务功能。

11.一种交互方法，其特征在于，包括：

接收用户语音输入的音频信息；

从所述音频信息识别出所述音频信息指向的业务功能信息；

将所述业务功能信息和所述表征信息发送给服务器，以用于所述服务器将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

12.根据权利要求11所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能信息包括：

将所述音频信息转换为对应的文字信息；

将所述文字信息与业务指令库中的业务指令进行匹配，并将匹配得到的业务指令作为所述音频信息指向的业务功能信息。

13.根据权利要求11所述的方法，其特征在于，根据所述音频信息确定所述用户的身份信息包括：

生成所述音频信息的语音特征向量；

将所述语音特征向量与用户特征向量进行匹配；

14.根据权利要求13所述的方法，其特征在于，在生成语音特征向量的步骤中包括：

根据所述音频信息生成特征矩阵；

15.根据权利要求13所述的方法，其特征在于，在生成语音特征向量的步骤中包括以下至少之一：

16.根据权利要求11所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能信息包括：

判断在所述音频信息中是否存在启动关键词；

在存在所述启动关键词的情况下，才从所述音频信息识别出所述音频信息指向的业务功能信息。

17.根据权利要求11所述的方法，其特征在于，当从所述音频信息中识别出至少两个业务功能信息时，所述方法还包括：

向所述用户播放包含所述两个业务功能信息的提示语音信息；

接收所述用户下达的语音选择指令，并将所述语音选择指令指向的业务功能信息作为所述音频信息中识别出的业务功能信息。

18.一种电子设备，其特征在于，所述电子设备包括语音录入单元、存储器、网络通信端口以及处理器，其中：

所述语音录入单元，用于接收用户语音输入的音频信息；

所述存储器，用于存储用户的身份信息；

所述网络通信端口，用于与服务器进行数据交互；

19.一种交互方法，其特征在于，包括：

接收用户语音输入的音频信息；

从所述音频信息识别出所述音频信息指向的业务功能信息；

根据所述音频信息确定所述用户的身份信息；

将所述业务功能信息和所述身份信息发送给服务器，以用于所述服务器确定与所述身份信息相关联的表征信息，以将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

20.根据权利要求19所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能信息包括：

将所述音频信息转换为对应的文字信息；

21.根据权利要求19所述的方法，其特征在于，根据所述音频信息确定所述用户的身份信息包括：

生成所述音频信息的语音特征向量；

将所述语音特征向量与用户特征向量进行匹配；

22.根据权利要求21所述的方法，其特征在于，在生成语音特征向量的步骤中包括：

根据所述音频信息生成特征矩阵；

23.根据权利要求21所述的方法，其特征在于，在生成语音特征向量的步骤中包括以下至少之一：

24.根据权利要求19所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能信息包括：

判断在所述音频信息中是否存在启动关键词；

25.根据权利要求19所述的方法，其特征在于，当从所述音频信息中识别出至少两个业务功能信息时，所述方法还包括：

26.根据权利要求19所述的方法，其特征在于，若根据所述音频信息无法确定所述用户的身份信息，所述方法还包括：

调用与所述业务功能相关联的备选信息集，并向用户播放所述备选信息集中的备选信息；其中，所述备选信息集中的备选信息表征所述业务功能信息的一种实现方式；

将所述业务功能信息和所述目标备选信息发送至所述服务器，以使得所述服务器根据所述目标备选信息表征的实现方式，执行所述业务功能信息表示的业务功能。

27.一种电子设备，其特征在于，所述电子设备包括语音录入单元、存储器、网络通信端口以及处理器，其中：

所述语音录入单元，用于接收用户语音输入的音频信息；

所述存储器，用于存储用户的身份信息；

所述网络通信端口，用于与服务器进行数据交互；

28.一种交互方法，其特征在于，包括：

接收用户语音输入的音频信息；

从所述音频信息识别出所述音频信息指向的业务功能信息；

将所述业务功能信息和所述用户的音频信息发送给服务器，以用于所述服务器根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

29.根据权利要求28所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能信息包括：

将所述音频信息转换为对应的文字信息；

30.根据权利要求28所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能信息包括：

判断在所述音频信息中是否存在启动关键词；

31.根据权利要求28所述的方法，其特征在于，当从所述音频信息中识别出至少两个业务功能信息时，所述方法还包括：

32.一种电子设备，其特征在于，所述电子设备包括语音录入单元、网络通信端口以及处理器，其中：

所述语音录入单元，用于接收用户语音输入的音频信息；

所述网络通信端口，用于与服务器进行数据交互；

33.一种交互方法，其特征在于，包括：

接收用户语音输入的音频信息；

将所述用户的音频信息发送给服务器，以用于所述服务器从所述音频信息识别出所述音频信息指向的业务功能信息，根据所述音频信息确定所述用户的身份信息，以将所述身份信息关联的表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

34.一种电子设备，其特征在于，所述电子设备包括语音录入单元、网络通信端口以及处理器，其中：

所述语音录入单元，用于接收用户语音输入的音频信息；

所述网络通信端口，用于与服务器进行数据交互；

35.一种交互方法，其特征在于，包括：

接收客户端发出的音频信息；

从所述音频信息识别出所述音频信息指向的业务功能；

根据所述音频信息确定用户的身份信息；其中，所述身份信息与表征信息关联；所述表征信息用于表示所述用户的特征；

36.根据权利要求35所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能包括：

将所述音频信息转换为对应的文字信息；

37.根据权利要求35所述的方法，其特征在于，根据所述音频信息确定所述用户的身份信息包括：

生成所述音频信息的语音特征向量；

将所述语音特征向量与用户特征向量进行匹配；

38.根据权利要求37所述的方法，其特征在于，在生成语音特征向量的步骤中包括：

根据所述音频信息生成特征矩阵；

39.根据权利要求35所述的方法，其特征在于，从所述音频信息识别出所述音频信息指向的业务功能包括：

判断在所述音频信息中是否存在启动关键词；

40.根据权利要求35所述的方法，其特征在于，当从所述音频信息中识别出至少两个业务功能时，所述方法还包括：

向所述客户端反馈包含所述两个业务功能的提示语音信息；

接收所述客户端发来的语音选择指令，并将所述语音选择指令指向的业务功能作为所述音频信息中识别出的业务功能。

41.根据权利要求35所述的方法，其特征在于，所述表征信息中包括针对所述业务功能的用户偏好数据；相应地，在执行所述业务功能之前，所述方法还包括：

向所述客户端反馈符合所述用户偏好数据的语音确认信息；

在接收到所述客户端发来的语音确认指令后，执行符合所述用户偏好数据的业务功能。

42.根据权利要求35所述的方法，其特征在于，若根据所述音频信息无法确定所述用户的身份信息，所述方法还包括：

调用与所述业务功能相关联的备选信息集，并将所述备选信息集反馈至所述客户端；其中，所述备选信息集中的备选信息表征所述业务功能的一种实现方式；

接收所述客户端发来的语音选择指令，所述语音选择指令指向所述备选信息集中的目标备选信息；

43.一种服务器，其特征在于，所述服务器包括网络通信端口、存储器以及处理器，其中：

所述网络通信端口，用于接收客户端发出的音频信息；

所述存储器，用于存储用户的身份信息；

44.一种交互方法，其特征在于，包括：

接收客户端发出的音频信息以及业务功能信息；

将所述表征信息作为执行所述业务功能信息表示的业务功能的输入，执行所述业务功能。

45.根据权利要求44所述的方法，其特征在于，根据所述音频信息确定所述用户的身份信息包括：

生成所述音频信息的语音特征向量；

将所述语音特征向量与用户特征向量进行匹配；

46.根据权利要求45所述的方法，其特征在于，在生成语音特征向量的步骤中包括：

根据所述音频信息生成特征矩阵；

47.根据权利要求44所述的方法，其特征在于，所述表征信息中包括针对所述业务功能的用户偏好数据；相应地，在执行所述业务功能之前，所述方法还包括：

向所述客户端反馈符合所述用户偏好数据的语音确认信息；

48.根据权利要求44所述的方法，其特征在于，若根据所述音频信息无法确定所述用户的身份信息，所述方法还包括：

49.一种服务器，其特征在于，所述服务器包括网络通信端口、存储器以及处理器，其中：

所述网络通信端口，用于接收客户端发出的音频信息以及业务功能信息；

所述存储器，用于存储用户的身份信息；

50.一种交互方法，其特征在于，包括：

接收客户端发出的身份信息以及业务功能信息；

确定与所述身份信息相关联的表征信息；所述表征信息用于表示用户的特征；

51.根据权利要求50所述的方法，其特征在于，所述表征信息中包括针对业务功能的用户偏好数据；相应地，在执行所述业务功能之前，所述方法还包括：

向所述客户端反馈符合所述用户偏好数据的语音确认信息；

52.一种服务器，其特征在于，所述服务器包括网络通信端口、存储器以及处理器，其中：

所述网络通信端口，用于接收客户端发出的身份信息以及业务功能信息；

所述存储器，用于存储表征信息；

53.一种交互方法，其特征在于，包括：

接收客户端发出的业务功能信息和表征信息；其中，所述表征信息用于表示用户的特征；

54.根据权利要求53所述的方法，其特征在于，所述表征信息中包括针对业务功能的用户偏好数据；相应地，在执行所述业务功能之前，所述方法还包括：

向所述客户端反馈符合所述用户偏好数据的语音确认信息；

55.一种服务器，其特征在于，所述服务器包括网络通信端口和处理器，其中：

所述网络通信端口，用于接收客户端发出的业务功能信息和表征信息；其中，所述表征信息用于表示用户的特征；