CN111429920A

CN111429920A - 用户区分方法、用户行为库确定方法、装置及设备

Info

Publication number: CN111429920A
Application number: CN202010239552.3A
Authority: CN
Inventors: 王视鎏
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-17
Anticipated expiration: 2040-03-30
Also published as: CN111429920B

Abstract

本发明实施例提供了用户区分方法、用户行为库确定方法、装置及设备，应用于语音交互技术领域。该用户区分方法包括：获取目标用户在数据访问过程中发出的待处理语音指令；提取所述待处理语音指令的声纹特征，作为第一声纹特征；将第一声纹特征与声纹库中的声纹特征进行聚类处理，得到第一声纹特征所属聚类类别；将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户；其中，所述其他声纹特征为除所述第一声纹特征以外的声纹特征，所述其他声纹特征对应的发出者为关于所述其他声纹特征所属语音指令的发出者。应用本方案，可以解决用户需预先录入指定的语音信息，交互成本较高的问题。

Description

用户区分方法、用户行为库确定方法、装置及设备

技术领域

本发明涉及语音交互技术领域，特别是涉及一种用户区分方法、用户行为库确定方法、装置及电子设备。

背景技术

当前市场上，越来越多的信息交互端采用语音交互的形式，来实现与用户的交互。在具体应用中，信息交互端可以为客户端，例如：视频客户端，或者，也可以为智能交互设备，例如：智能机器人。

为了提升用户体验，多人共享同一账户时，信息交互端需要区分不同的用户以进行个性化推荐。相关技术中，信息交互端区分用户的方法为：每位用户需按照要求，主动录入指定的语音信息，根据用户预先录入的语音信息，进行声纹特征采集，从而根据采集到的不同用户的声纹特征区分用户。

应用相关技术所提供的方法，用户需预先录入指定的语音信息，交互成本较高。

发明内容

本发明实施例的目的在于提供用户区分方法、装置及设备，以解决用户需预先录入指定的语音信息，交互成本较高的问题。另外，本发明实施例还提供了用户行为库确定方法、装置及设备，以实现在区分出发出语音指令的目标用户后，为目标用户确定作为个性化推荐依据的用户行为库。具体技术方案如下：

第一方面，本发明实施例提供了一种用户区分方法，包括：

获取目标用户在数据访问过程中发出的待处理语音指令；

提取所述待处理语音指令的声纹特征，作为第一声纹特征；

将所述第一声纹特征与声纹库中的声纹特征进行聚类处理，得到所述第一声纹特征所属聚类类别；其中，所述声纹库中的声纹特征为从历史访问过程所获取的语音指令中所提取的特征；

将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户；其中，所述其他声纹特征为除所述第一声纹特征以外的声纹特征，所述其他声纹特征对应的发出者为关于所述其他声纹特征所属语音指令的发出者。

可选地，所述方法还包括：

当所述第一声纹特征所属聚类类别中，不存在所述其他声纹特征时，确定所述目标用户为所述声纹库对应用户以外的用户；其中，所述声纹库对应用户为：关于所述声纹库中的声纹特征所属语音指令的发出者。

可选地，所述将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户之后，所述方法还包括：

针对所述第一声纹特征所属聚类类别中的每一声纹特征，分别计算该声纹特征与该聚类类别中除该声纹特征以外的各个声纹特征的相似度，基于所计算得到的相似度，确定该声纹特征的相似性评判值；

针对所述第一声纹特征所属聚类类别中的每一声纹特征，当基于该声纹特征的相似性评判值确定出该声纹特征符合预设的剔除条件时，若该声纹特征为所述第一声纹特征，则丢弃该声纹特征，若该声纹特征不为所述第一声纹特征，则从所述声纹库中剔除该声纹特征。

第二方面，本发明实施例提供了一种用户行为库确定方法，所述方法包括：

在根据本发明实施例所提供的用户区分方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；

将所述第一行为库确定为所述目标用户的用户行为库；

其中，所述其他声纹特征为：所述待处理语音指令的第一声纹特征所属聚类类别中，除所述第一声纹特征以外的声纹特征；所述第一行为库中记录有：所对应声纹特征所属语音指令的发出者，所发出的各语音指令的语义内容。

可选地，所述方法还包括：

当不存在所述第一行为库时，或者，当所述第一声纹特征所属聚类类别中不存在所述其他声纹特征时，建立与所述第一声纹特征对应的第二行为库；

将所述第二行为库确定为所述目标用户的用户行为库；

其中，所述第二行为库中包括所述目标用户发出的待处理语音指令的语义内容。

第三方面，本发明实施例提供了一种用户区分装置，包括：

获取模块，用于获取目标用户在数据访问过程中发出的待处理语音指令；

提取模块，用于提取所述待处理语音指令的声纹特征，作为第一声纹特征；

处理模块，用于将所述第一声纹特征与声纹库中的声纹特征进行聚类处理，得到所述第一声纹特征所属聚类类别；其中，所述声纹库中的声纹特征为从历史访问过程所获取的语音指令中所提取的特征；

第一确定模块，用于将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户；其中，所述其他声纹特征为除所述第一声纹特征以外的声纹特征，所述其他声纹特征对应的发出者为关于所述其他声纹特征所属语音指令的发出者。

可选地，所述装置还包括：

第二确定模块，用于当所述第一声纹特征所属聚类类别中，不存在所述其他声纹特征时，确定所述目标用户为所述声纹库对应用户以外的用户；其中，所述声纹库对应用户为：关于所述声纹库中的声纹特征所属语音指令的发出者。

可选地，所述装置还包括：

计算模块，用于所述第一确定模块将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户之后，针对所述第一声纹特征所属聚类类别中的每一声纹特征，分别计算该声纹特征与该聚类类别中除该声纹特征以外的各个声纹特征的相似度，基于所计算得到的相似度，确定该声纹特征的相似性评判值；

更新模块，用于针对所述第一声纹特征所属聚类类别中的每一声纹特征，当基于该声纹特征的相似性评判值确定出该声纹特征符合预设的剔除条件时，若该声纹特征为所述第一声纹特征，则丢弃该声纹特征，若该声纹特征不为所述第一声纹特征，则从所述声纹库中剔除该声纹特征。

第四方面，本发明实施例提供了一种用户行为库确定装置，所述装置包括：

第一确定模块，用于在根据本发明实施例所提供的用户区分方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；

第二确定模块，用于将所述第一行为库确定为所述目标用户的用户行为库；

可选地，所述装置还包括：

行为库建立模块，用于当不存在所述第一行为库时，或者，当所述第一声纹特征所属聚类类别中不存在所述其他声纹特征时，建立与所述第一声纹特征对应的第二行为库；

第三确定模块，用于将所述第二行为库确定为所述目标用户的用户行为库；

第五方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本发明实施例所提供的用户区分方法的步骤。

第六方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本发明实施例所提供的用户行为库确定方法的步骤。

第七方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的用户区分方法的步骤。

第八方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的用户行为库确定方法的步骤。

本发明实施例提供的用户区分方法，通过获取目标用户在数据访问过程中发出的待处理语音指令；提取所述待处理语音指令的声纹特征，作为第一声纹特征；将所述第一声纹特征与声纹库中的声纹特征进行聚类处理；将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户。本方案中，不再需要用户预先录入语音信息，而是在用户与信息交互端进行语音交互时，提取用户的声纹特征，将该声纹特征放入声纹库中，这样可以使得用户区分时，通过将待处理语音指令的声纹特征与声纹库中的声纹特征聚类处理的方式，区分出用户。可见，通过本方案可以解决相关技术中用户需预先录入指定的语音信息，交互成本较高的问题。

另外，本发明实施例所提供的用户行为库确定方法中，在根据本发明实施例所提供的用户区分方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；将所述第一行为库确定为所述目标用户的用户行为库。可见，通过本方案，可以实现在区分出发出语音指令的目标用户后，为目标用户确定作为个性化推荐依据的用户行为库的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中所提供的用户区分方法的流程图；

图2为本发明实施例中所提供的用户区分方法的另一流程图；

图3为本发明实施例所提供的用户行为库确定方法的流程图；

图4为本发明实施例中所提供的针对语音指令的处理流程的示意图；

图5为本发明实施例中所提供的用户区分装置的结构示意图；

图6为本发明实施例所提供的用户行为库确定装置的结构示意图；

图7为本发明实施例所提供的一种电子设备的结构示意图；

图8为本发明实施例所提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决用户需预先录入指定的语音信息，交互成本较高的问题，本发明实施例提供了一种用户区分方法。

其中，本发明实施例所提供的一种用户区分方法，应用于电子设备。在具体应用中，该电子设备可以为服务器，或者，该电子设备也可以为终端设备。当该电子设备为服务器时，执行方法的执行主体具体可以为运行于服务器中的、与具有语音交互功能的信息交互端对应的服务端程序。当该电子设备为终端设备时，执行方法的执行主体具体可以具有语音交互功能的信息交互端。在具体应用中，该信息交互端可以为具有语音交互功能的智能交互设备，例如，智能机器人、智能家电产品，等等；或者，该信息交互端可以为具有语音交互功能的客户端，例如，视频客户端、教育学习客户端等。另外，可以理解的是，该客户端可以为网页类型的客户端，或者，APP(Application)类型的客户端，这都是合理的。

为了方便理解本方案，首先介绍本发明实施例所提供的方案的处理思想。该处理思想为：提取目标用户发出的语音指令的声纹特征，将该声纹特征与声纹库中的声纹特征进行聚类处理，所述声纹库中的声纹特征为从历史访问过程所获取的语音指令中所提取的特征，进而将该目标用户与其声纹特征所在的聚类类别中其他声纹特征对应的发出者，确定为同一用户。这样，在多个用户共享同一账户的场景下，在信息交互端进行用户区分时，无需指定用户预先录入语音信息。

如图1所示，本发明实施例所提供的一种用户区分方法，可以包括如下步骤：

S101，获取目标用户在数据访问过程中发出的待处理语音指令；

S102，提取所述待处理语音指令的声纹特征，作为第一声纹特征；

S103，将所述第一声纹特征与声纹库中的声纹特征进行聚类处理，得到所述第一声纹特征所属聚类类别；其中，所述声纹库中的声纹特征为从历史访问过程所获取的语音指令中所提取的特征；

S104，将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户；其中，所述其他声纹特征为除所述第一声纹特征以外的声纹特征，所述其他声纹特征对应的发出者为关于所述其他声纹特征所属语音指令的发出者。

在S101中，该数据访问过程可以包括用户对该信息交互端进行语音交互的过程。示例性的，针对具有语音交互功能的教育学习客户端，该数据访问过程可以为用户发出学习的语音指令，到响应该语音指令的全过程。该待处理语音指令为用户发出的语义内容，例如，可以是用户发出的“推荐音乐”、“学习英语”等语音指令。

另外，待处理语音指令的响应过程具体可以包括语义识别过程和语义处理过程，其中，语义识别过程用于识别待处理语音指令的语义内容，而语义处理过程为基于识别到的语义内容，输出与语义内容对应的结果内容。其中，语义识别过程与用户区分方法的执行过程为并行的两个过程；当待处理语音指令的语义内容为与信息推荐无关的内容时，用户区分方法的执行过程与对待处理语音指令的语义处理过程可以为并行的两个过程；当待处理语音指令的语义内容为与信息推荐相关的内容时，对待处理语音指令的语义处理可以依赖该用户区分方法的执行过程的结果，即在区分出发出待处理语音指令的目标用户后，基于该目标用户的行为信息，为该目标用户进行信息推荐。

可以理解的是，与信息推荐无关的内容为给定精准输出内容的内容，例如：“请播放歌曲青花瓷”，“进入青少年模式”等等；而与信息推荐相关的内容可以为关于信息推荐的内容或给定模糊输出内容的内容，例如：“播放首摇滚的歌曲”、“推荐些悬疑剧”等等。

在S102中，该声纹特征为携带言语信息的声波频谱特征，且声纹特征具有特定性和相对稳定性，即不同的人的声纹特征具有特定性，同一人的声纹特征具有相对稳定性。所以可以通过提取声纹特征，利用该声纹特征进行用户区分。

其中，任意一种提取语音指令中声纹特征的方式均可以应用于本发明实施例中。示例性的，在一种实现方式中，可以应用现有技术中任意一种声纹特征提取算法，进行声纹特征的提取。

在另一种实现方式中，可以通过训练声纹特征提取模型，实现提取用户待处理语音指令的声纹特征的目的。需要说明的是，任一种能够提取声纹特征的机器学习模型，均可以应用到本发明实施例中，以提取目标用户的待处理语音指令；另外，关于机器学习模型的训练方式可以采用现有技术中的训练方式，本发明实施例不做限定。

在S103中，声纹库为存放声纹特征的信息库。该声纹库中可以存储各个用户在数据访问过程中发出的全部待处理语音指令的声纹特征；或者，该声纹库中可以存储各个用户在数据访问过程中发出的部分待处理语音指令的声纹特征，这都是可以的。需要强调的是，本发明实施例所提及的各个用户为共享信息交互端的同一账户的用户。不同的账户对应不同的声纹库，并且，声纹库可以放在服务端，也可以保存在信息交互端的本地。

其中，将第一声纹特征与声纹库中的声纹特征进行聚类处理的方式可以有多种。示例性的，在一种实现方式中，将第一声纹特征与声纹库中的声纹特征进行聚类处理的方式可以包括：

以声纹特征间相似度作为聚类依据，对该第一声纹特征与声纹库中的声纹特征进行聚类处理。其中，现有技术中任意一种计算声纹特征相似度的方式均可以应用在本发明实施例中，示例性的，可以比对声纹特征的特征序列，利用特征序列间的相似度，从而计算出声纹特征间的相似度，或者，可以将声纹特征矢量化处理，计算矢量化处理后的声纹特征间距离，并将声纹特征间距离的倒数作为声纹特征的相似度。当然方法并不局限于此。

针对该种实现方式，聚类过程可以存在多种。示例性的，可以设置相似度最小阈值、相似度最大阈值和预定数量，当提取到第一声纹特征后，触发对第一声纹特征和声纹库中的声纹特征进行聚类，具体而言：取声纹库中预定数量的声纹特征，计算预定数量的声纹特征两两之间的相似度，若两个声纹特征的相似度大于相似度最大阈值，则将该两个声纹特征聚为一类，直至预定数量内的每一声纹特征，与其所在的聚类类别内的各个声纹特征相似度均大于相似度最大阈值；针对预定数量以外的每一待聚类的声纹特征，将该待聚类的声纹特征与预定数量内已聚类的各个声纹特征进行比对，若该待聚类的声纹特征与已聚类的声纹特征中任一声纹特征的相似度均小于相似度最小阈值，则该待聚类的声纹特征自成一类，若该待聚类的声纹特征与聚类得到的一类声纹特征中的各个声纹特征的相似度均大于相似度最大阈值，则将该待聚类的声纹特征合并入该类声纹特征中，直至声纹库中所有的声纹特征全部聚类完成。另外，可以理解的是，上述示例性给出的聚类过程可以称为动态聚类。

举例而言，设置相似度最小阈值为0.50、相似度最大阈值0.85和预定数量10，当提取到第一声纹特征后，触发第一声纹特征和声纹库中的声纹特征进行动态聚类，此时声纹特征库里有100个声纹特征，选取声纹库中10个声纹特征，计算该声纹特征两两之间的相似度，若相似度大于0.85，则将两个声纹特征聚为一类，直至选取的10个声纹特征中的每一声纹特征，与其所在的聚类类别内的各个声纹特征相似度均大于0.85。针对预定数量以外的其他90个声纹特征，将各个声纹特征逐个与已聚类的10个声纹特征进行比对，若该声纹特征与已聚类的声纹特征中任一声纹特征的相似度均小于0.50，则该声纹特征自成一类，若该待聚类的声纹特征与聚类得到的一类声纹特征中的各个声纹特征的相似度均大于0.85，则将该待聚类的声纹特征合并入该类声纹特征中，直至声纹库中所有的声纹特征全部聚类完成。

示例性的，在另一种实现方式中，该方式可以为：

将声纹特征间矢量距离作为聚类依据，对该第一声纹特征与声纹库中的历史声纹特征进行聚类处理。其中，现有技术中任意一种矢量化处理方式均可以应用于本发明实施例中。并且，可以将声纹特征进行矢量化处理，利用矢量化处理之后的声纹特征之间的距离作为聚类依据，对该第一声纹特征与声纹库中的声纹特征进行聚类。

针对该种实现方式，聚类过程存在多种。示例性的，可以设置距离最小阈值、距离最大阈值和预定数量，当提取到第一声纹特征后，触发对第一声纹特征和声纹库中的声纹特征进行动态聚类，具体而言：取声纹库中预定数量的声纹特征，计算该声纹特征两两之间的距离，若距离小于距离最小阈值，则将两个声纹特征聚为一类，直至预定数量内的每一声纹特征，与其所在的聚类类别内的各个声纹特征的距离均小于距离最小阈值。针对预定数量以外的声纹特征，将各个声纹特征逐个与预定数量内已聚类的声纹特征进行比对，若该声纹特征与已聚类的声纹特征中任一声纹特征的距离均大于距离最大阈值，则该声纹特征自成一类，若该待聚类的声纹特征与聚类得到的一类声纹特征中的各个声纹特征的距离均小于距离最小阈值，则将该待聚类的声纹特征合并入该类声纹特征中，直至声纹库中所有的声纹特征全部聚类完成。

举例而言，设置距离最小阈值为0.5、距离最大阈值1和预定数量10，当第一声纹特征矢量化处理后，触发矢量化的第一声纹特征和声纹库中的矢量化的声纹特征进行动态聚类，此时声纹特征库里有100个声纹特征，选取声纹库中10个声纹特征，计算该声纹特征两两之间的距离，若距离小于0.5，则将两个声纹特征聚为一类，直至选取的10个声纹特征中的每一声纹特征，与其所在的聚类类别内的各个声纹特征相似度均小于0.5。针对预定数量以外的其他90个声纹特征，将各个声纹特征逐个与已聚类的10个声纹特征进行比对，若该声纹特征与已聚类的声纹特征中任一声纹特征的距离均大于1，则该声纹特征自成一类，若该待聚类的声纹特征与聚类得到的一类声纹特征中的各个声纹特征的距离均小于0.5，则将该待聚类的声纹特征合并入该类声纹特征中，直至声纹库中所有的声纹特征全部聚类完成。

可以理解的是，任意一种现有技术中的聚类处理的方式均可以应用于本发明实施例中，示例性的，可以应用动态聚类法、系统聚类法、图论聚类法、聚类预报法等方式，对该第一声纹特征与声纹库中的历史声纹特征进行聚类处理。

在S104中，当聚类处理完成后，可以获知聚类处理后的聚类类别信息，即存在的聚类类别的数量，以及每一聚类类别所包括的各个声纹特征，这样即可获知第一声纹特征所属聚类类别。其中，聚类过程中，由于相似的声纹特征被聚为一类，而同一用户所发出的语义指令的声纹特征较为相似，因此，每一聚类类别可以对应一个用户。

当该第一声纹特征聚类完成后，若该第一声纹特征所属聚类类别中，存在其他声纹特征，则将该第一声纹特征所属聚类类别中其他声纹特征所属语音指令的发出者，确定为目标用户，也就是，该目标用户与其他声纹特征所属语音指令的发出者为同一用户。举例而言，针对于：用户1，声纹特征(x₁-x_n)；用户2，声纹特征(y₁-y_n)；用户3，声纹特征(z₁-z_n)的声纹库，经聚类处理后，确定第一声纹特征x_i，属于该声纹特征x₁-x_n中的声纹特征，则确定x₁-x_n中除x_i外对应的发出者均为用户1，则该目标用户确定为用户1。

若该第一声纹特征所属聚类类别中，不存在其他声纹特征，则确定目标用户为所述声纹库对应用户以外的用户；其中，所述声纹库对应用户为：关于所述声纹库中的声纹特征所属语音指令的发出者。举例而言，针对于：用户1，声纹特征(x₁-x_n)；用户2，声纹特征(y₁-y_n)；用户3，声纹特征(z₁-z_n)；声纹特征(v₁)的声纹库，对于第一声纹特征v₁，经聚类处理后，该声纹特征所在的聚类类别中，不存在其他的声纹特征，则该第一声纹特征不属于声纹库中已有的用户，可以确定目标用户为该声纹库中对应用户以外的用户，即用户4。

另外，在具体应用中，由于声纹库的存储空间可能有限，那么，可以设定有效期，并对声纹库中的超过有效期的声纹特征进行删除。其中，该有效期可以为三个月、六个月等等。

在包含上述的S101-S104的基础上，如图2所示，本发明实施例提供了一种用户区分方法，还可以包括如下步骤：

S105，针对所述第一声纹特征所属聚类类别中的每一声纹特征，分别计算该声纹特征与该聚类类别中除该声纹特征以外的各个声纹特征的相似度，基于所计算得到的相似度，确定该声纹特征的相似性评判值；

为了保证声纹库中的同一用户的声纹特征均是相似性较高的特征，在将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户之后，可以确定出该第一声纹特征所属聚类类别中，与其他声纹特征相似性较弱的声纹特征，即该聚类类别中属于相对离群的声纹特征，进而，不在声纹库中保存所确定出的声纹特征。

示例性的，基于所计算得到的相似度，确定该声纹特征的相似性评判值的实现方式存在多种。示例性的，在一种实现方式中，基于所计算得到的相似度，确定该声纹特征的相似性评判值，可以包括：对所计算得到的相似度进行求和，将和值确定为该声纹特征的相似性评判值。示例性的，在另一种实现方式中，基于所计算得到的相似度，确定该声纹特征的相似性评判值，可以包括：对所计算得到的相似度求取平均值，将求取得到的平均值确定为该声纹特征的相似性评判值。

S106，针对所述第一声纹特征所属聚类类别中的每一声纹特征，当基于该声纹特征的相似性评判值确定出该声纹特征符合预设的剔除条件时，若该声纹特征为所述第一声纹特征，则丢弃该声纹特征，若该声纹特征不为所述第一声纹特征，则从所述声纹库中剔除该声纹特征。

示例性的，在一种实现方式中，基于该声纹特征的相似性评判值确定该声纹特征是否符合预设的剔除条件，可以包括：

判断该声纹特征的相似性评判值是否小于预设相似阈值，如果是，判定该声纹特征符合预设的剔除条件。

其中，预设相似阈值可以根据实际情况设定，本发明实施例对此不做限定。

示例性的，在另一种实现方式中，基于该声纹特征的相似性评判值确定该声纹特征是否符合预设的剔除条件，可以包括：

在以声纹特征的相似性评判值作为排序依据，对各个声纹特征进行降序排序后，判断该声纹特征是否排列在后N位内，如果是，判定该声纹特征符合预设的剔除条件。其中，N为根据实际情况选取，例如：N可以选取1，2，3，5等等。

并且，由于当前分析的声纹特征可能是第一声纹特征，也可能不是第一声纹特征，因此，在判断出当前分析的声纹特征符合预设的剔除条件时，若该声纹特征为所述第一声纹特征，由于第一声纹特征并为加入至声纹库，因此，可以直接丢弃该声纹特征；若该声纹特征不为所述第一声纹特征，由于该声纹特征保存在声纹库中，因此，可以从所述声纹库中剔除该声纹特征。

本实施例中，在解决相关技术中用户需预先录入指定的语音信息，交互成本较高的问题的基础上，通过对第一声纹特征所属聚类类别中声纹特征的相似性进行再次分析，使得不在声纹库中保存相似性较弱的声纹特征，从而可以保证声纹库中的同一用户的声纹特征均是相似性较高的特征，达到进一步提升用户区分的准确性的目的。

在基于本发明实施例所提供的用户区分方法区分出发出语音指令的目标用户后，可以为该目标用户确定作为个性化推荐依据的用户行为库，从而后续基于该用户行为库为该目标用户进行个性化推荐。基于该处理思想，本发明实施例还提供了一种用户行为库确定方法。

其中，该用户行为库确定方法，应用于电子设备。在具体应用中，该电子设备可以为服务器，或者，该电子设备也可以为终端设备。当该电子设备为服务器时，执行方法的执行主体具体可以为运行于服务器中的、与具有语音交互功能的信息交互端对应的服务端程序。当该电子设备为终端设备时，执行方法的执行主体具体可以具有语音交互功能的信息交互端。在具体应用中，该信息交互端可以为具有语音交互功能的智能交互设备，例如，智能机器人、智能家电产品，等等；或者，该信息交互端可以为具有语音交互功能的客户端，例如，视频客户端、教育学习客户端等。另外，可以理解的是，该客户端可以为网页类型的客户端，或者，APP(Application)类型的客户端，这都是合理的。

并且，在具体应用中，该用户行为库确定方法，可以与上述的用户区分方法应用于同一电子设备中。

如图3所示，本发明实施例所提供的用户行为库确定方法，可以包括如下步骤：

S301，在根据本发明所提供的用户区分方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；

S302，将所述第一行为库确定为所述目标用户的用户行为库；

本实施例中，可以预先为某些声纹特征对应建立用户行为库，用户行为库中记录有所对应声纹特征所属语音指令的发出者，所发出的各语音指令的语义内容，即用户行为库中记录有：与所对应声纹特征属于同一聚类类别的其余声纹特征所属语音指令的语义内容。这样，使得每一用户行为库对应一个用户，每一用户行为库用于记录所对应用户所发出的各语音指令的语义内容。

举例而言，用户行为库1是与声纹特征1对应的行为库，用户行为库1中可以记录声纹特征1所属语音指令的语义内容；而当声纹特征2和声纹特征3与声纹特征1属于同一聚类类别时，该用户行为库1中可以记录该声纹特征2所属语音指令的语义内容，以及该声纹特征3所属语音指令的语义内容。可见，由于声纹特征1、声纹特征2和声纹特征3为相似的特征，可以被认为是同一用户A的语音指令的特征，那么，将声纹特征1、声纹特征2和声纹特征3各自所属语音指令的语义内容，记录在用户行为库1中，可以形成用户A对应的用户行为库。另外，所谓的语义内容为通过语义识别所得到内容，例如：学习初二英语、听流行音乐、看电视连续剧、看新闻联播等等。

基于上述描述，本实施例所述的方案中，在根据用户区分方法区分出发出待处理语音指令的目标用户后，可以确定与其他声纹特征中的声纹特征对应的第一行为库；进而，将所述第一行为库确定为所述目标用户的用户行为库。

另外，本发明实施例所提供的用户行为库确定方法，还可以包括：

将所述第二行为库确定为所述目标用户的用户行为库；

需要说明的是，在建立第二行为库后，为了后续在对其他语音指令的处理时，可以利用该第二行为库，以及避免行为库的重复建立，可以将该待处理语音指令的第一声纹特征加入至声纹库中。

本发明实施例所提供的用户行为库确定方法中，在根据本发明实施例所提供的用户区分方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；将所述第一行为库确定为所述目标用户的用户行为库。可见，通过本方案，可以实现在区分出发出语音指令的目标用户后，为目标用户确定作为个性化推荐依据的用户行为库的目的。

为了方便理解本发明实施例所提供的用户区分方法和用户行为库确定方法，下面结合图4，对语音指令的完整处理过程进行介绍。

当用户输入语音指令时，电子设备一方面进行用户区分和用户行为库确定，一方面进行语音指令的响应过程。

具体而言，电子设备进行区分用户和用户行为库确定的过程可以包括：

提取待处理语音指令的声纹特征，将该声纹特征与声纹库中声纹特征进行聚类处理，若该待处理语音指令的声纹特征所属聚类类别中存在其他声纹特征，将该用户与该声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户，即该用户为已知用户；并且，在该用户为已知用户时，提取该已知用户的行为库，作为该发出语音指令的用户的用户行为库，从而获知该发出语音指令的用户的用户行为信息；其中，该已知用户对应的行为库中记录有该已知用户作为发出者，所发出的各语音指令的语义内容；

而若该待处理语音指令的声纹特征所属聚类类别中不存在其他声纹特征，将该用户作为新用户，并且在该用户为新用户时，则新建行为库，将待处理语音指令的语义内容加入该新建的行为库，作为该发出语音指令的用户的用户行为库，从而获知新用户的用户行为信息。

具体而言，电子设备在响应语音指令过程中，识别待处理语音指令的语义内容，并基于该用户行为信息和语义内容，响应该待处理语音指令，即响应用户请求。

可见，通过本方案可以解决相关技术中用户需预先录入指定的语音信息，交互成本较高的问题。并且，为声纹库中的声纹特征对应的用户建立行为档案，可以为个性推荐提供行为基础。

相应于上述的用户区分方法的实施例，本发明实施例还提供了一种用户区分装置，应用于信息交互端，如图5所示，所述装置可以包括：

获取模块510，用于获取目标用户在数据访问过程中发出的待处理语音指令；

提取模块520，用于提取所述待处理语音指令的声纹特征，作为第一声纹特征；

处理模块530，用于将所述第一声纹特征与声纹库中的声纹特征进行聚类处理，得到所述第一声纹特征所属聚类类别；其中，所述声纹库中的声纹特征为从历史访问过程所获取的语音指令中所提取的特征；

第一确定模块540，用于将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户；其中，所述其他声纹特征为除所述第一声纹特征以外的声纹特征，所述其他声纹特征对应的发出者为关于所述其他声纹特征所属语音指令的发出者。

本发明实施例提供的用户区分装置，通过获取目标用户在数据访问过程中发出的待处理语音指令；提取所述待处理语音指令的声纹特征，作为第一声纹特征；将所述第一声纹特征与声纹库中的声纹特征进行聚类处理；将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户。本方案中，不再需要用户预先录入语音信息，而是在用户与信息交互端进行语音交互时，提取用户的声纹特征，将该声纹特征放入声纹库中，这样可以使得用户区分时，通过将待处理语音指令的声纹特征与声纹库中的声纹特征聚类处理的方式，区分出用户。可见，通过本方案可以解决相关技术中用户需预先录入指定的语音信息，交互成本较高的问题。

可选地，所述装置还包括：

第二确定模块，用于当所述第一声纹特征所属聚类类别中，不存在所述其他声纹特征，确定所述目标用户为所述声纹库对应用户以外的用户；其中，所述声纹库对应用户为：关于所述声纹库中的声纹特征所属语音指令的发出者。

可选地，所述装置还包括：

相应于上述的用户行为库确定方法的实施例，本发明实施例还提供了用户行为库确定装置。如图6所示，本发明实施例所提供的用户行为库确定装置，可以包括：

第一确定模块610，用于在根据本发明实施例所述的用户区分方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；

第二确定模块620，用于将所述第一行为库确定为所述目标用户的用户行为库；

可选地，所述装置还包括：

基于上述的用户区分方法的实施例，本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现本发明实施例所提供的一种用户区分方法步骤。

另外，基于上述的用户行为库确定方法的实施例，本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现本发明实施例所提供的一种用户行为库确定方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于上述的用户区分方法的实施例，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中所述的用户区分方法。

基于上述的用户行为库确定方法的实施例，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中所述的用户行为库确定方法。

基于上述的用户区分方法的实施例，在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的用户区分方法。

基于上述的用户行为库确定方法的实施例，在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的用户行为库确定方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于信息交互端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用户区分方法，其特征在于，所述方法包括：

获取目标用户在数据访问过程中发出的待处理语音指令；

提取所述待处理语音指令的声纹特征，作为第一声纹特征；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述将所述目标用户与所述第一声纹特征所属聚类类别中其他声纹特征对应的发出者，确定为同一用户之后，所述方法还包括：

4.一种用户行为库确定方法，其特征在于，所述方法包括：

在根据权利要求1-3任一项所述的方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；

将所述第一行为库确定为所述目标用户的用户行为库；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述第二行为库确定为所述目标用户的用户行为库；

6.一种用户区分装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

9.一种用户行为库确定装置，其特征在于，所述装置包括：

第一确定模块，用于在根据权利要求1-3任一项所述的方法区分出发出待处理语音指令的目标用户后，确定与其他声纹特征中的声纹特征对应的第一行为库；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。