CN113448975B

CN113448975B - 一种人物画像库的更新方法、装置、系统和存储介质

Info

Publication number: CN113448975B
Application number: CN202110578744.1A
Authority: CN
Inventors: 吴峥; 张翼飞; 高天; 张学阳; 王培养
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-01-17
Anticipated expiration: 2041-05-26
Also published as: CN113448975A

Abstract

本申请公开了一种人物画像库的更新方法、装置、系统和存储介质，该方法包括：对获取到的语音序列进行特征提取处理，得到新声纹特征；判断新声纹特征与人物画像库中的声纹特征是否匹配；若匹配失败，则基于当前匹配失败的次数判定是否满足第一聚类触发条件；若满足第一聚类触发条件，则对新声纹特征进行聚类处理，得到第一聚类结果，基于第一聚类结果将新声纹特征注册到人物画像库中。通过上述方式，本申请能够实现自动将新说话人的信息注册到人物画像库，且保护用户的隐私。

Description

一种人物画像库的更新方法、装置、系统和存储介质

技术领域

本申请涉及语音分析技术领域，具体涉及一种人物画像库的更新方法、装置、系统和存储介质。

背景技术

目前针对家庭人员人物画像的解决方案为用户主动注册，依赖家庭内人员录入人脸/语音，以用来将人物信息与生理特征进行映射关联；在后续人机交互中，交互设备获取到人脸/语音后，经过与家庭注册库比对获取到关联的人物信息，从而实现利用家庭内人物画像自动识别人物信息。但是该方案存在以下缺点：(1)由于依赖于用户主动注册，增加了用户操作流程和使用门槛，在用户配合度不高时，直接导致人物画像和个性化推荐功能废弃；且当老人/小孩群体使用时，因认知水平和操作经验有限，同样无法获取到注册信息，导致该方案无法推广应用。(2)随着人们对个人隐私的保护意识增强，依赖人脸照片这种高敏感数据作为输入不再合适。

发明内容

本申请提供一种人物画像库的更新方法、装置、系统和存储介质，能够实现自动将新说话人的信息注册到人物画像库，且保护用户的隐私。

为解决上述技术问题，本申请采用的技术方案是：提供一种人物画像库的更新方法，该方法包括：对获取到的语音序列进行特征提取处理，得到新声纹特征；判断新声纹特征与人物画像库中的声纹特征是否匹配；若匹配失败，则基于当前匹配失败的次数判定是否满足第一聚类触发条件；若满足第一聚类触发条件，则对新声纹特征进行聚类处理，得到第一聚类结果，基于第一聚类结果将新声纹特征注册到人物画像库中。

为解决上述技术问题，本申请采用的另一技术方案是：提供一种人物画像构建装置，该人物画像构建装置包括互相连接的存储器和处理器，其中，存储器用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述技术方案中的人物画像库的更新方法。

为解决上述技术问题，本申请采用的另一技术方案是：提供一种信息推荐系统，该信息推荐系统包括互相连接的人物画像构建装置与音频采集装置，音频采集装置用于采集语音信号，生成语音序列；人物画像构建装置用于对语音序列进行处理，其中，人物画像构建装置为上述技术方案中的人物画像构建装置。

为解决上述技术问题，本申请采用的另一技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述技术方案中的人物画像库的更新方法。

通过上述方案，本申请的有益效果是：在获取到因用户说话产生的语音序列后进行特征提取处理，生成新声纹特征；然后判断新声纹特征与人物画像库中的声纹特征是否匹配，如果新声纹特征与人物画像库中的某一声纹特征匹配，则可以直接将新声纹特征与其匹配的声纹特征对应的人物信息进行关联；如果新声纹特征与人物画像库中的所有声纹特征均不匹配，则判断截止至目前匹配成败的次数是否满足第一聚类触发条件，如果满足第一聚类触发条件，便进行聚类得到第一聚类结果，然后基于第一聚类结果将新声纹特征注册到人物画像库中，实现对新说话人的注册；由于采用日常交互最频繁且易获取的语音作为输入数据，摒弃人脸等高敏感数据，有助于保护用户的隐私；而且无需用户手动操作，便可实现自动构建人物画像库，实现简单。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的人物画像库的更新方法一实施例的流程示意图；

图2是本申请提供的人物画像库的更新方法另一实施例的流程示意图；

图3是本申请提供的采用教师网络对学生网络进行训练的流程示意图；

图4是本申请提供的采用层次聚类法与K均值聚类法进行聚类的流程示意图；

图5(a)是本申请提供的第一次聚类的示意图；

图5(b)是本申请提供的在第一次聚类后产生新声纹特征的示意图；

图5(c)是本申请提供的第二次聚类的示意图；

图6是本申请提供的人物画像构建装置一实施例的结构示意图；

图7是本申请提供的信息推荐系统一实施例的结构示意图；

图8是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请提供的人物画像库的更新方法一实施例的流程示意图，该方法包括：

步骤11：对获取到的语音序列进行特征提取处理，得到新声纹特征。

用户可向音频采集装置输入语音指令，以使得音频采集装置进行采集，得到语音序列，并发送给人物画像构建装置，该人物画像构建装置可从该语音序列中提取出声纹特征，记作新声纹特征；例如，以音频采集装置为电视的遥控器为例，用户可通过语音命令电视节目调换至购物频道。

步骤12：判断新声纹特征与人物画像库中的声纹特征是否匹配。

在提取出最新获取到的语音序列中的新声纹特征后，将该新声纹特征与人物画像库中的所有声纹特征依次进行比对，以判定人物画像库中是否与该新声纹特征相似的声纹特征，以便进行声纹特征的合并或将新声纹特征注册到人物画像库中，该人物画像库为存储有人物画像的数据库，比如：以家庭S为例，家庭S包含4个成员F1-F3，则人物画像库包括成员F1-F3的画像信息，该画像信息包括说话人的性别、年龄或音色等信息。

可以理解地，如果人物画像库为空，则表明截止到目前为止，人物画像库中不存在任何声纹特征，当前生成的新声纹特征在人物画像库中没有与其匹配的声纹特征，此时可对语音序列中的新声纹特征进行聚类处理，确定与其对应的人物信息，建立新声纹特征与人物信息的映射关系，并存储到人物画像库中。

进一步地，若新声纹特征与人物画像库中的声纹特征匹配成功，则建立新声纹特征与人物画像库中匹配的声纹特征对应的人物信息之间的映射关系。具体地，如果经过特征比对后，发现新声纹特征与人物画像库中某一声纹特征匹配成功，则表明人物画像库中已经有了与新声纹特征相关的信息，与新声纹特征对应的新说话人已经被注册过，此时直接建立新声纹特征与人物画像库中匹配的声纹特征之间的映射关系；例如，在第一时刻采集到用户U发出的语音序列L1，对语音序列L1进行处理后，将其对应的新声纹特征V1注册到了人物画像库中，建立新声纹特征V1与用户U之间的对应关系；在第一时刻之后的第二时刻，采集到用户U发出的语音序列L2，通过对语音序列L2进行处理后，产生相应的新声纹特征V2，此时建立新声纹特征V2与用户U之间的对应关系，用以标识新声纹特征V2也属于用户U对应的信息。

步骤13：若新声纹特征与人物画像库中的声纹特征匹配失败，则基于当前匹配失败的次数判定是否满足第一聚类触发条件。

如果将新声纹特征与人物画像库中的所有声纹特征对比后，发现新声纹特征无法与人物画像库中的任何一个声纹特征匹配，则表明与新声纹特征对应的新说话人可能没有被注册到人物画像库中，此时可将匹配失败的次数加一，等待下一个语音序列的到来，即返回执行步骤11，直至统计出当前匹配失败的次数已经达到一个设定的上限值，判定满足第一聚类触发条件。

步骤14：若满足第一聚类触发条件，则对新声纹特征进行聚类处理，得到第一聚类结果，基于第一聚类结果将新声纹特征注册到人物画像库中。

在判定出当前满足第一聚类触发条件时，采用聚类方法对所有匹配失败的语音序列的新声纹特征进行聚类处理，得到第一聚类结果，第一聚类结果可以是一个或多个聚类簇，每个聚类簇可以包括一个或多个新声纹特征，即该第一聚类结果用于表示每个新声纹特征所属的聚类簇；然后可比较第一聚类结果中每一个聚类簇对应的声纹特征是否与人物画像库中的声纹特征相匹配；如果匹配成功，则可将该聚类簇对应的声纹特征与人物画像库中相匹配的声纹特征进行合并；如果无法匹配，则可直接将该聚类簇对应的声纹特征添加到人物画像库中，从而完成对新说话人的声纹特征的注册。或者还可对比声纹特征所属的聚类簇，如果人物画像库中存在与新声纹特征的聚类簇相同的声纹特征，则对同一聚类簇中的声纹特征进行合并；如果人物画像库中不存在与新声纹特征的聚类簇相同的声纹特征，则直接将该新声纹特征注册到人物画像库中；例如，第一聚类结果中包含两个聚类簇F1-F2，与聚类簇F2对应的用户记作Q，人物画像库中包含聚类簇F1对应的声纹特征，此时可将第一聚类结果中聚类簇F1对应的新声纹特征与人物画像库中聚类簇F1对应的声纹特征合并，将第一聚类结果中聚类簇F2对应的新声纹特征直接注册到人物画像库中，并建立聚类簇F2对应的新声纹特征与用户Q之间的映射关系。

本实施例在获取到新说话人对应的语音序列后，进行特征提取处理，生成新声纹特征；然后将新声纹特征与人物画像库中的声纹特征对比，以确定人物画像库中是否与新声纹特征相匹配的声纹特征，如果匹配成功，则可将新声纹特征与其匹配的声纹特征对应的人物信息进行关联；如果匹配失败，则将匹配失败的次数加一，等待获取下一个语音序列，执行相似的操作，并判断当前匹配成败的次数是否满足第一聚类触发条件，如果满足第一聚类触发条件，便进行聚类，得到第一聚类结果，然后通过对第一聚类结果进行分析，将新声纹特征添加到人物画像库中；本实施例采用日常交互最频繁且易获取的语音作为输入，摒弃人脸等高敏感数据，有助于保护用户的隐私；而且无需用户手动操作，能够实现无感知地构建人物画像库，不额外增加操作流程及使用复杂度，最终实现自动、稳定的家庭人物画像构建。

请参阅图2，图2是本申请提供的人物画像库的更新方法另一实施例的流程示意图，该方法包括：

步骤201：将语音序列输入改进的ResNet-18网络中，得到新声纹特征。

日常家庭在使用交互设备时，多数为发送简短的语音指令，60％以上的语音有效时长集中在0.5s-1.5s之间，因此在从音频中提取出说话人信息方面，可以采用短时声纹效果较好的卷积神经网络(Convolutional Neural Networks，CNN)，主流的音频提取网络采用深度残差网络(Deep residual network，ResNet)及变种。另一方面，在实际应用中，每天N个家庭产生的M条语音会产生N*M数量级的数据，因此需要限制音频提取网络的复杂度，本实施例通过知识蒸馏方案在保证小模型效果的前提下，最大化限制网络结构的复杂度，从而解决应用落地痛点，扩宽了应用场景。

进一步地，本实施采用改进的ResNet-18(记作ResNet-18'网络)对输入的语音序列进行特征提取处理，改进的ResNet网络为学生网络，为了得到性能较好的改进的ResNet网络，可以采用如下步骤进行训练：

步骤31：分别采用教师网络与学生网络对语音序列进行处理，得到第一声纹特征与第二声纹特征。

将获取到的语音序列分别输入至预先训练完成的教师网络与待训练的学生网络，教师网络对语音序列进行特征提取处理，得到第一声纹特征；学生网络对语音序列进行特征提取处理，得到第二声纹特征。具体地，学生网络为ResNet-18'网络，教师网络为ResNet-50网络。

进一步地，目前ResNet-18网络采用8个块(block)来提取帧级别的说话人表征(即声纹特征)，每个block由2个二维卷积层组成；为了不增加网络总参数量同时增加特征提取的准确度，对ResNet-18网络进行了改进，在每个block中增加一个卷积层，即ResNet-18'网络中每个块包括三个卷积层，同时减少感受野的尺寸，具体的网络参数如下表所示：

其中，stride为步长，Conv1-Conv5_x为卷积层，Pool为池化层，max pool为最大池化，Statistics pool为统计池化，Dense为全连接层；在描述网络结构时“K*K，C”表示感受野的尺寸为K*K、输出通道数为C；在描述输出尺寸时，“T*F，C”表示输出特征图的时域尺寸为T、频域尺寸为F、通道数为C。

小尺寸的ResNet网络因网络层数有限，随着训练数据的增加，模型效果差于大尺寸网络，因此构建一个大尺寸网络作为教师网络，采用知识蒸馏方式将大尺寸网络的效果迁移至小网络上，大尺寸网络(以ResNet-50为例)的结构如下所示：

在其他实施例中，为了计算出损失值，分别采用第一嵌入(Embedding)层与第二嵌入层对第一声纹特征与第二声纹特征进行降维处理，以使得处理后的第一声纹特征的维度与处理后的第二声纹特征的维度相等。

步骤32：计算第一声纹特征与第二声纹特征之间的均方误差损失值。

通过对比第一声纹特征的表征向量与第二声纹特征的表征向量，来计算均方误差损失值(mean squared error LOSS，MSE LOSS)，计算公式如下所示：

其中，m为表征向量的数量，V_t表示教师网络提取到的说话人的第一声纹特征中的表征向量，V_s表示学生网络提取到的说话人的第二声纹特征中相应的表征向量。

步骤33：分别对第一声纹特征与第二声纹特征进行分类，得到第一后验分布与第二后验分布。

采用第一分类器对第一声纹特征进行分类，得到第一后验分布；并采用第二分类器对第二声纹特征进行分类，得到第二后验分布；具体地，第一分类器可以为现有的对说话人的语音进行分类的分类器，或者其为本实施例所采用的分类方案，具体将在下文进行描述。

步骤34：计算第一后验分布与第二后验分布之间的KL散度值。

通过对比第一后验分布与第二后验分布，来计算KL散度(kullback leiblerdivergence，KLD)值，即采用如下公式：

其中，Y'表示学生网络的预测分布，Y表示教师网络的预测分布，n为分类数量。

步骤35：通过均方误差损失值与KL散度值，计算总损失值。

将均方误差损失值与KL散度值进行加权求和，得到损失值，即采用如下公式：

L＝γ*KLD(Y,Y')+(1-γ)*MSE(V_t,V_s) (3)

其中，γ表示调节权重系数，其取值范围为[0，1]。

步骤36：判断总损失值是否大于预设损失值。

预设损失值为根据经验或应用需要设置的一个值，比如：85％、90％或95％。

步骤37：若总损失值大于预设损失值，则调整学生网络的参数。

如果总损失值小于预设损失值，则表明当前学生网络的准确度不高，此时返回分别采用教师网络与学生网络对语音序列进行处理的步骤，即执行步骤31，直至总损失值小于预设损失值，完成对学生网络的训练，得到训练好的学生网络。

本实施例通过两个损失函数的融合共同约束学生网络提取特征的能力，使得学生网络的效果趋于教师网络，实现使用小尺寸的学生网络用来提取音频的表征向量。

步骤202：判断新声纹特征与人物画像库中的声纹特征是否匹配。

判断新声纹特征与人物画像库中所有声纹特征之间的最大相似度是否大于第二预设相似度，第二预设相似度为衡量两个特征之间的相似度的值，其可根据经验或应用需要进行设置，比如：80％、80％或95％。若该最大相似度是否大于第二预设相似度，则认为匹配成功；否则，认为匹配失败。

步骤203：若新声纹特征与人物画像库中的声纹特征匹配成功，则建立新声纹特征与人物画像库中匹配的声纹特征之间的映射关系。

为了完成新说话人的快速注册入库，以便后续比对成功时启用定向推荐功能，本实施例增加了用户感知以及业务推荐频次，设置新说话人的累积门限(即匹配失败的次数的阈值)，当输入的语音序列与人物画像库比对失败时，则触发新说话人累积计数，在计数达到累积门限时，对累计的多条语音序列进行聚类，得到第一聚类结果，并对第一聚类结果筛选后进行声纹注册或人物画像库更新，完成新说话人的快速注册入库，具体如步骤204-步骤209所示。

步骤204：若新声纹特征与人物画像库中的声纹特征匹配失败，则将集外冲击计数加一，并判断集外冲击计数是否大于第三预设数量。

将集外冲击计数的初始值设置为零，集外冲击计数相当于匹配失败的次数；在新声纹特征与人物画像库中的声纹特征匹配失败时，将集外冲击计数加一，然后判断集外冲击计数是否大于第三预设数量。如果集外冲击计数小于/第三预设数量，则返回执行步骤201。

进一步地，设置集外冲击计数的意义在于尽快将未注册的新说话人注册到人物画像库中，例如，以家庭H为例，新说话人可以是来家庭H做客的人，如果客人偶尔来一次，则匹配失败次数的未达到设定的次数(即第三预设数量)不作处理；如果客人经常来，在匹配失败的次数达到设定的次数后，需要将这个客人尽快添加到家庭H的人物画像库中，以便构建画像。可以理解地，第三预设数量为根据经验或应用需要预先设置的一个值，比如：5、10、20或25等。

步骤205：若集外冲击计数大于第三预设数量，则对新声纹特征进行聚类处理，得到第一聚类结果。

如果集外冲击计数大于第三预设数量，则表明匹配失败的次数已经较多，此时判定满足第一聚类触发条件，开始对新声纹特征进行聚类处理，并将集外冲击计数设置为零，以便进行下一次的集外冲击聚类，下面对本实施例所采用的聚类方案进行介绍。

常规层次聚类法(自下而上)将每个样本各自分到一个类，然后将相距最近的两类合并，建立一个新的类，重复此操作直到满足停止条件，最终得到层次化的聚类簇。K均值聚类是基于中心的聚类方法，通过迭代，将样本分到K个类中，使得每个样本与其所属类的中心或均值最近；最终得到K个平坦的、非层次化的聚类簇，构成对空间的划分。这两种聚类算法各有优缺点，层次聚类法无需预设定类个数，但随着输入数据量的增大，运行效率较低，而K均值聚类运行效率较高但需要预设聚类个数。

因此结合本实施例的应用场景，同时兼顾效率和效果，将层次聚类与K均值聚类结合来得到聚类结果，即采用联合聚类方案，如图4所示，可采用如下步骤进行聚类：

步骤41：采用层次聚类法对语音序列的新声纹特征进行聚类处理，得到第三聚类结果。

第一阶段先进行分组层次聚类，对所有语音序列进行分组，得到预设组语音序列集，每组语音序列集中语音序列的数量可以相同，预设组的具体数量可以根据经验或应用需要进行设置，比如：100、200或300。然后采用层次聚类法对每组语音序列集的新声纹特征进行聚类处理，得到相应的第五聚类结果；再采用层次聚类法对多个第五聚类结果进行聚类处理，得到第三聚类结果，该第三聚类结果包括聚类数目，聚类数目即为输入的语音序列被分成的聚类簇的数量。

步骤42：基于聚类数目与K均值聚类法，对多个语音序列的新声纹特征进行聚类，得到第四聚类结果。

第二阶段进行K均值聚类，将第一阶段得到的聚类数目作为聚类簇的初始值，然后采用常用的K均值聚类法进行聚类，得到第二阶段的聚类结果，即第四聚类结果，该第四聚类结果包括至少一个聚类簇，每个聚类簇包括至少一个新声纹特征。

步骤43：对第四聚类结果进行筛选，得到第二聚类结果。

结合业务过滤异常类便可得到最终的聚类结果，即第二聚类结果，第二聚类结果可以是一个或多个聚类簇，每个聚类簇可以包括一个或多个新声纹特征；具体地，判断每个聚类簇中的新声纹特征的数量是否大于第一预设聚类数目且小于第二预设聚类数目；若该聚类簇中的新声纹特征的数量大于第一预设聚类数目且小于第二预设聚类数目，则将该聚类簇添加到第二聚类结果中；若该聚类簇中的新声纹特征的数量小于/等于第一预设聚类数目或大于/等于第二预设聚类数目，则将聚类簇中的新声纹特征放入待聚类池，以等待下一次的聚类；具体地，第一预设聚类数目与第二预设聚类数目可以根据经验或应用需要进行设置，比如：第一预设聚类数目为2、3或4，第二预设聚类数目为30、40或50。

可以理解地，层次聚类法与K均值聚类均可采用新声纹特征之间的余弦距离来衡量相似度，以便进行聚类。

本实施例所提供的联合聚类方案，一方面通过控制每组语音序列集的数据规模，限制第一阶段聚类的耗时，能够防止实际应用时因数据量较大导致程序卡死；另一方面，将层次聚类的结果作为K均值聚类的初始值，解决了K均值算法需要预先设置聚类簇的个数的问题，方便使用。

步骤206：判断是否满足声纹注册条件。

在生成第一聚类结果后，可判断第一聚类结果中每个聚类簇中新声纹特征的数量是否大于第二预设数量；如果大于第二预设数量，则认为满足声纹注册条件，执行步骤207；否则，认为不满足声纹注册条件，此时将新声纹特征放入待聚类池，返回执行步骤201。

进一步地，每个聚类簇中的所有新声纹特征可形成待注册声纹特征，例如，聚类簇J包括3个新声纹特征G1-G3，则待注册声纹特征包括新声纹特征G1-G3。

可以理解地，第二预设数量可以根据经验或应用需要进行设置，比如：二预设数量为3、4或5等；以第二预设数量为3为例，假设第一聚类结果包括2个聚类簇，第一个聚类簇包括4个新声纹特征，第二个聚类簇包括2个新声纹特征，则第一个聚类簇满足声纹注册条件，第二个聚类簇不满足声纹注册条件。

步骤207：若满足声纹注册条件，则将待注册声纹特征与人物画像库中的声纹特征进行比对，以判定待注册声纹特征与人物画像库中的声纹特征是否匹配。

如果判断出当前满足声纹注册条件，则进行声纹注册或更新，即在聚类结束后，筛选满足声纹注册条件的新声纹特征形成待注册声纹特征，然后与人物画像库中已注册的声纹特征依次比对，以判断待注册声纹特征与人物画像库中的声纹特征之间的最大相似度是否大于第一预设相似度，第一预设相似度为衡量两个特征之间的相似度的值，其可根据经验或应用需要进行设置，比如：80％、80％或95％。

步骤208：若新声纹特征与人物画像库中的声纹特征匹配，则基于待注册声纹特征对人物画像库进行更新。

当待注册声纹特征与人物画像库中的声纹特征之间的最大相似度大于第一预设相似度时，将该待注册声纹特征与最相似的声纹特征进行合并更新。具体地，在进行声纹更新时，将新旧声纹对应的语音合并，当在合并后某一声纹对应的语音总数超过设定值时，只保留最新的设定条语音；例如，设定条为500条，当人物画像库中某一声纹对应的语音条数超过500条时，按照存入时间保留最新的500条语音。

步骤209：若待注册声纹特征与人物画像库中的声纹特征匹配失败，则将待注册声纹特征添加至人物画像库中。

当待注册声纹特征与人物画像库中的声纹特征之间的最大相似度小于/等于第一预设相似度时，表明当前人物画像库中不存在与该待注册声纹特征相似的声纹特征，此时直接该待注册声纹特征追加至人物画像库。

步骤210：基于当前语音序列的数量和/或当前统计时长，判定是否满足第二聚类触发条件。

每获取到一个新输入的语音序列的新声纹特征后，可将其放入待聚类池中，以便进行周期聚类，周期聚类为每当语音序列的个数累积到第一预设数量时，触发聚类，该第一预设数量可以为根据经验或应用场景设置的值，比如：100、200、300或400。进一步地，执行周期聚类的原因在于：1)扩充声纹表征对应的数据，数据越多，声纹表征越准确；2)声纹存在时间漂移问题，注册声纹的时间越久，效果越差，因此定期进行聚类能够用最新的语音数据刷新声纹。

进一步地，将周期聚类计数的初始值设置为零，在接收到语音序列后，将周期聚类计数加一；判断周期聚类计数是否大于第一预设数量，该第一预设数量远大于第三预设数量，即周期聚类的周期大于集外冲击聚类的周期，方便在确定出有新说话人时，能够将新说话人尽快注册到人物画像库，例如，第三预设数量是10，第一预设数量是200；或者第三预设数量是20，第一预设数量是300。若当前周期聚类计数大于第一预设数量，则确定当前满足第二聚类触发条件，采用上述的联合聚类方案进行聚类，并将周期聚类计数设置为零，以便进行下一次的周期聚类。

步骤211：若满足第二聚类触发条件，则对多个语音序列的新声纹特征进行聚类处理，得到第二聚类结果。

在生成第二聚类结果后，可基于第二聚类结果对人物画像库进行更新，即执行步骤206-步骤209，即判断当前是否满足声纹注册条件，即判断第二聚类结果中每个聚类簇中的新声纹特征的数量是否大于第二预设数量；若满足声纹注册条件，则将待注册声纹特征与人物画像库中的声纹特征进行比对，以判定待注册声纹特征与人物画像库中的声纹特征是否匹配；具体地，判断待注册声纹特征与人物画像库中的声纹特征之间的最大相似度是否大于第一预设相似度。

若待注册声纹特征与人物画像库中的声纹特征匹配成功，则确定该待注册声纹特征与人物画像库中的声纹特征匹配，将该待注册声纹特征与人物画像库中相应的声纹特征进行合并。若待注册声纹特征与人物画像库中的声纹特征匹配失败，则将该待注册声纹特征添加到人物画像库中。

例如，以图5(a)-5(c)为例说明本实施例采用的方案，图5(a)中示出了第一次聚类的情况，所有的声纹特征被分成6类，第一类B1包括5个声纹特征A1，第二类B2包括3个声纹特征A2，第三类B3包括2个声纹特征A3，第四类B4包括3个声纹特征A4，第五类包括一个声纹特征A5，第六类包括一个声纹特征A6；假设第一预设聚类数目为3，经过第一次聚类后，人物画像库D中包含三类声纹：B1-B3，待聚类池P中包含4个声纹特征：A5、A6以及两个A3；如图5(b)所示，有新的说话人，产生3个声纹特征A1与4个声纹特征A7，此时待聚类池P中包含11个声纹特征：A5、A6、两个A3、3个A1以及4个A7；对待聚类池P中的声纹特征进行第二次聚类，如图5(c)所示，可以看出，人物画像库D中增加了聚类簇B7，新加入的3个声纹特征A1被合并至第一类B1，此时待聚类池中剩余4个声纹特征：A5、A6以及两个A3。

可以理解地，由于每次获取到新的语音序列后，便将其对应的声纹特征放入待聚类池，等待周期聚类；而为了实现新人快速注册，会对新的语音序列对应的声纹特征进行聚类，二者存在重叠的待聚类的声纹特征，为了防止对已经聚类过的声纹特征再次进行聚类，可在新的语音序列对应的声纹特征成功注册后，将其从待聚类池中删除。例如，假设声纹序列C1-C3已经成功注册到人物画像库中，则从待聚类池中将声纹序列C1-C3的声纹特征删除，以避免二次聚类，节省处理时间与成本。

在新声纹特征与人物画像库中的声纹特征匹配成功时，基于历史指令信息产生推荐信息；具体地，历史指令信息为用户之前输入的语音序列，可以根据不同的画像信息定向推送不同类型的内容/广告(比如：玩具广告、电影推荐、美食或旅游广告)给用户，实现个性化推荐。例如，假设用户A在T1时刻发出想要观看电影的信息，则在T2时刻如果检测到当前接收到的语音序列为用户A发送的，则可向用户A推荐与电影相关的内容。

本实施例针对人物画像构建提出完整的声纹自动聚类、注册、人物画像库更新和比对的应用逻辑；并结合业务应用，通过分组层次聚类与K均值聚类结合的方式，缓解周期聚类输入数据量较大导致的聚类效率低和效果不佳的问题。针对海量、短时的语音数据，选择主流处理短时声纹效果较好的ResNet网络，并采用知识蒸馏等手段简化网络复杂度，提高上线运行效率；且人物画像构建在后台运行，无需用户操作，实现用户无感知发起聚类和注册。而且为了加快新说话人快速注册入库，以便后续比对成功后启用定向推荐功能，增加用户感知以及业务推荐频次，增加了小批量的集外冲击聚类方案，从而实现快速注册入库。

请参阅图6，图6是本申请提供的人物画像构建装置一实施例的结构示意图，人物画像构建装置60包括互相连接的存储器61和处理器62，存储器61用于存储计算机程序，计算机程序在被处理器62执行时，用于实现上述实施例中的人物画像库的更新方法。

人物画像构建装置60可实现自动聚类注册、自动声纹比对以及业务推荐。

1)自动聚类注册

人物画像构建装置60从实时采集的语音序列中提取出说话人表征；然后通过预先训练好的深度神经网络((Deep Neural Networks，DNN)模型提取画像信息；当语音序列满足聚类条件时触发聚类，形成临时说话人注册库，然后对画像信息提纯后更新成为正式的人物画像库。

2)自动声纹比对以及业务推荐

当人物画像库非空时，实时接入的语音序列依次触发自动声纹比对和业务推荐环节；首先从待比对的语音序列中提取出说话人表征和画像信息；接着与人物画像库中的信息进行循环比对，如果比对成功便建立人员映射关系，然后根据历史指令信息定向推荐一些信息给用户；如果比对失败便将提取出来的声纹特征传入临时的待聚类池，等聚类条件触发时进入自动聚类注册阶段。

可以理解地，除了实现上述的功能外，人物画像构建装置60还可进行语音前端处理，比如：语音编解码或音频增强等。

本实施例所提供的方案涉及语音活动检测、语音增强或声纹识别等领域，能够解决家庭人物画像问题，采用语音流式采集和触发注册/对比，相较常规离线聚类，增加了聚类条件触发判断等逻辑，实时性更高，且无需用户操作，方便使用，可根据用户的不同推荐相应的内容。

请参阅图7，图7是本申请提供的信息推荐系统一实施例的结构示意图，信息推荐系统70包括互相连接的音频采集装置71与人物画像构建装置72。

音频采集装置71用于采集语音信号，生成语音序列；具体地，音频采集装置71可以为遥控器、智能音响、麦克风、手机或平板等具备音频采集功能的设备。

人物画像构建装置72用于对语音序列进行处理，人物画像构建装置72为上述实施例中的人物画像构建装置，其可以为电视移动盒。

进一步地，可采用网关和/或服务器等装置(图中未示出)将音频采集装置71输出的语音序列传输至人物画像构建装置72，比如：处在同一网络的不同类型的音频采集装置71将采集的近/远场语音传输至服务器，服务器再将接收到的语音转发至人物画像构建装置72。

本申请提供了一种新型自动构建家庭人物画像的方案，利用日常生活中人机交互时产生的音频数据，自动构建家庭内人员的人物画像，进而实现个性化推荐。利用高精度的说话人识别/提取系、自动聚类注册以及比对算法，实现无感知地构建家庭人物画像库，不额外增加操作流程及使用复杂度；而且，由于语音在日常人机交互中获取便捷，且自动构建人物画像的功能对于个性化推荐是需要的，因此本方案的应用性较广。

请参阅图8，图8是本申请提供的计算机可读存储介质一实施例的结构示意图，计算机可读存储介质80用于存储计算机程序81，计算机程序81在被处理器执行时，用于实现上述实施例中的人物画像库的更新方法。

计算机可读存储介质80可以是服务端、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种人物画像库的更新方法，其特征在于，包括：

将语音序列输入改进的ResNet-18网络中，得到新声纹特征；

判断所述新声纹特征与人物画像库中的声纹特征是否匹配；

若匹配失败，则基于当前匹配失败的次数判定是否满足第一聚类触发条件；

若满足所述第一聚类触发条件，则对所述新声纹特征进行聚类处理，得到第一聚类结果，基于所述第一聚类结果将所述新声纹特征注册到所述人物画像库中；

其中，所述改进的ResNet-18网络为学生网络，所述将语音序列输入改进的ResNet-18网络中，得到所述新声纹特征的步骤之前，包括：

分别采用教师网络与所述学生网络对所述语音序列进行处理，得到第一声纹特征与第二声纹特征；

计算所述第一声纹特征与所述第二声纹特征之间的均方误差损失值；

分别对所述第一声纹特征与所述第二声纹特征进行分类，得到第一后验分布与第二后验分布；

计算所述第一后验分布与所述第二后验分布之间的KL散度值；

通过所述均方误差损失值与所述KL散度值，计算总损失值；

判断所述总损失值是否大于预设损失值；

若是，则调整所述学生网络的参数，并返回所述分别采用教师网络与所述学生网络对所述语音序列进行处理的步骤，直至所述总损失值小于所述预设损失值。

2.根据权利要求1所述的人物画像库的更新方法，其特征在于，所述方法还包括：

基于当前所述语音序列的数量和/或当前统计时长，判定是否满足第二聚类触发条件；

若是，则对多个所述语音序列的新声纹特征进行聚类处理，得到第二聚类结果；

基于所述第二聚类结果对所述人物画像库进行更新。

3.根据权利要求2所述的人物画像库的更新方法，其特征在于，所述方法还包括：

将周期聚类计数的初始值设置为零，在接收到所述语音序列后，将所述周期聚类计数加一；

判断所述周期聚类计数是否大于第一预设数量；

若是，则确定满足所述第二聚类触发条件，并将所述周期聚类计数设置为零。

4.根据权利要求2所述的人物画像库的更新方法，其特征在于，所述对多个所述语音序列的新声纹特征进行聚类处理，得到第二聚类结果的步骤，包括：

采用层次聚类法对所述语音序列的新声纹特征进行聚类处理，得到第三聚类结果，所述第三聚类结果包括聚类数目；

基于所述聚类数目与K均值聚类法，对多个所述语音序列的新声纹特征进行聚类，得到第四聚类结果；

对所述第四聚类结果进行筛选，得到所述第二聚类结果。

5.根据权利要求4所述的人物画像库的更新方法，其特征在于，所述采用层次聚类法对所述语音序列的新声纹特征进行聚类处理，得到第三聚类结果的步骤，包括：

对所有所述语音序列进行分组，得到预设组语音序列集；

采用层次聚类法对每组所述语音序列集的新声纹特征进行聚类处理，得到相应的第五聚类结果；

采用层次聚类法对多个所述第五聚类结果进行聚类处理，得到所述第三聚类结果。

6.根据权利要求4所述的人物画像库的更新方法，其特征在于，所述第四聚类结果包括至少一个聚类簇，每个所述聚类簇包括至少一个所述新声纹特征，所述对所述第四聚类结果进行筛选，得到所述第二聚类结果的步骤，包括：

判断所述聚类簇中的新声纹特征的数量是否大于第一预设聚类数目且小于第二预设聚类数目；

若是，则将所述聚类簇添加到所述第二聚类结果中；

若否，则将所述聚类簇中的新声纹特征放入待聚类池。

7.根据权利要求2所述的人物画像库的更新方法，其特征在于，所述第一聚类结果/所述第二聚类结果包括至少一个聚类簇，每个所述聚类簇包括至少一个所述新声纹特征，所述聚类簇中的所有所述新声纹特征形成待注册声纹特征，所述方法还包括：

在生成所述第一聚类结果/所述第二聚类结果后，判断是否满足声纹注册条件；

若满足所述声纹注册条件，则将所述待注册声纹特征与所述人物画像库中的声纹特征进行比对，以判定所述待注册声纹特征与所述人物画像库中的声纹特征是否匹配；

若匹配失败，则将所述待注册声纹特征添加到所述人物画像库中。

8.根据权利要求7所述的人物画像库的更新方法，其特征在于，所述判断是否满足声纹注册条件的步骤，包括：

判断每个所述聚类簇中所述新声纹特征的数量是否大于第二预设数量。

9.根据权利要求8所述的人物画像库的更新方法，其特征在于，所述方法还包括：

判断所述待注册声纹特征与所述人物画像库中的声纹特征之间的最大相似度是否大于第一预设相似度；

若是，则确定所述待注册声纹特征与所述人物画像库中的声纹特征匹配，并基于所述待注册声纹特征对所述人物画像库进行更新。

10.根据权利要求1所述的人物画像库的更新方法，其特征在于，所述判断所述新声纹特征与人物画像库中的声纹特征是否匹配的步骤，包括：

判断所述新声纹特征与所述人物画像库中的声纹特征之间的最大相似度是否大于第二预设相似度。

11.根据权利要求1所述的人物画像库的更新方法，其特征在于，所述方法还包括：

将集外冲击计数的初始值设置为零，在所述新声纹特征与所述人物画像库中的声纹特征匹配失败时，将所述集外冲击计数加一；

判断所述集外冲击计数是否大于第三预设数量；

若是，则确定满足所述第一聚类触发条件，并将所述集外冲击计数设置为零。

12.根据权利要求1所述的人物画像库的更新方法，其特征在于，所述通过所述均方误差损失值与所述KL散度值，计算总损失值的步骤，包括：

将所述均方误差损失值与所述KL散度值进行加权求和，得到所述损失值。

13.根据权利要求1所述的人物画像库的更新方法，其特征在于，所述计算所述第一声纹特征与所述第二声纹特征之间的均方误差损失值的步骤之前，包括：

分别采用第一嵌入层与第二嵌入层对所述第一声纹特征与所述第二声纹特征进行降维处理，以使得处理后的第一声纹特征的维度与处理后的第二声纹特征的维度相等。

14.根据权利要求1所述的人物画像库的更新方法，其特征在于，所述方法还包括：

在所述新声纹特征与人物画像库中的声纹特征匹配成功时，基于历史指令信息产生推荐信息。

15.一种人物画像构建装置，其特征在于，包括互相连接的存储器和处理器，其中，所述存储器用于存储计算机程序，所述计算机程序在被所述处理器执行时，用于实现权利要求1-14中任一项所述的人物画像库的更新方法。

16.一种信息推荐系统，其特征在于，包括互相连接的人物画像构建装置与音频采集装置，所述音频采集装置用于采集语音信号，生成语音序列；所述人物画像构建装置用于对所述语音序列进行处理，从而构建人物画像库，进而实现个性化推荐，其中，所述人物画像构建装置为权利要求15所述的人物画像构建装置。

17.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序在被处理器执行时，用于实现权利要求1-14中任一项所述的人物画像库的更新方法。