CN107656983A

CN107656983A - 一种基于声纹识别的智能推荐方法及装置

Info

Publication number: CN107656983A
Application number: CN201710807173.8A
Authority: CN
Inventors: 石忠民; 徐叶强; 钟力; 陈应杨
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-02-02

Abstract

本发明公开了一种基于声纹识别的智能推荐方法，包括以下步骤：获取采集到的声音信息并根据声音信息以得声纹特征；将所述声纹特征与存储的样本声纹特征集进行匹配，所述样本声纹特征集是所述终端的所有合法用户的声纹特征；对获取到的声音信息进行属性抽取以得属性特征词；根据属性特征词以及用户知识库以得用户推荐列表，所述用户知识库包括用户交互数据和知识型信息。本发明还提供了一种基于声纹识别的智能推荐装置。本发明的基于声纹识别的智能推荐方法对语音交互内容进行属性抽取并融合用户知识库通过协同过滤的算法生成符合用户长期偏好以及当前实际情况的内容列表，提高了用户使用体验。

Description

一种基于声纹识别的智能推荐方法及装置

技术领域

本发明涉及一种数据处理领域，尤其涉及一种基于声纹识别的智能推荐方法及装置。

背景技术

目前，个性化智能推荐系统在国内外电商、互联网广告、移动互联网等领域的应用已经相当广泛，但基于声纹识别的智能推荐系统在智能家居领域的应用几乎还是空白。

基于语音交互的智能家居，使用者无法像传统的手机或PC用户一样通过账号密码登录。因此，系统无法区分出同一台设备的不同使用者。通过语音控制的智能家居产品，人与机器的语音交互比与手机或PC等通过外设输入的时间成本要高得多。因此，这要求机器与人的语音交互的过程中，对于用户发出的一些模糊指令，如“打开菜谱”、“播放音乐”等，需要尽可能返回最符合用户需求的内容。

但是，现有的方案存在以下缺陷：

(1)推荐的内容与用户的想要的内容关联性不是很大；

(2)同一个账户只能匹配识别一种声音。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于声纹识别的智能推荐方法。

本发明的目的之二在于提供一种电子设备。

本发明的目的之三在于提供一种计算机可读存储介质。

本发明的目的之四在于提供一种基于声纹识别的智能推荐装置。

本发明的目的之一采用如下技术方案实现：

一种基于声纹识别的智能推荐方法，包括以下步骤：

声音采集步骤：获取采集到的声音信息并根据声音信息以得声纹特征；

声纹比对步骤：将所述声纹特征与存储的样本声纹特征集进行匹配，所述样本声纹特征集是所述终端的所有合法用户的声纹特征；

属性抽取步骤：对获取到的声音信息进行属性抽取以得属性特征词；

推荐生成步骤：根据属性特征词以及用户知识库以得用户推荐列表，所述用户知识库包括用户交互数据和知识型信息。

进一步地，在声音采集步骤中对采集到的声音信息进行预处理，所述预处理步骤具体包括以下子步骤：

取样步骤：将采集到的声音信息进行等间隔取样以得取样信息；

离散步骤：将取样信息波形的幅度值离散化以得离散化信息；

预加重步骤：对离散化信息进行预加重处理；

分帧步骤：将预加重后离散化信息进行分帧处理以得分帧信息；

加窗步骤：对分帧信息进行加窗处理。

进一步地，在所述声音采集步骤中，对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数，该MFCC系数即为声音信号的声纹特征。

进一步地，在所述声纹比对步骤中：所述样本声纹特征集构建具体包括以下步骤：

获取到所有合法用户的样本声音；

通过GMM-UBM方法建立样本声纹特征集

进一步地，所述推荐生成步骤具体包括以下子步骤：根据属性特征词获取相应的查询项目；

获取与查询项目相关用户知识内容，所述用户知识内容包括所有合法用户的交互信息、知识型信息以及当前时间信息；

通过协同过滤推荐算法生成相应的用户推荐列表。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

预加重步骤：对离散化信息进行预加重处理；

加窗步骤：对分帧信息进行加窗处理。

进一步地，在所述声纹比对步骤中：所述样本声纹特征集构建的过程中通过GMM-UBM方法获取到的所有合法用户的样本声音建立样本声纹特征集。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项所述的方法。

本发明的目的之四采用如下技术方案实现：

一种基于声纹识别的智能推荐装置，包括以下模块：

声音采集模块：用于获取采集到的声音信息并根据声音信息以得声纹特征；

声纹比对模块：用于将所述声纹特征与存储的样本声纹特征集进行匹配，所述样本声纹特征集是所述终端的所有合法用户的声纹特征；

属性抽取模块：用于对获取到的声音信息进行属性抽取以得属性特征词；

推荐生成模块：用于根据属性特征词以及用户知识库以得用户推荐列表，所述用户知识库包括用户交互数据和知识型信息。

相比现有技术，本发明的有益效果在于：

本发明的基于声纹识别的智能推荐方法对语音交互内容进行属性抽取并融合用户知识库通过协同过滤的算法生成符合用户长期偏好以及当前实际情况的内容列表，提高了用户使用体验。

附图说明

图1为本发明的基于声纹识别的智能推荐方法的流程图；

图2为本发明的基于声纹识别的智能推荐装置的结构图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一：

如图1所示，本实施例提供了一种基于声纹识别的智能推荐方法，包括以下步骤：

S1：获取采集到的声音信息以及声音信号的声纹特征；在步骤S1中对采集到的声音信息进行预处理，所述预处理步骤具体包括以下子步骤：

S11a：将采集到的声音信息进行等间隔取样以得取样信息；把模拟信号在时间域上进行等间隔取样，语音信号采样频率为8～16kHz；

S12a：将取样信息波形的幅度值离散化以得离散化信息；

S13a：对离散化信息进行预加重处理；采用具有6dB/倍频程的提升高频特性的一阶预加重数字滤波器，其传递函数形式为：H(z)＝1-μz^-1

式中，μ为预加重系数，取值接近于1；

S14a：将语音信号分为10～30ms的帧，并且相邻帧之间有50％的交迭；

S15a：对预加重后的离散化信信息进行加窗处理。为降低直接分帧后旁瓣频谱的影响，使用汉明(Hamming)窗、汉宁(Hanning)窗等窗函数对分帧后的信号进行加窗处理。

对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数，该MFCC系数即为声音信号的声纹特征。

MFCC是在Mel频率域上提取的倒谱系数，设原始语音信号为s(n)，经过预加重滤波、分帧、加窗等一系列预处理后为x_i(n)，其中i代表语音是第i帧，设N为一帧语音信号的点数，则n＝1，2，…，N。MFCC是按帧分别进行的计算的，下面计算第i帧的MFCC：

S11b：对第i帧语音序列做DFT变换，得其频谱为X_i(k)：

S12b：对频谱X_i(k)取模，得到S_i(k)：S_i(k)＝|X_i(k)|；

S13b：将S_i(k)通过Mel滤波器组H_m(k)进行频域变换，得到M个参数P_i(m)：

P_i(m)＝H_m(k)·S_i(k)′

其中，H_m(k)是由若干个带通的三角滤波器构成，0≤m＜M。M为滤波器的个数。滤波器的定义为：

其中，

上式中，f_h和f_l分别为滤波器频率应用范围的最高和最低频率，F_s为采样频率，Mel^-1()为Mel(x)的逆系数：

Mel^-1(x)＝700(e^x/2295-1)

S14b：计算P_i(m)的自然对数，得L_i(m)：

L_i(m)＝ln(P_i(m))

S15b：对L_i(m)进行离散余弦变换，得

C_i(n)＝DCT(m，n)·L_i(m)

其中，

C_i(n)即为第i帧信号的MFCC系数，该MFCC系数即为均值超矢量M；

S2：将所述声纹特征与存储的样本声纹特征集进行匹配，所述样本声纹特征集是所述终端的所有合法用户的声纹特征；在本实施例中，使用以人为分类对象的深度神经网络和以音素为分类对象的深度神经网络两种有监督模型以及RBM无监督模型。在这三种模型中，分别提取不同隐层的高维输出向量作PCA之后在经过特征规整形成新的区分性高的深度特征，深度特征与原始倒谱特征拼接形成tandem深度特征；

在所述步骤S2中：所述样本声纹特征集构建方法为：获取到所有合法用户的样本声音；通过GMM-UBM方法建立样本声纹特征集。合法用户也即是已经完成注册的用户。

采集当前说话人一段语音，分析这段语音的特征，判别当前说话人属于用户集中哪位用户。首先通过大量带标签的语音数据集，训练出模型的空间参数，完成系统模型的构建，然后对用户集中每一个用户进行声纹注册，通过对注册人的不同声音特征完成声纹注册，最后在系统运行时，分析待识别人声音特征，获得待识别人声纹，对比已注册声纹用户的声纹，最终确定待识别人的声纹属于用户集中哪位用户。所述声纹识别部分采用的是基于深层特征空间的说话人识别系统，该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。所述注册说话人声纹生成对于注册说话人语料，首先提取特征得到超矢量M，生成最终的注册说话人声纹。通过说话人声纹矢量M，分别与注册集中的声纹矢量计算其余弦距离，余弦距离最小的声纹所属的注册人即为说话人。

S3：对获取到的声音信息进行属性抽取以得属性特征词；

通过深度语义理解技术对交互语句进行属性抽取和情感分类，在本发明实施例中，对说话内容进行分词，属性抽取和情感分类，使用自定义的分词，抽取出语句中说话者真正关心的名词；如“红烧肉怎么做？”，提取处“菜名”—“红烧肉”等特征词；

S4：根据属性特征词以及知识库以得用户推荐列表。提取已识别说话者，交互日志，说话内容的属性抽取结果、时间。

利用统计的方法寻找目标用户的最近邻居集合，然后依据最近邻居集合对项目的历史评分，预测目标用户对目标项目的评分，把预测评分从大到小排序，选择前若干项的项目作为系统的最终推荐结果推荐给目标用户。也即是根据其他用户对该项目的打分来预测当前用户对该项目的打分值；

算法采用一个m*n*t阶用户--项目评分--时间段，矩阵来表示所有数据集用户在不同时间段内的评分数据，评分数据采用分数表示用户对项目的喜好程度，使用0到5之间的整数表示用户对项目的喜好，0表示没有评分，1到5表示用户对项目的喜欢程度逐渐加深。算法采用融合时间维度的协同过滤，统计不同时间段内用户对项目的评分。将时间划分为不同的类别，用上下文预过滤方法来推断不同时间段用户的偏好，一天分为早中晚，提高了预测的精度采用分类的方式处理时间上下文，将时间上下文信息以及其他上下文信息联系起来，然后对所有上下文信息采用同样的方式建模处理。

通过网页抓取程序，抓取各时间段的天气信息，季节气候信息，同时收集日常的生活常识，构建知识库。本发明实施例中，为了更好的理解用户的意图状态。我们收集了用户与设备交互时的天气状况，如晴或雨，温度高低等信息。同时也收集生活常识，比如当前季节的时令果蔬，炎热的夏天适合喝暑糖水等。并以此构建知识库。然后使用基于时间的协同过滤算法，为每个用户生成推荐列表。

本发明实施例中，通过上述步骤，获得可以获取一些相关信息，如厨房领域的菜名、制作方式、口味、菜系、时间、时节天气等信息，如下表1所示：

菜名

菜系

口味

制作方式

时间

季节

天气

食材

辣子鸡

川菜

辣

炒

2017/1/29 10点

春季

晴冷

鸡肉

…

根据表1所示数据，得到用户-属性的倒排表，以此来计算各用户不同时间段之间的余弦相似度，排序得到用户不同时间段的相似用户，并根据所得到相似用户计算得到用户评分由高到低的推荐列表。

或者还可以采用余弦相似算法计算目标用户与所有用户向量空间距离后，采用Top-N方法产生最终的推荐项目列表。

本发明实施例中，确定用户画像和知识库后，协同过滤单元生成用户的推荐列表，并保存到redis数据库中。并且系统会保存每次用户与其生成的列表以及其最终选择的列表以为下次推荐提供参考数据。

实施例二：

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的基于声纹识别的智能推荐方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三：

实施例三公开了一种可读的计算机存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的基于声纹识别的智能推荐方法。

实施例四：

如图2所示，本实施例提供了一种基于声纹识别的智能推荐装置，包括以下模块：

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于声纹识别的智能推荐方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于声纹识别的智能推荐方法，其特征在于，在声音采集步骤中对采集到的声音信息进行预处理，所述预处理步骤具体包括以下子步骤：

预加重步骤：对离散化信息进行预加重处理；

加窗步骤：对分帧信息进行加窗处理。

3.如权利要求2所述的基于声纹识别的智能推荐方法，其特征在于，在所述声音采集步骤中，对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数，该MFCC系数即为声音信号的声纹特征。

4.如权利要求1-3中任意一项所述的基于声纹识别的智能推荐方法，其特征在于，在所述声纹比对步骤中：所述样本声纹特征集构建具体包括以下步骤：

获取到所有合法用户的样本声音；

通过GMM-UBM方法建立样本声纹特征集。

5.如权利要求1-3中任意一项所述的基于声纹识别的智能推荐方法，其特征在于，所述推荐生成步骤具体包括以下子步骤：

根据属性特征词获取相应的查询项目；

通过协同过滤推荐算法生成相应的用户推荐列表。

6.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

7.如权利要求6所述的电子设备，其特征在于，在声音采集步骤中对采集到的声音信息进行预处理，所述预处理步骤具体包括以下子步骤：

预加重步骤：对离散化信息进行预加重处理；

加窗步骤：对分帧信息进行加窗处理。

8.如权利要求7所述的电子设备，其特征在于，在所述声音采集步骤中，对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数，该MFCC系数即为声音信号的声纹特征。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的方法。

10.一种基于声纹识别的智能推荐装置，其特征在于，包括以下模块：