CN105872792A

CN105872792A - 基于语音的服务推荐方法及装置

Info

Publication number: CN105872792A
Application number: CN201610180268.7A
Authority: CN
Inventors: 闫志勇
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-17

Abstract

本发明实施例提供一种基于语音的服务推荐方法及装置。接收到用户发出的语音输入时，调用预先训练的身份认证矢量提取器获取所述语音输入的身份认证矢量；根据所述身份认证矢量，调用预先训练得到的每个用户类别对应的参考认证矢量，判断所述用户所属的用户类别；根据所述用户所属的所述用户类别为用户推荐相应的服务。实现了根据用户语音特征的个性化服务推荐。

Description

基于语音的服务推荐方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种基于语音的服务推荐方法及装置。

背景技术

近些年来，传统电视纷纷向智能电视发展。随着智能电视的普及，越来越多的用户使用智能电视进行节目的观看及其他服务。

与传统电视相比,智能电视可接入互联网,并可支持各种应用及更多的交互方式。但是在收看电视节目时,仍然存在问题:电视节目的数量增加后,用户对电视节目的选择也需要越来越多的时间。如果没有良好的工具来挖掘数字电视所具有的丰富内容,用户就无法从大量的节目信息中快速地搜寻出自己需要的节目。因此，智能电视的推荐系统逐渐普及，该系统将帮助用户从众多的节目中筛选出其所需要的节目,使得用户对智能电视的使用过程更加舒适方便。

目前的智能电视推荐系统中，可以根据用户的历史观看记录为用户推荐相关类型的节目、同一演员的电视节目或者时下点击率最高的节目。

然而，上述推荐系统对电视节目或智能电视其他服务的推荐是不分用户类别以及用户属性的。例如，对于儿童和老人，智能电视在节目推荐时就显得不那么智能了。儿童喜欢动画片等少儿类的节目，老人可能更加偏爱戏曲类的电视节目，若是面对这两种不同的用户，推荐同样的电视节目，很难提升用户体验。

综上所述，一种新的服务推荐方法亟待提出。

发明内容

本发明实施例提供一种基于语音的服务推荐方法及装置，用以解决现有技术中不能根据用户属性特征推荐用户可能喜欢的服务的缺陷，实现了更加个性化的智能推荐。

本发明实施例提供一种基于语音的服务推荐方法，包括：

接收到用户发出的语音输入时，调用预先训练的身份认证矢量提取器获取所述语音输入的身份认证矢量；

根据所述身份认证矢量，调用预先训练得到的每个用户类别对应的参考认证矢量，判断所述用户所属的用户类别；

根据所述用户所属的所述用户类别为用户推荐相应的服务。

本发明实施例提供一种基于用户属性的服务推荐装置，包括：

参数提取模块，用于接收到用户发出的语音输入时，调用预先训练的身份认证矢量提取器获取所述语音输入的身份认证矢量；

判断模块，用于根据所述身份认证矢量，调用预先训练得到的每个用户类别对应的参考认证矢量，判断所述用户所属的用户类别；

推荐模块，用于根据所述用户所属的所述用户类别为用户推荐相应的服务。本发明实施例提供的基于语音的服务推荐方法及装置，通过提取用户语音输入的身份认证矢量，并根据所述身份认证矢量对用户进行分类，根据用户的分类结果为用户提供个性化的服务推荐，改变了现有技术中进行服务推荐时，不分用户属性特征，提供千篇一律推荐结果对用户造成的糟糕的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的技术流程图；

图2为本申请实施例二的技术流程图；

图3为本申请实施例三的装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本申请实施例一的技术流程图，结合图1，本申请实施例一种基于语音的服务推荐方法，可由如下的步骤实现：

步骤S110：接收到用户发出的语音输入时，调用预先训练的身份认证矢量提取器获取所述语音输入的身份认证矢量；

步骤S120：根据所述身份认证矢量，调用预先训练得到的每个用户类别对应的参考认证矢量，判断所述用户所属的用户类别；

步骤S130：根据所述用户所属的所述用户类别为用户推荐相应的服务。

具体的，在步骤S110中，所述身份认证矢量用于判断用户的特征属性，所述特征属性可以包括用户的性别、所处年龄段等。所述身份认证矢量即i-vector，将输入的高维特征向量映射到一个低维的特征空间中，同时保留输入特征绝大部分相关信息。

具体的，在步骤S120中，所述用户类别是根据用户的特征属性进行划分的，例如用户的年龄、用户的性别等等。其分类目的主要考虑到不同性别不同年龄用户对推荐服务的需求不同。

本步骤中，根据用户的所述身份认证矢量判断用户所属的用户类别主要方法是，计算所述身份认证矢量与每个用户类别对应的所述参考认证矢量之间的余弦距离，将最大值余弦距离对应的参考认证矢量对应的用户类别作为所述用户所属的用户类别。

其中，所述参考认证矢量是预先根据每种用户类别所属的混合高斯模型提取得到的，具体提取方法将由实施例二进一步进行介绍。在本步骤中，分别计算上一步骤中提取到的所述身份认证矢量与每个用户类别对应的参考认证矢量的余弦距离。具体计算公式如下：

c o s θ = \frac{Σ_{i = 1}^{n} w_{i} * w_{i}^{,}}{\sqrt{Σ_{i = 1}^{n} w_{i}^{2}} * \sqrt{Σ_{i = 1}^{n} w_{i}^{, 2}}}

其中，w_i为每种用户分类对应的所述参考认证矢量，w’_i为所述身份认证矢量，i表示i-vector向量的维数,i∈[1,n]。

本步骤中，对于每一个用户分类，所述身份认证矢量都将与之计算一次余弦距离，将对大余弦距离值对应的参考认证矢量对应的分类作为用户所属的用户分类。

具体的，在步骤S130中，由上一步骤的计算结果，得到了用户的分类，本步骤中将根据后台配置为用户推荐适合其分类特征的服务。

例如，在智能电视的应用中，预先根据用户的年龄段以及性别配置相应的分类推荐，可以为儿童推荐益智类的小游戏、流行的动画片、在线教学等服务；为青少年女性推荐偶像剧或者时尚类节目，老年人推荐戏剧、养生节目等等。

当检测到用户的语音输入时，首先根据用户的语音输入判断用户的性别以及年龄段分层，其次可以根据判断的结果为用户推荐符合用户特征的节目。

本实施例中，通过提取用户语音输入的身份认证矢量，并根据所述身份认证矢量对用户进行分类，根据用户的分类结果为用户提供个性化的服务推荐，改变了现有技术中进行服务推荐时，不分用户属性特征，提供千篇一律推荐结果对用户造成的糟糕的用户体验。

图2是本申请实施例二的技术流程图，结合图2，本申请实施例中，的参考认证矢量可由如下步骤获取：

步骤S210：采集混合语音训练样本，提取所述混合语音训练样本的语音特征；

步骤S220：根据所述语音特征训练得到适用于所有用户类别的通用混合高斯模型；

步骤S230：对所述混合语音训练样本进行分类得到不同的用户类别；

步骤S240：使用不同的所述用户类别的语音样本，采用最大后验概率法，对所述通用混合高斯模型的均值做自适应更新，得到不同的所述用户类别对应的混合高斯模型。

步骤S250：根据不同的所述用户类别对应的混合高斯模型获取所述身份认证矢量提取器T矩阵以及每一用户类别的参考认证矢量w。

具体的，在步骤S210中，收集不同年龄段的音频数据用来进行语音特征的提取从而训练语音模型。在智能电视这一应用中，可以将年龄段具体地划分为0～6岁为儿童，6～13岁为少年，13～17岁为青少年男、女，18岁以后为成年男、女类别。

在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面，最常用到的语音特征是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)，MFCC特征包含了年龄段识别的重要信息。

MFCC提取过程主要经历以下几个步骤：

首先，对输入的语音信号进行前端处理，包括对语音信号进行预加重(Pre-emphasis)和加窗、分帧处理。假设语音信号的采样值表示为s(n)，n表示第n个采样点。信号预加重的公式表示为：

s_pe(n)＝s(n)-α*s(n-1)

其中，α表示为预加重系数，一般取α＝0.97，s_pe(n)为预加重后的语音信号。

所述加窗是指对预加重信号乘以窗函数，并设定每个窗口内的采样点数N(分帧)，具体如以下公式所示：

s_{w} (n) = {0.54 - 0.46 \times c o s (\frac{2 π (n - 1)}{N - 1})} \times s_{p e} (n), 1 \leq n \leq N

其中，sw(n)表示加窗以后的信号，N表示每一帧的采样点数。

第二，对分帧以后的信号进行离散傅里叶变换(FFT)；

第三，对傅里叶变换以后的频谱进行梅尔频带分析；

具体的，首先，采用如下公式将频率尺度转换为梅尔尺度：

Mel(f)＝2595log(1+f/700)

其次，在梅尔频率轴上配置L个通道的三角滤波器并对FFT变化得到的频谱进行滤波。L的个数由信号的截止频率决定。每一个三角滤波器的中心频率c(l)在mel频率轴上等间隔分配。相邻三角滤波器之间的下限、中心、上限频率相等。经过梅尔滤波器以后，可以得到每个梅尔频带内的能量值。

第四，对梅尔滤波以后的能量进行对数非线性变换；

最后，对每个对数能量进行离散余弦变换DCT，保留DCT变换以后得到19个较大的系数，其余系数去除。

经过上述过程，就可以得到19维的MFCC特征，加上每帧信号的能量特征，最终得到20维的MFCC原始特征。

提取每帧音频数据原始的MFCC特征是20维的，通过计算一阶差分MFCC(20维)和二阶差分MFCC(20维)，得到60维的MFCC特征。一阶差分的计算公式如下：

x’[n]＝x[n]-x[n-1]

二阶差分计算公式：

x”[n]＝x’[n]-x’[n-1]

当计算的是MFCC特征的差分运算时，x[n]表示每帧音频的MFCC特征，n表示第n帧音频，其中x[n]表示的维数不定，可根据用户提取的相关特征维数确定。计算二阶差分是在一阶差分的基础上运行的，二阶差分公式中x’[n]表示第n帧计算得到的一阶差分值。

具体的，在步骤S220中，由于不同年龄段音频数据量较少，因此，本申请实施例中采用UBM-GMM方案获取不同年龄段类别的GMM模型，其中UBM，即Universal BackgroundModel，一个通用的混合高斯模型，GMM，即Gaussian Mixture Model)，混合高斯模型。利用上一步骤中提取到的所有不同类别音频的MFCC特征，训练得到一个包含不区分年龄段和性别信息的通用高斯混合模型UBM，在本实施例中，作为经验值，混合高斯的数目取值512个，效果佳。

具体的，在步骤S230中，将步骤S210中采集到的混合语音训练样本进行分类，分类原则是用户的属性特征，包括年龄性别等。本实施例中，将所述混合语音训练样本分为六种不同类别，即儿童、少年、青少年男，青少年女、成年男、成年女六类。当然，需要说明的是，步骤S210和步骤S230在实际执行时，并无严格的先后顺序，可以在预先按照不同用户分类采集语音训练样本，再将不同类别的样本混合进行通用混合高斯模型的训练。

具体的，在步骤S240中，得到UBM模型以后，分别使用不同类别的语音特征数据，在UBM模型的基础上，按照最大后验概率准则MAP(maximum a posterior)，分别得到各自类别的GMM模型。其中，在UBM模型的自适应过程中，只对模型均值进行自适应，权重和方差不做改变，如下述公式所示。

{\hat{μ}}_{i} = α_{i}^{m} E_{i} (x) + (1 - α_{i}^{m}) μ_{i}

其中，表示第i个高斯自适应时的权重系数，该值影响自适应均值的大小，μ_i表示自适应前的GMM均值，是在UBM模型基础上自适应出的GMM高斯均值向量，向量X表示提取的语音特征，E_i(x)是特征向量X在UBM模型上的均值表示，是计算自适应均值向量前需计算的一部分。计算特征值在UBM模型第i个高斯的概率值公式如下

P (i | x_{t}) = \frac{w_{i} p_{i} (x_{t})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t})}

x_t表示第t帧语音特征，w_j表示UBM模型中第j个高斯的权重，p_i(x_t)表示特征x_t在第j个高斯上的概率值。

其中，E_i(x)的计算公式如下:

n_{i} = Σ_{t = 1}^{T} P (i | x_{t}),

E_{i} (x) = \frac{1}{n_{i}} Σ_{t = 1}^{T} P (i | x_{t}) x_{t}

由此，计算得到之后便得到了不同用户分类的自适应GMM模型。

具体的，在步骤S250中，使用总变因子TV(total variability)建模技术，假设GMM均值超向量u可以表示成如下式子：

μ＝m+Tw

其中，u表示具体某类GMM模型的均值超向量，m表示UBM模型提取的均值超向量，矩阵T表示了一个低维的总变向量子空间，Tw描述了不同类别模型均值向量的偏置情况。将w向量称为i-vector，并且符合标准的正态分布，T表示一个低秩矩阵，并通过矩阵分解进行估计。在UBM-GMM系统的基础上，进一步使用i-vector技术，不仅能够克服语音样本采集时的信道干扰，而且能够尽量避免同一年龄段不同说话人个体之间的差异性干扰。

为提取每段音频的i-vector w特征，需要训练得到低秩映射矩阵T。基于最大似然准则的TV训练过程如下：

i-vector提取器的参数为T，表示为Λ,语音特征的参数MFCC表示为向量O。

优化目标函数表示为：maxP(Λ|O),依据梯度下降准则参数求偏导优化得：

\frac{\partial P (Λ | O)}{\partial T} = 0

通过Bayes公式推导，最终得到i-vector提取器矩阵T的迭代公式如下

\underset{s}{Σ} \underset{h}{Σ} F_{h} (s) w_{h} {(s)}^{T} = \underset{s}{Σ} \underset{h}{Σ} N_{h c} (s) T_{n e w} w_{h} (s) w_{h} {(s)}^{T}

i-vector w参数的迭代公式如下：

E(w_h(s))＝A_h(s)

E(w_h(s)w_h(s)^T)＝A_h(s)A_h(s)^T+L_h(s)

其中，s表示不同类别年龄段的数目，h表示每个类别中训练语句的个数，t表示帧数。

其中，

L_{h} (s) = I + \underset{t}{Σ} \underset{c}{Σ} γ_{h t c} (s) {T_{c}}^{T} {Σ_{c}}^{- 1} T_{c} = I + \underset{c}{Σ} N_{h c} (s) {T_{c}}^{T} {Σ_{c}}^{- 1} T_{c}

\begin{matrix} A_{h} (s) = L_{h} {(s)}^{- 1} \underset{t}{Σ} \underset{c}{Σ} γ_{h t c} {{T_{c}}^{T} {Σ_{c}}^{- 1} [o_{h t} (s) - m_{u b m, c} (s)]} \\ = L_{h} {(s)}^{- 1} \underset{c}{Σ} {T_{c}}^{T} {Σ_{c}}^{- 1} F_{h c} (s) \end{matrix}

γ_{t c} (s) = \frac{w (c) P (o_{t} | Λ_{j})}{Σ_{j = 1}^{C} w (j) P (o_{t} | Λ_{j})}

\underset{t}{Σ} γ_{h t c} (s) = N_{h c} (s)

\underset{t}{Σ} γ_{h t c} (s) [o_{h t} (s) - m_{u b m, c} (s)] = F_{h c} (s)

通过上述迭代过程，就可以得到不同用户分类对应的i-vector向量w，即每个用户分类对应的参考认证矢量，同时得到i-vector提取器矩阵T。

本实施例中，根据用户的属性特征对用户进行分类，并根据语音训练样本训练得到每种用户分类的语音模型，从而根据语音模型获得每种用户分类的参考认证矢量以及身份认证矢量提取器。当输入一段语音音频时，首先利用身份认证矢量提取器提取得到这段音频的i-vector向量，然后分别计算所述i-vector向量与不同用户分类对应的i-vector向量之间的余弦距离即可判断输入音频的最终判别类别，并将该结果反馈给推荐端，根据用户的类别为用户推荐相应服务，进一步缩小了服务推荐的粒度，提升了用户体验。

图3是本申请实施例三的装置结构示意图，结合图3，本申请实施例一种基于语音的服务推荐装置，包括如下的模块：

参数提取模块310，用于接收到用户发出的语音输入时，调用预先训练的身份认证矢量提取器获取所述语音输入的身份认证矢量；

判断模块320，用于根据所述身份认证矢量，调用预先训练得到的每个用户类别对应的参考认证矢量，判断所述用户所属的用户类别；

推荐模块330，用于根据所述用户所属的所述用户类别为用户推荐相应的服务。

其中，所述判断模块320具体用于：计算所述身份认证矢量与每个用户类别对应的所述参考认证矢量之间的余弦距离，将最大值余弦距离对应的参考认证矢量对应的用户类别作为所述用户所属的用户类别。

其中，所述装置还包括训练模块340，所述训练模块340用于，采用如下步骤训练所述身份认证矢量提取器：

根据总变因子建模技术，假设μ＝m+Tw，其中，μ为每一用户类别的混合高斯模型的均值超向量，m为所有用户类别的通用混合高斯模型的均值超向量，矩阵T为所述身份认证矢量提取器，w为每一用户类别的参考认证矢量；采用最大似然估计法计算每一所述用户类别的所述参考认证矢量并获取所述身份认证矢量提取器矩阵T。

其中，所述训练模块340用于，采用如下步骤训练所述每一用户类别的混合高斯模型：采集混合语音训练样本，提取所述混合语音训练样本的语音特征；根据所述语音特征训练得到适用于所有用户类别的通用混合高斯模型；对所述混合语音训练样本进行分类得到不同的用户类别；使用不同的所述用户类别的语音样本，采用最大后验概率法，对所述通用混合高斯模型的均值做自适应更新，得到不同的所述用户类别对应的混合高斯模型。

图3所示装置可以执行图1以及图2所示实施例的方法，实现原理和技术效果参考图1以及图2所示实施例，不再赘述。

应用实例

在一种应用场景中，本申请实施例的一种基于语音的服务推荐功能内置于智能电视中。用户通过向电视发出语音指令来观看节目并使用智能电视的其他服务。电视中预先保存有不同用户属性的参考认证矢量，例如，儿童的参考认证矢量、成人男性的参考认证矢量、成人女性的参考认证矢量、老年男性的参考认证矢量以及老年女性的参考认证矢量等共五种类型的参考认证矢量。

当用户向电视发出开启指令时，电视采集用户的语音输入，并提取用户语音输入的身份认证矢量。之后，电视根据预先保存的五种类型的参考认证矢量，分别计算用户输入语音的身份认证矢量与五种参考认证矢量之间的余弦距离，将得到的最大余弦值对应的参考认证矢量对应的分类类别作为用户的属性分类。

当判定用户是儿童时，为儿童推荐热门动画片或者少儿益智类节目；当判定用户是成年男性时，可为用户推荐各类热门体育比赛等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音的服务推荐方法，其特征在于，包括如下的步骤：

根据所述用户所属的所述用户类别为用户推荐相应的服务。

2.根据权利要求1所述的方法，其特征在于，判断所述用户所属的用户类别，具体包括：

计算所述身份认证矢量与每个用户类别对应的所述参考认证矢量之间的余弦距离，将最大值余弦距离对应的参考认证矢量对应的用户类别作为所述用户所属的用户类别。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括，采用如下步骤训练所述身份认证矢量提取器：

根据总变因子建模技术，假设μ＝m+Tw，其中，μ为每一用户类别的混合高斯模型的均值超向量，m为所有用户类别的通用混合高斯模型的均值超向量，矩阵T为所述身份认证矢量提取器，w为每一用户类别的参考认证矢量；

采用最大似然估计法计算每一所述用户类别的所述参考认证矢量并获取所述身份认证矢量提取器矩阵T。

4.根据权利要求3所述的方法，其特征在于，采用如下步骤训练所述每一用户类别的混合高斯模型：

采集混合语音训练样本，提取所述混合语音训练样本的语音特征；

根据所述语音特征训练得到适用于所有用户类别的通用混合高斯模型；

对所述混合语音训练样本进行分类得到不同的用户类别；

使用不同的所述用户类别的语音样本，采用最大后验概率法，对所述通用混合高斯模型的均值做自适应更新，得到不同的所述用户类别对应的混合高斯模型。

5.根据权利要求1所述的方法，其特征在于，所述用户类别，具体包括：

预先根据用户所处年龄段对所述用户进行分类得到所述用户类别；和/或，预先根据用户的性别对所述用户进行分类得到所述用户类别。

6.一种基于语音的服务推荐装置，其特征在于，包括如下的模块：

推荐模块，用于根据所述用户所属的所述用户类别为用户推荐相应的服务。

7.根据权利要求6所述的装置，其特征在于，所述判断模块具体用于：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块用于，采用如下步骤训练所述身份认证矢量提取器：

9.根据权利要求8所述的装置，其特征在于，所述训练模块用于，采用如下步骤训练所述每一用户类别的混合高斯模型：

对所述混合语音训练样本进行分类得到不同的用户类别；

10.根据权利要求6所述的装置，其特征在于，所述用户类别，具体包括：