CN103632672B

CN103632672B - 一种变声系统、方法及人机交互系统及方法

Info

Publication number: CN103632672B
Application number: CN201210309311.7A
Authority: CN
Inventors: 饶丰; 陈波; 肖斌; 熊鹏飞; 刘海龙; 谢达东; 唐宗尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2012-08-28
Filing date: 2012-08-28
Publication date: 2017-03-22
Anticipated expiration: 2032-08-28
Also published as: CN103632672A

Abstract

本发明涉及一种变声系统、方法及人机交互系统及方法。本发明实施例的变声系统，包括音频输入模块，用于接收第一音频信息；基频变声模块，用于对接收的第一音频信息进行变速变调处理和/或变速不变调处理以获取第二音频信息；音频输出模块，用于输出第二音频信息。本发明实施例的变声系统对输入的音频进行变调处理，提高了变声系统的处理能力，改变了现有变声系统过于单调的问题；本发明实施例的人机交互系统及方法通过将视觉、听觉、触觉三种感官有机的结合在一起，形成一种新的交互方式，进一步提高交互性。

Description

一种变声系统、方法及人机交互系统及方法

技术领域

本发明属于互联网技术领域，尤其涉及一种变声系统、方法及人机交互系统及方法。

背景技术

变声系统的应用，主要通过将说话人的声音的基频进行变动，从而生成一种有趣、夸张的声音，例如时下流行的游戏软件talking tom，可以用滑稽的声音完整的复述人的说话。而Avatar（虚拟）技术的应用则是通过人脸五官特征点的跟踪定位，提取人脸表情动作，并通过计算机图形模型建立同步动作，实现人与虚拟形象的交互，有较强的互动性。通过变声系统与Avatar技术相结合可实现听觉与视觉相交互，构成一种新的交互体验。但现有变声系统输出的声音比较单调，即一个用户只能对应一种声音，缺乏个性及趣味性；同时，目前的Avatar技术应用主要是基于PC（personal computer，个人计算机）客户端的，但是，其通常交互性不好，不能完全满足用户交互的需求，另外，相对于PC客户端，由于手机端的浮点精度计算低且运行速度较慢等特征，对算法的实时性有着更高的要求，现有的Avatar技术实现过于简单，交互性差。

发明内容

本发明提供了一种变声系统、方法及人机交互系统及方法，旨在解决现有技术中的变声系统过于单调及交互系统交互性不好的问题。

本发明是这样实现的，一种变声系统，包括：音频输入模块，用于接收第一音频信息；基频变声模块，用于对接收的第一音频信息进行变速变调处理和/或变速不变调处理以获取第二音频信息；音频输出模块，用于输出第二音频信息。

本发明采取的另一技术方案为：一种变声方法，包括：接收输入的第一音频信息；

对接收的第一音频信息进行变速变调处理和/或变速不变调处理以获取第二音频信息；

输出第二音频信息。

本发明采取的又一技术方案为：一种人机交互系统，包括变声系统、人脸检测系统和虚拟形象反馈系统，所述变声系统用于对输入的第一音频信息进行变调处理和/或变速不变调处理，输出第二音频信息；所述人脸检测系统用于定位人脸特征点，并根据人脸特征点定位提取人脸动作信息；所述虚拟形象反馈系统用于根据所述输出的第二音频信息和/或所述提取的人脸动作信息进行人与虚拟形象之间的交互。

本发明采取的另一技术方案为：一种人机交互方法，包括：

对输入的第一音频信息进行变调处理和/或变速不变调处理，输出第二音频信息；

对人脸特征点进行定位，并根据人脸特征点定位提取人脸动作信息；根据输出的第二音频信息和/或所述提取的人脸动作信息进行人与虚拟形象之间的交互。

本发明的技术方案具有如下优点或有益效果：本发明实施例的变声系统、方法通过变声系统的应用，对输入的音频进行变调处理，提高了变声系统的处理能力，改变了现有变声系统过于单调的问题；本发明实施例的人机交互系统及方法通过将视觉、听觉、触觉三种感官有机的结合在一起，形成一种新的交互方式，进一步提高交互性。

附图说明

附图1是本发明实施例的变声系统的结构示意图；

附图2是本发明实施例的变声方法的流程图；

附图3是本发明实施例的变声系统的原始声音频谱图；

附图4是本发明实施例的变声系统声音降速一倍后的频谱效果图；

附图5是本发明实施例的变声系统变调不变速的音频效果图；

附图6是本发明实施例的变声系统声音转换过程示意图；

附图7是本发明实施例的人机交互系统的结构示意图；

附图8是本发明实施例的人机交互系统人眼搜索ROI区域示意图；

附图9是原有人脸特征点标注点与本发明人脸特征点标注点的对比示意图；

附图10是本发明实施例的人机交互方法的流程图；

附图11是本发明另一实施例的人机交互方法的流程图；

附图12是本发明实施例的人机交互方法的人脸特征点形状模型建模流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，是本发明实施例的变声系统的结构示意图。本发明实施例的变声系统包括音频输入模块、基频变声模块和声音转换模块，其中，

音频输入模块用于输入音频；

基频变声模块用于将音频进行变调处理后输出变调不变速的音频效果；其中，基频变声模块的工作原理为：先对音频播放进行变速变调处理，然后进行变速不变调处理，通过前两步的处理达到变调不变速的效果，并输出变调不变速的音频。在本发明实施方式中，对于变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸；变速不变调处理又称为音频时长调整算法，在保证音频原始特征不变的前提下，调整音频信号的时间长度，实现音频的变速不变调处理，音频原始特征包括：音频的频率、振幅和相位，本发明实施方式中主要采用时域的同步叠加法(synchronous overlap-and-add,SOLA)来实现，具体请一并参阅图3、图4和图5，图3是原始声音的频谱图；图4本发明变声系统声音降速一倍后的频谱效果图；图5是本发明变声系统变调不变速的音频效果图。

声音转换模块用于建立对说话人声音（source speaker）和目标转换人声音（target speaker）的联合高斯混合概率模型来实现声音的转换；本发明实施方式中，采用voice conversion（声音转换）算法实现声音的转换，具体请一并参阅图6，是本发明变声系统声音转换过程示意图；假设X=[x1,x2...xN]是源说话人的特征序列,Y=[y1,y2...yN]是目标说话人的特征序列，GMM（高斯混合模型）假设X的概率分布能够写成Q个多高斯分布的和，

p(x)＝∑a_iN(x,μ，∑)

这里N(x,μi,Σi)表示均值为μ和协方差矩阵为Σ的正态分布，同理，针对X，Y的联合高斯概率密度分布。

其中，μ_m(x)是source源声音的均值向量，μ_m(y)是target目标转换人声音的均值向量。是联合分布协方差。得到GMM（高斯混合模型）的参数之后，我们可以得到如下的转换参数

且

针对many-to-one voice conversion（多对一的语音转换）的实现方法，本发明实施例通过训练多个source voice（源说话人）和target voice（目标说话人）的GMM建立模型库。然后通过CMLLR（有约束的最大似然线性回归，

Constrained maximum likelihood linear regression）算法进行自适应adatption，实现针对多个说话人的声音转换。

请参阅图2，是本发明实施例的变声方法的流程图。本发明实施例的变声方法包括：

步骤10：输入音频；

步骤20：对输入音频进行变速变调处理及变速不变调处理，输出变调不变速的音频。

在步骤20中，对于变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸；变速不变调处理又称为音频时长调整算法，在保证音频原始特征不变的前提下，调整音频信号的时间长度，实现音频的变速不变调处理，本发明实施方式中主要采用时域的同步叠加法(synchronous overlap-and-add,SOLA)来实现。

在本发明变声方法的另一实施方式中，在步骤20后还可以包括：建立说话人声音和目标转换人声音的模型实现声音的转换。

请参阅图7，是本发明实施例的人机交互系统的结构示意图。本发明实施例的人机交互系统包括变声系统、人脸检测系统、触摸系统和虚拟形象反馈系统，变声系统用于对输入的音频进行变调不变速处理，并通过建立对说话人声音（source speaker）和目标转换人声音（target speaker）的模型实现声音的转换；人脸检测系统用于结合人脸检测和人眼匹配对人脸位置进行初步定位，根据初步定位信息结合AAM（Active Appearance Model，主动外观模型）的表观模型进行人脸特征点拟合，根据拟合结果完成人脸特征点定位，并根据人脸特征点定位提取人脸动作信息；触摸系统用于接收用户屏幕触摸信息。虚拟形象反馈系统通过转换后的音频效果和提取的人脸动作信息以及屏幕触摸信息的结合，实现人与虚拟形象之间的交互。

具体地，变声系统包括音频输入模块、基频变声模块和声音转换模块，

音频输入模块用于输入音频；

基频变声模块用于将音频进行变调处理后输出变调不变速的音频效果；其中，基频变声模块的工作原理为：先对音频播放进行变速变调处理，然后进行变速不变调处理，通过前两步的处理达到变调不变速的效果，并输出变调不变速的音频。在本发明实施方式中，对于变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸；变速不变调处理又称为音频时长调整算法，在保证音频原始特征不变的前提下，调整音频信号的时间长度，实现音频的变速不变调处理，本发明实施方式中主要采用时域的同步叠加法(synchronous overlap-and-add,SOLA)来实现。

声音转换模块用于建立对说话人声音（source speaker）和目标转换人声音（target speaker）的联合GMM（高斯混合模型，用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型）实现声音的转换。

人脸检测系统包括人脸检测模块、特征点拟合模块、特征点定位模块和动作提取模块，

人脸检测模块用于结合人脸检测和人眼匹配对人脸位置进行初步定位；其中，人脸检测模块使用级联的Harr特征分类器对人脸进行检测，获得人脸的初始位置信息（x,y）和初始人脸大小信息s，同时使用人眼匹配算法匹配双眼的位置信息，比只使用人脸检测方法定位更加精确；

特征点拟合模块用于根据初步定位信息结合AAM表观模型进行人脸特征点拟合；其中，AAM表观模型包括灰度、梯度、边缘和角点等特征值；

特征点定位模块用于根据拟合结果完成人脸特征点定位；

动作提取模块用于根据人脸特征点定位提取人脸的动作信息；其中，在本发明实施方式中，将人脸部动作信息分为头部运动（包括侧脸、俯视仰视、头部摇摆）、嘴巴张合、眉毛和眼睛张合等，其中，人脸部动作信息不限于本发明实施方式所列举的方案，具体如下表所示：

侧脸	左右眼和鼻子构成三角形的仿射变换角度
		仰视俯视	嘴巴鼻子眼睛构成的多边形的仿射变换
头部摇摆	左右眼和鼻子构成三角形的仿射变换角度
		嘴巴张合	嘴巴上特征点的欧式距离
眉毛	眉毛中心点和眼睛中心点的欧式距离
		眼睛闭合	通过构建Adaboost人眼闭合分类器来判断

具体地，人脸检测模块包括人眼检测单元和人脸检测单元，其中，

人眼检测单元用于判断上一帧图像是否检测出人眼，如果是，在人眼ROI（RegionOf Interest的缩写，图像处理中的术语“感兴趣区域）区域内进行搜索，匹配人眼的位置信息；如果否，则通过人脸检测单元进行人脸检测；其中，本发明在人脸检测的同时使用人眼匹配算法进行人眼匹配，比只使用人脸检测方法定位更加精确；ROI区域确定方法为，ROI区域中心和眼睛中心重合，eye_height,eye_width分别为眼睛的高度和宽度，roi_height,roi_width分别为眼睛搜索ROI区域的高度和宽度，具体请一并参阅图8，是本发明人眼搜索ROI区域示意图。红色边框内为左眼图片，黑色边框内为左眼搜索ROI区域，其中，

roi_height＝α·eye_height;

roi_width＝β·eye_width;

α,β为ROI区域大小控制系数，在本发明实施例中取α＝3,β＝2；人眼匹配算法具体为：T(x,y)为人眼图像，I(x,y)为搜索ROI区域，R(x,y)为匹配结果图像，则

其中，匹配结果图像R(x,y)在最大值时即为在ROI区域I(x,y)和人眼图像T(x,y)中最匹配的位置。

人脸检测单元用于进行人脸检测，并判断是否检测出人脸，如果是，获得人脸的初始位置信息（x,y）和初始人脸大小信息s；如果否，则重新输入视频；其中，本发明使用级联的Harr特征分类器对人脸进行检测，获得人脸的初始位置和初始人脸大小信息。

特征点拟合模块包括人眼拟合单元、人脸拟合单元和拟合判断单元，其中

人眼拟合单元用于根据人眼的初始位置信息进行AAM人脸特征点拟合，并通过拟合判断单元判断拟合是否成功；

人脸拟合单元用于根据人脸的初始位置和大小信息结合灰度值、x,y轴方向的梯度值、边缘和角点等特征进行AAM人脸特征点拟合，并通过拟合判断单元判断拟合是否成功；其中，在获得初始位置和大小信息后，结合灰度值、x,y轴方向的梯度值、边缘和角点等特征作为AAM的表观模型，对人脸特征点进行拟合，使人脸特征点的拟合位置也更精确。其中，人脸特征点的ASM(Active Shape Model，主动形状模型)可由矢量S＝{x₁,y₁...x_n,y_n}表示，x_i,y_i为第i个点的位置坐标，在本发明实施例中，对人脸标注点进行重新布局，将原有的92个标注点减为82个标注点，在提高了拟合速度的同时不影响准确度，可有效解决手机端有浮点精度计算低及运行速度慢等问题。具体请参阅图9，是原有人脸特征点标注点与本发明人脸特征点标注点的对比示意图，其中，左图为原有人脸特征点标注点，右图为本发明人脸特征点标注点。在AAM模型训练过程中，采集一定量的人脸表情图片，按照图9所示手动标注82个人脸特征点的位置坐标，得到人脸特征点的坐标矢量S＝(x₁,y₁,x₂,y₂...x₈₂,y₈₂)，对人脸特征点的坐标矢量进行Procrustes算法进行几何对齐，然后对训练数据进行PCA（principle components analysis，主成分分析）学习，得到，

其中，S₀为平均形状，S_i为形状的PCA基，p_i为PCA基的系数，在拟合过程中计算出不同的p_i即可得到相应的形状模型的矢量S；本发明人脸特征点形状模型建模具体包括：对所有人脸特征点的坐标矢量去除均值，转移到质心坐标系下；选择一个样本作为初始的平均形状，并校准尺寸使得将初始估计的平均形状记为并将此作为参考坐标系；将所有训练样本的特征点坐标矢量通过仿射变换校准到当前平均形状上；对校准后的所有样本重新计算平均形状；将当前的平均形状校准到上，并且使得判断校准后的平均形状是否大于给定阈值，如果是，重新变换校准所有训练样本的特征点坐标矢量；如果否，通过PCA方法将对齐后的样本进行统计形状建模，得：

根据形状模型所包围区域内的点映射到平均形状，即得到表观模型A，其中，映射算法可采用分段仿射映射算法；同理，对表观模型可以进行PCA学习，得到，

其中，A₀为平均表观，A_i为表观模型的PCA基，λ_i为PCA基的系数。

表观模型的建模方法具体为：将每个训练样本映射到平均形状中，然后分别计算灰度值、x轴y轴的梯度值、边缘和角点特征值三类特征作为表观模型；其中，灰度值A_gray的计算方法为：I(x,y)为每个样本映射到平均形状内的灰度图像，则灰度表观模型值为：

A_gray(x,y)＝I(x,y)

x轴y轴梯度值的计算方法为：使用sobel算子（Sobel operator/索贝尔算子，是图像处理中的算子之一，主要用作边缘检测）计算x轴y轴梯度值：

则x轴y轴梯度值的表观模型值A_dx及A_dy用以下公式获得：

A_dx(x,y)＝G_x(x,y)²;

A_dy(x,y)＝G_y(x,y)²;

边缘角点特征A_{edge_and_corner}的计算方法为：得到x轴y轴方向梯度值后，设：

Edge_xx(x,y)＝G_x(x,y)·G_x(x,y);

Edge_yy(x,y)＝G_y(x,y)·G_y(x,y);

Edge_xy(x,y)＝G_x(x,y)·G_y(x,y);

然后采用3x3的Gaussian窗分别对Edge_xx(x,y),Edge_yy(x,y),Edge_xy(x,y)进行滤波，得：

用以下公式计算得到边缘和角点特征：

A_{edge_and_corner}(x,y)＝

(Edge_xx'(x,y)+Edge_yy'(x,y))²-2·(Edge_xx'(x,y)·Edge_yy′(x,y)-Edge_xy′(x,y)·Edge_xy′(x,y))

由于灰度值、x轴y轴方向梯度值、边缘和角点等特征不在同一个尺度下，所以计算完后需要将三个特征值归一化到同一尺度下，在本发明实施方式中，选用Sigmoidal方法进行特征值归一，具体为：

归一化后，三类特征都处于同一个尺度下，每一个训练样本对应三类特征及四个特征值；得到四个特征值的表观模型后，通过PCA进行学习，得到：

在本发明实施方式中，使用Inverse Compositional（反向合成算法，是本领域内一种常用算法）算法对人脸特征点进行拟合，具体包括：根据人脸检测或人眼匹配算法得到的初始的四个全局仿射变换参数q，对输入图像I(x,y)进行变换，得I(N(W(x|p)|q))，W定义为从基本形状S₀到当前形状S的分段仿射映射，N为2维相似变换，q为相似变换参数，则其中，q＝(a,b,t_x,t_y)，可以通过人眼匹配算法计算得到，对变换后的图像计算三类特征表观模型得A(I(N(W(x|p))|q))；计算表观模型差值A(I(N(W(x|p))|q))-A₀(x)；计算其中，H为Hessian矩阵（海赛矩阵，是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵），SD为最速下降图，训练模型时预先计算好的，由以下公式计算得到：

H＝∑SD^T·SD;

更新形状参数直到

拟合判断单元用于判断人脸特征点是否拟合成功，如果是，通过特征点定位模块定位人脸特征点，如果否，则重新输入视频；

特征点定位模块完成人脸特征点定位后，根据人脸特征点获取人眼图像，通过人眼检测单元以上一帧图像中的人眼图像作为模板在人眼ROI区域内匹配下一帧图像中双眼的位置；其中，可以根据人脸特征点的位置得到双眼图像，在下一帧图像中，确定下一帧图像人眼搜索ROI区域，并在ROI区域内以上一帧图像中的人眼图像作为模板，使用图像匹配算法，得到当前帧中双眼的位置。

在本发明实施例的人机交互系统中，可借助于摄像头、听筒、扬声器、触摸屏等工具，将视觉、听觉、触觉三种感官有机的结合在一起，形成一种新的交互方式，简称三度交互，具体的交互方式下表所示：

同时，视觉、听觉、触觉3中交互方式是可以互相交叉的，例如用户对着摄像头做一个夸张的表情，计算机通过语音对该表情进行评价，可进一步提高应用的趣味性。

请参阅图10，是本发明实施例的人机交互方法的流程图。本发明实施例的人机交互方法包括以下步骤：

S100：输入音频，并对输入的音频进行变调处理后输出变调不变速的音频效果；

在S100中，音频变调处理的工作原理为：先对音频播放进行变速变调处理，然后进行变速不变调处理，通过前两步的处理达到变调不变速的效果，并输出变调不变速的音频。在本发明实施方式中，对于变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸；变速不变调处理又称为音频时长调整算法，在保证音频原始特征不变的前提下，调整音频信号的时间长度，实现音频的变速不变调处理，本发明实施方式中主要采用时域的同步叠加法(synchronous overlap-and-add,SOLA)来实现。

S110：建立说话人声音（source speaker）和目标转换人声音（target speaker）的模型实现声音的转换；

在S110中，模型为高斯混合模型，用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

S120：输入视频，结合人脸检测和人眼匹配对人脸位置进行初步定位；

在S120中，本发明使用级联的Harr特征分类器对人脸进行检测，获得人脸的初始位置信息（x,y）和初始人脸大小信息s，同时使用人眼匹配算法匹配双眼的位置信息，比只使用人脸检测方法定位更加精确。

S130：根据初步定位信息结合AAM表观模型进行人脸特征点拟合；

在S130中，AAM（主动表观模型）包括灰度、梯度、边缘和角点等特征值；本发明通过AAM算法结合灰度值、x，y轴方向的梯度值、边缘和角点等多个特征做为AAM模型的表观模型，使人脸特征点的拟合位置也更精确；在本发明实施例中，使用Inverse Compositional（反向合成）算法进行人脸特征点拟合。

S140：根据人脸特征点拟合结果完成人脸特征点定位，并根据人脸特征点定位提取人脸的动作信息；

在S140中，在本发明实施方式中，将人脸部动作信息分为头部运动（包括侧脸、俯视仰视、头部摇摆）、嘴巴张合、眉毛和眼睛张合等，具体如下表所示：

S150：接收屏幕触摸信息，结合变调的音频效果和人脸动作信息以及屏幕触摸信息实现人与虚拟形象之间的交互；

在S150中，可借助于摄像头、听筒、扬声器、触摸屏等工具，将视觉、听觉、触觉三种感官有机的结合在一起，形成一种新的交互方式，简称三度交互，具体的交互方式下表所示：

请参阅图11，是本发明另一实施例的人机交互方法的流程图。本发明另一实施例的人机交互方法包括以下步骤：

S200：输入音频，并对输入的音频进行变调处理后输出变调不变速的音频效果；

在S200中，音频变调处理的工作原理为：先对音频播放进行变速变调处理，然后进行变速不变调处理，通过前两步的处理达到变调不变速的效果，并输出变调不变速的音频。在本发明实施方式中，对于变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸；变速不变调处理又称为音频时长调整算法，在保证音频原始特征不变的前提下，调整音频信号的时间长度，实现音频的变速不变调处理，本发明实施方式中主要采用时域的同步叠加法(synchronous overlap-and-add,SOLA)来实现。

S210：建立对说话人声音（source speaker）和目标转换人声音（target speaker）的联合GMM高斯混合模型实现声音的转换；

在S210中，高斯混合模型是指：用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

S220：输入视频，获取图像信息；

S230：判断上一帧图像是否检测出人眼，如果是，执行S240；如果否，执行S260；

在S230中，本发明在人脸检测的同时使用人眼匹配算法进行人眼匹配，比只使用人脸检测方法定位更加精确。

S240：在人眼ROI（Region Of Interest的缩写，图像处理中的术语“感兴趣区域）区域内进行搜索，匹配人眼的初始位置信息；

在S240中，ROI区域确定方法为，ROI区域中心和眼睛中心重合，eye_height,eye_width分别为眼睛的高度和宽度，roi_height,roi_width分别为眼睛搜索ROI区域的高度和宽度。

S250：根据人眼的初始位置信息进行AAM人脸特征点拟合，并执行S280；

S260：进行人脸检测，并判断是否检测出人脸，如果是，执行S270，如果否，重新执行S220；

在S260中，本发明使用级联的Harr特征分类器对人脸进行检测，获得人脸的初始位置和初始人脸大小信息。

S270：获得人脸的初始位置信息（x,y）和初始人脸大小信息s，并根据人脸的初始位置和大小信息结合灰度值、x,y轴方向的梯度值、边缘和角点等特征进行AAM人脸特征点拟合；

在S270中，在获得初始位置和大小信息后，结合灰度值、x,y轴方向的梯度值、边缘和角点等特征作为AAM的表观模型，对人脸特征点进行拟合，使人脸特征点的拟合位置也更精确。其中，人脸特征点的ASM(Active Shape Model，主动形状模型)可由矢量S＝{x₁，y₁...x_n,y_n}表示，x_i,y_i为第i个点的位置坐标，在本发明实施例中，对人脸标注点进行重新布局，将原有的92个标注点减为82个标注点，在提高了拟合速度的同时不影响准确度，可有效解决手机端有浮点精度计算低及运行速度慢等问题。具体请参阅图9，是原有人脸特征点标注点与本发明人脸特征点标注点的对比示意图，其中，左图为原有人脸特征点标注点，右图为本发明人脸特征点标注点。在AAM模型训练过程中，采集一定量的人脸表情图片，按照图8所示手动标注82个人脸特征点的位置坐标，得到人脸特征点的坐标矢量S＝(x₁，y₁,x₂,y₂...x₈₂,y₈₂)，对人脸特征点的坐标矢量进行Procrustes算法进行几何对齐，然后对训练数据进行PCA（principle components analysis，主成分分析）学习，得到，

其中，S₀为平均形状，S_i为形状的PCA基，p_i为PCA基的系数，在拟合过程中计算出不同的p_i即可得到相应的ASM形状模型的矢量S；具体请一并参阅图12，是本发明实施例的人机交互方法的人脸特征点形状模型建模流程图。本发明实施例的人机交互方法的人脸特征点形状模型建模包括以下步骤：

S271：对所有人脸特征点的坐标矢量去除均值，转移到质心坐标系下；

S272：选择一个样本作为初始的平均形状，并校准尺寸使得

S273：将初始估计的平均形状记为并将此作为参考坐标系；

S274：将所有训练样本的特征点坐标矢量通过仿射变换校准到当前平均形状上；

S275：对校准后的所有样本重新计算平均形状；

S276：将当前的平均形状校准到上，并且使得

S277：判断校准后的平均形状是否大于给定阈值，如果是，重新执行S274；如果否，执行S278；

S278：通过PCA方法将对齐后的样本进行统计形状建模，得：

根据ASM形状模型所包围区域内的点映射到平均形状，即得到AAM表观模型A，其中，映射算法可采用分段仿射映射算法；同理，对AAM表观模型可以进行PCA学习，得到，

其中，A₀为平均表观，A_i为AAM表观模型的PCA基，λ_i为PCA基的系数。

AAM表观模型的建模方法具体为：将每个训练样本映射到平均形状中，然后分别计算灰度值、x轴y轴的梯度值、边缘和角点特征值三类特征作为表观模型；其中，灰度值A_gray的计算方法为：I(x,y)为每个样本映射到平均形状内的灰度图像，则灰度表观模型值为：

A_gray(x,y)＝I(x,y)

则x轴y轴梯度值的表观模型值A_dx及A_dy用以下公式获得：

A_dx(x,y)＝G_x(x,y)²;

A_dy(x,y)＝G_y(x,y)²;

Edge_xx(x,y)＝G_x(x,y)·G_x(x,y);

Edge_yy(x,y)＝G_y(x,y)·G_y(x,y);

Edge_xy(x,y)＝G_x(x,y)·G_y(x,y);

用以下公式计算得到边缘和角点特征：

A_{edge_and_corner}(x,y)＝

(Edge_xx′(x,y)+Edge_yy′(x,y))²-2·(Edge_xx′(x,y)·Edge_yy′(x,y)-Edge_xy′(x,y)·Edge_xy′(x,y))

归一化后，三类特征都处于同一个尺度下，每一个训练样本对应三类特征及四个特征值；得到四个特征值的AAM表观模型后，通过PCA进行学习，得到：

H＝∑SD^T·SD;

更新形状参数直到

S280：判断人脸特征点是否拟合成功，如果是，执行S290，如果否，重新执行S220；

S290：根据拟合结果完成人脸特征点定位，根据人脸特征点获取人眼图像，以上一帧图像中的人眼图像作为模板在人眼ROI区域内匹配下一帧图像中双眼的位置；并根据人脸特征点提取人脸动作信息；

在S290中，可以根据人脸特征点的位置得到双眼图像，在下一帧图像中，确定下一帧图像人眼搜索ROI区域，并在ROI区域内以上一帧图像中的人眼图像作为模板，使用图像匹配算法，重新匹配当前帧中双眼的位置；在本发明实施方式中，将人脸部动作信息分为头部运动（包括侧脸、俯视仰视、头部摇摆）、嘴巴张合、眉毛和眼睛张合等，具体如下表所示：

S300：接收屏幕触摸信息，结合变调的音频效果和人脸动作信息以及屏幕触摸信息实现人与虚拟形象之间的交互；

在S300中，可借助于摄像头、听筒、扬声器、触摸屏等工具，将视觉、听觉、触觉三种感官有机的结合在一起，形成一种新的交互方式，简称三度交互，具体的交互方式下表所示

本发明人脸特征点定位与变声系统交互的方法及系统通过变声系统的应用，对输入的音频进行变调处理，并通过建立说话人声音和目标转换人声音的模型实现声音的转换；通过结合人脸检测技术和人眼匹配技术对人脸位置进行初步定位，比只使用人脸检测能更精确的定位人脸位置信息；通过结合灰度、梯度、边缘和角点等特征值作为AAM表观模型进行人脸特征点拟合，使人脸特征点的定位更加精确；通过将视觉、听觉、触觉三种感官有机的结合在一起，形成一种新的交互方式，进一步提高应用的趣味性；通过对人脸标注点进行重新布局，将原有的92个标注点减为82个标注点，在提高了拟合速度的同时不影响准确度，可有效解决手机端浮点精度计算低及运行速度慢等问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种变声系统，其特征在于，包括：

音频输入模块，用于接收第一音频信息；

基频变声模块，用于对接收的第一音频信息进行变速变调处理和/或变速不变调处理；

声音转换模块，用于建立说话人声音和目标转换人声音的联合高斯混合概率模型来实现声音的转换，所述高斯混合概率模型为利用高斯概率密度函数精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型，以获取第二音频信息，其中，所述第一音频信息为说话人声音，所述第二音频信息为目标转换人声音；

音频输出模块，用于输出第二音频信息。

2.根据权利要求1所述的变声系统，其特征在于，所述基频变声模块对输入音频进行变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸。

3.根据权利要求1或2所述的变声系统，其特征在于，所述基频变声模块对输入音频进行变速不变调处理方式为：在保证音频原始特征不变的前提下，调整音频信号的时间长度，所述音频原始特征包括：音频的频率、振幅和相位。

4.一种变声方法，包括：

接收输入的第一音频信息；

对接收的第一音频信息进行变速变调处理和/或变速不变调处理；

建立说话人声音和目标转换人声音的联合高斯混合概率模型以实现声音的转换，所述高斯混合概率模型为利用高斯概率密度函数精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型，以获取第二音频信息，其中，所述第一音频信息为说话人声音，所述第二音频信息为目标转换人声音；

输出第二音频信息。

5.根据权利要求4所述的变声方法，其特征在于，对输入音频进行变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸；对输入音频进行变速不变调处理方式为：在保证音频原始特征不变的前提下，调整音频信号的时间长度，所述音频原始特征包括：音频的频率、振幅和相位。

6.一种人机交互系统，其特征在于，包括变声系统、人脸检测系统和虚拟形象反馈系统，所述变声系统用于对输入的第一音频信息进行变调处理和/或变速不变调处理，并建立说话人声音和目标转换人声音的联合高斯混合概率模型来实现声音的转换，所述高斯混合概率模型是利用高斯概率密度函数精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型，以输出第二音频信息，其中，所述第一音频信息为说话人声音，所述第二音频信息为目标转换人声音；所述人脸检测系统用于定位人脸特征点，并根据人脸特征点定位提取人脸动作信息；所述虚拟形象反馈系统用于根据所述输出的第二音频信息和/或所述提取的人脸动作信息进行人与虚拟形象之间的交互。

7.根据权利要求6所述的人机交互系统，其特征在于，所述人脸检测系统包括人脸检测模块、特征点拟合模块、特征点定位模块和动作提取模块，所述人脸检测模块用于结合人脸检测和人眼匹配对人脸位置进行初步定位；所述特征点拟合模块用于根据初步定位信息结合表观模型的至少一特征进行人脸特征点拟合；所述特征点定位模块用于根据特征点拟合结果完成人脸特征点定位，并根据人脸特征点获取人眼图像，通过人眼检测单元以上一帧图像中的人眼图像作为模板在人眼感兴趣区域内匹配下一帧图像中双眼的位置；所述动作提取模块用于根据人脸特征点定位提取人脸的动作信息。

8.根据权利要求7所述的人机交互系统，其特征在于，所述人脸检测模块还包括人眼检测单元和人脸检测单元，所述人眼检测单元用于判断上一帧图像是否检测出人眼，如果是，在人眼感兴趣区域内进行搜索，匹配人眼的位置信息；如果否，则通过人脸检测单元进行人脸检测；所述人脸检测单元用于进行人脸检测，并判断是否检测出人脸，如果是，获得人脸的初始位置信息和初始人脸大小信息；如果否，则重新输入视频。

9.根据权利要求7所述的人机交互系统，其特征在于，所述特征点拟合模块还包括人眼拟合单元、人脸拟合单元和拟合判断单元，

所述人眼拟合单元用于根据人脸的初始位置信息进行人脸特征点拟合，并通过拟合判断单元判断人脸特征点是否拟合成功；

所述人脸拟合单元用于根据人脸的初始位置和大小信息结合表观模型灰度值、人脸的初始位置x,y轴方向的梯度值、边缘和角点特征进行人脸特征点拟合，并通过拟合判断单元判断人脸特征点是否拟合成功；

所述拟合判断单元用于判断人脸特征点是否拟合成功，如果是，通过特征点定位模块定位人脸特征点，如果否，则重新输入视频。

10.一种人机交互方法，包括：

对输入的第一音频信息进行变调处理和/或变速不变调处理，并建立说话人声音和目标转换人声音的联合高斯混合概率模型来实现声音的转换，所述高斯混合概率模型是利用高斯概率密度函数精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数形成的模型，以输出第二音频信息，其中，所述第一音频信息为说话人声音，所述第二音频信息为目标转换人声音；

对人脸特征点进行定位，并根据人脸特征点定位提取人脸动作信息；

根据输出的第二音频信息和/或所述提取的人脸动作信息进行人与虚拟形象之间的交互。

11.根据权利要求10所述的人机交互方法，其特征在于，对输入音频进行变速变调的处理方式为：采用傅立叶频域变换，对音频声音在频谱上进行拉伸；对输入音频进行变速不变调处理方式为：在保证音频原始特征不变的前提下，调整音频信号的时间长度，所述音频原始特征包括：音频的频率、振幅和相位。

12.根据权利要求10所述的人机交互方法，其特征在于，所述对人脸特征点进行定位包括：结合人脸检测和人眼匹配对人脸位置进行初步定位；根据初步定位信息结合表观模型的至少一特征进行人脸特征点拟合；根据特征点拟合结果完成人脸特征点定位。

13.根据权利要求12所述的人机交互方法，其特征在于，所述结合人脸检测技术和人眼匹配技术对人脸位置进行初步定位还包括：判断上一帧图像是否检测出人眼，如果是，通过人眼匹配技术进行初步定位；如果否，进行人脸检测定位。

14.根据权利要求12所述的人机交互方法，其特征在于，所述通过人眼匹配技术进行初步定位包括：在人眼感兴趣区域内进行搜索，匹配人眼的初始位置信息，并根据人眼的初始位置信息进行人脸特征点拟合。

15.根据权利要求10所述的人机交互方法，其特征在于，所述人机交互方法还包括：接收屏幕触摸信息，通过转换后的音频信息和提取的人脸动作信息以及屏幕触摸信息的结合，实现人与虚拟形象之间的交互。