CN106020440A

CN106020440A - 一种基于体感交互的京剧教学系统

Info

Publication number: CN106020440A
Application number: CN201610292437.6A
Authority: CN
Inventors: 王佳悦; 郭宗义; 黄辉煌; 范友强
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-05-05
Filing date: 2016-05-05
Publication date: 2016-10-12

Abstract

一种基于体感交互的京剧教学系统，包括数据采集模块、数据处理模块和用户界面交互模块，数据采集模块通过体感交互设备获得用户的关节信息和声音数据；数据处理模块实现用户对系统的逻辑控制显示与用户动作同步的用户模型，进行京剧标准模型与用户模型的匹配与反馈，获取用户声音数据，进行标准唱腔与用户音频的匹配与反馈；用户界面交互模块通过对用户手势的识别进行操作界面显示与切换、京剧教学视频显示、动作表演评价显示以及音频打分显示。本发明的京剧教学系统全程体感操作，识别率高，无需键盘、鼠标作为输入。用户模型与实际用户姿势同步率高，且无抖动、跳帧现象，不受体感捕捉的硬件限制及骨骼追踪时的环境噪声影响。

Description

一种基于体感交互的京剧教学系统

技术领域

本发明涉及体感交互领域，特别是涉及一种基于体感交互的京剧教学系统。

背景技术

京剧是中国国粹，代表着中华民族的传统文化，传承并发扬京剧有着深远的意义。然而，京剧教学的过程较为繁杂，唱、念、坐、打每个环节都需要相应的特殊教学步骤，专业性较强，且需要学习者在教师指导下，穿着专业的服装道具以配合练习。诸多因素导致京剧的教学成本过高，不利于京剧这类传统文化在年轻一代的传承与发扬。

京剧教学系统主要分为身体姿势教学与唱腔音调教学两个部分，相关技术主要包括3D模型渲染与平滑技术、手势识别技术、音频匹配技术与人体模型匹配与反馈技术等。

现有的骨骼关节点捕捉技术的数据量每秒是恒定的，当用户肢体运动过快时，接收到的骨骼关节点数据在三维空间中跳跃幅度较大，有些模型渲染与平滑算法不能够很好地处理此问题，导致模型运动僵硬或产生跳帧现象。现有手势识别算法的主要缺点在于识别成功率与准确率较低，当用户的手势过于复杂或相似度较高时，现有算法不能够区别不同手势之间的差异，准确地识别出不同复杂度的手势，因此加大了用户的体感操作难度。目前主流音频匹配技术主要是基于频率的匹配，对用户声音的能量处理较少，而用户的音频质量是由频率与能量共同决定的，对能量处理的缺失降低了匹配的准确率。此外，现有技术不能够较好地针对环境噪声进行过滤，导致匹配结果易受到环境影响，不能够真实地体现用户的歌唱水平。

因此，目前急需一种全程体感操作，并集京剧模型显示、人体同步控制、表演姿势动作校正和京剧唱腔校正于一体的京剧教学系统。

发明内容

本发明的目的是提供一种全程体感操作、用户模型流畅、评价矫正精准的基于体感交互的京剧教学系统。

为实现上述发明目的，本发明提供的技术方案是：

一种基于体感交互的京剧教学系统，包括数据采集模块、数据处理模块和用户界面交互模块，所述数据采集模块通过体感交互设备获得用户的关节信息和声音数据，所述体感交互设备与装载于Windows或微软XBOX平台中的感交互软件之间进行数据的通信；

所述数据处理模块通过手势识别算法，实现用户对系统的逻辑控制；在表演场景中，获取用户关节数据，显示与用户动作同步的用户模型，进行京剧标准模型与用户模型的匹配与反馈；获取用户声音数据，进行标准唱腔与用户音频的匹配与反馈；

所述用户界面交互模块通过对用户手势的识别，进行操作界面显示与切换、京剧教学视频显示、动作表演评价显示以及音频打分显示。

进一步地，在数据采集模块中，定义多个骨骼关节点的三维坐标，体感交互设备实时地获得用户关节位置和旋转参数；通过用户佩戴的耳麦将音频数据传输至计算机的音频接收器，获得用户演唱的声音数据。

进一步地，在数据处理模块中，基于线性指数平滑算法，利用霍尔特指数平滑来减少关节点的抖动，通过设置平滑值和修正值，减少骨骼关节点在帧与帧之间的跳跃，进行用户模型动作的渲染与平滑。

进一步地，在数据处理模块中，所述手势识别算法包括计算骨骼关节点间的距离，公式为其中，x、y、z表示关节点的三维坐标，D表示A、B点之间的距离；

计算两个骨骼关节点与基准点的X轴的角度大小θ，公式为

其中，Δx为两点间x轴坐标差Δx＝|x₁-x₂|，Δy为两点间y轴坐标差Δy＝|y₁-y₂|；

将常用手势定义为不同关节点间的角度条件，设定阈值范围，并建立常用手势库，用户动作落入手势库阈值范围内，判断手势匹配成功。

进一步地，在数据处理模块中加入定时器，为每个逻辑控制手势确定有效时间，使得逻辑控制手势仅在一定时间内有效，超出或不足限定时间则无效，由此区别用户的手势用于逻辑控制还是普通手势。

进一步地，所述线性指数平滑算法使用两个基本平滑公式和一个预测公式对骨骼动作进行平滑，其中两个基本平滑公式分别对时间序列的两种因素进行平滑公式如下：

S_t＝αY_t+(1-α)(S_t-1-B_t-1)，

B_t＝γ(S_t-S_t-1)+(1-γ)B_t-1，

{\overset{&OverBar;}{Y}}_{t + T} = S_{t} + {TB}_{t},

其中S_t表示对时间趋势因素的平滑变量,B_t表示对趋势增量的平滑变量，α表示平滑系数、γ表示修正系数，T表示预测系数。

进一步地，在数据处理模块中所述标准模型与用户模型的匹配，通过标准京剧动作存储一定时间长度内京剧标准模型在坐标系下的关节点位置、旋转数据，将用户模型的关节点位置、旋转数据与京剧标准模型的数据进行匹配，根据设定的若干关键部位的偏移角度数据，进行打分，评分等级分为专家、优秀、良好和尚需努力，将打分结果在软件中进行反馈。

进一步地，在数据处理模块中，矫正矢量计算公式为并通过矫正矢量计算偏移夹角，通过偏移夹角和矫正矢量数据，在软件中显示矫正矢量，提醒用户动作姿势的偏移。

进一步地，在数据处理模块中，所述标准唱腔与用户音频的匹配与反馈，将标准唱腔库中的音频样例和用户音频都按照一定的时间间隔分为多个帧，进行音频短时能量的特征提取，根据每一帧的短时平均能量形成短时能量包络，将包络切分成不同的能量包络单元，利用ONSET检测法，形成能量包络单元图，选择每个能量包络单元的起始点作为匹配操作的点；用切分点位置和切分点的概率描述能量包络单元图；计算匹配概率和音频片段相似值；将相似值与设定若干等级的阈值进行比较，每个等级阈值对应相应的得分，若相似值在某个阈值范围内，则显示用户音频片段的得分。

进一步地，在用户界面交互模块中，所述操作界面显示与切换通过手势识别的判定结果来对界面进行切换，以完成对系统的逻辑控制，系统有单人模式，双人模式；

所述京剧教学视频显示，通过手势识别的判定结果用户选择曲目，显示京剧教学视频，用户根据此教学视频进行动作学习。

进一步地，在用户界面交互模块中，还包括通过手势识别的判定结果显示经由动作渲染和平滑处理，显示与用户实时同步的用户模型。

进一步地，在用户界面交互模块中，通过3D建模软件MAYA设计单人模式和双人模式的应用场景，分别为四合院和宫殿。

采用上述技术方案，本发明具有如下有益效果：

本发明的京剧教学系统全程体感操作，识别率高，无需键盘、鼠标作为输入。本系统采用了鲁棒、高效的手势识别算法，通过定义识别率高且不易混淆的常用手势，建立姿势库，当系统获取人体骨骼关节信息后，能够进行快速姿势匹配，并且添加定时器，仅当满足一定时间长度的姿势才识别为人体交互姿势，提升了整体动作识别的准确度，并降低了误识别的概率。全程体感操作能够提升用户的使用体验，不需要间断地使用鼠标、键盘等操作完成逻辑控制，只需简单的肢体动作，即可操控整个系统流程，操作简单，易学易用。

本发明用户模型与实际用户姿势同步率高，且无抖动、跳帧现象。由于体感捕捉的硬件限制及骨骼追踪时的环境噪声影响，当用户动作姿势过快时，京剧模型可能会产生抖动与跳帧现象。本系统采用了基于线性指数平滑算法的思想，并通过霍尔特指数平滑来减少关节点的抖动，并能够根据用户的动作幅度，自适应调整平滑值，修正值，使得用户模型的动作更流畅。

本发明的系统寓教于乐，能够给予用户姿势动作、演唱反馈与评价。通过离线记录的标准京剧角色动作与用户在线姿势进行匹配，当用户动作失误时，能够给予用户以动作矫正提醒，并在画面显示，帮助用户矫正身体姿态。当曲目结束后，系统会根据用户整体的动作标准程度进行评级，并且系统采用基于能量包络的音频匹配方法，将离线标准唱腔与用户演唱音频的频率和能量同时进行匹配，能够全面地估计音频匹配度。由此，系统协助用户不断提升京剧的动作表演与演唱水平。

三维场景与京剧人物模型逼真，能够给予用户身临其境之感。本发明的三维场景与京剧人物模型都采用三维建模软件MAYA进行设计，不论是单人模式的贵妃，或是双人模式的霸王和虞姬，在服装，配饰，发型，脸谱等方面的设计都是细致入微，尽量地还原专业的京剧装扮。同时，原始教学音频也采用京剧大师的唱段，能够给用户带来良好的视觉、听觉体验。

本发明京剧教学系统运行稳定流畅，没有画面卡顿现象，使得用户能够轻松地操作与娱乐。由于本系统全程采用简洁、高效的手势识别算法，能够不产生较大负载的情况下完成用户与系统的体感交互，减少了系统资源占用。另一方面，当用户动作变化过于迅速时，系统采用基于线性指数平滑算法的思想，通过霍尔特指数平滑来保持模型运动的连续性，消除抖动感，为用户呈现流畅的观感。

本发明系统具有较强的互动参与性，支持多人协同教学模式。用户可以选择进行单人模式或是多人模式，当用户选择多人模式时，可以相互协同进行京剧表演，更具乐趣。此外，针对于可能出现的用户身体相互遮挡的情况，设定遮挡阈值来判定是否存在骨骼遮挡。当遮挡发生时，匹配系统采用鲁棒的动作估计算法，根据遮挡前数帧骨骼关节运动数据来估计用户当前可能位置，由此消除了短时间遮挡引起的人物模型剧烈形变的现象。

附图说明

图1为本发明系统模块结构图；

图2为本发明一个实施例中动作表演与音频的匹配打分流程图；

图3为人体骨骼关节点示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的结构图及具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

图1为本发明系统模块结构图，如图1所示，本发明涉及一种基于体感交互的京剧教学系统，包括数据采集模块、数据处理模块和用户界面交互模块，数据采集模块通过体感交互设备获得用户的关节信息和声音数据，体感交互设备与装载于Windows或微软XBOX平台中的体感交互软件之间进行数据的通信；

数据处理模块通过手势识别算法，实现用户对系统的逻辑控制；在表演场景中，获取用户关节数据，显示与用户动作同步的用户模型，进行京剧标准模型与用户模型的匹配与反馈；获取用户声音数据，进行标准唱腔与用户音频的匹配与反馈；

用户界面交互模块在通过对用户手势的识别进行操作界面显示与切换、京剧教学视频显示、动作表演评价显示以及音频打分显示。

优选地，在用户界面交互模块中，操作界面显示与切换通过手势识别的判定结果来对界面进行切换，以完成对系统的逻辑控制，系统有单人模式，双人模式；

京剧教学视频显示，通过手势识别的判定结果用户选择曲目，显示京剧教学视频，用户根据此教学视频进行动作学习。

另一优选实施方案在用户界面交互模块中，还包括通过手势识别的判定结果显示经由动作渲染和平滑处理，显示与用户实时同步的用户模型。

在用户界面交互模块中，通过3D建模软件MAYA设计单人模式和双人模式的应用场景，分别为四合院和宫殿。

实施例2

图2为动作表演与音频的匹配打分流程图，如图2所示，在数据采集模块中通过硬件设备来获取用户的关节信息和声音信息，以便后续的数据处理。

获取关节信息：经由Kinect体感交互系统，实时地获取到用户的人体20个关节位置、旋转参数。

获取音频信息：为用户佩戴无线耳麦，并在PC机安装音频接收器，获取用户演唱声音数据。

在数据处理模块中通过由数据采集模块得到的数据进行处理，通过手势识别算法，实现用户对系统的逻辑控制，在表演场景中，系统自动获取用户的关节数据，显示与人体模型同步的京剧模型，同时进行标准模型与人体模型的匹配与反馈，以及标准唱腔与用户音频匹配。

本发明完全基于手势操控，当用户进入主界面后，需要通过手势对整个系统进行逻辑控制，如图2所示。系统采用简单并常用的人体姿势用以逻辑控制，举例来说：左右手滑动——曲目选择、右手上举——确认曲目、双手放平(T pose)——切换模式、双手上举——退出。用户可以在主菜单通过左右滑动选择曲目，分别为单人模式的贵妃醉酒和双人模式的霸王别姬，上举右手以选择曲目，进入表演场景。进入场景后分为原声模式与伴唱模式，可使用T pose来进行相互切换。手势识别算法的实现过程如下：

优选地，通过设备硬件获取人体20块骨骼关节点的三维坐标，人体骨骼关节点图如图3所示，与命名见表1：

表1：人体骨骼关节点编号和名称

编号

命名

编号

命名

编号

命名

编号

命名

A

臀部中心

E

左肘

I

右腕

S

左脚

B

脊柱中心

F

左腕

R

右手

M

右臀部

C

肩膀中心

Q

左手

J

左臀部

N

右膝盖

P

头部

G

右肩

K

左膝盖

O

右踝

D

左肩

H

右肘

L

左踝

T

右脚

计算骨骼关节点间的距离：设A(x₁,y₁,z₁)，B(x₂,y₂,z₂)为空间坐标系的2个点，利用欧式距离公式：

D (A, B) = \sqrt{{(x_{1} + x_{2})}^{2} + {(y_{1} + y_{2})}^{2} + {(z_{1} + z_{2})}^{2}}

可以求出两点之间的距离D。

计算骨骼关节点间的角度：此算法以一个骨骼关节点(骨骼关节点A)为基准点，再确定另外一个骨骼关节点(骨骼关节点B)，求出两个骨骼关节点与基准点的X轴的角度大小θ。

根据空间坐标系的相对关系，计算角度θ，即：

θ = \cos^{- 1} \frac{D^{2} + {Δx}^{2} - {Δy}^{2}}{2 D Δ x}

其中，Δx为A、B两点x轴坐标差Δx＝|x₁-x₂|，Δy为A、B两点y轴坐标差Δy＝|y₁-y₂|。

定义人体常用手势：根据骨骼关节点间的角度大小，再确定骨骼关节点间的夹角关系，即可定义常用的手势。设θ_i(i＝1,2,3,4...)为骨骼关节点间的角度。设定常用手势中所用到的骨骼关节点间夹角为：θ₁＝(左肩，左肘)，θ₂＝(左肘，左腕)，θ₃＝(右肩，右肘)，θ₄＝(右肘，右腕)。为满足不同精度要求，设定角度阀值τ(默认τ＝15°)τ。则常用手势定义满足的角度条件为：

Δ＝(θ₁，θ₂，θ₃，θ₄，τ)

常用手势定义如表2所示：

表2常用手势定义

人体手势匹配：根据上述常用手势的定义，通过大量测试后设定适当阀值，设定常用手势库。遍历所有角度，根据公式判断4个角度是否在规定阀值范围内，若在，则手势匹配成功。判断公式为：

\underset{i &Element; N}{m a x} | θ_{i} - α_{i} | < τ,

其中，θ_i为实际测量角度，α_i为设定的定义角度。

添加定时器：为了防止误识别，即误将用户的普通动作识别成人机交互手势，我们加入一个定时器，为每个人机交互手势确定有效时间，使得人际交互手势仅在一定时间内有效，超出或不足限定时间则无效，由此区别用户的手势用于人机交互还是普通手势。

在用户与3D模拟京剧人物的匹配过程中，由于Kinect的硬件限制以及Kinect在进行骨骼追踪时受到的环境噪声影响，当用户一串动作时会出现骨骼关节点的相对位置在帧与帧之间变化较大时产生抖动或跳跃，造成虚拟动作的不真实。该模块基于线性指数平滑算法的思想，通过霍尔特指数平滑来减少关节点的抖动，解决了Kinect传感器无法保证骨骼关节所产生的持续准确性问题，优化Kinect生成的原始骨骼信息，提高了用户与3D模拟京剧人物模型动作的实时匹配度。

骨骼数据采集：通过Kinect采集人体数据，获取用户人体骨骼运动数据,保存于NUI_SKELETON_FRAME骨骼帧中。

设置Prediction(预测帧大小)、JitterRadius(抖动半径)、MaxDeviationRadius(最大偏离半径)等参数。其中参数Prediction用于设定未来预测帧的数目，防止数据变化快时导致过冲现象；参数JitterRadius用于设置修正的半径，决定从原始半径消除抖动的积极程度，一旦关节点“抖动”超过了该设定值，将会被纠正到该半径之内；参数MaxDeviationRadius用来和参数JitterRadius一起设定抖动半径的边界，任何超过这一半径的点不会认为是抖动产生的，而会被认为是一个新的点。Prediction、JitterRadius、MaxDeviationRadiuss是算法预期要求的数据，不需要自适应调整，根据经验与实验结果，分别取值0.5f、0.05f、0.04f。

自适应调节Smoothing(平滑值，记为参数α)、Correction(修正值，记为参数γ)两个平滑参数。参数Smoothing用于设定处理骨骼数据帧的平滑量，0表示不平滑，值越趋近于1表示平滑效果越好；参数Correction用于设定平滑的校正量，取[0,1]之间，值越大表示修正速度越快。当关节运动速度不快时，视觉对运动的关节轨迹较为敏感，较多地考虑消除关节的抖动，采用较小的α和γ参数以采取更积极的平滑策略，由于是慢速运动，可将γ取较小的值时所带来的延时抵消；相反地，为了能更好的相应输入变化，对于关节的高速运动，应选取较大数值的α和γ参数。

具体方法为，预设两组α值和γ值，一组对应于关节低速运动，设为α_low与γ_low，一组对应于关节高速运动，设为α_high与γ_high，并且设置了两组速度的临界值v_low和v_high。对于每一个输入的关节节点X_n，对其的速度可判定为v_n＝|X_n-X_n-1|，因为关节点的速度越快，偏移的距离越长。由此构建α与关节运动速度v_n的关系，如以下公式所示：

α_{n} = \{\begin{matrix} α_{l o w} & v_{n} \leq v_{l o w} \\ α_{h i g h} + \frac{v_{n} - v_{h i g h}}{v_{l o w} - v_{h i g h}} (α_{l o w} - α_{h i g h}) & v_{l o w} \leq v_{n} \leq v_{h i g h} \\ α_{h i g h} & v_{n} &GreaterEqual; v_{h i g h} \end{matrix}

构建γ与关节运动速度v、n的关系，如下公式所示：

γ_{n} = \{\begin{matrix} γ_{l o w} & v_{n} \leq v_{l o w} \\ γ_{h i g h} + \frac{v_{n} - v_{h i g h}}{v_{l o w} - v_{h i g h}} (γ_{l o w} - γ_{h i g h}) & v_{l o w} \leq v_{n} \leq v_{h i g h} \\ γ_{h i g h} & v_{n} &GreaterEqual; v_{h i g h} \end{matrix}

当运动的速度加快，即相邻两帧的距离变大超过阈值时，这时提高α、γ的值，以加大对骨骼运动的平滑。反之当运动的速度减慢，即相邻两帧的距离小到低于阈值下限时，降低α、γ的值。当运动速度介于上、下限之间时，α、γ值根据差值结果变动。

计算平滑后的骨骼关节点数据：结合经验参数Prediction、JitterRadius、MaxDeviationRadius和自适应参数Smoothing、Correction，计算平滑后的骨骼关节点数据。本算法结合霍尔特指数对骨骼关节点数据进行平滑，使用两个基本平滑公式和一个预测公式对骨骼动作进行平滑，其中两个基本平滑公式分别对时间序列的两种因素进行平滑，具体的公式如下：

对时间趋势因素的平滑式：S_t＝αY_t+(1-α)(S_t-1-B_t-1)

对趋势增量的平滑式：B_t＝γ(S_t-S_t-1)+(1-γ)B_t-1

预测公式如下：

{\overset{&OverBar;}{Y}}_{t + T} = S_{t} + {TB}_{t}

其中，S_t表示对时间趋势因素的平滑变量,B_t表示对趋势增量的平滑变量，α表示平滑系数、γ表示修正系数，T表示预测系数。

优选地，本发明为每个表演曲目中的每个京剧人物模型，邀请专业的京剧演员，通过软件将标准的京剧动作进行记录存储，得到一定时间长度范围内的京剧标准模型的世界坐标系下的关节点位置、旋转数据。用户使用时，将用户事实的骨骼数据与标准骨骼数据进行匹配，并进行动作反馈。以肘关节为例，进行方法说明。

计算相邻关节的空间矢量：通软件Kinect，获取用户肘关节实时坐标为(x，y，z),其父关节(即肩关节)的实时坐标为(x₀，y₀，z₀),由此得到上臂矢量标准模型的肘关节坐标(x′，y′，z′),以及父关节坐标(x′₀，y′₀，z′₀),得到上臂矢量

计算矢量夹角：令矢量与矢量始点相同，都为玩家的肩关节坐标，计算空间夹角，如下公式所示：

c o s (θ) = \frac{p \cdot q}{| p | * | q |} = \frac{(x - x_{0}) * (x^{'} - x_{0}^{'}) + (y - y_{0}) * (y^{'} - y_{0}^{'}) + (z - z_{0}) * (z^{'} - z_{0}^{'})}{\sqrt{{(x - x_{0})}^{2} + {(y - y_{0})}^{2} + {(z - z_{0})}^{2}} * \sqrt{{(x^{'} - x_{0}^{'})}^{2} + {(y^{'} - y_{0}^{'})}^{2} + {(z^{'} - z_{0}^{'})}^{2}}}

计算矫正矢量：由于得到了空间中的始点相同的两个空间矢量与因此能够确定在三维空间的唯一平面α。在此平面上，过肘关节与其父关节连线的中点，做垂直于矢量的空间直线，由此确定了指向标准骨骼位置的矫正矢量

同理，由于在进行京剧表演时，需要被提示矫正的身体部位为上臂、前臂、头部、大腿，小腿，对这几个身体部位的相应关节点计算偏移夹角与矫正矢量。系统中设定当骨骼角度相差超过15°时，将在画面中绘制矫正矢量，由此提醒玩家身体动作姿势的偏移。

当用户的表演结束后，根据这几个关键部位的偏移角度数据，进行打分。各身体部位动作平均偏移角度小于10°为专家，10°至20°为优秀，20°至40°为良好，40°以上为尚需努力。

本发明采集专业京剧从业者的京剧唱腔，并根据用户在线演唱的音频数据，提供一种音频打分方法，用于将待测音频流片段与标准音频库中音频样例的音频片段相比较，从而为待测音频流片段进行打分。

选择匹配操作的点：对待测试音频流片段以及标准音频库中的音频样例都按照一定的时间间隔分为多个帧，然后进行音频短时能量的特征提取，根据每一帧的短时平均能量形成短时能量包络。根据音频的短时能量特征，将包络切分成不同的能量包络单元，利用ONSET检测法，形成能量包络单元图。再在此图上，选择每个能量包络单元的起始点作为匹配操作的点。

将数据进行数对表示：将每个音频样例及待测音频流片段分别用切分点和概率对的数对形式表示。例如，用U表示一个音频样例，它的表示形式为其中，u₁,u₂,...,u_m为切分点的位置，p₁,p₂,...,p_m表示切分点概率。同样的，对于待测音频流片段也可以用数对的形式表示，用V表示该数据，则V＝(v₁,q₁),(v₂,q₂),...,(v_n,q_n)，其中，v_i,q_i分别表示切分点位置和每个切分点的概率。这种数对表示形式实质上是能量包络单元图的另一种表达形式。

计算匹配概率：在音频样例的能量包络单元中存在一个切分点u_i，而在待测音频流片段中存在一个切分点v_j，当满足条件|u_i-v_j|<T时，认为u_i为匹配点；其中，所述T是一个预先定义的阈值。匹配点对应的匹配概率为切分点u_i的切分点概率和切分点v_j的切分点概率的较小值。

计算音频片段相似值：对上述的匹配点以及对应音频样例中的相应切分点，计算召回率R与精确率P，进而计算相似性度量函数的值。

召回率R的计算公式为：

R (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} p_{m}

其中，U表示音频样例，V表示待测音频流片段中的一段，p_m表示所述音频样例的能量包络单元中的切分点概率，p′_k表示匹配点的匹配概率。

精确率P的计算公式为：

P (U, V) = Σ_{k} p_{k}^{'} / Σ_{i = 1}^{n} q_{n}

其中，U表示音频样例；V表示待测音频流片段中的一段；q_n表示所述待测音频流片段中的一段的切分点概率；p′_k表示匹配点的匹配概率。

相似性度量函数的计算公式为：

S (U, V) = \frac{2 R (U, V) P (U, V)}{R (U, V) + P (U, V)}

计算匹配分数：将相似值与预先设定的多个等级阈值进行比较，每个等级阈值对应相应的得分，若所述的相似值在某个阈值范围内，则显示待测音频片段的得分。

实施例3

本发明的用户界面交互模块中，获取数据处理模块的计算结果，在屏幕上显示相应交互信息。包括以下(a)到(h)功能。

(a)界面显示与切换

当用户进入系统时，通过手势识别的判定结果来对界面进行切换，以完成对系统的逻辑控制，系统有单人模式，双人模式等。

(b)京剧模型同步显示

经由京剧模型动作渲染与平滑的处理，显示与用户实时同步的京剧模型。

(c)模型矫正提示

通过标准模型与用户模型匹配的结果，获取到反馈矢量，并在三维空间中绘制反馈矢量，显示在画面中。

(d)京剧教学视频显示

用户选择曲目后，屏幕左上角会显示京剧教学视频的窗口，用户可以根据此教学视频进行动作表演。

(e)三维场景显示

本系统通过3D建模软件MAYA设计单人模式和双人模式的应用场景，分别为四合院和宫殿。

(f)字幕显示

在用户表演时，屏幕的中下方将实时地显示与教学视频同步的京剧唱词字幕，方便用户演唱。

(g)动作表演评价

曲目结束后，系统根据整个曲目中用户的表演动作匹配结果，显示其动作表演的评价结果。

(h)音频打分显示

当曲目结束后，系统将显示标准唱腔与用户音频匹配的评价分数。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于体感交互的京剧教学系统，包括数据采集模块、数据处理模块和用户界面交互模块，其特征在于：所述数据采集模块通过体感交互设备获得用户的关节信息和声音数据，所述体感交互设备与装载于Windows或微软XBOX平台中的感交互软件之间进行数据的通信；

2.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在数据采集模块中，定义多个骨骼关节点的三维坐标，体感交互设备实时地获得用户关节位置和旋转参数；通过用户佩戴的耳麦将音频数据传输至计算机的音频接收器，获得用户演唱的声音数据。

3.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在数据处理模块中，基于线性指数平滑算法，利用霍尔特指数平滑来减少关节点的抖动，通过设置平滑值和修正值，减少骨骼关节点在帧与帧之间的跳跃，进行用户模型动作的渲染与平滑。

4.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在数据处理模块中，所述手势识别算法包括计算骨骼关节点间的距离，公式为其中，x、y、z表示关节点的三维坐标，D表示A、B点之间的距离；

计算两个骨骼关节点与基准点的X轴的角度大小θ，公式为

5.根据权利要求4所述的基于体感交互的京剧教学系统，其特征在于：在数据处理模块中加入定时器，为每个逻辑控制手势确定有效时间，使得逻辑控制手势仅在一定时间内有效，超出或不足限定时间则无效，由此区别用户的手势用于逻辑控制还是普通手势。

6.根据权利要求3所述的基于体感交互的京剧教学系统，其特征在于：所述线性指数平滑算法使用两个基本平滑公式和一个预测公式对骨骼动作进行平滑，其中两个基本平滑公式分别对时间序列的两种因素进行平滑公式如下：

S_t＝αY_t+(1-α)(S_t-1-B_t-1)，

B_t＝γ(S_t-S_t-1)+(1-γ)B_t-1，

{\overset{&OverBar;}{Y}}_{t + T} = S_{t} + {TB}_{t},

7.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在数据处理模块中所述标准模型与用户模型的匹配，通过标准京剧动作存储一定时间长度内京剧标准模型在坐标系下的关节点位置、旋转数据，将用户模型的关节点位置、旋转数据与京剧标准模型的数据进行匹配，根据设定的若干关键部位的偏移角度数据，进行打分，评分等级分为专家、优秀、良好和尚需努力，将打分结果在软件中进行反馈。

8.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在数据处理模块中，矫正矢量计算公式为并通过矫正矢量计算偏移夹角，通过偏移夹角和矫正矢量数据，在软件中显示矫正矢量，提醒用户动作姿势的偏移。

9.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在数据处理模块中，所述标准唱腔与用户音频的匹配与反馈，将标准唱腔库中的音频样例和用户音频都按照一定的时间间隔分为多个帧，进行音频短时能量的特征提取，根据每一帧的短时平均能量形成短时能量包络，将包络切分成不同的能量包络单元，利用ONSET检测法，形成能量包络单元图，选择每个能量包络单元的起始点作为匹配操作的点；用切分点位置和切分点的概率描述能量包络单元图；计算匹配概率和音频片段相似值；将相似值与设定若干等级的阈值进行比较，每个等级阈值对应相应的得分，若相似值在某个阈值范围内，则显示用户音频片段的得分。

10.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在用户界面交互模块中，所述操作界面显示与切换通过手势识别的判定结果来对界面进行切换，以完成对系统的逻辑控制，系统有单人模式，双人模式；

11.根据权利要求3所述的基于体感交互的京剧教学系统，其特征在于：在用户界面交互模块中，还包括通过手势识别的判定结果显示经由动作渲染和平滑处理，显示与用户实时同步的用户模型。

12.根据权利要求1所述的基于体感交互的京剧教学系统，其特征在于：在用户界面交互模块中，通过3D建模软件MAYA设计单人模式和双人模式的应用场景，分别为四合院和宫殿。