CN111970568A

CN111970568A - 交互式视频播放的方法和系统

Info

Publication number: CN111970568A
Application number: CN202010901425.5A
Authority: CN
Inventors: 樊星
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-11-20
Anticipated expiration: 2040-08-31
Also published as: CN111970568B

Abstract

本发明提供了交互式视频播放的方法和系统，其通过对用户进行拍摄和录音，以此获得来自用户的动作特征信息和语音特征信息，并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息，从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态，并且向用户反馈当前视频的播放参数实时调整状态，从而提高用户与视频播放之间的互动自动化和互动智能化程度，以及改善用户观看视频的体验性。

Description

交互式视频播放的方法和系统

技术领域

本发明涉及智能教育的技术领域，特别涉及交互式视频播放的方法和系统。

背景技术

智能教学在实践过程中通常需要借助播放视频在完成相应的知识数据教授，而用户在观看视频过程中时常需要进行相应的笔记记录。但是智能教学所涉及的视频通常是按照预定视频模式来制作的，这使得该视频并不能满足不同用户个体的观看需求，而用户并不能一直进行手动操作来调节来实现相应视频交互式播放，这严重地降低了视频播放的自动化和智能化交互程度，以及降低了用户观看视频的体验性。

发明内容

针对现有技术存在的缺陷，本发明提供交互式视频播放的方法和系统，其包括对用户进行拍摄和录音，从而获得该用户在观看视频过程中的动态影像信息和声音信息，并对该动态影像信息和该声音信息进行降噪预处理，再从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息，并根据该动作特征信息或该语音特征信息，生成相应的视频播放控制指令，最后根据该视频播放控制指令，调整当前视频的播放参数，同时向该用户反馈当前视频的播放参数实时调整状态；可见，该交互式视频播放的方法和系统通过对用户进行拍摄和录音，以此获得来自用户的动作特征信息和语音特征信息，并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息，从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态，并且向用户反馈当前视频的播放参数实时调整状态，从而提高用户与视频播放之间的互动自动化和互动智能化程度，以及改善用户观看视频的体验性。

本发明提供交互式视频播放的方法，其特征在于，其包括如下步骤：

步骤S1，对用户进行拍摄和录音，从而获得所述用户在观看视频过程中的动态影像信息和声音信息，并对所述动态影像信息和所述声音信息进行降噪预处理；

步骤S2，从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息，并根据所述动作特征信息或所述语音特征信息，生成相应的视频播放控制指令；

步骤S3，根据所述视频播放控制指令，调整当前视频的播放参数，同时向所述用户反馈当前视频的播放参数实时调整状态；

进一步，在所述步骤S1中，对用户进行拍摄和录音，从而获得所述用户在观看视频过程中的动态影像信息和声音信息，并对所述动态影像信息和所述声音信息进行降噪预处理具体包括，

步骤S101，对所述用户进行双目拍摄，从而获得所述用户在观看视频过程中的第一视角影像和第二视角影像，并根据所述第一视角影像和所述第二视角影像之间的视差信息，生成关于所述用户在观看视频过程中三维动态影像；

步骤S102，采用麦克风阵列在不同方位对所述用户进行声音采集，从而获得所述用户在观看视频过程中的立体环绕声音信息；

步骤S103，对所述三维动态影像进行环境背影图像像素虚化处理，从而降低所述三维动态影像的环境背景图像噪声成分，以及对所述立体环绕声音信息进行背景杂散噪声过滤处理，从而提高所述立体环绕声音信息的信噪比；

进一步，在所述步骤S1中，对所述动态影像信息和所述声音信息进行降噪预处理具体包括，

第一、将所述动态影像信息切分为N段等时长的子影像信息；

第二、获取所述N段等时长的子影像信息中的每一段子影像信息对应的图像信号，并根据下面公式(1)确定每一段子影像信息的图像信号中的噪声信号权值，

在上述公式(1)中，ω_i表示第i段子影像信息的图像信号中的噪声信号权值，

表示第i段子影像信息的图像信号中的噪声信号方差，N表示子影像信息的总数量，S_i表示第i段子影像信息的图像信号的图像亮度值，ε表示预设常数、且其取值范围为[0.1，0.2]，M表示每一个图像信号包含的干扰信号的数量，G_j表示第j个干扰信号对应的干扰系数、且其取值为[0.05，0.1]、其随着干扰信号自身的信号强度增大而增大；

第三、根据每一段子影像信息的图像信号中的噪声信号权值，提取得到所述图像信号包含的噪声信号，并将所述噪声信号删除；

第四、将所述声音信息转换为声音信号，并对所述声音信号进行傅里叶转换，以此获得实际信号频率特征序列；

第五、对预设无背景噪声的声音信号进行傅里叶转换，以此获得标准信号频率特征序列；

第六、根据下面公式(2)，确定所述实际信号频率特征序列与所述标准信号频率特征序列之间的相似度值simY

在上述公式(2)中，H表示所述标准信号频率特征序列的序列特征频率参数数量，U_n表示所述标准信号频率特征序列中第n个序列特征频率参数，T表示所述实际信号频率特征序列的序列特征频率参数数量，P_d表示所述实际信号频率特征序列中第d个序列特征频率参数，θ₁表示第一预设权重值、且其取值为0.4，K_n表示所述标准信号频率特征序列中第n个序列特征频率参数的误差值，Q_d表示所述实际信号频率特征序列中第d个序列特征频率参数的误差值，θ₂表示第二预设权重值、且其取值为0.6；

第七、将所述相似度值simY与预设相似度阈值B进行比对，若simY等于B，则确定所述声音信息包含噪声成分，若simY不等于B，则确定所述声音信息不包含噪声成分；

第八、当确定所述声音信息不包含噪声成分，则不需要对所述声音信息进行降噪预处理，当确定所述声音信息包含噪声成分，则将所述实际信号频率特征序列中具有最大值的序列特征频率参数去除后，再对剩余的实际信号频率特征序列进行逆傅里叶转换，从而实现对所述声音信息的降噪预处理；

进一步，在所述步骤S2中，从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息，并根据所述动作特征信息或所述语音特征信息，生成相应的视频播放控制指令具体包括，

步骤S201，将经过所述降噪预处理后的动态影像信息分解为若干图像帧，并识别所述图像帧中所述用户的肢体动作姿态，再按照所述拍摄的拍摄动作时序，将所有图像帧对应的肢体动作姿态依次进行叠加，从而得到所述动作特征信息，其中所述动作特征信息包括动作方向、动作幅度和动作频率中的至少一者；

步骤S202，将经过所述降噪预处理后的声音信息分解为若干声音片段，并根据所述用户的声纹，从而所述声音片段中提取得到属于所述用户的语音片段信息，再按照所述录音的录音动作时序，将所有语音片段信息依次进行叠加，从而得到所述语音特征信息，其中所述语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者；

步骤S203，将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对，从而生成相应的视频播放控制指令；

进一步，在所述步骤S3中，根据所述视频播放控制指令，调整当前视频的播放参数，同时向所述用户反馈当前视频的播放参数实时调整状态具体包括，

步骤S301，根据所述视频播放控制指令，调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者；

步骤S302，从当前视频播放的显示主界面上形成一显示子界面，并在所述显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态，其中所述显示子界面包含在所述显示主界面，并且所述显示子界面和所述显示主界面具有不同的显示分辨率和/或显示亮度。

本发明还提供交互式视频播放的系统，其特征在于，其包括拍摄模块、录音模块、降噪预处理模块、动作/语音特征信息提取模块、视频播放控制指令生成模块、视频播放参数调整模块和播放参数反馈模块；其中，

所述拍摄模块和所述录音模块用于分别对用户进行拍摄和录音，从而获得所述用户在观看视频过程中的动态影像信息和声音信息；

所述降噪预处理模块用于对所述动态影像信息和所述声音信息进行降噪预处理；

所述动作/语音特征信息提取模块用于从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息；

所述视频播放控制指令生成模块用于根据所述动作特征信息或所述语音特征信息，生成相应的视频播放控制指令；

所述视频播放参数调整模块用于根据所述视频播放控制指令，调整当前视频的播放参数；

所述播放参数反馈模块用于向所述用户反馈当前视频的播放参数实时调整状态；

进一步，所述拍摄模块对用户进行拍摄，从而获得所述用户在观看视频过程中的动态影像信息具体包括对所述用户进行双目拍摄，从而获得所述用户在观看视频过程中的第一视角影像和第二视角影像，并根据所述第一视角影像和所述第二视角影像之间的视差信息，生成关于所述用户在观看视频过程中三维动态影像；

所述录音模块对用户进行录音，从而获得所述用户在观看视频过程中的声音信息具体包括采用麦克风阵列在不同方位对所述用户进行声音采集，从而获得所述用户在观看视频过程中的立体环绕声音信息；

所述降噪预处理模块对所述动态影像信息和所述声音信息进行降噪预处理具体包括对所述三维动态影像进行环境背影图像像素虚化处理，从而降低所述三维动态影像的环境背景图像噪声成分，以及对所述立体环绕声音信息进行背景杂散噪声过滤处理，从而提高所述立体环绕声音信息的信噪比；

进一步，所述动作/语音特征信息提取模块从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息具体包括，

将经过所述降噪预处理后的动态影像信息分解为若干图像帧，并识别所述图像帧中所述用户的肢体动作姿态，再按照所述拍摄的拍摄动作时序，将所有图像帧对应的肢体动作姿态依次进行叠加，从而得到所述动作特征信息，其中所述动作特征信息包括动作方向、动作幅度和动作频率中的至少一者；

将经过所述降噪预处理后的声音信息分解为若干声音片段，并根据所述用户的声纹，从而所述声音片段中提取得到属于所述用户的语音片段信息，再按照所述录音的录音动作时序，将所有语音片段信息依次进行叠加，从而得到所述语音特征信息，其中所述语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者；

所述视频播放控制指令生成模块根据所述动作特征信息或所述语音特征信息，生成相应的视频播放控制指令具体包括将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对，从而生成相应的视频播放控制指令；

进一步，所述视频播放参数调整模块根据所述视频播放控制指令，调整当前视频的播放参数具体包括根据所述视频播放控制指令，调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者；

所述播放参数反馈模块向所述用户反馈当前视频的播放参数实时调整状态具体包括从当前视频播放的显示主界面上形成一显示子界面，并在所述显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态，其中所述显示子界面包含在所述显示主界面，并且所述显示子界面和所述显示主界面具有不同的显示分辨率和/或显示亮度。

相比于现有技术，该交互式视频播放的方法和系统包括对用户进行拍摄和录音，从而获得该用户在观看视频过程中的动态影像信息和声音信息，并对该动态影像信息和该声音信息进行降噪预处理，再从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息，并根据该动作特征信息或该语音特征信息，生成相应的视频播放控制指令，最后根据该视频播放控制指令，调整当前视频的播放参数，同时向该用户反馈当前视频的播放参数实时调整状态；可见，该交互式视频播放的方法和系统通过对用户进行拍摄和录音，以此获得来自用户的动作特征信息和语音特征信息，并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息，从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态，并且向用户反馈当前视频的播放参数实时调整状态，从而提高用户与视频播放之间的互动自动化和互动智能化程度，以及改善用户观看视频的体验性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的交互式视频播放的方法的流程示意图。

图2为本发明提供的交互式视频播放的系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，为本发明实施例提供的交互式视频播放的方法的流程示意图。该交互式视频播放的方法包括如下步骤：

步骤S1，对用户进行拍摄和录音，从而获得该用户在观看视频过程中的动态影像信息和声音信息，并对该动态影像信息和该声音信息进行降噪预处理；

步骤S2，从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息，并根据该动作特征信息或该语音特征信息，生成相应的视频播放控制指令；

步骤S3，根据该视频播放控制指令，调整当前视频的播放参数，同时向该用户反馈当前视频的播放参数实时调整状态。

该交互式视频播放的方法通过对用户进行拍摄和录音，以此获得来自用户的动作特征信息和语音特征信息，并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息，从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态，并且向用户反馈当前视频的播放参数实时调整状态，从而提高用户与视频播放之间的互动自动化和互动智能化程度，以及改善用户观看视频的体验性。

优选地，在该步骤S1中，对用户进行拍摄和录音，从而获得该用户在观看视频过程中的动态影像信息和声音信息，并对该动态影像信息和该声音信息进行降噪预处理具体包括，

步骤S101，对该用户进行双目拍摄，从而获得该用户在观看视频过程中的第一视角影像和第二视角影像，并根据该第一视角影像和该第二视角影像之间的视差信息，生成关于该用户在观看视频过程中三维动态影像；

步骤S102，采用麦克风阵列在不同方位对该用户进行声音采集，从而获得该用户在观看视频过程中的立体环绕声音信息；

步骤S103，对该三维动态影像进行环境背影图像像素虚化处理，从而降低该三维动态影像的环境背景图像噪声成分，以及对该立体环绕声音信息进行背景杂散噪声过滤处理，从而提高该立体环绕声音信息的信噪比。

通过双目拍摄和麦克风阵列录音的方式采集得到动态影像信息和声音信息，能够全面地获取用户在观看视频过程中的动作变化状态和语音变化状态，从而便于准确确定用户指示调整视频播放状态的真实意图和避免发生误调整的情况。

优选地，在该步骤S1中，对该动态影像信息和该声音信息进行降噪预处理具体包括，

第一、将该动态影像信息切分为N段等时长的子影像信息；

第二、获取该N段等时长的子影像信息中的每一段子影像信息对应的图像信号，并根据下面公式(1)确定每一段子影像信息的图像信号中的噪声信号权值，

第三、根据每一段子影像信息的图像信号中的噪声信号权值，提取得到该图像信号包含的噪声信号，并将该噪声信号删除，其具体为：

将该图像信号区分为带噪声信号的第一图像信号和不带噪声信号的第二图像信号，再将该第一图像信号划分为多个第一图像子信号，并获取每一个第一图像子信号的频域曲线图，并根据该频域曲线图获得与该多个第一图像子信号一一对应的多个第一信号强度，并确定该多个第一信号强度分别与与预设的不带噪声信号的第二图像信号的第二信号强度之间的信号强度比值，从而获得多个信号强度比值，再将该多个信号强度比值与该噪声信号权值进行比对，若某一个信号强度比值小于该噪声信号权值，则将该某一个信号强度比值对应的第一图像子信号确定为噪声信号，否则，将该某一个信号强度比值对应的第一图像子信号确定为非噪声信号，最后将被确定为噪声信号的第一图像子信号从该第一图像信号中删除；

第四、将该声音信息转换为声音信号，并对该声音信号进行傅里叶转换，以此获得实际信号频率特征序列；

第六、根据下面公式(2)，确定该实际信号频率特征序列与该标准信号频率特征序列之间的相似度值simY

在上述公式(2)中，H表示该标准信号频率特征序列的序列特征频率参数数量，U_n表示该标准信号频率特征序列中第n个序列特征频率参数，T表示该实际信号频率特征序列的序列特征频率参数数量，P_d表示该实际信号频率特征序列中第d个序列特征频率参数，θ₁表示第一预设权重值、且其取值为0.4，K_n表示该标准信号频率特征序列中第n个序列特征频率参数的误差值，Q_d表示该实际信号频率特征序列中第d个序列特征频率参数的误差值，θ₂表示第二预设权重值、且其取值为0.6；

第七、将该相似度值simY与预设相似度阈值B进行比对，若simY等于B，则确定该声音信息包含噪声成分，若simY不等于B，则确定该声音信息不包含噪声成分；

第八、当确定该声音信息不包含噪声成分，则不需要对该声音信息进行降噪预处理，当确定该声音信息包含噪声成分，则将该实际信号频率特征序列中具有最大值的序列特征频率参数去除后，再对剩余的实际信号频率特征序列进行逆傅里叶转换，从而实现对该声音信息的降噪预处理。

通过计算动态影像信息的图像信号中的噪音信号权值可以准确地确定噪声信号在图像信号中所占的权重值，进而根据权重值可以从图像信号中提取出噪音信号进行删除，相比于现有技术中利用神经网络模型降噪来说更加地智能化，同时，在计算过程中计算强度小，大大的提高了降噪效率，进一步地，通过计算声音信息的实际信号频率特征序列和预设无背景噪声的声音信号的标准信号频率特征序列之间的相似度值来确定声音信息中是否有噪声可以确定是否需要去噪以及在确认需要去噪时只需将实际信号频率特征序列的最大值部分进行去除即可，相比于现有技术的利用语音信号的强度对整个声音信号去噪来说去噪效果更加明显和实用，保证了去噪效果的完美，提高了用户的体验感。

优选地，在该步骤S2中，从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息，并根据该动作特征信息或该语音特征信息，生成相应的视频播放控制指令具体包括，

步骤S201，将经过该降噪预处理后的动态影像信息分解为若干图像帧，并识别该图像帧中该用户的肢体动作姿态，再按照该拍摄的拍摄动作时序，将所有图像帧对应的肢体动作姿态依次进行叠加，从而得到该动作特征信息，其中该动作特征信息包括动作方向、动作幅度和动作频率中的至少一者；

步骤S202，将经过该降噪预处理后的声音信息分解为若干声音片段，并根据该用户的声纹，从而该声音片段中提取得到属于该用户的语音片段信息，再按照该录音的录音动作时序，将所有语音片段信息依次进行叠加，从而得到该语音特征信息，其中该语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者；

步骤S203，将该动作特征信息与预设动作-控制指令库进行比对、或者将该语音特征信息与预设语音-控制指令库进行比对，从而生成相应的视频播放控制指令。

通过将动态影像信息和声音信息进行细化分解处理，能够便于对分解得到的图像帧和声音片段进行高效的和有针对性的特征信息提取，从而提高信息的处理速度和保证该动作特征信息和该语音特征信息能够真实地反映用户的实时状态。

优选地，在该步骤S3中，根据该视频播放控制指令，调整当前视频的播放参数，同时向该用户反馈当前视频的播放参数实时调整状态具体包括，

步骤S301，根据该视频播放控制指令，调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者；

步骤S302，从当前视频播放的显示主界面上形成一显示子界面，并在该显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态，其中该显示子界面包含在该显示主界面，并且该显示子界面和该显示主界面具有不同的显示分辨率和/或显示亮度。

通过显示主界面和显示子界面分别播放当前视频和播放参数实时调整状态，能够在维持当前视频播放不变的情况下，实时地向用户反馈相应的播放参数，而该显示子界面和该显示主界面具有不同的显示分辨率和/或显示亮度能够便于用户区别观看，从而最大限度地提高用户与视频播放之间的互动自动化和互动智能化程度。

参阅图2，为本发明实施例提供的交互式视频播放的系统的结构示意图。该交互式视频播放的系统包括拍摄模块、录音模块、降噪预处理模块、动作/语音特征信息提取模块、视频播放控制指令生成模块、视频播放参数调整模块和播放参数反馈模块；其中，

该拍摄模块和该录音模块用于分别对用户进行拍摄和录音，从而获得该用户在观看视频过程中的动态影像信息和声音信息；

该降噪预处理模块用于对该动态影像信息和该声音信息进行降噪预处理；

该动作/语音特征信息提取模块用于从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息；

该视频播放控制指令生成模块用于根据该动作特征信息或该语音特征信息，生成相应的视频播放控制指令；

该视频播放参数调整模块用于根据该视频播放控制指令，调整当前视频的播放参数；

该播放参数反馈模块用于向该用户反馈当前视频的播放参数实时调整状态。

该交互式视频播放的系统通过对用户进行拍摄和录音，以此获得来自用户的动作特征信息和语音特征信息，并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息，从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态，并且向用户反馈当前视频的播放参数实时调整状态，从而提高用户与视频播放之间的互动自动化和互动智能化程度，以及改善用户观看视频的体验性。

优选地，该拍摄模块对用户进行拍摄，从而获得该用户在观看视频过程中的动态影像信息具体包括对该用户进行双目拍摄，从而获得该用户在观看视频过程中的第一视角影像和第二视角影像，并根据该第一视角影像和该第二视角影像之间的视差信息，生成关于该用户在观看视频过程中三维动态影像；

该录音模块对用户进行录音，从而获得该用户在观看视频过程中的声音信息具体包括采用麦克风阵列在不同方位对该用户进行声音采集，从而获得该用户在观看视频过程中的立体环绕声音信息；

该降噪预处理模块对该动态影像信息和该声音信息进行降噪预处理具体包括对该三维动态影像进行环境背影图像像素虚化处理，从而降低该三维动态影像的环境背景图像噪声成分，以及对该立体环绕声音信息进行背景杂散噪声过滤处理，从而提高该立体环绕声音信息的信噪比。

优选地，该动作/语音特征信息提取模块从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息具体包括，

将经过该降噪预处理后的动态影像信息分解为若干图像帧，并识别该图像帧中该用户的肢体动作姿态，再按照该拍摄的拍摄动作时序，将所有图像帧对应的肢体动作姿态依次进行叠加，从而得到该动作特征信息，其中该动作特征信息包括动作方向、动作幅度和动作频率中的至少一者；

将经过该降噪预处理后的声音信息分解为若干声音片段，并根据该用户的声纹，从而该声音片段中提取得到属于该用户的语音片段信息，再按照该录音的录音动作时序，将所有语音片段信息依次进行叠加，从而得到该语音特征信息，其中该语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者；

该视频播放控制指令生成模块根据该动作特征信息或该语音特征信息，生成相应的视频播放控制指令具体包括将该动作特征信息与预设动作-控制指令库进行比对、或者将该语音特征信息与预设语音-控制指令库进行比对，从而生成相应的视频播放控制指令。

优选地，该视频播放参数调整模块根据该视频播放控制指令，调整当前视频的播放参数具体包括根据该视频播放控制指令，调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者；

该播放参数反馈模块向该用户反馈当前视频的播放参数实时调整状态具体包括从当前视频播放的显示主界面上形成一显示子界面，并在该显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态，其中该显示子界面包含在该显示主界面，并且该显示子界面和该显示主界面具有不同的显示分辨率和/或显示亮度。

从上述实施例的内容可知，该交互式视频播放的方法和系统包括对用户进行拍摄和录音，从而获得该用户在观看视频过程中的动态影像信息和声音信息，并对该动态影像信息和该声音信息进行降噪预处理，再从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息，并根据该动作特征信息或该语音特征信息，生成相应的视频播放控制指令，最后根据该视频播放控制指令，调整当前视频的播放参数，同时向该用户反馈当前视频的播放参数实时调整状态；可见，该交互式视频播放的方法和系统通过对用户进行拍摄和录音，以此获得来自用户的动作特征信息和语音特征信息，并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息，从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态，并且向用户反馈当前视频的播放参数实时调整状态，从而提高用户与视频播放之间的互动自动化和互动智能化程度，以及改善用户观看视频的体验性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.交互式视频播放的方法，其特征在于，其包括如下步骤：

步骤S3，根据所述视频播放控制指令，调整当前视频的播放参数，同时向所述用户反馈当前视频的播放参数实时调整状态。

2.如权利要求1所述的交互式视频播放的方法，其特征在于：

在所述步骤S1中，对用户进行拍摄和录音，从而获得所述用户在观看视频过程中的动态影像信息和声音信息，并对所述动态影像信息和所述声音信息进行降噪预处理具体包括，

步骤S103，对所述三维动态影像进行环境背影图像像素虚化处理，从而降低所述三维动态影像的环境背景图像噪声成分，以及对所述立体环绕声音信息进行背景杂散噪声过滤处理，从而提高所述立体环绕声音信息的信噪比。

3.如权利要求1所述的交互式视频播放的方法，其特征在于：

在所述步骤S1中，对所述动态影像信息和所述声音信息进行降噪预处理具体包括，

第一、将所述动态影像信息切分为N段等时长的子影像信息；

表示第i段子影像信息的图像信号中的噪声信号方差，N表示子影像信息的总数量，S_i表示第i段子影像信息的图像信号的图像亮度值，ε表示预设常数、且其取值范围为[0.1，0.2]，M表示每一个图像信号包含的干扰信号的数量，G_j表示第j个干扰信号对应的干扰系数、且其取值为[0.05，0.1]、其随着干扰信号自身的信号强度增大而增大；第三、根据每一段子影像信息的图像信号中的噪声信号权值，提取得到所述图像信号包含的噪声信号，并将所述噪声信号删除；

第八、当确定所述声音信息不包含噪声成分，则不需要对所述声音信息进行降噪预处理，当确定所述声音信息包含噪声成分，则将所述实际信号频率特征序列中具有最大值的序列特征频率参数去除后，再对剩余的实际信号频率特征序列进行逆傅里叶转换，从而实现对所述声音信息的降噪预处理。

4.如权利要求1所述的交互式视频播放的方法，其特征在于：

在所述步骤S2中，从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息，并根据所述动作特征信息或所述语音特征信息，生成相应的视频播放控制指令具体包括，

步骤S203，将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对，从而生成相应的视频播放控制指令。

5.如权利要求1所述的交互式视频播放的方法，其特征在于：

在所述步骤S3中，根据所述视频播放控制指令，调整当前视频的播放参数，同时向所述用户反馈当前视频的播放参数实时调整状态具体包括，

6.交互式视频播放的方系统，其特征在于，其包括拍摄模块、录音模块、降噪预处理模块、动作/语音特征信息提取模块、视频播放控制指令生成模块、视频播放参数调整模块和播放参数反馈模块；其中，

所述播放参数反馈模块用于向所述用户反馈当前视频的播放参数实时调整状态。

7.如权利要求6所述的交互式视频播放的系统，其特征在于：

所述拍摄模块对用户进行拍摄，从而获得所述用户在观看视频过程中的动态影像信息具体包括对所述用户进行双目拍摄，从而获得所述用户在观看视频过程中的第一视角影像和第二视角影像，并根据所述第一视角影像和所述第二视角影像之间的视差信息，生成关于所述用户在观看视频过程中三维动态影像；

所述降噪预处理模块对所述动态影像信息和所述声音信息进行降噪预处理具体包括对所述三维动态影像进行环境背影图像像素虚化处理，从而降低所述三维动态影像的环境背景图像噪声成分，以及对所述立体环绕声音信息进行背景杂散噪声过滤处理，从而提高所述立体环绕声音信息的信噪比。

8.如权利要求6所述的交互式视频播放的系统，其特征在于：

所述动作/语音特征信息提取模块从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息具体包括，

所述视频播放控制指令生成模块根据所述动作特征信息或所述语音特征信息，生成相应的视频播放控制指令具体包括将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对，从而生成相应的视频播放控制指令。

9.如权利要求6所述的交互式视频播放的系统，其特征在于：

所述视频播放参数调整模块根据所述视频播放控制指令，调整当前视频的播放参数具体包括根据所述视频播放控制指令，调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者；