CN111510758A

CN111510758A - 一种钢琴视频教学中的同步方法及系统

Info

Publication number: CN111510758A
Application number: CN202010331506.6A
Authority: CN
Inventors: 刘纯; 罗卉; 王丹; 高捷
Original assignee: Huaihua University
Current assignee: Huaihua University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-07

Abstract

本发明提供了一种钢琴视频教学中的同步方法及系统，包括：视频处理模块、音频处理模块、缓冲器和处理器，所述处理器被配置为从源接收要播放的内容，其中，所述内容包括音频、视频、以及通过分析无线介质以确定音频通过无线介质传输到无线扬声器所花费的传输时间；基于视频缓冲器的大小和视频的分辨率，确定视频缓冲器的大小不足以将视频缓冲足够长的时间以补偿可能的传输时间；并请求视频的较低分辨率编码和音频的较低分辨率编码，保证在教学的过程中达到视频音道同步的效果，保证教学质量有效的提高，还使得整个系统得以补偿音频到无线扬声器的可能传输时间，保证在教学的过程中能够得到更好的试听效果。

Description

一种钢琴视频教学中的同步方法及系统

技术领域

本发明涉及视频教学技术领域，尤其涉及一种钢琴视频教学中的同步方法及系统。

背景技术

视频系统为该系统中十分重要的部分，其性能的好坏直接影响到师生的使用体验，然而，现有的视频系统大都在固定区域内进行画面播放，只具有单一的视频录像功能，不能进行实时的动态切换，给用户观看的视野带来一定的局限性，已经越来越无法满足教学需求。

如US4997374的现有技术公开了一种教学装置，在控制台单元上的多个可按下用户响应按钮，以表示对出现在音频程序中的问题的响应，存在许多如视频、话音等不同步等缺陷，不利于教学质量的提高。另一种典型的如CN110660283A的现有技术公开的一种教学钢琴及钢琴教学方法，在基于非专网的网络远程教研活动、远程专家点评、远程会议互动中，当前远程参与教研的教师或专家或远程发言人要么以文字方式进行互动，要么以视频方式互动。以视频方式互动则因为带宽的不稳定而不稳定，具体表现为视频卡顿、有“马赛克”现象、声音失真或“卡声现象”等。再来看如WO99020021A2的现有技术公开的一种在数字话音信息网络上的数据通信方法，学习者离老师的距离较远时，无法看清老师的坐姿及弹奏手法，学习效果不好，长此以往会使学习者失去学习钢琴的兴趣。即使是远程教学还存在如：视频不同步、卡顿、花屏或者连接效果不佳的缺陷存在。

为了解决本领域普遍存在视频、话音等不同步、声音失真和不稳定等等问题，作出了本发明。

发明内容

本发明的目的在于，针对目前钢琴视频教学所存在的不足，提出了一种钢琴视频教学中的同步方法及系统。

为了克服现有技术的不足，本发明采用如下技术方案：

一种钢琴视频教学中的同步系统，包括：视频处理模块、音频处理模块、缓冲器和处理器，所述处理器被配置为从源接收要播放的内容，其中，所述内容包括音频、视频、以及通过分析无线介质以确定音频通过无线介质传输到无线扬声器所花费的传输时间，所述视频处理模块、音频处理模块、缓冲器分别与所述处理器控制连接。

可选的，所述视频缓冲器被配置为基于视频缓冲器的大小和视频的分辨率，确定视频缓冲器的大小不足以将视频缓冲足够长的时间以补偿可能的传输时间；并请求对视频进行较低分辨率的编码，其中所请求的视频具有可以在视频缓冲区中缓冲足够长的分辨率的功能，以补偿音频到无线扬声器的可能传输时间。

可选的，所述处理器还被配置为基于所述视频缓冲器和所述视频处理器的大小，确定所述视频的分辨率，以实现所述音频和所述视频的可接受的同步可能的传输时间；并请求源提供具有确定分辨率的视频的较低分辨率编码。

可选的，所述处理器还被配置为：当所述源是经由HDMI端口连接的设备时，经由HDMI扩展显示识别数据EDID发起热插拔事件；以及或在来源为在线来源时传输HTTP消息。

可选的，所述处理器还被配置为：生成所述音频的较低质量的编码；以及并通过无线介质将质量较低的音频传输到无线扬声器。

可选的，接受音频播放中的一些延迟作为音频和视频的可接受的同步，从而根据所述延迟来放松对所述视频缓冲器的大小的要求，其中，该延迟在人类无法感知音频的阈值之内。

另外，本发明还提供一种钢琴视频教学中的同步方法，音频通过无线介质被发送到无线扬声器，所述方法包括：从源接收要播放的内容，其中，所述内容包括音频和视频；通过分析无线媒体，确定音频通过无线媒体传输到无线扬声器所需的传输时间，从而确定音频和视频的播放同步是不可接受的；至少基于视频缓冲器的大小和视频的分辨率，确定视频缓冲器的大小不足以将视频缓冲足够长的时间以补偿可能的传输时间；并请求视频的较低分辨率编码和音频的较低分辨率编码中的至少一种，以使所请求的视频具有可以在视频缓冲区中缓冲足够长的分辨率以补偿视频的可能的传输时间。

本发明所取得的有益效果是：

1.通过采用对音频和视频进行校正，使得在教学的过程中能够高效的进行；

2.通过采用对视频进行较低分辨率的编码和视频缓冲区中缓冲足够长的分辨率的功能，使得整个系统得以补偿音频到无线扬声器的可能传输时间，保证在教学的过程中能够得到更好的试听效果；

3.通过采用在视频剪辑和音频剪辑之间进行比较分析，以确定同步错误并产生通知，要求视听内容需要音准同步，但是一旦确定同步错误不在可校正的参数之内，就不能执行音准同步；

4.通过采用音同步误差在可校正参数范围内并且视频内容和音频内容之间的偏移量超过预定阈值时，执行音同步误差校正以减小视频内容和音频内容之间的音同步误差；

5.通过确定最接近音频静音的锚帧，使音频静音与最靠近音频静音的锚帧同步；使音频信号与视频信号同步并将所述音频无声和最靠近所述音频无声的锚帧对准使得视音同步，提高教学或学习的质量。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

图1为所述视频缓冲器对视频处理校正的控制流程图之一。

图2为所述处理器处理教学视频的控制流程图之一。

图3为所述处理器信息流的流程图之一。

图4为所述校正因子的控制流程图之一。

图5为音同步误差校正的控制流程图之一。

图6为实施例三的控制流程图之一。

具体实施方式

为了使得本发明的目的.技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统.方法和/或特征将变得显而易见。旨在所有此类附加的系统.方法.特征和优点都包括在本说明书内.包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”.“下”.“左”.“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位.以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例一：一种钢琴视频教学中的同步系统，包括：视频处理模块、音频处理模块、缓冲器和处理器，所述处理器被配置为从源接收要播放的内容，其中，所述内容包括音频、视频、以及通过分析无线介质以确定音频通过无线介质传输到无线扬声器所花费的传输时间，所述视频处理模块、音频处理模块、缓冲器分别与所述处理器控制连接；所述视频缓冲器被配置为基于视频缓冲器的大小和视频的分辨率，确定视频缓冲器的大小不足以将视频缓冲足够长的时间以补偿可能的传输时间；并请求对视频进行较低分辨率的编码，其中所请求的视频具有可以在视频缓冲区中缓冲足够长的分辨率的功能，以补偿音频到无线扬声器的可能传输时间；所述处理器还被配置为基于所述视频缓冲器和所述视频处理器的大小，确定所述视频的分辨率，以实现所述音频和所述视频的可接受的同步可能的传输时间；并请求源提供具有确定分辨率的视频的较低分辨率编码；所述处理器还被配置为：当所述源是经由HDMI端口连接的设备时，经由HDMI扩展显示识别数据EDID发起热插拔事件；以及或在来源为在线来源时传输HTTP消息；所述处理器还被配置为：生成所述音频的较低质量的编码；以及并通过无线介质将质量较低的音频传输到无线扬声器；接受音频播放中的一些延迟作为音频和视频的可接受的同步，从而根据所述延迟来放松对所述视频缓冲器的大小的要求，延迟在人类无法感知音频的阈值之内；

另外，本发明还提供种钢琴视频教学中的同步方法，音频通过无线介质被发送到无线扬声器，所述方法包括：从源接收要播放的内容，其中，所述内容包括音频和视频；通过分析无线媒体，确定音频通过无线媒体传输到无线扬声器所需的传输时间，从而确定音频和视频的播放同步是不可接受的；至少基于视频缓冲器的大小和视频的分辨率，确定视频缓冲器的大小不足以将视频缓冲足够长的时间以补偿可能的传输时间；并请求视频的较低分辨率编码和音频的较低分辨率编码中的至少一种，以使所请求的视频具有可以在视频缓冲区中缓冲足够长的分辨率以补偿视频的可能的传输时间；通过缓冲器的缓冲效果，有效保证在教学的过程中能达到视听达到最佳的效果；另外，在本实施例中，通过采用对视频进行较低分辨率的编码和视频缓冲区中缓冲足够长的分辨率的功能，使得整个系统得以补偿音频到无线扬声器的可能传输时间，保证在教学的过程中能够得到更好的试听效果。

实施例二：本实施例应当理解为至少包含前述任一一个实施例的全部特征，并在其基础上进一步改进，具体的，一种钢琴视频教学中的同步系统，还包括：视频剪辑分析器、视频-音频场景增量分析器、音同步误差校正单元(在本文中也称为视音同步误差校正单元)，所述视频剪辑分析器被配置为接收视听内容的视频部分并在视频场景剪辑处输出视频片段；所述音频剪辑分析器被配置为接收视听内容的音频部分并在音频场景剪辑处输出音频片段；所述视频-音频场景增量分析器被配置为接收视频片段和音频片段，并据此确定视频片段和音频片段之间的至少时间增量值，并至少确定校正因子；音同步误差校正单元，用于接收视频段、音频段和校正因子并输出经同步校正的视听内容，其中，校正因子用于将经音同步校正的视听内容的时间增量减小为低于预定阈值；具体的，包括：接收需要视音同步的视听内容；在视听内容的接收视频内容中检测所有视频场景剪辑；在视听内容的接收到的音频内容中检测所有音频场景剪辑；在视频剪辑和音频剪辑之间进行比较分析，以确定同步错误并产生通知，要求视听内容需要音准同步，但是一旦确定同步错误不在可校正的参数之内，就不能执行音准同步；在确定音同步误差在可校正参数内并且视频内容和音频内容之间的偏移低于预定阈值时，生成通知，要求视听内容不需要音同步；确定音同步误差在可校正参数范围内并且视频内容和音频内容之间的偏移量超过预定阈值时，执行音同步误差校正以减小视频内容和音频内容之间的音同步误差；分析仪比较各个切割的时间，并确定是否发生了音同步错误，如果是，系统是否可以提供纠正措施以解决该问题；当检测到音同步错误时，基于视频场景剪辑和音频场景剪辑之间的比较，可以建议校正或自动应用校正；在本实施例中，在视音同步误差校正单元和音同步误差校正单元均是相同的设备；

尽管本实施例中引用了视听内容流，但是应该理解，本实施例公开的应用范围更广，并且适用于流化，包括从文件提供或以其他方式广播的此类内容；视频流具有各种视频场景举例为Vs1至VS7；在本实施例中，所述视频场景是基于对相邻帧的分析，例如但不限于搜索相邻帧之间的差的突然尖峰，或者根据包括以下各项的多种现有技术方法中的任何一种来确定的；这些往往会从一个视频场景变为另一个视频场景；例如，当视频剪辑从房屋内部的场景移动到街道上的场景时，确定了一个片段，另一个场景开始了；即，在本实施例中假定场景Vs1在房屋中，而场景VS2在街道中，场景之间的切换是迅速的；也许在该场景中可能会驶入汽车，突然改变视频帧的内容，很对不确定的因素对视频教学中存在的影响，因而需要对教学的场景进行场景剪辑；为了将音频轨道切成片段，寻找环境声音的突然变化，或者根据任何列出的现有技术方法，执行了针对不同类型的媒体的明显适应的类似过程；在本实施例中，如果音频流与视频流完美对齐，即As3和As5与Vs3和Vs5同步，而As4与Vs4同步；像这样的情况将不需要任何音同步校正，因为实际上没有显示音同步错误；本领域的技术人员将容易理解，如果音频和视频之间的不完美对准低于预定阈值，则用户也可以容忍它们；通常，对于本领域的技术人员来说，音频和视频之间的最大80毫秒的未对准阈值被认为是可以接受的，因此不需要进行视音同步误差校正；

所述视频剪辑分析器基于所述视频部分的相邻帧之间的突然差异来确定所述视频场景剪辑的视频场景变化；所述视频剪辑分析器基于从具有第一背景的视频场景中的帧到第二背景的视频场景的变化来确定所述视频场景剪辑的视频场景变化；所述音频剪辑分析器基于环境声音的变化来确定所述音频场景剪辑的音频场景变化；所述音频剪辑分析器基于环境噪声的变化来确定所述音频场景剪辑的音频场景变化；所述音频剪辑分析器通过执行频谱时间滤波来确定所述音频场景剪辑的音频场景变化；具体的，语音/音频场景增量分析器(在本文中也称为增量分析器)对由视频剪辑分析器所剪切的视频片段与由音频剪辑所剪切的音频片段之间的时间差值分别进行分析；分析器；假设有足够数量的音频和视频段，分析器可以在通知信号上提供几种类型的不同通知；第一个通知是未检测到视音同步错误，这意味着找到的时间差值低于预定的D阈值，或者时间差值超过最小D阈值的情况数低于另一个预定的阈值K在一个示例中，但不作为限制，D的值为60毫秒，而K的值为10％；在这种情况下，可能不需要音同步误差校正；D和K阈值都可以是可编程的，以便根据关于音同步误差的期望服务质量，允许更严格或更宽松的阈值；另一情况是不可能进行任何形式的视音同步纠错并且系统在这种情况下的信号上提供通知；当音同步误差在D阈值以上并且具有不一致的值时，可能会发生这种情况；不一致可以被确定为高于预定的E阈值的D值之间的不一致；在这种情况下，可以在通知信号上提供通知，以警告系统的操作者由于系统不能执行自动音同步误差校正而可能需要某些手动干预；可以根据本实施例提供的另外两种情况进行处理：第一种情况是时间差的恒定值高于D但低于预定的E误差值；第二种情况是当时间差始终在D之上但在预定E误差值之下持续增加或减小时；在这两种情况下，都会进行音同步误差校正，并且可以校正；由音同步误差校正单元执行这种误差校正，所述音同步误差校正单元从视频剪辑分析器接收视频片段，从音频剪辑分析器接收音频片段，以及与视频/音频场景执行的分析有关的任何必要信息；因此，如果视频/音频场景增量分析器已经得出时间差值低于预定的E阈值的结论，则校正是可能的；音同步误差校正单元使用校正因子来补偿时间差值；如果围绕时间差值的分布较小，则可以进行校正，但是，如果该分布较大，即不一致，则不能使用该特定解决方案进行视音同步误差校正；但是，如果时间差值是恒定的，或者具有随时间增加或减少但在最大E阈值范围内的趋势，并且随着时间呈线性变化，则可以使用适当的因子方程式进行校正；如果时间差值的改变相对不频繁或者时间差值周围的分布不太宽，则该因子可以随时间改变；音同步误差校正单元提供经视音同步校正的视听内容，从而克服了在视听输入内容中可能已经出现的缺陷；因此，应当理解，误差校正可以包括但不限于线性漂移校正和非线性漂移校正；

在本实施例中，接收视听内容时可以从文件中接收或作为视听流接收；在后一种情况下，必须先收集或分析足够数量的视频段和音频段，然后才能进行如下的分析；当提供新的视听内容并且考虑到新接收的内容的情况下进行更新的分析时，可以进行校正和更新的操作；在本实施例中，使用包括但不限于此的技术来确定所接收的视听内容的视频内容中的视频场景；在本实施例中，使用包括但不限于此的技术来确定所接收的视听内容的音频内容中的音频场景剪辑；在本实施例中，执行比较分析以检查视频场景剪辑和音频场景剪辑之间的相关性，以确定视频片段和音频片段之间的匹配以及时间差值；应当理解，如在某些情况下，在每个视频段和每个音频段之间没有一对一的匹配，并且这种不匹配只要不经常发生就可以；系统通过跳到下一个可能的匹配来克服；在本实施例中，检查视音同步误差是否在系统的可校正参数内，例如：如果时间差高于E并且不一致，如本文更详细地描述，并且如果这样，则继续执行；否则，执行继续进行到，在系统的通知中提供通知信息或者报警，尽管存在视音同步问题，但系统不能对接收到的视听内容进行视音同步，此后执行终止；在本实施例中，检查音频片段和视频片段之间的偏移是否小于预定阈值，即，是否小于预定阈值时间差小于D，并且如果不是，则继续执行；否则，继续；否则，执行继续进行到，其中可以生成通知，指出不需要音同步误差校正；在本实施例中，执行音同步误差校正以补偿视频段和音频段之间的时间差；针对以下的两种情况中的任何一种进行补偿；即：第一情况是时间差恒定；第二情况是时间差随着时间连续增加或减小；上述的校正完成后，执行校准的程序随即终止；在上述的字母分别代表D音调、E音调；通过矫正后，使得在教学的过程中能够进行同步的进行，有效保证视音同步和教学的质量；

所述音同步误差校正单元在确定所述音形同步误差不在可校正参数内时，提供不能进行音形同步校正的通知；所述音同步误差校正单元提供通知，因为所述音形同步误差小于音频和视频之间的预定阈值，所以不需要音形同步校正；所述音同步误差校正单元提供通知，因为所述音形同步误差小于音频和视频之间的预定阈值，所以不需要音形同步校正；具体的，所述音形同步方法开始于获得音频和视频场景剪辑的列表，然后，它生成收集开始/结束音频/视频偏移；每个这样的集合都指向一个可能的开始的特定场景剪切；在实施例中假定一种列表，所述从列表的开始到列表W为止的预定值X，并指向另一个场景剪切从列表的末尾到S场景剪切；最后，从任一列表中再次选择；这些集合涵盖了任一列表上开始和结束切割的所有可能性，从而产生了例如S<4>这样的集合；S<4>为S场景中的第四个视频音色的变化；根据该方法，它将使找到的最佳效果达到较佳；此后，针对这些可能的集合中的每一个进行迭代，以确定该集合的A和B因子，具体的，如下所示：Af＝Vs-As和Bf＝(Ve-Vs)/Ae-As)；其中Vs为所选视频的开始时间是特定的；As为选定的视频结束时间作为选定的音频开始时间；Ae选为择音频结束时间；此后，如下确定校正的音频场景改变时间的新列表：A[i]＝(A[i]-As)*Bf+Af+As；然后，该方法确定该组A，B因子的效果；进行确定如下：将效果累加器设置为(基础点+10)，在本实施例中设置为依次增加10，将检测到的不匹配数设置为0，并将音频和视频列表中的指针设置为0(Pa＝Pv＝0)；此后，根据以下逻辑进行循环直到两个指针均到达其列表的末尾：确定指向的场景剪辑之间的距离如下：D＝|A[Pa]-V[Pv]|；如果所指向的场景剪辑足够接近以算作匹配项(D<＝Dm)，而不是完美匹配项(D>DP)，则将它们之间的距离加到累计效果中，之后两者除非一个到达其列表的末尾，否则Pa将增加，在这种情况下，它将不会增加；在所指向的场景剪辑足够接近以至可以算作完美匹配(D<＝DP)的情况下，两个Pa都应增加，除非一个人到达其列表的末尾，在这种情况下它将不增加；在增量太大(D>Dm)的情况下，不匹配计数器递增，然后递增指向“进一步落后”的场景改变时间的指针，除非所述指针已到达其列表的末尾，在这种情况下，另一个指针将递增；一旦两个指针都到达其各自列表的末尾，就评估不匹配的数量；如果该值高于预定值，则该组的效果被认为是无限的，并且将不会被认为是一个好的选择；如果不匹配的数量低于预定阈值或等于预定阈值，则所得的累积效果是累积效果，并且与迄今为止的最佳累积效果进行比较；

如果该集合的效果较差，则将上一个效果保存为最佳效果，并将该效果的A，B因子保存为迄今为止的最佳因子；一旦评估了所有集合，就存在以下的选项：(1)最佳效果仍然是无穷大，这意味着未找到好的匹配项，因此提供了一个通知，通知无法纠正视音同步；(2)最好的代价不是无限，最好的A因子是0，最好的B因子是1，在这种情况下，通知视音同步看起来是完美的，不需要校正；(3)最佳效果不是无限的，但是最佳因素不同于Af＝0，Bf＝1，从而导致通知视音不佳，但是可以通过将这些因素应用于音频进行校正；

所述音同步误差校正单元在确定所述音形同步误差在可校正参数之内但在音频和视频之间的偏移的预定阈值之上时，执行所述音形同步误差校正；所述视听内容是以下中的至少一项：视频剪辑文件、流式视频内容和广播视频内容；所述纠错单元还适于执行以下至少之一：线性漂移校正和非线性漂移校正；具体的，在本实施例中，所述音同步误差校正单元也能欧用于对视频或者音轨的线性漂移校正和非线性漂移校正的情况进行实时的校正的操作，采用的校正包括但是不局限于以下列举的几种情况：曲线拟合等常见的校正手段也是可以用于在对所述线性漂移校正和非线性漂移校正中；

在本实施例中还提供一种用于视听内容的音准同步的方法，包括：接收需要音准同步的视听内容；在视听内容的接收视频内容中检测所有视频场景剪辑；在视听内容的接收到的音频内容中检测所有音频场景剪辑；在视频剪辑和音频剪辑之间进行比较分析，以确定同步错误；并在系统中进行生成通知的操作，要求视听内容需要视音同步，但是一旦确定同步错误不在可校正的参数之内就不能执行；在确定视音同步误差在可校正的参数内并且视频内容和音频内容之间的偏移低于预定阈值时，生成关于视听内容不需要视音同步的通知；确定视音同步误差在可校正参数内并且视频内容和音频内容之间的偏移超过预定阈值时，执行视音同步误差校正以减小视频内容和音频内容之间的视音同步误差；对视频场景剪辑的检测包括：确定所述视频内容的相邻帧之间的突然差异；视频场景剪辑的检测包括：确定从具有第一背景的视频场景中的帧到具有第二背景的视频场景的变化；视频场景剪辑的检测包括：基于环境声音的变化来确定所述音频场景剪辑的变化；对音频场景剪辑的检测包括：通过执行频谱时间滤波来确定所述音频场景剪辑的改变。

实施例三：本实施例应当理解为至少包含前述任一一个实施例的全部特征，并在其基础上进一步改进，具体的，提供一种用于视频教学的同步方法，包括由计算设备为视频信号中的一系列帧确定意外的锚帧，其中，视频信号与音频信号相对应；以及确定与锚帧相关的第一时间；确定与音频信号的音频片段中的音频电平的阈值变化相关的第二时间；基于第一时间和第二时间确定漂移值；根据该漂移值，将视频信号与音频信号同步；具体的，视频信号以及音频信号和可以对应于第二媒体流；视频信号以及音频信号和可以如先前关于图所描述地在时间上对准或同步；在本实施例中，视频信号可以包括一个或多个图片组视频信号和音频信号和的时间对准的验证可以基于检测到音频信号和中的音频静默(例如，音频静默)，所述音频静默可以是重合的或紧邻的；从视频信号的一个或多个图片组开始，在视频信号中的场景更改或过渡期间，音频信号和中可能有伴随的音频静音，例如音频静音；在本实施例中设有内容分析器，所述内容分析器可以分析第一组视频帧以确定第一组视频帧中的至少一个意外锚帧是否对应于场景变化；可能会识别出意外的锚帧，对于未编码的基带视频信号，内容分析器可以在已采样的基带视频信号部分内使用场景更改或场景转换，也可以使用指示场景更改的元数据；可以基于视频帧中的突然变化的组合来确定与场景变化相对应的帧，例如，淡入黑色，白色突发等；

在本实施例中，使所述视频信号与所述音频信号同步方法包括：基于所述漂移值，将所述视频信号或所述音频信号之一相对于所述视频信号或所述音频信号中的另一个延迟一持续时间；具体的，漂移阈值可能更高，其中在视频教学中，教学者和学习者能够明显的察觉到钢琴教学中的同步错误，视频信号和音频信号可能能够容忍更高数量的同步错误，对学习的质量存在巨大的影响；对于新闻广播节目，漂移阈值可能较低，其中，观看者或者收听者可能容易注意到甚至很小的同步误差；内容分析器可以确定允许的平均漂移值(AADV)；所述漂移值(AADV)可指示视频信号与一个或多个音频信号之间的同步容限(例如16ms，35ms等)，并可基于确定视频信号与一个或多个音频信号之间的一个或多个同步误差或更多音频信号；

接收补充增强信息补充增强信息，并且其中，确定所述意外的锚帧包括基于所接收的补充增强信息来确定所述锚帧；接收所述补充增强信息包括：接收指示场景改变信息的元数据；确定与所述音频信号的音频片段中的音频电平的阈值变化相关联的第二时间还包括：基于与所述视频信号和音频信号相关联的内容的类型，确定音频电平的阈值变化；确定所述漂移值包括：基于所述视频信号中的帧的范围以及基于所述视频信号中的帧的范围之前的一个或多个第二帧范围，来确定平均漂移值；所述同步方法还包括：确定所述平均漂移值大于允许的平均漂移值，并且其中，使所述视频信号与所述音频信号同步包括：基于所述平均漂移值使所述视频信号与所述音频信号同步，大于允许的平均漂移值；同步方法还包括：基于与所述音频信号和所述视频信号相关联的内容的类型，确定所述容许平均漂移值；所述同步方法还包括：由计算设备接收音频信号和视频信号，其中，所述视频信号包括编码视频流的视频帧的范围；以及确定与音频信号相关的音频静音；确定编码视频流的视频帧的预期帧间隔；确定编码的视频流的视频帧的测量的帧间隔；基于期望帧间隔和测量帧间隔的比较，确定最接近音频静音的锚帧；使音频静音与最靠近音频静音的锚帧同步；使音频信号与视频信号同步；使所述音频信号与所述视频信号同步包括：基于所述平均漂移值，将所述音频无声和最靠近所述音频无声的锚帧对准；具体的，所述内容分析器在可以将更新的最小数量漂移值的平均漂移值与漂移值进行比较；如果更新的平均漂移值高于漂移值，就会出发警报，在本实施例中，如果未超过，则内容分析器就会执行在随着视频帧的每个采样范围被确定为与音频信号同步而递增地增加同步计数器；当漂移阈值简档、漂移值、音频阈值或内容类型中的至少一个被错误地确定时，同步计数器可用于识别媒体流的音频-视频信号中的同步错误；内容分析器可以触发警报，该警报可以指示对用户的实施纠正措施的请求；用户可以根据带宽的变化来解决同步错误；警报可以包括指示由用户执行以解决媒体内容的视频信号和一个或多个音频信号之间的同步错误的一种或多种纠正动作的信息；该警报可以指示可能的阈值漂移值或音频阈值的范围；另外，内容分析器可以实施漂移补偿以校正视频信号与媒体内容的一个或多个音频信号之间的同步误差；内容分析器可以延迟一个或多个音频信号以使视频信号与一个或多个音频信号在时间上对准；内容分析器可以延迟视频信号以将视频信号与一个或多个音频信号在时间上对准；此外，所述内容分析器还可以对同步计数器进行重置或者基于已被连续丢弃采样视频帧的次数来确定初始漂移值是否正确。

综上所述，本发明的一种钢琴视频教学中的同步方法及系统，通过采用对音频和视频进行校正，使得在教学的过程中能够高效的进行；通过采用对视频进行较低分辨率的编码和视频缓冲区中缓冲足够长的分辨率的功能，使得整个系统得以补偿音频到无线扬声器的可能传输时间，保证在教学的过程中能够得到更好的试听效果；通过采用在视频剪辑和音频剪辑之间进行比较分析，以确定同步错误并产生通知，要求视听内容需要音准同步，但是一旦确定同步错误不在可校正的参数之内，就不能执行音准同步；通过采用音同步误差在可校正参数范围内并且视频内容和音频内容之间的偏移量超过预定阈值时，执行音同步误差校正以减小视频内容和音频内容之间的音同步误差；通过确定最接近音频静音的锚帧，使音频静音与最靠近音频静音的锚帧同步；使音频信号与视频信号同步并将所述音频无声和最靠近所述音频无声的锚帧对准使得视音同步，提高教学或学习的质量。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统和设备是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加，省略和/或组合各种部件。而且，关于某些配置描述的特征可以以各种其他配置组合，如可以以类似的方式组合配置的不同方面和元素。此外，随着技术发展其中的元素可以更新，即许多元素是示例，并不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路，过程，算法，结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种钢琴视频教学中的同步系统，其特征在于，包括：视频处理模块、音频处理模块、缓冲器和处理器，所述处理器被配置为从源接收要播放的内容，其中，所述内容包括音频、视频、以及通过分析无线介质以确定音频通过无线介质传输到无线扬声器所花费的传输时间，所述视频处理模块、音频处理模块、缓冲器分别与所述处理器控制连接。

2.如权利要求1所述的一种钢琴视频教学中的同步方法及系统，其特征在于，所述视频缓冲器被配置为基于视频缓冲器的大小和视频的分辨率，确定视频缓冲器的大小不足以将视频缓冲足够长的时间以补偿可能的传输时间；并请求对视频进行较低分辨率的编码，其中所请求的视频具有可以在视频缓冲区中缓冲足够长的分辨率的功能，以补偿音频到无线扬声器的可能传输时间。

3.如前述权利要求之一所述的一种钢琴视频教学中的同步系统，其特征在于，所述处理器还被配置为基于所述视频缓冲器和所述视频处理器的大小，确定所述视频的分辨率，以实现所述音频和所述视频的可接受的同步可能的传输时间；并请求源提供具有确定分辨率的视频的较低分辨率编码。

4.如前述权利要求之一所述的一种钢琴视频教学中的同步系统，其特征在于，所述处理器还被配置为：当所述源是经由HDMI端口连接的设备时，经由HDMI扩展显示识别数据EDID发起热插拔事件；以及或在来源为在线来源时传输HTTP消息。

5.如前述权利要求之一所述的一种钢琴视频教学中的同步系统，其特征在于，所述处理器还被配置为：生成所述音频的较低质量的编码；以及并通过无线介质将质量较低的音频传输到无线扬声器。

6.如前述权利要求之一所述的一种钢琴视频教学中的同步系统，其特征在于，接受音频播放中的一些延迟作为音频和视频的可接受的同步，从而根据所述延迟来放松对所述视频缓冲器的大小的要求，其中，该延迟在人类无法感知音频的阈值之内。

7.一种钢琴视频教学中的同步方法，其特征在于，音频通过无线介质被发送到无线扬声器，所述方法包括：从源接收要播放的内容，其中，所述内容包括音频和视频；通过分析无线媒体，确定音频通过无线媒体传输到无线扬声器所需的传输时间，从而确定音频和视频的播放同步是不可接受的；至少基于视频缓冲器的大小和视频的分辨率，确定视频缓冲器的大小不足以将视频缓冲足够长的时间以补偿可能的传输时间；并请求视频的较低分辨率编码和音频的较低分辨率编码中的至少一种，以使所请求的视频具有可以在视频缓冲区中缓冲足够长的分辨率以补偿视频的可能的传输时间。