CN111970568A - 交互式视频播放的方法和系统 - Google Patents

交互式视频播放的方法和系统 Download PDF

Info

Publication number
CN111970568A
CN111970568A CN202010901425.5A CN202010901425A CN111970568A CN 111970568 A CN111970568 A CN 111970568A CN 202010901425 A CN202010901425 A CN 202010901425A CN 111970568 A CN111970568 A CN 111970568A
Authority
CN
China
Prior art keywords
information
image
sound
user
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010901425.5A
Other languages
English (en)
Other versions
CN111970568B (zh
Inventor
樊星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Original Assignee
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd filed Critical Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority to CN202010901425.5A priority Critical patent/CN111970568B/zh
Publication of CN111970568A publication Critical patent/CN111970568A/zh
Application granted granted Critical
Publication of CN111970568B publication Critical patent/CN111970568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供了交互式视频播放的方法和系统,其通过对用户进行拍摄和录音,以此获得来自用户的动作特征信息和语音特征信息,并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息,从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态,并且向用户反馈当前视频的播放参数实时调整状态,从而提高用户与视频播放之间的互动自动化和互动智能化程度,以及改善用户观看视频的体验性。

Description

交互式视频播放的方法和系统
技术领域
本发明涉及智能教育的技术领域,特别涉及交互式视频播放的方法和系统。
背景技术
智能教学在实践过程中通常需要借助播放视频在完成相应的知识数据教授,而用户在观看视频过程中时常需要进行相应的笔记记录。但是智能教学所涉及的视频通常是按照预定视频模式来制作的,这使得该视频并不能满足不同用户个体的观看需求,而用户并不能一直进行手动操作来调节来实现相应视频交互式播放,这严重地降低了视频播放的自动化和智能化交互程度,以及降低了用户观看视频的体验性。
发明内容
针对现有技术存在的缺陷,本发明提供交互式视频播放的方法和系统,其包括对用户进行拍摄和录音,从而获得该用户在观看视频过程中的动态影像信息和声音信息,并对该动态影像信息和该声音信息进行降噪预处理,再从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息,并根据该动作特征信息或该语音特征信息,生成相应的视频播放控制指令,最后根据该视频播放控制指令,调整当前视频的播放参数,同时向该用户反馈当前视频的播放参数实时调整状态;可见,该交互式视频播放的方法和系统通过对用户进行拍摄和录音,以此获得来自用户的动作特征信息和语音特征信息,并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息,从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态,并且向用户反馈当前视频的播放参数实时调整状态,从而提高用户与视频播放之间的互动自动化和互动智能化程度,以及改善用户观看视频的体验性。
本发明提供交互式视频播放的方法,其特征在于,其包括如下步骤:
步骤S1,对用户进行拍摄和录音,从而获得所述用户在观看视频过程中的动态影像信息和声音信息,并对所述动态影像信息和所述声音信息进行降噪预处理;
步骤S2,从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息,并根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令;
步骤S3,根据所述视频播放控制指令,调整当前视频的播放参数,同时向所述用户反馈当前视频的播放参数实时调整状态;
进一步,在所述步骤S1中,对用户进行拍摄和录音,从而获得所述用户在观看视频过程中的动态影像信息和声音信息,并对所述动态影像信息和所述声音信息进行降噪预处理具体包括,
步骤S101,对所述用户进行双目拍摄,从而获得所述用户在观看视频过程中的第一视角影像和第二视角影像,并根据所述第一视角影像和所述第二视角影像之间的视差信息,生成关于所述用户在观看视频过程中三维动态影像;
步骤S102,采用麦克风阵列在不同方位对所述用户进行声音采集,从而获得所述用户在观看视频过程中的立体环绕声音信息;
步骤S103,对所述三维动态影像进行环境背影图像像素虚化处理,从而降低所述三维动态影像的环境背景图像噪声成分,以及对所述立体环绕声音信息进行背景杂散噪声过滤处理,从而提高所述立体环绕声音信息的信噪比;
进一步,在所述步骤S1中,对所述动态影像信息和所述声音信息进行降噪预处理具体包括,
第一、将所述动态影像信息切分为N段等时长的子影像信息;
第二、获取所述N段等时长的子影像信息中的每一段子影像信息对应的图像信号,并根据下面公式(1)确定每一段子影像信息的图像信号中的噪声信号权值,
Figure BDA0002659896080000031
在上述公式(1)中,ωi表示第i段子影像信息的图像信号中的噪声信号权值,
Figure BDA0002659896080000033
表示第i段子影像信息的图像信号中的噪声信号方差,N表示子影像信息的总数量,Si表示第i段子影像信息的图像信号的图像亮度值,ε表示预设常数、且其取值范围为[0.1,0.2],M表示每一个图像信号包含的干扰信号的数量,Gj表示第j个干扰信号对应的干扰系数、且其取值为[0.05,0.1]、其随着干扰信号自身的信号强度增大而增大;
第三、根据每一段子影像信息的图像信号中的噪声信号权值,提取得到所述图像信号包含的噪声信号,并将所述噪声信号删除;
第四、将所述声音信息转换为声音信号,并对所述声音信号进行傅里叶转换,以此获得实际信号频率特征序列;
第五、对预设无背景噪声的声音信号进行傅里叶转换,以此获得标准信号频率特征序列;
第六、根据下面公式(2),确定所述实际信号频率特征序列与所述标准信号频率特征序列之间的相似度值simY
Figure BDA0002659896080000032
在上述公式(2)中,H表示所述标准信号频率特征序列的序列特征频率参数数量,Un表示所述标准信号频率特征序列中第n个序列特征频率参数,T表示所述实际信号频率特征序列的序列特征频率参数数量,Pd表示所述实际信号频率特征序列中第d个序列特征频率参数,θ1表示第一预设权重值、且其取值为0.4,Kn表示所述标准信号频率特征序列中第n个序列特征频率参数的误差值,Qd表示所述实际信号频率特征序列中第d个序列特征频率参数的误差值,θ2表示第二预设权重值、且其取值为0.6;
第七、将所述相似度值simY与预设相似度阈值B进行比对,若simY等于B,则确定所述声音信息包含噪声成分,若simY不等于B,则确定所述声音信息不包含噪声成分;
第八、当确定所述声音信息不包含噪声成分,则不需要对所述声音信息进行降噪预处理,当确定所述声音信息包含噪声成分,则将所述实际信号频率特征序列中具有最大值的序列特征频率参数去除后,再对剩余的实际信号频率特征序列进行逆傅里叶转换,从而实现对所述声音信息的降噪预处理;
进一步,在所述步骤S2中,从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息,并根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令具体包括,
步骤S201,将经过所述降噪预处理后的动态影像信息分解为若干图像帧,并识别所述图像帧中所述用户的肢体动作姿态,再按照所述拍摄的拍摄动作时序,将所有图像帧对应的肢体动作姿态依次进行叠加,从而得到所述动作特征信息,其中所述动作特征信息包括动作方向、动作幅度和动作频率中的至少一者;
步骤S202,将经过所述降噪预处理后的声音信息分解为若干声音片段,并根据所述用户的声纹,从而所述声音片段中提取得到属于所述用户的语音片段信息,再按照所述录音的录音动作时序,将所有语音片段信息依次进行叠加,从而得到所述语音特征信息,其中所述语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者;
步骤S203,将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对,从而生成相应的视频播放控制指令;
进一步,在所述步骤S3中,根据所述视频播放控制指令,调整当前视频的播放参数,同时向所述用户反馈当前视频的播放参数实时调整状态具体包括,
步骤S301,根据所述视频播放控制指令,调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者;
步骤S302,从当前视频播放的显示主界面上形成一显示子界面,并在所述显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态,其中所述显示子界面包含在所述显示主界面,并且所述显示子界面和所述显示主界面具有不同的显示分辨率和/或显示亮度。
本发明还提供交互式视频播放的系统,其特征在于,其包括拍摄模块、录音模块、降噪预处理模块、动作/语音特征信息提取模块、视频播放控制指令生成模块、视频播放参数调整模块和播放参数反馈模块;其中,
所述拍摄模块和所述录音模块用于分别对用户进行拍摄和录音,从而获得所述用户在观看视频过程中的动态影像信息和声音信息;
所述降噪预处理模块用于对所述动态影像信息和所述声音信息进行降噪预处理;
所述动作/语音特征信息提取模块用于从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息;
所述视频播放控制指令生成模块用于根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令;
所述视频播放参数调整模块用于根据所述视频播放控制指令,调整当前视频的播放参数;
所述播放参数反馈模块用于向所述用户反馈当前视频的播放参数实时调整状态;
进一步,所述拍摄模块对用户进行拍摄,从而获得所述用户在观看视频过程中的动态影像信息具体包括对所述用户进行双目拍摄,从而获得所述用户在观看视频过程中的第一视角影像和第二视角影像,并根据所述第一视角影像和所述第二视角影像之间的视差信息,生成关于所述用户在观看视频过程中三维动态影像;
所述录音模块对用户进行录音,从而获得所述用户在观看视频过程中的声音信息具体包括采用麦克风阵列在不同方位对所述用户进行声音采集,从而获得所述用户在观看视频过程中的立体环绕声音信息;
所述降噪预处理模块对所述动态影像信息和所述声音信息进行降噪预处理具体包括对所述三维动态影像进行环境背影图像像素虚化处理,从而降低所述三维动态影像的环境背景图像噪声成分,以及对所述立体环绕声音信息进行背景杂散噪声过滤处理,从而提高所述立体环绕声音信息的信噪比;
进一步,所述动作/语音特征信息提取模块从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息具体包括,
将经过所述降噪预处理后的动态影像信息分解为若干图像帧,并识别所述图像帧中所述用户的肢体动作姿态,再按照所述拍摄的拍摄动作时序,将所有图像帧对应的肢体动作姿态依次进行叠加,从而得到所述动作特征信息,其中所述动作特征信息包括动作方向、动作幅度和动作频率中的至少一者;
将经过所述降噪预处理后的声音信息分解为若干声音片段,并根据所述用户的声纹,从而所述声音片段中提取得到属于所述用户的语音片段信息,再按照所述录音的录音动作时序,将所有语音片段信息依次进行叠加,从而得到所述语音特征信息,其中所述语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者;
所述视频播放控制指令生成模块根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令具体包括将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对,从而生成相应的视频播放控制指令;
进一步,所述视频播放参数调整模块根据所述视频播放控制指令,调整当前视频的播放参数具体包括根据所述视频播放控制指令,调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者;
所述播放参数反馈模块向所述用户反馈当前视频的播放参数实时调整状态具体包括从当前视频播放的显示主界面上形成一显示子界面,并在所述显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态,其中所述显示子界面包含在所述显示主界面,并且所述显示子界面和所述显示主界面具有不同的显示分辨率和/或显示亮度。
相比于现有技术,该交互式视频播放的方法和系统包括对用户进行拍摄和录音,从而获得该用户在观看视频过程中的动态影像信息和声音信息,并对该动态影像信息和该声音信息进行降噪预处理,再从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息,并根据该动作特征信息或该语音特征信息,生成相应的视频播放控制指令,最后根据该视频播放控制指令,调整当前视频的播放参数,同时向该用户反馈当前视频的播放参数实时调整状态;可见,该交互式视频播放的方法和系统通过对用户进行拍摄和录音,以此获得来自用户的动作特征信息和语音特征信息,并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息,从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态,并且向用户反馈当前视频的播放参数实时调整状态,从而提高用户与视频播放之间的互动自动化和互动智能化程度,以及改善用户观看视频的体验性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的交互式视频播放的方法的流程示意图。
图2为本发明提供的交互式视频播放的系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的交互式视频播放的方法的流程示意图。该交互式视频播放的方法包括如下步骤:
步骤S1,对用户进行拍摄和录音,从而获得该用户在观看视频过程中的动态影像信息和声音信息,并对该动态影像信息和该声音信息进行降噪预处理;
步骤S2,从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息,并根据该动作特征信息或该语音特征信息,生成相应的视频播放控制指令;
步骤S3,根据该视频播放控制指令,调整当前视频的播放参数,同时向该用户反馈当前视频的播放参数实时调整状态。
该交互式视频播放的方法通过对用户进行拍摄和录音,以此获得来自用户的动作特征信息和语音特征信息,并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息,从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态,并且向用户反馈当前视频的播放参数实时调整状态,从而提高用户与视频播放之间的互动自动化和互动智能化程度,以及改善用户观看视频的体验性。
优选地,在该步骤S1中,对用户进行拍摄和录音,从而获得该用户在观看视频过程中的动态影像信息和声音信息,并对该动态影像信息和该声音信息进行降噪预处理具体包括,
步骤S101,对该用户进行双目拍摄,从而获得该用户在观看视频过程中的第一视角影像和第二视角影像,并根据该第一视角影像和该第二视角影像之间的视差信息,生成关于该用户在观看视频过程中三维动态影像;
步骤S102,采用麦克风阵列在不同方位对该用户进行声音采集,从而获得该用户在观看视频过程中的立体环绕声音信息;
步骤S103,对该三维动态影像进行环境背影图像像素虚化处理,从而降低该三维动态影像的环境背景图像噪声成分,以及对该立体环绕声音信息进行背景杂散噪声过滤处理,从而提高该立体环绕声音信息的信噪比。
通过双目拍摄和麦克风阵列录音的方式采集得到动态影像信息和声音信息,能够全面地获取用户在观看视频过程中的动作变化状态和语音变化状态,从而便于准确确定用户指示调整视频播放状态的真实意图和避免发生误调整的情况。
优选地,在该步骤S1中,对该动态影像信息和该声音信息进行降噪预处理具体包括,
第一、将该动态影像信息切分为N段等时长的子影像信息;
第二、获取该N段等时长的子影像信息中的每一段子影像信息对应的图像信号,并根据下面公式(1)确定每一段子影像信息的图像信号中的噪声信号权值,
Figure BDA0002659896080000101
在上述公式(1)中,ωi表示第i段子影像信息的图像信号中的噪声信号权值,
Figure BDA0002659896080000102
表示第i段子影像信息的图像信号中的噪声信号方差,N表示子影像信息的总数量,Si表示第i段子影像信息的图像信号的图像亮度值,ε表示预设常数、且其取值范围为[0.1,0.2],M表示每一个图像信号包含的干扰信号的数量,Gj表示第j个干扰信号对应的干扰系数、且其取值为[0.05,0.1]、其随着干扰信号自身的信号强度增大而增大;
第三、根据每一段子影像信息的图像信号中的噪声信号权值,提取得到该图像信号包含的噪声信号,并将该噪声信号删除,其具体为:
将该图像信号区分为带噪声信号的第一图像信号和不带噪声信号的第二图像信号,再将该第一图像信号划分为多个第一图像子信号,并获取每一个第一图像子信号的频域曲线图,并根据该频域曲线图获得与该多个第一图像子信号一一对应的多个第一信号强度,并确定该多个第一信号强度分别与与预设的不带噪声信号的第二图像信号的第二信号强度之间的信号强度比值,从而获得多个信号强度比值,再将该多个信号强度比值与该噪声信号权值进行比对,若某一个信号强度比值小于该噪声信号权值,则将该某一个信号强度比值对应的第一图像子信号确定为噪声信号,否则,将该某一个信号强度比值对应的第一图像子信号确定为非噪声信号,最后将被确定为噪声信号的第一图像子信号从该第一图像信号中删除;
第四、将该声音信息转换为声音信号,并对该声音信号进行傅里叶转换,以此获得实际信号频率特征序列;
第五、对预设无背景噪声的声音信号进行傅里叶转换,以此获得标准信号频率特征序列;
第六、根据下面公式(2),确定该实际信号频率特征序列与该标准信号频率特征序列之间的相似度值simY
Figure BDA0002659896080000111
在上述公式(2)中,H表示该标准信号频率特征序列的序列特征频率参数数量,Un表示该标准信号频率特征序列中第n个序列特征频率参数,T表示该实际信号频率特征序列的序列特征频率参数数量,Pd表示该实际信号频率特征序列中第d个序列特征频率参数,θ1表示第一预设权重值、且其取值为0.4,Kn表示该标准信号频率特征序列中第n个序列特征频率参数的误差值,Qd表示该实际信号频率特征序列中第d个序列特征频率参数的误差值,θ2表示第二预设权重值、且其取值为0.6;
第七、将该相似度值simY与预设相似度阈值B进行比对,若simY等于B,则确定该声音信息包含噪声成分,若simY不等于B,则确定该声音信息不包含噪声成分;
第八、当确定该声音信息不包含噪声成分,则不需要对该声音信息进行降噪预处理,当确定该声音信息包含噪声成分,则将该实际信号频率特征序列中具有最大值的序列特征频率参数去除后,再对剩余的实际信号频率特征序列进行逆傅里叶转换,从而实现对该声音信息的降噪预处理。
通过计算动态影像信息的图像信号中的噪音信号权值可以准确地确定噪声信号在图像信号中所占的权重值,进而根据权重值可以从图像信号中提取出噪音信号进行删除,相比于现有技术中利用神经网络模型降噪来说更加地智能化,同时,在计算过程中计算强度小,大大的提高了降噪效率,进一步地,通过计算声音信息的实际信号频率特征序列和预设无背景噪声的声音信号的标准信号频率特征序列之间的相似度值来确定声音信息中是否有噪声可以确定是否需要去噪以及在确认需要去噪时只需将实际信号频率特征序列的最大值部分进行去除即可,相比于现有技术的利用语音信号的强度对整个声音信号去噪来说去噪效果更加明显和实用,保证了去噪效果的完美,提高了用户的体验感。
优选地,在该步骤S2中,从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息,并根据该动作特征信息或该语音特征信息,生成相应的视频播放控制指令具体包括,
步骤S201,将经过该降噪预处理后的动态影像信息分解为若干图像帧,并识别该图像帧中该用户的肢体动作姿态,再按照该拍摄的拍摄动作时序,将所有图像帧对应的肢体动作姿态依次进行叠加,从而得到该动作特征信息,其中该动作特征信息包括动作方向、动作幅度和动作频率中的至少一者;
步骤S202,将经过该降噪预处理后的声音信息分解为若干声音片段,并根据该用户的声纹,从而该声音片段中提取得到属于该用户的语音片段信息,再按照该录音的录音动作时序,将所有语音片段信息依次进行叠加,从而得到该语音特征信息,其中该语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者;
步骤S203,将该动作特征信息与预设动作-控制指令库进行比对、或者将该语音特征信息与预设语音-控制指令库进行比对,从而生成相应的视频播放控制指令。
通过将动态影像信息和声音信息进行细化分解处理,能够便于对分解得到的图像帧和声音片段进行高效的和有针对性的特征信息提取,从而提高信息的处理速度和保证该动作特征信息和该语音特征信息能够真实地反映用户的实时状态。
优选地,在该步骤S3中,根据该视频播放控制指令,调整当前视频的播放参数,同时向该用户反馈当前视频的播放参数实时调整状态具体包括,
步骤S301,根据该视频播放控制指令,调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者;
步骤S302,从当前视频播放的显示主界面上形成一显示子界面,并在该显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态,其中该显示子界面包含在该显示主界面,并且该显示子界面和该显示主界面具有不同的显示分辨率和/或显示亮度。
通过显示主界面和显示子界面分别播放当前视频和播放参数实时调整状态,能够在维持当前视频播放不变的情况下,实时地向用户反馈相应的播放参数,而该显示子界面和该显示主界面具有不同的显示分辨率和/或显示亮度能够便于用户区别观看,从而最大限度地提高用户与视频播放之间的互动自动化和互动智能化程度。
参阅图2,为本发明实施例提供的交互式视频播放的系统的结构示意图。该交互式视频播放的系统包括拍摄模块、录音模块、降噪预处理模块、动作/语音特征信息提取模块、视频播放控制指令生成模块、视频播放参数调整模块和播放参数反馈模块;其中,
该拍摄模块和该录音模块用于分别对用户进行拍摄和录音,从而获得该用户在观看视频过程中的动态影像信息和声音信息;
该降噪预处理模块用于对该动态影像信息和该声音信息进行降噪预处理;
该动作/语音特征信息提取模块用于从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息;
该视频播放控制指令生成模块用于根据该动作特征信息或该语音特征信息,生成相应的视频播放控制指令;
该视频播放参数调整模块用于根据该视频播放控制指令,调整当前视频的播放参数;
该播放参数反馈模块用于向该用户反馈当前视频的播放参数实时调整状态。
该交互式视频播放的系统通过对用户进行拍摄和录音,以此获得来自用户的动作特征信息和语音特征信息,并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息,从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态,并且向用户反馈当前视频的播放参数实时调整状态,从而提高用户与视频播放之间的互动自动化和互动智能化程度,以及改善用户观看视频的体验性。
优选地,该拍摄模块对用户进行拍摄,从而获得该用户在观看视频过程中的动态影像信息具体包括对该用户进行双目拍摄,从而获得该用户在观看视频过程中的第一视角影像和第二视角影像,并根据该第一视角影像和该第二视角影像之间的视差信息,生成关于该用户在观看视频过程中三维动态影像;
该录音模块对用户进行录音,从而获得该用户在观看视频过程中的声音信息具体包括采用麦克风阵列在不同方位对该用户进行声音采集,从而获得该用户在观看视频过程中的立体环绕声音信息;
该降噪预处理模块对该动态影像信息和该声音信息进行降噪预处理具体包括对该三维动态影像进行环境背影图像像素虚化处理,从而降低该三维动态影像的环境背景图像噪声成分,以及对该立体环绕声音信息进行背景杂散噪声过滤处理,从而提高该立体环绕声音信息的信噪比。
通过双目拍摄和麦克风阵列录音的方式采集得到动态影像信息和声音信息,能够全面地获取用户在观看视频过程中的动作变化状态和语音变化状态,从而便于准确确定用户指示调整视频播放状态的真实意图和避免发生误调整的情况。
优选地,该动作/语音特征信息提取模块从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息具体包括,
将经过该降噪预处理后的动态影像信息分解为若干图像帧,并识别该图像帧中该用户的肢体动作姿态,再按照该拍摄的拍摄动作时序,将所有图像帧对应的肢体动作姿态依次进行叠加,从而得到该动作特征信息,其中该动作特征信息包括动作方向、动作幅度和动作频率中的至少一者;
将经过该降噪预处理后的声音信息分解为若干声音片段,并根据该用户的声纹,从而该声音片段中提取得到属于该用户的语音片段信息,再按照该录音的录音动作时序,将所有语音片段信息依次进行叠加,从而得到该语音特征信息,其中该语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者;
该视频播放控制指令生成模块根据该动作特征信息或该语音特征信息,生成相应的视频播放控制指令具体包括将该动作特征信息与预设动作-控制指令库进行比对、或者将该语音特征信息与预设语音-控制指令库进行比对,从而生成相应的视频播放控制指令。
通过将动态影像信息和声音信息进行细化分解处理,能够便于对分解得到的图像帧和声音片段进行高效的和有针对性的特征信息提取,从而提高信息的处理速度和保证该动作特征信息和该语音特征信息能够真实地反映用户的实时状态。
优选地,该视频播放参数调整模块根据该视频播放控制指令,调整当前视频的播放参数具体包括根据该视频播放控制指令,调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者;
该播放参数反馈模块向该用户反馈当前视频的播放参数实时调整状态具体包括从当前视频播放的显示主界面上形成一显示子界面,并在该显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态,其中该显示子界面包含在该显示主界面,并且该显示子界面和该显示主界面具有不同的显示分辨率和/或显示亮度。
通过显示主界面和显示子界面分别播放当前视频和播放参数实时调整状态,能够在维持当前视频播放不变的情况下,实时地向用户反馈相应的播放参数,而该显示子界面和该显示主界面具有不同的显示分辨率和/或显示亮度能够便于用户区别观看,从而最大限度地提高用户与视频播放之间的互动自动化和互动智能化程度。
从上述实施例的内容可知,该交互式视频播放的方法和系统包括对用户进行拍摄和录音,从而获得该用户在观看视频过程中的动态影像信息和声音信息,并对该动态影像信息和该声音信息进行降噪预处理,再从经过该降噪预处理后的动态影像信息和声音信息中分别提取得到该用户的动作特征信息和语音特征信息,并根据该动作特征信息或该语音特征信息,生成相应的视频播放控制指令,最后根据该视频播放控制指令,调整当前视频的播放参数,同时向该用户反馈当前视频的播放参数实时调整状态;可见,该交互式视频播放的方法和系统通过对用户进行拍摄和录音,以此获得来自用户的动作特征信息和语音特征信息,并以该动作特征信息和该语音特征信息作为用户与视频播放之间的原始互动信息,从预设指令库中摘选匹配的视频播放控制指令来调整当前视频的播放状态,并且向用户反馈当前视频的播放参数实时调整状态,从而提高用户与视频播放之间的互动自动化和互动智能化程度,以及改善用户观看视频的体验性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.交互式视频播放的方法,其特征在于,其包括如下步骤:
步骤S1,对用户进行拍摄和录音,从而获得所述用户在观看视频过程中的动态影像信息和声音信息,并对所述动态影像信息和所述声音信息进行降噪预处理;
步骤S2,从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息,并根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令;
步骤S3,根据所述视频播放控制指令,调整当前视频的播放参数,同时向所述用户反馈当前视频的播放参数实时调整状态。
2.如权利要求1所述的交互式视频播放的方法,其特征在于:
在所述步骤S1中,对用户进行拍摄和录音,从而获得所述用户在观看视频过程中的动态影像信息和声音信息,并对所述动态影像信息和所述声音信息进行降噪预处理具体包括,
步骤S101,对所述用户进行双目拍摄,从而获得所述用户在观看视频过程中的第一视角影像和第二视角影像,并根据所述第一视角影像和所述第二视角影像之间的视差信息,生成关于所述用户在观看视频过程中三维动态影像;
步骤S102,采用麦克风阵列在不同方位对所述用户进行声音采集,从而获得所述用户在观看视频过程中的立体环绕声音信息;
步骤S103,对所述三维动态影像进行环境背影图像像素虚化处理,从而降低所述三维动态影像的环境背景图像噪声成分,以及对所述立体环绕声音信息进行背景杂散噪声过滤处理,从而提高所述立体环绕声音信息的信噪比。
3.如权利要求1所述的交互式视频播放的方法,其特征在于:
在所述步骤S1中,对所述动态影像信息和所述声音信息进行降噪预处理具体包括,
第一、将所述动态影像信息切分为N段等时长的子影像信息;
第二、获取所述N段等时长的子影像信息中的每一段子影像信息对应的图像信号,并根据下面公式(1)确定每一段子影像信息的图像信号中的噪声信号权值,
Figure FDA0002659896070000021
在上述公式(1)中,ωi表示第i段子影像信息的图像信号中的噪声信号权值,
Figure FDA0002659896070000022
表示第i段子影像信息的图像信号中的噪声信号方差,N表示子影像信息的总数量,Si表示第i段子影像信息的图像信号的图像亮度值,ε表示预设常数、且其取值范围为[0.1,0.2],M表示每一个图像信号包含的干扰信号的数量,Gj表示第j个干扰信号对应的干扰系数、且其取值为[0.05,0.1]、其随着干扰信号自身的信号强度增大而增大;第三、根据每一段子影像信息的图像信号中的噪声信号权值,提取得到所述图像信号包含的噪声信号,并将所述噪声信号删除;
第四、将所述声音信息转换为声音信号,并对所述声音信号进行傅里叶转换,以此获得实际信号频率特征序列;
第五、对预设无背景噪声的声音信号进行傅里叶转换,以此获得标准信号频率特征序列;
第六、根据下面公式(2),确定所述实际信号频率特征序列与所述标准信号频率特征序列之间的相似度值simY
Figure FDA0002659896070000023
在上述公式(2)中,H表示所述标准信号频率特征序列的序列特征频率参数数量,Un表示所述标准信号频率特征序列中第n个序列特征频率参数,T表示所述实际信号频率特征序列的序列特征频率参数数量,Pd表示所述实际信号频率特征序列中第d个序列特征频率参数,θ1表示第一预设权重值、且其取值为0.4,Kn表示所述标准信号频率特征序列中第n个序列特征频率参数的误差值,Qd表示所述实际信号频率特征序列中第d个序列特征频率参数的误差值,θ2表示第二预设权重值、且其取值为0.6;
第七、将所述相似度值simY与预设相似度阈值B进行比对,若simY等于B,则确定所述声音信息包含噪声成分,若simY不等于B,则确定所述声音信息不包含噪声成分;
第八、当确定所述声音信息不包含噪声成分,则不需要对所述声音信息进行降噪预处理,当确定所述声音信息包含噪声成分,则将所述实际信号频率特征序列中具有最大值的序列特征频率参数去除后,再对剩余的实际信号频率特征序列进行逆傅里叶转换,从而实现对所述声音信息的降噪预处理。
4.如权利要求1所述的交互式视频播放的方法,其特征在于:
在所述步骤S2中,从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息,并根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令具体包括,
步骤S201,将经过所述降噪预处理后的动态影像信息分解为若干图像帧,并识别所述图像帧中所述用户的肢体动作姿态,再按照所述拍摄的拍摄动作时序,将所有图像帧对应的肢体动作姿态依次进行叠加,从而得到所述动作特征信息,其中所述动作特征信息包括动作方向、动作幅度和动作频率中的至少一者;
步骤S202,将经过所述降噪预处理后的声音信息分解为若干声音片段,并根据所述用户的声纹,从而所述声音片段中提取得到属于所述用户的语音片段信息,再按照所述录音的录音动作时序,将所有语音片段信息依次进行叠加,从而得到所述语音特征信息,其中所述语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者;
步骤S203,将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对,从而生成相应的视频播放控制指令。
5.如权利要求1所述的交互式视频播放的方法,其特征在于:
在所述步骤S3中,根据所述视频播放控制指令,调整当前视频的播放参数,同时向所述用户反馈当前视频的播放参数实时调整状态具体包括,
步骤S301,根据所述视频播放控制指令,调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者;
步骤S302,从当前视频播放的显示主界面上形成一显示子界面,并在所述显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态,其中所述显示子界面包含在所述显示主界面,并且所述显示子界面和所述显示主界面具有不同的显示分辨率和/或显示亮度。
6.交互式视频播放的方系统,其特征在于,其包括拍摄模块、录音模块、降噪预处理模块、动作/语音特征信息提取模块、视频播放控制指令生成模块、视频播放参数调整模块和播放参数反馈模块;其中,
所述拍摄模块和所述录音模块用于分别对用户进行拍摄和录音,从而获得所述用户在观看视频过程中的动态影像信息和声音信息;
所述降噪预处理模块用于对所述动态影像信息和所述声音信息进行降噪预处理;
所述动作/语音特征信息提取模块用于从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息;
所述视频播放控制指令生成模块用于根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令;
所述视频播放参数调整模块用于根据所述视频播放控制指令,调整当前视频的播放参数;
所述播放参数反馈模块用于向所述用户反馈当前视频的播放参数实时调整状态。
7.如权利要求6所述的交互式视频播放的系统,其特征在于:
所述拍摄模块对用户进行拍摄,从而获得所述用户在观看视频过程中的动态影像信息具体包括对所述用户进行双目拍摄,从而获得所述用户在观看视频过程中的第一视角影像和第二视角影像,并根据所述第一视角影像和所述第二视角影像之间的视差信息,生成关于所述用户在观看视频过程中三维动态影像;
所述录音模块对用户进行录音,从而获得所述用户在观看视频过程中的声音信息具体包括采用麦克风阵列在不同方位对所述用户进行声音采集,从而获得所述用户在观看视频过程中的立体环绕声音信息;
所述降噪预处理模块对所述动态影像信息和所述声音信息进行降噪预处理具体包括对所述三维动态影像进行环境背影图像像素虚化处理,从而降低所述三维动态影像的环境背景图像噪声成分,以及对所述立体环绕声音信息进行背景杂散噪声过滤处理,从而提高所述立体环绕声音信息的信噪比。
8.如权利要求6所述的交互式视频播放的系统,其特征在于:
所述动作/语音特征信息提取模块从经过所述降噪预处理后的动态影像信息和声音信息中分别提取得到所述用户的动作特征信息和语音特征信息具体包括,
将经过所述降噪预处理后的动态影像信息分解为若干图像帧,并识别所述图像帧中所述用户的肢体动作姿态,再按照所述拍摄的拍摄动作时序,将所有图像帧对应的肢体动作姿态依次进行叠加,从而得到所述动作特征信息,其中所述动作特征信息包括动作方向、动作幅度和动作频率中的至少一者;
将经过所述降噪预处理后的声音信息分解为若干声音片段,并根据所述用户的声纹,从而所述声音片段中提取得到属于所述用户的语音片段信息,再按照所述录音的录音动作时序,将所有语音片段信息依次进行叠加,从而得到所述语音特征信息,其中所述语音特征信息包括语音强度、语音频率和语音停顿时间间隔中的至少一者;
所述视频播放控制指令生成模块根据所述动作特征信息或所述语音特征信息,生成相应的视频播放控制指令具体包括将所述动作特征信息与预设动作-控制指令库进行比对、或者将所述语音特征信息与预设语音-控制指令库进行比对,从而生成相应的视频播放控制指令。
9.如权利要求6所述的交互式视频播放的系统,其特征在于:
所述视频播放参数调整模块根据所述视频播放控制指令,调整当前视频的播放参数具体包括根据所述视频播放控制指令,调整当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者;
所述播放参数反馈模块向所述用户反馈当前视频的播放参数实时调整状态具体包括从当前视频播放的显示主界面上形成一显示子界面,并在所述显示子界面上显示当前视频的播放音量、图像播放分辨率、图像播放亮度、图像播放色域和视频播放进度中的至少一者的实时调整状态,其中所述显示子界面包含在所述显示主界面,并且所述显示子界面和所述显示主界面具有不同的显示分辨率和/或显示亮度。
CN202010901425.5A 2020-08-31 2020-08-31 交互式视频播放的方法和系统 Active CN111970568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010901425.5A CN111970568B (zh) 2020-08-31 2020-08-31 交互式视频播放的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010901425.5A CN111970568B (zh) 2020-08-31 2020-08-31 交互式视频播放的方法和系统

Publications (2)

Publication Number Publication Date
CN111970568A true CN111970568A (zh) 2020-11-20
CN111970568B CN111970568B (zh) 2021-07-16

Family

ID=73401185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010901425.5A Active CN111970568B (zh) 2020-08-31 2020-08-31 交互式视频播放的方法和系统

Country Status (1)

Country Link
CN (1) CN111970568B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565888A (zh) * 2020-11-30 2021-03-26 成都新潮传媒集团有限公司 一种监播拍照方法、装置及计算机设备
CN113079416A (zh) * 2021-04-07 2021-07-06 宁波绿能科创文化艺术发展有限公司 一种多媒体智能控制方法及客户端、系统
CN113099305A (zh) * 2021-04-15 2021-07-09 上海哔哩哔哩科技有限公司 播放控制方法及装置
CN113676687A (zh) * 2021-08-30 2021-11-19 联想(北京)有限公司 一种信息处理方法及电子设备
CN117827013A (zh) * 2024-03-05 2024-04-05 青岛三诚众合智能设备科技有限公司 基于图像处理的生产技能智能学习方法及系统、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107370649A (zh) * 2017-08-31 2017-11-21 广东美的制冷设备有限公司 家电控制方法、系统、控制终端、及存储介质
US20180018965A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining Gesture and Voice User Interfaces
CN108597513A (zh) * 2018-05-04 2018-09-28 深圳创维-Rgb电子有限公司 基于5.8GHz无线传输电视远场语音识别系统及方法
CN109996148A (zh) * 2017-12-29 2019-07-09 青岛有屋科技有限公司 一种智能厨房多媒体播放系统
CN110839180A (zh) * 2019-09-29 2020-02-25 王东 一种视频播放进度控制方法、装置及电子设备
CN111602139A (zh) * 2019-05-31 2020-08-28 深圳市大疆创新科技有限公司 图像处理方法、装置、控制终端及可移动设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018965A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining Gesture and Voice User Interfaces
CN107370649A (zh) * 2017-08-31 2017-11-21 广东美的制冷设备有限公司 家电控制方法、系统、控制终端、及存储介质
CN109996148A (zh) * 2017-12-29 2019-07-09 青岛有屋科技有限公司 一种智能厨房多媒体播放系统
CN108597513A (zh) * 2018-05-04 2018-09-28 深圳创维-Rgb电子有限公司 基于5.8GHz无线传输电视远场语音识别系统及方法
CN111602139A (zh) * 2019-05-31 2020-08-28 深圳市大疆创新科技有限公司 图像处理方法、装置、控制终端及可移动设备
CN110839180A (zh) * 2019-09-29 2020-02-25 王东 一种视频播放进度控制方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565888A (zh) * 2020-11-30 2021-03-26 成都新潮传媒集团有限公司 一种监播拍照方法、装置及计算机设备
CN112565888B (zh) * 2020-11-30 2022-06-24 成都新潮传媒集团有限公司 一种监播拍照方法、装置、计算机设备及存储介质
CN113079416A (zh) * 2021-04-07 2021-07-06 宁波绿能科创文化艺术发展有限公司 一种多媒体智能控制方法及客户端、系统
CN113079416B (zh) * 2021-04-07 2024-03-26 宁波绿能科创文化艺术发展有限公司 一种多媒体智能控制方法及客户端、系统
CN113099305A (zh) * 2021-04-15 2021-07-09 上海哔哩哔哩科技有限公司 播放控制方法及装置
CN113676687A (zh) * 2021-08-30 2021-11-19 联想(北京)有限公司 一种信息处理方法及电子设备
CN117827013A (zh) * 2024-03-05 2024-04-05 青岛三诚众合智能设备科技有限公司 基于图像处理的生产技能智能学习方法及系统、电子设备
CN117827013B (zh) * 2024-03-05 2024-05-14 青岛三诚众合智能设备科技有限公司 基于图像处理的生产技能智能学习方法及系统、电子设备

Also Published As

Publication number Publication date
CN111970568B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN111970568B (zh) 交互式视频播放的方法和系统
US11894014B2 (en) Audio-visual speech separation
EP4184927A1 (en) Sound effect adjusting method and apparatus, device, storage medium, and computer program product
EP4099709A1 (en) Data processing method and apparatus, device, and readable storage medium
US11869524B2 (en) Audio processing method and apparatus, computer device, and storage medium
US11762905B2 (en) Video quality evaluation method and apparatus, device, and storage medium
CN113611324B (zh) 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN111737516A (zh) 一种互动音乐生成方法、装置、智能音箱及存储介质
CN111625661B (zh) 一种音视频片段分类方法及装置
CN110493640A (zh) 一种基于视频处理的视频转换为ppt的系统及方法
CN111046757A (zh) 人脸画像生成模型的训练方法、装置及相关设备
CN111564064A (zh) 基于游戏互动的智能教育系统与方法
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN111583420B (zh) 基于增强现实模式的智能学习系统和方法
CN113556491A (zh) 线上教学录屏方法与系统
Paglinawan et al. Design of a Python-based Lecture Capture System using Haar Cascade Algorithm with Noise Reduction as Facility for Learner-Centeredness in OBE
CN113886639A (zh) 数字人视频生成方法、装置、电子设备及存储介质
CN115880737B (zh) 一种基于降噪自学习的字幕生成方法、系统、设备及介质
US20230410830A1 (en) Audio purification method, computer system and computer-readable medium
CN112019923B (zh) 视频剪切处理方法
CN117153178B (zh) 音频信号处理方法、装置、电子设备和存储介质
Lv et al. Underwater Image Enhancement Based on Shallow Underwater Neural Network
CN115049636A (zh) 一种计算机图像处理方法
CN113987268A (zh) 数字人视频生成方法、装置、电子设备及存储介质
CN118075418A (zh) 视频会议内容输出优化方法、装置、设备及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20221020

Granted publication date: 20210716

PP01 Preservation of patent right