CN114449252B - 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质 - Google Patents

基于解说音频的现场视频动态调整方法、装置、设备、系统和介质 Download PDF

Info

Publication number
CN114449252B
CN114449252B CN202210130889.XA CN202210130889A CN114449252B CN 114449252 B CN114449252 B CN 114449252B CN 202210130889 A CN202210130889 A CN 202210130889A CN 114449252 B CN114449252 B CN 114449252B
Authority
CN
China
Prior art keywords
current
target object
video data
picture
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210130889.XA
Other languages
English (en)
Other versions
CN114449252A (zh
Inventor
刘威
夏勇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Beehive Century Technology Co ltd
Original Assignee
Beijing Beehive Century Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Beehive Century Technology Co ltd filed Critical Beijing Beehive Century Technology Co ltd
Priority to CN202210130889.XA priority Critical patent/CN114449252B/zh
Publication of CN114449252A publication Critical patent/CN114449252A/zh
Application granted granted Critical
Publication of CN114449252B publication Critical patent/CN114449252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4756End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及一种基于解说音频的现场视频动态调整方法、装置、设备、系统和介质,涉及增强现实技术的领域,其方法包括获取并播放现场活动的当前解说音频数据;识别所述当前解说音频数据的关键词信息;获取第一摄像头采集的所述现场活动的当前视频数据;基于所述关键词信息和所述当前视频数据确定是否生成提示信息,所述提示信息用于提示用户调整所述第一摄像头的角度。本申请根据提示信息转动第一摄像头使得显示设备播放的当前视频数据中的内容与当前解说音频数据中的内容达到同步,提高了用户观看体育赛事或演出的体验感。

Description

基于解说音频的现场视频动态调整方法、装置、设备、系统和 介质
技术领域
本申请涉及增强现实技术的领域,尤其是涉及一种基于解说音频的现场视频动态调整方法、装置、设备、系统和介质。
背景技术
目前,随着中国经济的高速发展,人民的生活水平得到了很大的提高。为了满足自身的精神文化需求,越来越多的观众选择到现场观看体育赛事或演出。
相关技术中,虽然观众在现场能感受到活动的氛围,但是在根据活动解说观看活动的过程中,观众不能对活动解说内容进行捕捉,观众观看现场的实时视频与活动解说内容无法同步,亟需一种将现场视频与实时解说进行同步的技术。
发明内容
为了实现视频与实时解说音频的同步,本申请提供一种基于解说音频的现场视频动态调整方法、装置、设备、系统和介质。
第一方面,本申请提供一种基于解说音频的现场视频动态调整方法,采用如下的技术方案:
一种基于解说音频的现场视频动态调整方法,包括:
获取并播放现场活动的当前解说音频数据;
识别所述当前解说音频数据的关键词信息;
获取第一摄像头采集的所述现场活动的当前视频数据;
基于所述关键词信息和所述当前视频数据确定是否生成提示信息,所述提示信息用于提示用户调整所述第一摄像头的角度。
通过采用上述技术方案,用户在观看视频过程中,根据提示信息调整第一摄像头的角度使得显示设备播放的当前视频数据中的画面与当前解说音频数据中的内容达到同步,提高了用户观看体育赛事或演出的体验感。
可选的,所述基于所述关键词信息和所述当前视频数据确定是否生成提示信息,包括:
获取所述关键词信息对应的第一目标对象,并将所述第一目标对象作为当前目标对象;
判断所述当前视频数据的画面中是否存在所述当前目标对象;
若否,则生成所述提示信息。
可选的,所述生成所述提示信息,包括:
获取所述现场活动的直播视频流数据,基于所述直播视频流数据获取所述当前解说音频数据实时对应的活动全景画面;
确定所述当前目标对象在所述活动全景画面中的位置信息;
确定所述当前视频数据的画面与所述活动全景画面的相对位置关系;
基于所述位置信息和所述相对位置关系生成第一摄像头角度偏移方向;
基于所述第一摄像头角度偏移方向生成所述提示信息。
可选的,还包括:
若所述当前视频数据的画面中存在所述当前目标对象,则对所述当前视频数据的画面中的所述当前目标对象进行第一标识。
通过采用上述技术方案,当前视频数据的画面中包括当前目标对象时,通过第一标识使用户能够及时捕捉到当前目标对象,提高用户的体验感。
可选的,在所述生成所述提示信息之后,还包括:
判断所述当前解说音频数据中是否出现新的关键词信息;
若否,则重复所述判断所述当前视频数据的画面中是否存在所述当前目标对象的步骤;
若是,则将所述新的关键词信息对应的第一目标对象作为当前目标对象,并重复所述判断所述当前视频数据的画面中是否存在所述当前目标对象的步骤。
可选的,在所述获取第一摄像头采集的所述现场活动的当前视频数据之后,还包括:
响应于用户选择第二目标对象的操作,对所述当前视频数据进行图像识别;
若所述当前视频数据的画面中存在所述第二目标对象,则对所述当前视频数据的画面中的所述第二目标对象进行第二标识。
通过采用上述技术方案,用户可以对第二目标对象进行选择,若当前视频数据的画面中包括第二目标对象,则在显示的当前视频数据的画面中的球员或演员进行标识,方便用户观看第二目标对象。
第二方面,本申请提供一种基于解说音频的现场视频动态调整装置,采用如下的技术方案:
一种基于解说音频的现场视频动态调整装置,包括:
获取播放模块,用于获取并播放现场活动的当前解说音频数据;
识别模块,用于识别所述当前解说音频数据的关键词信息;
获取模块,用于获取第一摄像头采集的所述现场活动的当前视频数据;
生成模块,用于基于所述关键词信息和所述当前视频数据确定是否生成提示信息,所述提示信息用于提示用户调整所述第一摄像头的角度。
第三方面,本申请提供一种智能终端,采用如下的技术方案:
一种智能终端,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行第一方面任一项所述的基于解说音频的现场视频动态调整方法的计算机程序。
第四方面,本申请提供一种基于解说音频的现场视频动态调整系统,采用如下的技术方案:
一种基于解说音频的现场视频动态调整系统,包括如第三方面所述的智能终端以及音频播放设备、摄像设备、显示设备;
所述智能终端基于网络接收现场活动的当前解说音频数据,并将当前解说音频数据发送至音频播放设备,所述音频播放设备用于对接收的解说音频进行播放;
所述摄像设备用于采集现场活动的当前视频数据,并将当前视频数据发送至智能终端,智能终端用于控制显示设备对采集的当前视频数据的画面 进行显示;
所述智能终端用于对当前解说音频数据的关键词信息进行识别,根据关键词信息和当前视频数据进行处理后确定是否生成用于提示用户转动所述第一摄像头的提示信息。
本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行第一方面任一项所述的基于解说音频的现场视频动态调整方法的计算机程序。
附图说明
图1是本申请其中一实施例的智能终端100的结构框图。
图2是本申请其中一实施例的基于解说音频的现场视频动态调整方法的流程示意图。
图3是本申请其中一实施例的基于解说音频的现场视频动态调整装置300的结构框图。
图4是本申请其中一实施例的基于解说音频的现场视频动态调整系统400的结构框图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
本申请实施例提供一种基于解说音频的现场视频动态调整方法,该方法可以由头戴式显示设备中的智能终端100实现,参照图1,智能终端100包括存储器101、处理器102和通信总线103;存储器101、处理器102通过通信总线103相连。存储器101上存储有能够被处理器102加载并执行基于解说音频的现场视频动态调整方法的计算机程序。
存储器101可用于存储指令、程序、代码、代码集或指令集。存储器101可以包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令以及用于实现基于解说音频的现场视频动态调整方法的指令等;存储数据区可存储基于解说音频的现场视频动态调整方法中涉及到的数据等。
处理器102可以包括一个或者多个处理核心。处理器102通过运行或执行存储在存储器101内的指令、程序、代码集或指令集,调用存储在存储器101内的数据,执行本申请的各种功能和处理数据。处理器102可以为特定用途集成电路(Application SpecificIntegrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器和微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
通信总线103可包括一通路,在上述组件之间传送信息。通信总线103可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA (ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。通信总线103可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一个双箭头表示,但并不表示仅有一根总线或一种类型的总线。
头戴式显示设备可以是用于向体育赛事或演出等活动现场的用户提供观看服务的智能眼镜,本实施例以智能终端为执行主体,进行方案的详细说明。
下面将结合具体实施方式,对图2所示的处理流程进行详细的说明,包括:
步骤S201:获取并播放现场活动的当前解说音频数据;
智能眼镜通过播放的当前解说音频数据对用户观看的现场活动进行解说,作为本实施例的一种可选实施方式,获取当前解说音频数据包括:
通过头戴式显示设备的GPS等定位设备获取用户所在位置并通过计时设备获取当前的时间;根据所在位置和当前的时间确定现场活动的名称,现场活动可以为体育赛事或演出;基于网络实时查询各种包括音频解说的渠道,获取各种渠道当前的节目名称,渠道包括互联网、电台广播FM、电视台直播等;将现场活动名称与各种渠道当前的节目名称进行对比,若多种渠道的实时电子名称与现场活动名称一致,则生成包含当前对现场活动进行解说的多个渠道的电子节目单;基于电子节目单选择其中一个渠道;获取该渠道当前节目的数据源,对数据源进行解码得到当前解说音频数据。
将当前解说音频数据发送至中控设备,中控设备控制音频播放设备对解说音频进行播放,其中,中控设备可以设置在场馆中或者集成在头戴式显示设备上。
在现场活动结束后,用户可通过头戴式显示设备对渠道评价进行输入,输入方式包括语音输入或按键输入等,评价内容包括解说音频传输信号的稳定性和解说专业度等信息,根据渠道评价生成渠道的打分信息。
在基于电子节目单选择其中一个渠道过程中,根据历史打分信息选择打分最高的渠道进行解说。
步骤S202:识别当前解说音频数据的关键词信息;
在一个实施例中,为了对当前解说音频数据中的解说内容进行识别,对应的,步骤S202中可以包括如下处理:基于语音识别算法将当前解说音频数据转换成文本信息;对文本信息进行识别,将文本信息与预设的关键词信息进行对比,从而获得当前解说音频数据的关键词信息。
以体育赛事为例,预设的关键词信息包括球员姓名、球衣号等用于区分球员身份的词语。
步骤S203:获取第一摄像头采集的现场活动的当前视频数据;
在一个实施例中,现场活动中不同用户的关注点具有差异性,例如体育赛事中用户喜欢的球员不同,用户自身的关注点更偏向于集中在自己喜欢的球员上,因此对应的,步骤S203之后可以包括如下处理:基于现场活动名称获取参赛或参演的人员信息,人员信息包括人员姓名和头像;将人员信息在当前视频数据的画面中进行显示;响应于用户选择第二目标对象的操作,对当前视频数据进行图像识别;若当前视频数据的画面中存在第二目标对象,则当前视频数据的画面中的第二目标对象进行第二标识。
本实施例中,用户可以在头戴式显示设备通过按键对第二目标对象进行选择,第二目标对象即用户在现场活动中进行关注的目标人员。第二标识方式包括通过AR技术在显示的当前视频数据的画面中的球员或演员进行标识,方便用户观看第二目标对象,其中第二标识方式包括标记箭头、框选或描边等形式。
步骤S204:基于关键词信息和当前视频数据确定是否生成提示信息,提示信息用于提示用户调整第一摄像头的角度。
在一个实施例中,用户在观看视频过程中,为了提高观看的当前视频数据的画面与播放的当前解说音频数据的同步效果,因此对应的,步骤S204中可以包括如下处理:获取关键词信息对应的第一目标对象,并将第一目标对象作为当前目标对象;判断当前视频数据的画面中是否存在当前目标对象;若否,则生成提示信息;基于提示信息对用户进行提示。
以体育赛事为例,第一目标对象为解说音频数据中关键词信息对应的球员图像,头戴式显示设备中预设有多个关于球员图像的第一预设图像特征,第一预设图像特征包括现场活动中的球员姓名、球衣号、球队名等,若当前视频数据的画面中与第一目标对象对应的多个第一预设图像特征对比均不一致,则说明此时的当前视频数据的画面中不存在当前目标对象,所以需要根据提示信息对第一摄像头的角度进行调整。
其中,提示信息可以通过AR技术显示在当前视频数据的画面中,也可以通过头戴式显示设备进行语音播报提示。
在一个实施例中,步骤生成提示信息,可以进行如下处理:获取现场活动的直播视频流数据,基于直播视频流数据获取当前解说音频数据实时对应的活动全景画面;确定当前目标对象在活动全景画面中的位置信息;确定当前视频数据的画面与活动全景画面的相对位置关系;基于位置信息和相对位置关系生成第一摄像头角度偏移方向;基于第一摄像头角度偏移方向生成提示信息。
现场活动的场馆中安装有多个第二摄像头,多个第二摄像头分别安装在场馆的多个不同位置,用于获取现场活动的直播视频流数据并生成活动全景画面,基于第一预设图像特征获取当前目标对象在活动全景画面中的位置信息。头戴式显示设备中还预设有多个第二预设图像特征,第二图像特征分别与场馆不同的位置对应,基于第二预设图像特征能够获取当前视频数据的画面在场馆活动全景画面中的位置。
提示信息可以为显示在头戴式显示设备上的移动箭头或其他形状,移动箭头用于指导用户转动方向,提示信息也可以是显示在头戴式显示设备上的移动文本信息,用户根据显示设备上显示的内容对第一摄像头角度进行调整,使得头戴式显示设备上显示的当前视频数据的画面能够跟解说音频数据的内容匹配。
在一个实施例中,生成提示信息之后,可以包括如下处理:判断当前解说音频数据中是否出现新的关键词信息;若当前解说音频数据中没有出现新的关键词信息,则重复判断当前视频数据的画面中是否存在当前目标对象的步骤;若当前解说音频数据中出现新的关键词信息,则将新的关键词信息对应的第一目标对象作为当前目标对象,并重复判断当前视频数据的画面中是否存在当前目标对象的步骤。
对当前解说音频数据中的第i个关键词信息对应的第一目标对象与实时的当前视频数据进行对比,根据提示信息转动第一摄像头寻找当前视频数据中第i个关键词信息对应的第一目标对象,在转动过程中若识别出新的第i+1个关键词信息,则第i+1个关键词信息对应的第一目标对象替代第i个关键词信息对应的第一目标对象作为当前目标对象,在当前视频数据的画面中对第i+1个关键词信息对应的第一目标对象进行查找。
在一个实施例中,第一摄像头为变焦镜头,步骤S204之后可以进行如下处理:响应于用户缩放当前视频数据内容的操作;获取操作的缩放系数;基于缩放系数对第一摄像头的焦距进行调整;将缩放图像进行显示。
头戴式显示设备上设置有用于识别用户缩放操作的按键,或者用于识别缩放手势的感应板,以使用感应板缩放当前视频数据的画面为例,用户沿朝向比赛场地、向前挥动手的动作为放大手势,向后挥动手的动作为缩小手势。当用户缩放手势为放大或缩小时,将头戴式显示设备显示的当前视频数据的画面的中点作为缩放中心,将手在感应板上移动长度与感应板总长度的比值作为缩放系数,头戴式显示设备内预设有缩放系数与第一摄像头焦距调整量的映射关系表。
当用户缩放手势为放大时,第一摄像头的焦距变长,显示在头戴式显示设备上的当前视频数据的画面放大,便于用户查看画面中的内容。
在一个实施例中,可以进行如下处理:若当前视频数据的画面中存在当前目标对象,则在当前视频数据的画面中当前目标对象进行第一标识。
当前视频数据的画面中包括当前目标对象时,为了使用户能够及时捕捉到当前目标对象,提高用户的体验感,本实施例中,通过第一标识的方式在显示的当前视频数据的画面中进行标识,第一标识可以为与第二标识显示颜色不同的标记箭头、框选或描边等形式。
基于相同的技术构思,参照图3,本发明实施例还提供了一种基于解说音频的现场视频动态调整装置300,该装置包括:
获取播放模块301,用于获取并播放现场活动的当前解说音频数据;
识别模块302,用于识别当前解说音频数据的关键词信息;
获取模块303,用于获取第一摄像头采集的现场活动的当前视频数据;
生成模块304,用于基于关键词信息和当前视频数据确定是否生成提示信息,提示信息用于提示用户调整第一摄像头的角度。
可选的,获取模块303包括:
第一获取子模块:用于基于现场活动名称获取参赛或参演的人员信息,人员信息包括人员姓名和头像;
显示子模块:用于将人员信息在当前视频数据的画面中进行显示;
第一响应子模块:用于响应于用户选择第二目标对象的操作,对当前视频数据进行图像识别;
第一标识子模块:用于在当前视频数据的画面中存在第二目标对象时,将当前视频数据的画面中的第二目标对象在进行第二标识。
可选的,生成模块304包括:
第二获取子模块:用于获取关键词信息对应的第一目标对象,第一目标对象为当前目标对象;
第一判断子模块:用于判断当前视频数据的画面中是否存在当前目标对象,若否,则生成提示信息;
第一提示子模块:用于基于提示信息对用户进行提示。
可选的,第一提示子模块包括:
第三获取子模块:用于获取现场活动的直播视频流数据,基于直播视频流数据获取当前解说音频数据实时对应的活动全景画面;
确定子模块:用于确定当前目标对象在活动全景画面中的位置信息;确定当前视频数据的画面与活动全景画面的相对位置关系;
第一生成子模块:用于基于位置信息和相对位置关系生成第一摄像头角度偏移方向;
第二生成子模块:用于基于第一摄像头角度偏移方向生成提示信息。
可选的,第一判断子模块包括:
第二标识子模块:用于在当前视频数据与当前目标对象对比一致时,在当前视频数据中对当前目标对象进行第一标识。
可选的,生成模块304还包括:
第二判断子模块:用于判断当前解说音频数据中是否出现新的关键词信息;
第一重复子模块:用于在当前解说音频数据中没有出现新的关键词信息时,重复判断当前视频数据的画面中是否存在当前目标对象的步骤;
第二重复子模块:用于在当前解说音频数据中出现新的关键词信息时,将新的关键词信息对应的第一目标对象作为当前目标对象,并重复判断当前视频数据的画面中是否存在当前目标对象的步骤。
可选的,生成模块304还包括:
第二响应子模块:用于响应于用户缩放当前视频数据内容的操作;
第四获取子模块:用于获取操作的缩放系数;
调整子模块:基于缩放系数对第一摄像头的焦距进行调整;
显示子模块:将缩放图像进行显示。
基于相同的技术构思,参照图4,本发明实施例还提供了一种基于解说音频的现场视频动态调整系统400,该系统包括:智能终端100以及音频播放设备401、摄像设备402、显示设备403,智能终端100基于网络接收现场活动的当前解说音频数据,并将当前解说音频数据发送至音频播放设备401,音频播放设备401对接收的解说音频进行播放;摄像设备402用于采集现场活动的当前视频数据,并将当前视频数据发送至智能终端100,智能终端100控制显示设备403对采集的当前视频数据进行显示;智能终端100对当前解说音频数据的关键词信息进行识别,根据关键词信息和当前视频数据进行处理后确定是否生成用于提示用户调整第一摄像头角度的提示信息。
基于相同的技术构思,本发明实施例还提供了一种计算机可读存储介质,存储有能够被处理器加载并执行如上述实施例提供的基于解说音频的现场视频动态调整方法的计算机程序。
本实施例中,计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。具体的,计算机可读存储介质可以是便携式计算机盘、硬盘、U盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、讲台随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、光盘、磁碟、机械编码设备以及上述任意组合。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种基于解说音频的现场视频动态调整方法,其特征在于,包括:
获取并播放现场活动的当前解说音频数据;
识别所述当前解说音频数据的关键词信息;
获取第一摄像头采集的所述现场活动的当前视频数据;
基于所述关键词信息和所述当前视频数据确定是否生成提示信息,所述提示信息用于提示用户调整所述第一摄像头的角度;
其中,所述基于所述关键词信息和所述当前视频数据确定是否生成提示信息,包括:获取所述关键词信息对应的第一目标对象,并将所述第一目标对象作为当前目标对象;判断所述当前视频数据的画面中是否存在所述当前目标对象;若否,则生成所述提示信息;
所述生成所述提示信息,包括:获取所述现场活动的直播视频流数据,基于所述直播视频流数据获取所述当前解说音频数据实时对应的活动全景画面;确定所述当前目标对象在所述活动全景画面中的位置信息;确定所述当前视频数据的画面与所述活动全景画面的相对位置关系;基于所述位置信息和所述相对位置关系生成第一摄像头角度偏移方向;基于所述第一摄像头角度偏移方向生成所述提示信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述当前视频数据的画面中存在所述当前目标对象,则对所述当前视频数据的画面中的所述当前目标对象进行第一标识。
3.根据权利要求1所述的方法,其特征在于,在所述生成所述提示信息之后,还包括:
判断所述当前解说音频数据中是否出现新的关键词信息;
若否,则重复所述判断所述当前视频数据的画面中是否存在所述当前目标对象的步骤;
若是,则将所述新的关键词信息对应的第一目标对象作为当前目标对象,并重复所述判断所述当前视频数据的画面中是否存在所述当前目标对象的步骤。
4.根据权利要求1所述的方法,其特征在于,在所述获取第一摄像头采集的所述现场活动的当前视频数据之后,还包括:
响应于用户选择第二目标对象的操作,对所述当前视频数据进行图像识别;
若所述当前视频数据的画面中存在所述第二目标对象,则对所述当前视频数据的画面中的所述第二目标对象进行第二标识。
5.一种基于解说音频的现场视频动态调整装置,其特征在于,包括:
获取播放模块,用于获取并播放现场活动的当前解说音频数据;
识别模块,用于识别所述当前解说音频数据的关键词信息;
获取模块,用于获取第一摄像头采集的所述现场活动的当前视频数据;
生成模块,用于基于所述关键词信息和所述当前视频数据确定是否生成提示信息,所述提示信息用于提示用户调整所述第一摄像头的角度;
所述生成模块包括:
第二获取子模块:用于获取关键词信息对应的第一目标对象,第一目标对象为当前目标对象;
第一判断子模块:用于判断当前视频数据的画面中是否存在当前目标对象,若否,则生成提示信息;
第一提示子模块:用于基于提示信息对用户进行提示;
所述第一提示子模块包括:
第三获取子模块:用于获取现场活动的直播视频流数据,基于直播视频流数据获取当前解说音频数据实时对应的活动全景画面;
确定子模块:用于确定当前目标对象在活动全景画面中的位置信息;确定当前视频数据的画面与活动全景画面的相对位置关系;
第一生成子模块:用于基于位置信息和相对位置关系生成第一摄像头角度偏移方向;
第二生成子模块:用于基于第一摄像头角度偏移方向生成提示信息。
6.一种智能终端,其特征在于,包括存储器和处理器,所述存储器上存储有能够被所述处理器加载并执行如权利要求1至4中任一种方法的计算机程序。
7.一种基于解说音频的现场视频动态调整系统,其特征在于,包括如权利要求6所述的智能终端以及音频播放设备、摄像设备、显示设备;
所述智能终端基于网络接收现场活动的当前解说音频数据,并将当前解说音频数据发送至音频播放设备,所述音频播放设备用于对接收的解说音频进行播放;
所述摄像设备用于采集现场活动的当前视频数据,并将当前视频数据发送至智能终端,智能终端用于控制显示设备对采集的当前视频数据的画面进行显示;
所述智能终端用于对当前解说音频数据的关键词信息进行识别,获取所述关键词信息对应的第一目标对象,并将所述第一目标对象作为当前目标对象;判断所述当前视频数据的画面中是否存在所述当前目标对象;若否,则智能终端用于获取所述现场活动的直播视频流数据,基于所述直播视频流数据获取所述当前解说音频数据实时对应的活动全景画面;确定所述当前目标对象在所述活动全景画面中的位置信息;确定所述当前视频数据的画面与所述活动全景画面的相对位置关系;基于所述位置信息和所述相对位置关系生成第一摄像头角度偏移方向;基于所述第一摄像头角度偏移方向生成所述提示信息。
8.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至4中任一种方法的计算机程序。
CN202210130889.XA 2022-02-12 2022-02-12 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质 Active CN114449252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210130889.XA CN114449252B (zh) 2022-02-12 2022-02-12 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210130889.XA CN114449252B (zh) 2022-02-12 2022-02-12 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质

Publications (2)

Publication Number Publication Date
CN114449252A CN114449252A (zh) 2022-05-06
CN114449252B true CN114449252B (zh) 2023-08-01

Family

ID=81372341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210130889.XA Active CN114449252B (zh) 2022-02-12 2022-02-12 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质

Country Status (1)

Country Link
CN (1) CN114449252B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065837B (zh) * 2022-05-13 2023-10-17 咪咕视讯科技有限公司 视频插播方法、装置、设备及计算机可读存储介质
CN115086611A (zh) * 2022-06-15 2022-09-20 北京宜通科创科技发展有限责任公司 一种轻量化视频监管方法、系统及设备
CN115966119B (zh) * 2022-12-28 2023-07-21 广州市昱德信息科技有限公司 基于vr技术的模拟旅游训练方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737719A (zh) * 2018-04-04 2018-11-02 深圳市冠旭电子股份有限公司 摄像头拍摄控制方法、装置、智能设备及存储介质
CN108810462A (zh) * 2018-05-29 2018-11-13 高新兴科技集团股份有限公司 一种基于位置信息的摄像机视频联动方法及系统
CN112311999A (zh) * 2019-07-26 2021-02-02 上海龙旗科技股份有限公司 智能视频音箱设备及其摄像头视角调整方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150268728A1 (en) * 2014-03-18 2015-09-24 Fuji Xerox Co., Ltd. Systems and methods for notifying users of mismatches between intended and actual captured content during heads-up recording of video
CN106534618B (zh) * 2016-11-24 2020-05-12 广州爱九游信息技术有限公司 伪现场解说实现方法、装置和系统
CN109963073A (zh) * 2017-12-26 2019-07-02 浙江宇视科技有限公司 摄像机控制方法、装置、系统和云台摄像机
WO2020042077A1 (zh) * 2018-08-30 2020-03-05 深圳市大疆创新科技有限公司 语音识别方法、装置、拍摄系统和计算机可读存储介质
CN111912424A (zh) * 2019-05-09 2020-11-10 上海博泰悦臻电子设备制造有限公司 切换导航视角的方法、导航装置及车辆
US11374819B2 (en) * 2020-01-31 2022-06-28 Wyze Labs, Inc. Systems and methods for creating virtual devices
CN111629225B (zh) * 2020-07-14 2021-10-29 腾讯科技(深圳)有限公司 虚拟场景直播的视角切换方法、装置、设备及存储介质
CN112135159B (zh) * 2020-09-18 2022-05-03 湖南联盛网络科技股份有限公司 公屏演播方法、装置、智能终端及储存介质
CN113766296B (zh) * 2021-05-10 2023-10-13 腾讯科技(深圳)有限公司 直播画面的展示方法和装置
CN113453022B (zh) * 2021-06-30 2023-05-16 康佳集团股份有限公司 一种图像显示方法、装置、电视机及存储介质
CN113542611A (zh) * 2021-07-30 2021-10-22 西安中诺通讯有限公司 一种基于语音控制启动拍照的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737719A (zh) * 2018-04-04 2018-11-02 深圳市冠旭电子股份有限公司 摄像头拍摄控制方法、装置、智能设备及存储介质
CN108810462A (zh) * 2018-05-29 2018-11-13 高新兴科技集团股份有限公司 一种基于位置信息的摄像机视频联动方法及系统
CN112311999A (zh) * 2019-07-26 2021-02-02 上海龙旗科技股份有限公司 智能视频音箱设备及其摄像头视角调整方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Kernel-Based Sensor Fusion With Application to Audio-Visual Voice Activity Detection";David Dov等;IEEE Transactions on Signal Processing;全文 *

Also Published As

Publication number Publication date
CN114449252A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN114449252B (zh) 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质
JP6435585B2 (ja) コンテンツ再生方法、コンテンツ再生装置およびコンテンツ再生プログラム
JP6267961B2 (ja) 映像提供方法および送信装置
AU2003269448B2 (en) Interactive broadcast system
US20090213270A1 (en) Video indexing and fingerprinting for video enhancement
JP2005159521A (ja) 番組選択方法
US11037603B1 (en) Computing system with DVE template selection and video content item generation feature
RU2454024C2 (ru) Система широковещания, устройство передачи и способ передачи, устройство приема и способ приема и программа
CN113891145B (zh) 一种超高清视频预处理主视角漫游播放系统及移动终端
CN114143561B (zh) 一种超高清视频多视角漫游播放方法
US11418557B1 (en) Systems and methods for automatically switching between media streams
WO2016107965A1 (en) An apparatus, a method, a circuitry, a multimedia communication system and a computer program product for selecting field-of-view of interest
JP2012151688A (ja) 映像再生装置及びその制御方法、プログラム並びに記憶媒体
CN113938713B (zh) 一种多路超高清视频多视角漫游播放方法
JP6560503B2 (ja) 盛り上がり通知システム
Patrikakis et al. Personalized coverage of large athletic events
JP2003333570A (ja) コンテンツ配信システム、そのサーバ、電子機器、コンテンツ配信方法、そのプログラム、及びそのプログラムを記録した記録媒体
CN113099250A (zh) 信息处理方法及电子设备
KR20210033759A (ko) Ai 기반 영상 자동 추적 및 재생장치와 방법
JP6363015B2 (ja) 電子機器及び表示方法
CN115941988A (zh) 一种应用于球场的全景视频生成方法及全景视频系统
WO2018094804A1 (zh) 一种图像处理方法及装置
JP2022006723A (ja) 画像管理装置、画像管理システム及び画像管理方法
JP2008067403A (ja) 番組選択方法及び番組選択制御装置
CN116546239A (zh) 视频处理方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant