CN106992004A - 一种调整视频的方法及终端 - Google Patents

一种调整视频的方法及终端 Download PDF

Info

Publication number
CN106992004A
CN106992004A CN201710128950.6A CN201710128950A CN106992004A CN 106992004 A CN106992004 A CN 106992004A CN 201710128950 A CN201710128950 A CN 201710128950A CN 106992004 A CN106992004 A CN 106992004A
Authority
CN
China
Prior art keywords
video
text command
mode
command
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710128950.6A
Other languages
English (en)
Other versions
CN106992004B (zh
Inventor
郑洪超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710128950.6A priority Critical patent/CN106992004B/zh
Publication of CN106992004A publication Critical patent/CN106992004A/zh
Application granted granted Critical
Publication of CN106992004B publication Critical patent/CN106992004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例公开一种调整视频的方法及终端,涉及计算机仿真技术领域,能够在减少用户身体不适的情况下,有效调整视频。调整视频的方法包括:接收用户的语音命令;识别所述语音命令,将所述语音命令按照预设规则转换成文本命令;根据所述文本命令指示的操作,调整视频。本发明实施例提供的方案适于调整诸如全景视频、虚拟现实视频等视频。

Description

一种调整视频的方法及终端
技术领域
本发明实施例涉及计算机仿真技术领域,尤其涉及一种调整视频的方法及终端。
背景技术
随着计算机仿真技术的发展,虚拟现实(Virtual Reality,VR)技术和全景视频技术应运而生。其中,虚拟现实可以对真实世界进行模拟,创造出一个符合现实世界规律的虚拟环境,或是构建出一个与现实背道而驰的完全假想的环境,从而实现通过构建虚拟环境的方式,在用户佩戴VR头盔、VR眼镜等方便携带且具有播放功能的设备时,为给用户们带来不受真实世界时空限制的交互式体验;全景视频与虚拟现实视频类似,同样能够为用户呈现身临其境的观看体验,但与虚拟现实视频在观看过程中的区别在于无需佩戴任何输出设备,而是将全景视频投放到电脑或是电视等具有播放功能的设备上供用户观看。
在播放虚拟现实视频的过程中,用户可以通过前后走动调整全景视频的成像大小,还可以通过上下左右转动头部调整全景视频的观看视角。而在播放全景视频的过程中,用户则可以通过诸如鼠标、手机等能够外接的输入设备完成上述控制操作。
对于全景视频而言,目前可以通过在手机触摸屏上进行滑动、或是通过按压遥控器上设置的方向按钮、或是通过鼠标在指定位置的点击和滑动,调整全景视频的成像大小和观看视角。若用户试图大幅度改变成像大小和观看视角,则往往需要用户长时间执行上述操作,以逐步调整至用户所需的状态。但这样一来,就会因用户频繁执行的点击、滑动操作而造成用户手指疲劳。
对于虚拟现实视频而言,用户可以通过头部的变化来调整观看视角,通过身体的前后移动调整成像大小。由于上述调整过程主要是由用户对调整幅度进行把控,而用户很难在短短几次调整之后就将视频的状态调整至自身所需的观看状态,因此,很可能需要用户频繁转动头部或是挪动身体所处位置,以实现视频的调整。若用户在某一段时间内频繁调整头部的转动情况,则势必会造成用户头部的眩晕;若用户当前所处空间的范围较小,那么用户频繁走动进行微调,则很可能会使用户在无法看到外界环境的情况下撞伤。
由此可见,无论是全景视频还是虚拟现实视频,在调整视频(即全景视频或虚拟现实视频)过程中都存在诸多不便,且很容易使用户的身体感到不适。
发明内容
本发明实施例提供一种调整视频的方法及终端,能够在减少用户身体不适的情况下,有效调整视频。
为达到上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供一种调整视频的方法。该调整视频的方法包括:接收用户的语音命令,并识别该语音命令,将该语音命令按照预设规则转换成文本命令,之后根据该文本命令指示的操作,调整视频。相比较于现有技术中调整视频的方法,本发明实施例所提供的技术方案,能够在终端接收并识别出用户输入的语音命令之后,通过命令转换的方式,将语音命令转换为终端可以识别、执行的文本命令,之后依据文本命令指示的操作完成视频调整。也就意味着,整个调整过程中,无需用户完成摆头、移动等肢体动作,仅通过用户输入的语音命令就可以实现视频的调整。这样一来,能够在减少用户身体不适的情况下,有效调整视频。
在一种可能的设计中,根据文本命令指示的操作,调整视频,具体可以实现为:根据文本命令指示的操作方式以及预置的操作幅度,调整视频。采用预置的操作幅度对视频进行调整,可以有效缩短用户输入的语音命令的长度,即用户仅需要输入包括操作方式在内的语音命令就可以完成视频调整。此外,还降低了命令转换过程的操作难度,从转换至少两个字段减少至仅转换一个字段,也正是因为转换过程的简化,还能在一定程度上降低命令转换耗费的时间、资源,从而减少因命令转换而造成的卡顿或是等候时间较长等问题。
在一种可能的设计中,文本命令包括:操作方式和操作幅度。那么根据文本命令指示的操作,调整视频,还可以具体实现为:根据文本命令指示的操作方式以及操作幅度,调整视频。这样一来,用户就可以通过发出语音命令的方式,控制视频按照自己所需要的调整方式、调整幅度进行调整。
在一种可能的设计中,文本命令格式包括:至少第一字段和第二字段。其中,第一字段用于指示操作方式,第二字段用于指示操作幅度。那么,识别语音命令,将语音命令按照预设规则转换成文本命令,就可以具体实现为:识别语音命令的操作方式和操作幅度,根据文本命令的格式生成与语音命令对应的文本命令。需要说明的是,操作方式可以包括:视角变换和画面缩放。
在一种可能的设计中,若预置的操作幅度为可变参数,那么根据文本命令指示的操作方式以及预置的操作幅度,调整视频,则可以具体实现为:根据文本命令指示的操作和可变参数的初始取值,调整视频;若在指定时间范围内,接收到用于指示执行同一动作的语音命令,则根据上一次调整视频所采用的参数取值,按照指定规则生成当前调整视频所采用的可变参数的当前取值;在完成语音命令和文本命令之间的转换之后,根据文本命令指示的操作方式以及可变参数的当前取值,调整视频。这样一来,不仅可以在用户未输入操作幅度时完成调整,同样,为了避免用户连续多次对视频进行调整,可以将操作幅度加大后再次进行调整,以尽可能快的达到用户所期望的调整结果。
在一种可能的设计中,根据文本命令指示的操作,调整视频,可以具体实现为:根据文本命令指示的操作方式以及预置的操作幅度变化速率,调整视频。之后,若语音指令中断,按照预设规则生成终止文本命令;根据终止文本命令指示的操作方式,停止调整视频。由此可见,无论采取哪种调整方式,终端都需要进行语音识别、命令转换,及后续文本命令与操作方式之间的转换过程(可能还包括文本命令与操作幅度之间的转换过程)。在顺序实现上述方案后,则可以确保用户仅通过输入语音命令就能够完成视频调整,从而在减少用户身体不适的情况下,有效调整视频。
第二方面,本发明实施例提供一种终端。该终端可以实现上述方法实施例中所执行的功能,该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现,该硬件或软件包括一个或多个上述功能相应的模块。
在一种可能的设计中,该终端的结构中包括处理器和收发器,该处理器被配置为支持该终端执行上述方法中相应的功能。该收发器用于支持该终端与其他设备之间的通信。该终端还可以包括存储器,该存储器用于与处理器耦合,其保存该终端必要的程序指令和数据。
第三方面,本发明实施例提供了一种计算机存储介质,用于储存为上述装置所用的计算机软件指令,其包含用于执行上述方面所设计的程序。
附图说明
图1为本发明实施例提供的一种终端的结构示意图;
图2为本发明实施例提供的另一种终端的结构示意图;
图3为本发明实施例提供的一种调整视频的方法流程图;
图4为本发明实施例提供的另一种调整视频的方法流程图;
图5为本发明实施例提供的一种调整视频的过程示意图;
图6为本发明实施例提供的另一种调整视频的过程示意图;
图7为本发明实施例提供的另一种调整视频的方法流程图;
图8为本发明实施例提供的另一种调整视频的过程示意图;
图9、图10为本发明实施例提供的另一种调整视频的方法流程图;
图11为本发明实施例提供的另一种调整视频的过程示意图;
图12为本发明实施例提供的另一种调整视频的方法流程图;
图13为本发明实施例提供的另一种调整视频的过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。本文所涉及的技术术语的中英文对照参见表一内容。
表一
中文 英文全称 简称
移动高清连接技术 Mobile High-Definition Link MHL
高清晰度多媒体接口 High Definition Multimedia Interface HDMI
中央处理器 Central Processing Unit CPU
数字信号处理器 Digital Signal Processor DSP
专用集成电路 Application-Specific Integrated Circuit ASIC
现场可编程门阵列 Field Programmable Gate Array FPGA
外设部件互连标准 Peripheral Component Interconnect PCI
扩展工业标准结构 Extended Industry Standard Architecture EISA
随机存取存储器 Random Access Memory RAM
只读存储器 Read Only Memory ROM
可擦除可编程只读存储器 Erasable Programmable ROM EPROM
电可擦可编程只读存储器 Electrically EPROM EEPROM
只读光盘 Compact Disc-ROM CD-ROM
视场 Field of View FOV
本发明实施例可以用于一种终端,该终端可以为诸如VR头盔、VR眼镜等方便携带且具有播放VR视频功能的设备,或是为诸如电脑、电视等具有播放全景视频功能的设备。本发明实施例主要是针对全景视频、VR视频在观看过程中的调整方式提出的技术方案,对于终端的类型不做过多限定,只要该终端能够播放诸如全景视频、VR视频等为用户提供不受真实世界时空限制的交互式体验视频(下文统称为视频)即可。
在该终端中,至少设置有主控单元、存储单元、麦克风单元、音频识别单元、转换单元及显示屏。其中,显示屏用于将视频内容呈现给用户;主控单元作为该终端的核心部件,可以用于执行转换单元得到的文本命令指示的操作,从而完成视频调整过程,同时,管理各个功能模块(即上述各个单元)的配置;存储单元可以用于存储预置的操作幅度、预置的操作幅度变化速率等参数,以及在视频调整过程中所需的代码及产生的数据等;麦克风单元可以用于采集周围产生的音频,比如,用户输入的语音命令;音频识别单元则可以对麦克风单元采集到的语音命令进行识别,提取语音命令中承载的信息,并通过转换单元完成语音命令与文本命令之间的转换,以便于主控单元根据文本命令实现视频调整。
此外,在本发明实施例中,该终端还可以包括其他功能模块,如图1所示,终端100中设置有主控单元10、通信单元11、转换单元12、麦克风单元13、音频识别单元14、MHL/HDMI接收单元15、图像处理单元16、显示屏17、存储单元18和姿态传感器单元19。其中,通信单元11可以用于实现终端100与其他设备之间的信息传输,通信方式可以借助无线网络、蓝牙或是其他通讯方式,在此不做限定;MHL/HDMI接收单元15可以包括MHL/HDMI接收器、音频输出接口、以及视频输出接口,通过上述部件之间的协作,可以将其它设备的MHL/HDMI节目的视频信号与音频信号同时传输到该终端100上,供用户观看;图像处理单元16可以用于完成视频图像的处理操作;姿态传感器单元19主要用于检测用户的行为,比如,用户前后移动产生的位移、速度,或是用户的摆头、挥手等动作,又或是用户输入的点击、按压等操作,在此不做限定。在本发明实施例中,MHL/HDMI接收单元15、图像处理单元16和姿态传感器单元19,作为可选的功能模块。也就意味着,图1仅示出一种可能的终端结构,并不对本发明实施例所涉及的终端进行过多限定。
上述主要从各个功能模块之间交互的角度对本发明实施例提供的方案进行了简单介绍。可以理解的是,上述各个功能模块通过集成或是分设的方式,设置在终端内部,以实现上述功能,即在上述终端内部包含了执行各个功能相应的硬件结构和/或软件模块。其中,在图2所示的终端200中,通信单元11和麦克风单元12可以实现为收发器、收发电路或通信接口等,在本发明实施例中,以实现为通信接口21为例;主控单元10、转换单元12、音频识别单元14、MHL/HDMI接收单元15、图像处理单元16、可以实现为处理器22,例如具体可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等;存储单元18可以实现为存储器23;姿态传感器单元19作为可选单元,可以实现为传感器24;显示屏17则可以实现为显示器25。此外,在终端200中,还布局有一条或是多条总线26,用于连接上述各个部件,以确保各个部件之间的通信。该总线26可以为PCI总线或EISA总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
结合下文公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分,或是处理器和存储介质也可以作为分立组件。
本发明实施例提供一种调整视频的方法,该方法可以由如图1所示的终端100或是如图2所示的终端200执行,如图3所示,该方法包括:
步骤101、接收用户的语音命令。
需要说明的是,为了便于准确无误地实现本发明实施例所提供的技术方案,对于后续进行命令转换的语音命令而言,需要满足一定格式。其中,该格式会在步骤102中的实施例中描述,在此不赘述。然而,对于用户而言,用户所输入的语音命令未必会满足上述格式,对于这种情况而言,终端需要对用户输入的内容进行预处理。该预处理的过程可以为将用户输入的内容调整为上述格式的语音命令,具体实现方式可以包括:语义分析、关键词识别等,在此不做限定,其目的在于将用户输入的内容经过预处理后,能够确保终端识别语音命令,并完成语音命令与文本命令之间的转换。比如,若用户输入的内容为“向左转动15度”,则经过预处理后,得到的语音命令为“向左15度”,由此可见,经过语义分析,该终端能够将用户输入的内容中与操作方式和操作幅度无关的内容删除。除此之外,经过语义分析,还能将类似于“正向调整”、“反向调整”等词汇通过“负号”或是删除等方式进行处理,在此不一一例举。
步骤102、识别语音命令,将语音命令按照预设规则转换成文本命令。
其中,文本命令格式包括:至少第一字段和第二字段,第一字段用于指示操作方式,第二字段用于指示操作幅度;操作方式包括:视角变换和画面缩放。
在本发明实施例中,用户输入的语音命令可能有多种,但为了方便终端对语音命令进行识别,往往需要对用户输入语音命令的格式进行限定。比如,限制用户输入语音命令的字段数量,即一个字段或是两个字段等,与此同时,还可以限制语音命令中每个字段的含义,比如,在字段数量为一个时,该字段用于指示操作方式,而在字段数量为两个时,第一个字段可以用于指示操作方式,即第一字段,而第二个字段则用于指示操作幅度,即第二字段。
需要说明的是,被限制的语音命令所包括的字段数量、每个字段的含义,在此不做限定,可以根据调整视频的实际需求预先设定。
以操作方式包括视角变换为例,若语音命令为一个字段,则该语音命令具体可以为“向左”、“向右”、“向上”、“向下”;若语音命令为两个字段,则该语音命令具体可以为“向左XX度”、“向右XX度”、“向上XX度”、“向下XX度”。其中,“XX”用于表示调整过程中操作幅度对应的数值。
一般情况下,该数值的取值可以为大于或等于1且小于或等于360这一范围内的任意一个数值。当然,上述取值范围也可以由工作人员或是用户预先设置,具体设置方式可以依据个人喜好或是当前播放环境的限制条件等因素进行设置,比如,该取值范围中可以包括负数,而负数则表明向反方向进行调整,比如,“向左-20度”表示“向右20度”。同理,该取值范围中还可以包括大于360的数值,而对于那些大于360及大于360整数倍的数值,则可以认为调整幅度为该数值减去360或是减去360整数倍后得到的数值,比如,“向上725度”表示“向上5度(即725度-360度*2=5度)”。
以操作方式包括画面缩放为例,若语音命令为一个字段,则该语音命令具体可以为“放大”、“缩小”;若语音命令为两个字段,则该语音命令具体可以为“放大XX倍”、“缩小XX倍”。其中,“XX”同样用于表示调整过程中操作幅度对应的数值。
一般情况下,该数值的取值可以为大于或等于0.1且小于或等于10这一范围内的任意一个数值。当然,上述取值范围也可以由工作人员或是用户预先设置,具体设置方式可以依据个人喜好或是当前播放环境的限制条件等因素进行设置,比如,该取值范围中可以包括负数,而负数则表明采用另一种相对的调整方式进行调整,比如,“放大-2倍”表示“缩小2倍”。同理,该取值范围中还可以包括大于10的数值,而对于那些大于10的数值,则表示放大或是缩小的幅度更大。
需要说明的是,在本发明实施例中,对于调整幅度对应数值的取值并不做过多限定,只要满足预设的取值范围即可,对于那些不满足预设取值范围的数值,终端可以通过语音提示或是对话框提示等方式告知用户重新设置取值范围、或是重新输入满足预设取值范围的语音命令。
另外,对于语音命令中包括至少两个字段的情况而言,字段的组合方式可以包括多种,比如,语音命令为“向左30度”,那么第一个字段“向左”用于指示操作方式,而第二个字段“30度”用于指示操作幅度,同理,语音命令还可以为“30度向左”,那么与上述情况相反,第一个字段“30度”用于指示操作幅度,第二个字段“向左”用于指示操作方式。由此可见,无论终端采取哪一种或是多种识别方式,只要满足预设的语音命令格式即可,而对于语音命令的格式要求,在此不做限定。
在本发明实施例中,用于命令转换的预设规则可以由用户或是工作人员预先设定,其主要目的在于将用户输入的语音命令,转化为终端可以是别的文本命令。其中,具体的转换方式可以依据预设的匹配关系实现,当然,还可以依据其他能够将语音命令转换为文本命令的方式实现,上述采用匹配关系的方式仅为一种可能的示例,对于转换命令的依据在此不做限定。需要说明的是,具体转换方式会在后文针对不同情况加以说明,在此不做赘述。
步骤103、根据文本命令指示的操作,调整视频。
在本发明实施例中,调整视频的过程可以为实时调整或是周期性调整,具体调整方式会依据文本命令的不同而加以区分,在后文会例举一些可能的调整方式,在此不做赘述。
由此可见,相比较于现有技术中调整视频的方法,本发明实施例所提供的技术方案,能够在终端接收并识别出用户输入的语音命令之后,通过命令转换的方式,将语音命令转换为终端可以识别、执行的文本命令,之后依据文本命令指示的操作完成视频调整。也就意味着,整个调整过程中,无需用户完成摆头、移动等肢体动作,仅通过用户输入的语音命令就可以实现视频的调整。这样一来,能够在减少用户身体不适的情况下,有效调整视频。
若要完成视频的调整,则必然需要确定操作方式及操作幅度,或是用于表示操作幅度变化趋势的参数,因此,若语音命令中仅包括操作方式,则依据该语音命令所生成的文本命令也仅能指示相应的操作方式。这样一来,则需要采用预先配置好的操作幅度完成视频调整操作。因此,在本发明实施例的一个实现方式中,提供了一种根据预置的操作幅度调整视频的实现方式,即在如图3所示的实现方式的基础上,还可以实现为如图4所示的实现方式。其中,步骤103根据文本命令指示的操作,调整视频可以具体实现为步骤1031:
步骤1031、根据文本命令指示的操作方式以及预置的操作幅度,调整视频。
在本发明实施例中,调整视频的过程都可以被视为如图5所示的处理流程。比如,在用户输入的语音命令为“向左”后,如图6所示为以预置的操作幅度为调整依据,完成视频调整的处理流程。由于用户输入的语音命令中并未包括类似于20度、45度等用于表示操作幅度的信息,因此,终端会采用预置的操作幅度完成视频调整。比如,在本发明实施例中,预置的操作幅度为10度。需要说明的是,用户输入的语音指令仅包括操作方式,因此,在进行命令转换之后,得到的文本命令中可以包括或是不包括“:”,且这个字符对于调整过程并不会带来任何影响,图6中仅示出了包括“:”的情况,但并不作为对命令转换的限制。
需要说明的是,预置的操作幅度可以由工作人员或用户预先设定,在设定过程中可以参考历史经验值,也可以根据当前使用该终端的用户喜好进行设定,具体的设置方式及具体的数值大小,在此不做限定。
由此可见,采用预置的操作幅度对视频进行调整,可以有效缩短用户输入的语音命令的长度,即用户仅需要输入包括操作方式在内的语音命令就可以完成视频调整。此外,还降低了命令转换过程的操作难度,从转换至少两个字段减少至仅转换一个字段,也正是因为转换过程的简化,还能在一定程度上降低命令转换耗费的时间、资源,从而减少因命令转换而造成的卡顿或是等候时间较长等问题。
若用户输入的文本命令包括操作方式和操作幅度,那么终端可以直接根据上述操作方式和操作幅度对视频进行调整。因此,在本发明实施例的一个实现方式中,在如图3所示的实现方式的基础上,还可以实现为如图7所示的实现方式。其中,步骤103根据文本命令指示的操作,调整视频可以具体实现为步骤1032:
步骤1032、根据文本命令指示的操作方式以及操作幅度,调整视频。
需要说明的是,即便此时终端本地存储有预置的操作幅度,或是终端能够通过网络等传输途径获取到预置的操作幅度,但由于语音命令中包括操作幅度,因此,终端优先使用语音命令中的操作幅度对视频进行调整。比如,文本命令为“Left:30”,则该文本命令对应的变换方法为将原来水平视角向左调整30度。例如,x表示左右视角值,x=-90为正前方,向左30度就是x+30=-60。同理,y表示垂直视角,y=0表示水平视角,向上30度就是y+30=30。又比如,如图8所示,文本命令为“Enlarge:2”,则该文本命令对应的变换方法为将原来的投影矩阵放大2倍,即y方向视角fov,放大为原来2倍。
这样一来,用户就可以通过发出语音命令的方式,控制视频按照自己所需要的调整方式、调整幅度进行调整。
在本发明实施例的一个实现方式中,提供了一种具体用于完成语音命令与文本命令之间转换的方式。因此,在如图3至图7所示的实现方式的基础上,以图3为例,还可以实现为如图9所示的实现方式。其中,步骤102、识别语音命令,将语音命令按照预设规则转换成文本命令,可以具体实现为步骤1021:
步骤1021、识别语音命令的操作方式和操作幅度,根据文本命令的格式生成与语音命令对应的文本命令。
以采用预设的匹配关系完成命令转换为例,如表二所示,操作方式可以包括视角变换或画面缩放。
表二
操作方式 具体内容 取值范围 单位
视角变换 Left,Right,Up,Down [1,360]
画面缩放 Enlarge,Reduce [0.1,10]
其中,用于表示视角变换的语音命令经转换后得到文本命令的具体内容至少包括Left、Right、Up、Down中的任意一项,在本发明实施例中,取值范围为大于或等于1且小于或等于360的度数;用于表示画面缩放的语音命令经转换后得到文本命令的具体内容至少包括Enlarge,Reduce中的任意一项,在本发明实施例中,取值范围为大于或等于0.1且小于或等于10的倍数。其中,Left用于表示向左调整视角的命令,Right用于表示向右调整视角的命令,Up用于表示向上调整视角的命令,Down用于表示向下调整视角的命令;Enlarge用于表示放大画面的命令,Reduce用于表示缩小画面的命令。
在本发明实施例中,文本命令的格式具体可以为command.txt,且文本命令的内容只包括一行。对于至少两个字段的文本命令而言,每个字段之间可以使用诸如冒号等特定字符或是字符串分隔,以区分操作方式、操作幅度和其他可能存在与文本命令中的内容。以文本命令包括两个字段为例,Left:30用于表示“向左30度”,同理,Enlarge:2用于表示“放大2倍”。需要说明的是,文本命令的格式不仅限于上述例举的command.txt格式,还可以为终端可识别的其他文本命令,并且,对于文本命令的内容也不做限定,比如,文本命令可以包括一行或是多行,对于多行文本命令的情况而言,该文本命令可能为连续执行的多个命令,且每行用于表示一个文本命令,或是该文本命令用于表示一个文本命令,每行用于表示这一个文本命令中的某一参数,具体文本命令的格式、内容在此不做限定。
考虑到视频调整过程可能是一个微调或是连续调整的过程,因此,在用户未输入指示操作幅度的情况下,还可以将预置的操作幅度设置为可变参数,之后以可变参数为依据进行一段时间内的视频调整,或是连续几次的视频调整。因此,在本发明实施例的一个实现方式中,若预置的操作幅度为可变参数,则在如图4所示的实现方式的基础上,还可以实现为如图10所示的实现方式。其中,步骤1031根据文本命令指示的操作方式以及预置的操作幅度,调整视频,还可以具体实现为步骤201;在执行完步骤201之后,若在指定时间范围内,接收到用于指示执行同一动作的语音命令,则还可以执行步骤202和步骤203:
步骤201、根据文本命令指示的操作和可变参数的初始取值,调整视频。
步骤202、根据上一次调整视频所采用的参数取值,按照指定规则生成当前调整视频所采用的可变参数的当前取值。
其中,指定规则可以为:以固定步长为变化幅度,比如,可变参数的初始取值为10度,固定步长为10度,那么在第二次对视频进行调整时所采用的参数取值为20度(即10度+10度=20度),同理,第三次对视频进行调整时所采用的参数取值为30度(即20度+10度=30度);或是按照一定规律逐步增加或是减小步长,并以该步长为变化幅度,比如,可变参数的初始取值仍为10度,步长初始值为10度,那么在第二次对视频进行调整时所采用的参数取值为20度(即10度+10度=20度),第三次对视频进行调整时所采用的参数取值为25度(即20度+10度/2=25度,也就是将下一次的步长确定为上一次步长的1/2),或是所采用的参数取值为35度(即20度+10度*3/2=35度,也就是将下一次的步长确定为上一次步长的3/2),或是按照一定规律使步长依次递减或是递增。需要说明的是,在本发明实施例中,对指定规则的设置方式不做限定,不仅限于上述示例。
步骤203、在完成语音命令和文本命令之间的转换之后,根据文本命令指示的操作方式以及可变参数的当前取值,调整视频。
例如,如图11所示,为在图6基础上再次进行调整时的示意图。在用户第一次输入“向左”的语音命令后,采用可变参数的初始取值,即默认值10度进行视频调整,之后在用户再次输入“向左”的语音命令后,则根据前一次或是前几次的命令做调整(在本发明实施例中,以根据前一次命令做调整为例),将可变参数的取值调整为20度,因此,按照向左20度的命令对视频进行调整。
这样一来,不仅可以在用户未输入操作幅度时完成调整,同样,为了避免用户连续多次对视频进行调整,可以将操作幅度加大后再次进行调整,以尽可能快的达到用户所期望的调整结果。
考虑到用户的操作习惯不同,对于有些用户而言,针对多次调整的情况,即便是采用上述调整方案,仍然需要用户持续且反复输入相同语音命令,为了更进一步简化用户操作,用户可以通过输入持续不断的语音命令,以控制视频持续调整,直至用户输入的语音命令终止。因此,在本发明实施例的一个实现方式中,在如图3所示的实现方式的基础上,还可以实现为如图12所示的实现方式。其中,步骤103根据文本命令指示的操作,调整视频可以具体实现为步骤1032;在执行完步骤步骤1032之后,还可以执行步骤301和步骤302::
步骤1032、根据文本命令指示的操作方式以及预置的操作幅度变化速率,调整视频。
步骤301、若语音指令中断,按照预设规则生成终止文本命令。
步骤302、根据终止文本命令指示的操作方式,停止调整视频。
比如,如图13所示为用户采用持续长音的方式对视频进行调整及终止调整的过程。在本发明实施例中,用户输入的语音命令还可以为“向左——”,即第一字段用于表示操作方式,第二字段用于表示持续操作。经过语音识别、命令转换,得到的文本命令为“Left:——”,之后终端采用预置的操作幅度变化速率,比如,10度/秒,对视频进行调整,直至用户输入的语音命令的声音停止。此时,终端未识别到任何能够继续指示相应操作的语音命令,则默认本次调整过程终止,经过命令转换后,得到文本命令“Stop”,从而退出循环过程,结束本次视频调整。需要说明的是,若用户输入的语音命令一直为终止,则继续按照10度/秒的调整速度对视频持续进行调整。
由此可见,无论采取哪种调整方式,终端都需要进行语音识别、命令转换,及后续文本命令与操作方式之间的转换过程(可能还包括文本命令与操作幅度之间的转换过程)。在顺序实现上述方案后,则可以确保用户仅通过输入语音命令就能够完成视频调整,从而在减少用户身体不适的情况下,有效调整视频。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明实施例的保护范围之内。

Claims (18)

1.一种调整视频的方法,其特征在于,所述方法包括:
接收用户的语音命令;
识别所述语音命令,将所述语音命令按照预设规则转换成文本命令;
根据所述文本命令指示的操作,调整视频。
2.如权利要求1所述的方法,其特征在于,所述根据所述文本命令指示的操作,调整视频,包括:
根据所述文本命令指示的操作方式以及预置的操作幅度,调整所述视频。
3.如权利要求1所述的方法,其特征在于,所述文本命令包括:操作方式和操作幅度,所述根据所述文本命令指示的操作,调整视频,包括:
根据所述文本命令指示的操作方式以及操作幅度,调整所述视频。
4.如权利要求1-3任一项所述的方法,其特征在于,所述文本命令格式包括:至少第一字段和第二字段,所述第一字段用于指示所述操作方式,所述第二字段用于指示所述操作幅度。
5.如权利要求4所述的方法,其特征在于,所述识别所述语音命令,将所述语音命令按照预设规则转换成文本命令,包括:
识别所述语音命令的操作方式和操作幅度,根据所述文本命令的格式生成与所述语音命令对应的文本命令。
6.如权利要求1-5任一项所述的方法,其特征在于,所述操作方式包括:视角变换和画面缩放。
7.如权利要求2所述的方法,其特征在于,若所述预置的操作幅度为可变参数,所述根据所述文本命令指示的操作方式以及预置的操作幅度,调整所述视频,包括:
根据所述文本命令指示的操作和所述可变参数的初始取值,调整所述视频;
若在指定时间范围内,接收到用于指示执行同一动作的语音命令,则所述方法还包括:
根据上一次调整所述视频所采用的参数取值,按照指定规则生成当前调整所述视频所采用的所述可变参数的当前取值;
在完成语音命令和文本命令之间的转换之后,根据所述文本命令指示的操作方式以及所述可变参数的当前取值,调整所述视频。
8.如权利要求1所述的方法,其特征在于,所述根据所述文本命令指示的操作,调整视频,包括:
根据所述文本命令指示的操作方式以及预置的操作幅度变化速率,调整所述视频。
9.如权利要求8所述的方法,其特征在于,在所述调整所述视频之后,所述方法还包括:
若所述语音指令中断,按照所述预设规则生成终止文本命令;
根据所述终止文本命令指示的操作方式,停止调整所述视频。
10.一种终端,其特征在于,所述终端包括:
麦克风单元,用于接收用户的语音命令;
音频识别单元,用于识别所述麦克风单元接收的所述语音命令,并通过转换单元将所述语音命令按照预设规则转换成文本命令;
主控单元,用于根据所述转换单元得到的所述文本命令指示的操作,调整视频。
11.如权利要求10所述的终端,其特征在于,所述主控单元,具体用于:
根据所述转换单元得到的所述文本命令指示的操作方式以及存储单元中预置的操作幅度,调整所述视频。
12.如权利要求10所述的终端,其特征在于,所述文本命令包括:操作方式和操作幅度,所述主控单元,具体用于:
根据所述转换单元得到的所述文本命令指示的操作方式以及操作幅度,调整所述视频。
13.如权利要求10-12任一项所述的终端,其特征在于,所述文本命令格式包括:至少第一字段和第二字段,所述第一字段用于指示所述操作方式,所述第二字段用于指示所述操作幅度。
14.如权利要求13所述的终端,其特征在于,所述音频识别单元,具体用于:
识别所述语音命令的操作方式和操作幅度,并通过所述转换单元根据所述文本命令的格式生成与所述语音命令对应的文本命令。
15.如权利要求10-14任一项所述的终端,其特征在于,所述操作方式包括:视角变换和画面缩放。
16.如权利要求11所述的终端,其特征在于,若所述预置的操作幅度为可变参数,所述主控单元,具体用于:
根据所述转换单元得到的所述文本命令指示的操作和所述可变参数的初始取值,调整所述视频;
若在指定时间范围内,所述麦克风单元接收到用于指示执行同一动作的语音命令,则所述主控单元,还用于:
根据上一次调整所述视频所采用的参数取值,按照指定规则生成当前调整所述视频所采用的所述可变参数的当前取值;
在完成语音命令和文本命令之间的转换之后,根据所述文本命令指示的操作方式以及所述可变参数的当前取值,调整所述视频。
17.如权利要求10所述的终端,其特征在于,所述主控单元,具体用于:
根据所述文本命令指示的操作方式以及所述存储单元中预置的操作幅度变化速率,调整所述视频。
18.如权利要求17所述的终端,其特征在于,在所述调整所述视频之后,所述转换单元,用于若所述麦克风单元接收到的所述语音指令中断,按照所述预设规则生成终止文本命令;
所述主控单元,还用于根据所述转换单元得到的所述终止文本命令指示的操作方式,停止调整所述视频。
CN201710128950.6A 2017-03-06 2017-03-06 一种调整视频的方法及终端 Active CN106992004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710128950.6A CN106992004B (zh) 2017-03-06 2017-03-06 一种调整视频的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710128950.6A CN106992004B (zh) 2017-03-06 2017-03-06 一种调整视频的方法及终端

Publications (2)

Publication Number Publication Date
CN106992004A true CN106992004A (zh) 2017-07-28
CN106992004B CN106992004B (zh) 2020-06-26

Family

ID=59412627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710128950.6A Active CN106992004B (zh) 2017-03-06 2017-03-06 一种调整视频的方法及终端

Country Status (1)

Country Link
CN (1) CN106992004B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108008808A (zh) * 2017-12-21 2018-05-08 维沃移动通信有限公司 运行参数的调整方法和移动终端
CN109767771A (zh) * 2019-03-04 2019-05-17 出门问问信息科技有限公司 一种播放进度控制方法、智能穿戴设备及多媒体显示设备
CN110795170A (zh) * 2018-08-02 2020-02-14 珠海金山办公软件有限公司 一种交互信息处理的方法、装置、计算机存储介质及终端
CN111373473A (zh) * 2018-03-05 2020-07-03 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
CN112423067A (zh) * 2020-11-17 2021-02-26 腾讯科技(北京)有限公司 视频的播放方法、装置、遥控设备及存储介质
WO2023051138A1 (zh) * 2021-09-29 2023-04-06 腾讯科技(深圳)有限公司 沉浸媒体的数据处理方法、装置、设备、存储介质及程序产品
US11636879B2 (en) 2019-11-18 2023-04-25 Beijing Bytedance Network Technology Co., Ltd. Video generating method, apparatus, electronic device, and computer-readable medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1381131A (zh) * 2000-03-21 2002-11-20 皇家菲利浦电子有限公司 自动家庭视频制作摄像机-录像机
US20140191945A1 (en) * 2013-01-07 2014-07-10 Hon Hai Precision Industry Co., Ltd. Electronic device and method for adjusting display screen
CN105357585A (zh) * 2015-08-29 2016-02-24 华为技术有限公司 对视频内容任意位置和时间播放的方法及装置
CN105931645A (zh) * 2016-04-12 2016-09-07 深圳市京华信息技术有限公司 虚拟现实设备的控制方法、装置及虚拟现实设备、系统
CN106710590A (zh) * 2017-02-24 2017-05-24 广州幻境科技有限公司 基于虚拟现实环境的具有情感功能的语音交互系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1381131A (zh) * 2000-03-21 2002-11-20 皇家菲利浦电子有限公司 自动家庭视频制作摄像机-录像机
US20140191945A1 (en) * 2013-01-07 2014-07-10 Hon Hai Precision Industry Co., Ltd. Electronic device and method for adjusting display screen
CN105357585A (zh) * 2015-08-29 2016-02-24 华为技术有限公司 对视频内容任意位置和时间播放的方法及装置
CN105931645A (zh) * 2016-04-12 2016-09-07 深圳市京华信息技术有限公司 虚拟现实设备的控制方法、装置及虚拟现实设备、系统
CN106710590A (zh) * 2017-02-24 2017-05-24 广州幻境科技有限公司 基于虚拟现实环境的具有情感功能的语音交互系统及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108008808A (zh) * 2017-12-21 2018-05-08 维沃移动通信有限公司 运行参数的调整方法和移动终端
CN108008808B (zh) * 2017-12-21 2020-01-31 维沃移动通信有限公司 运行参数的调整方法和移动终端
CN111373473A (zh) * 2018-03-05 2020-07-03 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
CN111373473B (zh) * 2018-03-05 2023-10-20 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
CN110795170A (zh) * 2018-08-02 2020-02-14 珠海金山办公软件有限公司 一种交互信息处理的方法、装置、计算机存储介质及终端
CN109767771A (zh) * 2019-03-04 2019-05-17 出门问问信息科技有限公司 一种播放进度控制方法、智能穿戴设备及多媒体显示设备
US11636879B2 (en) 2019-11-18 2023-04-25 Beijing Bytedance Network Technology Co., Ltd. Video generating method, apparatus, electronic device, and computer-readable medium
CN112423067A (zh) * 2020-11-17 2021-02-26 腾讯科技(北京)有限公司 视频的播放方法、装置、遥控设备及存储介质
WO2023051138A1 (zh) * 2021-09-29 2023-04-06 腾讯科技(深圳)有限公司 沉浸媒体的数据处理方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN106992004B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN106992004A (zh) 一种调整视频的方法及终端
TWI683578B (zh) 視頻通信的方法、裝置、終端及電腦可讀儲存介質
US11132775B2 (en) Image processing apparatus and method of operating the same
CN108520743A (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
CN107340859A (zh) 多模态虚拟机器人的多模态交互方法和系统
DE102016214955A1 (de) Latenzfreier digitaler Assistent
US10783884B2 (en) Electronic device-awakening method and apparatus, device and computer-readable storage medium
CN102945120B (zh) 一种基于儿童应用中的人机交互辅助系统及交互方法
KR102369083B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
CN110209803B (zh) 故事生成方法、装置、计算机设备及存储介质
Rodolitz et al. Accessibility of voice-activated agents for people who are deaf or hard of hearing
CN113793398A (zh) 基于语音交互的绘画方法与装置、存储介质和电子设备
WO2022166897A1 (zh) 脸型调整图像生成方法、模型训练方法、装置和设备
US11822768B2 (en) Electronic apparatus and method for controlling machine reading comprehension based guide user interface
CN107506224A (zh) 应用程序升级的提示方法、装置、服务器及存储介质
JP5851051B2 (ja) 情報処理装置、サーバ装置、対話システムおよびプログラム
CN110109730A (zh) 用于提供视听反馈的设备、方法和图形用户界面
CN113205569A (zh) 图像绘制方法及装置、计算机可读介质和电子设备
CN117493593A (zh) 多端融合的演讲稿展示方法和系统
TW200821894A (en) Voice control system and method for controlling computers
KR20210153386A (ko) 멀티미디어 컨텐츠를 생성하는 디스플레이 장치 및 그 동작방법
CN107391015A (zh) 一种智能平板的控制方法、装置、设备及存储介质
WO2020159621A1 (en) Avatar presenting method and electronic device
CN114417052A (zh) 界面展示方法、智能终端及存储介质
WO2023206928A1 (zh) 语音处理方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant