CN108986803A - 场景控制方法及装置、电子设备、可读存储介质 - Google Patents

场景控制方法及装置、电子设备、可读存储介质 Download PDF

Info

Publication number
CN108986803A
CN108986803A CN201810671579.2A CN201810671579A CN108986803A CN 108986803 A CN108986803 A CN 108986803A CN 201810671579 A CN201810671579 A CN 201810671579A CN 108986803 A CN108986803 A CN 108986803A
Authority
CN
China
Prior art keywords
operational order
voice data
target subject
voice
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810671579.2A
Other languages
English (en)
Other versions
CN108986803B (zh
Inventor
胥亚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201810671579.2A priority Critical patent/CN108986803B/zh
Publication of CN108986803A publication Critical patent/CN108986803A/zh
Application granted granted Critical
Publication of CN108986803B publication Critical patent/CN108986803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开是关于一种场景控制方法及装置、电子设备、可读存储介质。所述方法包括:确定画面中的目标主体所处的场景;根据所述目标主体所处的场景确定所述目标主体需要执行的动作;根据所述需要执行的动作展示用于控制所述目标主体的操作指令;在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。可见,本实施例中用户可以根据展示的操作指令进行语音控制,无需控制手柄操作,这样能够缩短用户输入操作指令所用时间,有利于提升交互的即时性,从而提升用户使用虚拟现实设备的体验。

Description

场景控制方法及装置、电子设备、可读存储介质
技术领域
本公开涉及控制技术领域,尤其涉及一种场景控制方法及装置、电子设备、可读存储介质。
背景技术
目前,虚拟现实设备能够模拟产生一个三维空间的虚拟世界,通过视觉等感官的模拟,用户可以融入在虚拟世界中。在使用过程中,用户通过变换位置、遥控手柄等操作可以完成与虚拟世界的交互。然而,虚拟世界中存在即时性较高的场景,若用户采用遥控手柄操作控制,可能会受到熟练程度和遥控手柄灵敏度的限制,无法满足即时性的要求,影响到用户的使用体验。
发明内容
本公开提供一种场景控制方法及装置、电子设备、可读存储介质,以解决相关技术中的不足。
根据本公开实施例的第一方面,提供一种场景控制方法,包括:
确定画面中的目标主体所处的场景;
根据所述目标主体所处的场景确定所述目标主体需要执行的动作;
根据所述需要执行的动作展示用于控制所述目标主体的操作指令;
在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
可选地,所述操作指令为文本指令,展示用于控制所述目标主体的操作指令包括:
在所述画面的指定位置生成文本框;
在所述文本框内展示所述文本指令。
可选地,所述方法还包括:
在展示所述操作指令的同时,判断语音采集组件是否处于开启状态;
若否,则开启所述语音采集组件;若是,则准备接收语音数据。
可选地,所述方法还包括:
在所述设定时间内接收到语音数据时,对所述语音数据进行语音识别和语义理解;
判断所述语音数据的语义与所述操作指令是否匹配;
若所述语音数据的语义与所述操作指令匹配,则确定接收到包含所述操作指令的语音数据。
可选地,所述方法还包括:
在所述设定时间内接收到语音数据时,将所述语音数据上传至云端;由所述云端对所述语音数据进行语音识别和语义理解;
接收所述云端反馈的语义识别结果;
判断所述语义识别结果与所述操作指令是否匹配,若匹配,则确定接收到包含所述操作指令的语音数据。
可选地,所述方法还包括:
在所述目标主体执行所述操作指令对应的动作后或者到达设定时长后,停止显示所述操作指令。
根据本公开实施例的第二方面,提供一种场景控制装置,包括:
场景确定模块,用于确定画面中的目标主体所处的场景;
动作确定模块,用于根据所述目标主体所处的场景确定所述目标主体需要执行的动作;
指令展示模块,用于根据所述需要执行的动作展示用于控制所述目标主体的操作指令;
动作执行模块,用于在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
可选地,所述操作指令为文本指令,所述指令展示模块包括:
文本框生成单元,用于在所述画面的指定位置生成文本框;
指令展示单元,用于在所述文本框内展示所述文本指令。
可选地,所述装置还包括:
开启状态判断模块,用于在展示所述操作指令的同时,判断语音采集组件是否处于开启状态;
还用于在所述语音采集组件未开启时,开启所述语音采集组件;还用于在所述语音采集组件开启,准备接收语音数据。
可选地,所述装置还包括:
语音处理模块,用于在所述设定时间内接收到语音数据时,对所述语音数据进行语音识别和语义理解;
语音匹配模块,用于判断所述语音数据的语义与所述操作指令是否匹配;还用于在所述语音数据的语义与所述操作指令匹配时,确定接收到包含所述操作指令的语音数据并触发所述动作执行模块。
可选地,所述装置还包括:
数据上传模块,用于在所述设定时间内接收到语音数据时,将所述语音数据上传至云端;由所述云端对所述语音数据进行语音识别和语义理解;
语义接收模块,用于接收所述云端反馈的语义识别结果;
语义匹配模块,用于判断所述语义识别结果与所述操作指令是否匹配,还用于在所述语义识别结果与所述操作指令匹配时,确定接收到包含所述操作指令的语音数据并触发所述动作执行模块。
可选地,所述指令展示模块还用于在所述目标主体执行所述操作指令对应的动作后或者到达设定时长后,停止显示所述操作指令。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于实现第一方面所述的方法的步骤。
根据本公开实施例的第四方面,提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中通过确定画面中的目标主体所处的场景;然后,根据所述目标主体所处的场景确定所述目标主体需要执行的动作;之后,根据所述需要执行的动作展示用于控制所述目标主体的操作指令;最后,在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。可见,本实施例中用户可以根据展示的操作指令进行语音控制,无需控制手柄操作,这样能够缩短用户输入操作指令所用时间,有利于提升交互的即时性,从而提升用户使用虚拟现实设备的体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种场景控制方法的流程示意图;
图2是根据另一示例性实施例示出的一种场景控制方法的流程示意图;
图3是根据一示例性实施例示出的一种应用场景示意图;
图4是根据又一示例性实施例示出的一种场景控制方法的流程示意图;
图5~图9是根据一示例性实施例示出的一种场景控制装置的框图;
图10是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。
目前,虚拟现实设备能够模拟产生一个三维空间的虚拟世界,通过视觉等感官的模拟,用户可以融入在虚拟世界中。在使用过程中,用户通过变换位置、遥控手柄等操作可以完成与虚拟世界的交互。然而,虚拟世界中存在即时性较高的场景,若用户采用遥控手柄操作控制,可能会受到熟练程度和遥控手柄灵敏度的限制,无法满足即时性的要求,影响到用户的使用体验。
为解决上述问题,本公开实施例提供了一种场景控制方法,图1是根据一示例性实施例示出的一种场景控制方法的流程示意图。该场景控制方法可以应用于智能眼镜、智能相机等增强现实设备或者虚拟现实设备。为方便说明,后续实施例以佩戴式虚拟现实设备为例,以虚拟现实设备中的处理器为执行主体进行描述。参见图1,一种场景控制方法,包括步骤101~步骤104:
101,确定画面中的目标主体所处的场景。
本实施例中,虚拟现实设备会实时显示各种画面,用户通过观看画面可以融入到虚拟世界中。在虚拟世界中,用户可以将自身作为世界的主角或者可以扮演一个角色,后续将这种角色称之为目标主体。之后,目标主体可以根据虚拟世界的周围环境(例如山峰、森林、河流、城市等)调整移动方式(例如飞行、奔跑、跳跃、驾驶等),本实施例中将目标主体的周围环境称之为目标主体所处的场景。
基于上述原理,虚拟现实设备的处理器可以先获取画面,然后根据相关技术中图像识别算法识别出目标主体,之后处理器确定目标主体在虚拟世界中的位置,最后根据目标主体的位置确定目标主体周围环境,得到目标主体所处的场景。
例如,处理器确定出目标主体所处场景为:目标主体行进前方10米处有一条宽度小于2米的小河沟。
102,根据所述目标主体所处的场景确定所述目标主体需要执行的动作。
本实施例中,处理器根据目标主体所处的场景可以确定出目标主体需要执行的动作。
为帮忙处理器更快速的确定目标主体的动作,可以预先在存储器或者处理器存储一个场景-动作关系表,这样处理器在确定出场景后查询此场景-动作关系表即可得到对应的动作,即目标主体需要执行的动作。
可理解的是,上述场景-动作关系表可以由用户预先配置,还可以由处理器基于数据挖掘技术、神经网络算法等对大量样本数据学习得到。当然,场景-动作关系表还可以由神经网络算法替代,即处理器调用神经网络算法,并将目标主体所处场景输入到神经网络算法,通过该神经网络算法确定出目标主体需要执行的动作。技术人员可以根据具体场景进行设置,在此不作限定。
例如,在目标主体所处场景为“在目标主体行进前方10米处有一条宽度小于2米的小河沟”时,处理器可以确定出目标主体需要执行的动作为“助跑2米后跳跃”。
103,根据所述需要执行的动作展示用于控制所述目标主体的操作指令。
本实施例中,处理器将目标主体需要执行的动作生成操作指令,然后将该操作指令发送给虚拟现实设备的显示器,达到展示用于控制目标主体的操作指令。
本实施例中,操作指令可以以不同形式展示,例如可以为文本指令,也可以为图标箭头,还可以为指示线。处理器可以根据目标主体所处的场景调整操作指令的形式。例如,目标主体所处场景为平地时,可以采用指示线的方式展示操作指令;在所处场景为密集的街道时,可以采用文本指令的形式展示操作指令;在所处场景为草原时,可以采用图标箭头的形式展示操作指令。在一实施例中,操作指令为文本指令,这样用户可以快速明确操作指令,减少反应占用时间。后续实施例会详细描述,在此先不作说明。
在一实施例中,在展示操作指令的同时,处理器判断语音采集组件是否处于开启状态。判断方式可以为,处理器向语音采集组件发送状态请求,在语音采集组件返回状态信息时,根据该状态信息判断语音采集组件是否处于开启状态。例如状态信息为1,则语音采集组件为开启状态,状态信息为0则语音采集组件为关闭状态。当然,处理器还可以直接向语音采集组件发送开启指令,直接控制语音采集组件开启。技术人员可以根据具体场景确定判断方式,在此不作限定。
104,在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
本实施例中,处理器检测是否接收到包含操作指令的语音数据,若未检测到则保持检测状态,直接接收到包含操作指令的语音数据或者设定时间段到达。在接收到包含操作指令的语音数据时,处理器控制目标主体执行与操作指令对应的动作,例如,控制目标主体助跑2米后跳跃。
需要说明的是,语音数据中是否包含操作指令在后续实施例中会进行描述,在此先不作说明。
在一实施例中,虚拟现实设备的显示器显示控制目标主体的操作指令后,若处理器控制目标主体执行对应的动作后,则控制显示器停止显示本个操作指令。若处理器在操作指令设置显示时长(例如2~5s),显示器接收到操作指令开始定时,直至到达显示时长停止显示操作指令。当然,在确定接收到包含操作指令的语音数据时也可以停止显示操作指令。技术人员可以根据具体场景设置操作指令的显示时长,在此不作限定。
可见,本公开实施例中用户可以根据展示的操作指令进行语音控制,无需控制手柄操作,这样能够缩短用户输入操作指令所用的时间,有利于提升交互的即时性,从而提升用户使用虚拟现实设备的体验。
图2是根据一示例性实施例示出的一种场景控制方法的流程示意图。参见图2,一种场景控制方法,包括步骤201~步骤205:
201,确定画面中的目标主体所处的场景。
步骤201和步骤101的具体方法和原理一致,详细描述请参考图1及步骤101的相关内容,此处不再赘述。
202,根据所述目标主体所处的场景确定所述目标主体需要执行的动作。
步骤202和步骤102的具体方法和原理一致,详细描述请参考图1及步骤102的相关内容,此处不再赘述。
203,在所述画面的指定位置生成文本框。
本实施例中,处理器根据目标主体需要执行的动作生成操作指令。根据用户的配置,该操作指令为文本指令。
此情况下,处理器控制显示器在指定位置生成文本框。其中,指定位置可以是画面中的某一固定位置,还可以是与目标主体的相对固定的一个位置。可以根据具体场景进行设置,在此不作限定。
参见图3,用户佩带虚拟现实设备可以观看到画面301,处理器确认到画面301的目标主体302,目标主体所处的场景303。此场景下,处理器控制显示器在目标主体302的顶部生成文本框304。
203,在所述文本框内展示所述文本指令。
本实施例中,处理器将文本指令发送给显示器,由显示器在文本框内显示文本指令。继续参见图3,文本框内显示文本指令“助跑两米后跳跃”。
205,在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
步骤205和步骤104的具体方法和原理一致,详细描述请参考图1及步骤104的相关内容,此处不再赘述。
可见,本公开实施例中通过向用户展示文本指令,使用户非常明确的了解操作指令并直接朗读该文本指令即可,减少用户的反应时间。另外,本实施例中通过语音操作,无需用户操作手柄等设备,减少用户的操作时间。换言之,本实施例能够缩短用户输入操作指令所用的时间,有利于提升交互的即时性,从而提升用户使用虚拟现实设备的体验。
图4是根据一示例性实施例示出的一种场景控制方法的流程示意图。参见图4,一种场景控制方法,包括步骤401~步骤405:
401,确定画面中的目标主体所处的场景。
步骤401和步骤101的具体方法和原理一致,详细描述请参考图1及步骤101的相关内容,此处不再赘述。
402,根据所述目标主体所处的场景确定所述目标主体需要执行的动作。
步骤402和步骤102的具体方法和原理一致,详细描述请参考图1及步骤102的相关内容,此处不再赘述。
403,根据所述需要执行的动作展示用于控制所述目标主体的操作指令。
步骤403和步骤203以及步骤204的具体方法和原理一致,详细描述请参考图2及步骤203和步骤204的相关内容,此处不再赘述。
404,在设定时间段内接收语音数据,在接收到语音数据时对所述语音数据进行语音识别和语义理解。
本实施例中,在显示器显示操作指令的同时,语音采集模块也采集用户的语音数据,并将语音数据发送给处理器。处理器在显示器显示操作指令时开始计时,与语音采集模块进行交互以接收语音数据。
本实施例中,对语音数据进行处理的方式可以包括:
方式一,处理器处理方式。在设定时间段时接收到语音数据后,处理器可以分别调用预置的语音识别算法和语义理解算法,确定接收到的语音数据的语义。本方式适用于处理器的计算资源相当丰富或者处理器无联网的场景,这样处理器可以实时确定语音数据的语义,保证虚拟现实设备可靠使用。
方式二,云端处理方式。处理器与云端保持通信状态,在设定时间段时接收到语音数据后,处理器将语音数据上传到云端。由云端分别调用预置的语音识别算法和语义理解算法,确定接收到的语音数据的语义识别结果,之后云端将语义识别结果反馈给处理器。处理器获取到语音数据的识别结果。本方式适用于处理器的计算资源有限且处理器可靠连网的场景,这样处理器仅需要发送或者接收数据,而无需进行语音数据识别,可以保证场景控制方法可靠执行。
其中,语音识别算法和语义理解算法可以采用相关技术中的语音识别算法实现,由于本申请未对这些算法作相应的改进,在此不再详述。
405,判断语音数据的语义与操作指令是否匹配。
本实施例中,处理器判断语音数据的语义或者语义识别结果与操作指令进行匹配。在确定语音数据的语义与操作指令匹配时,转到步骤406。在确定语音数据的语义与操作指令不匹配时,转到步骤404。
406,确定接收到包含操作指令的语音数据。
407,在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
步骤407和步骤104的具体方法和原理一致,详细描述请参考图1及步骤104的相关内容,此处不再赘述。
可见,本公开实施例中通过对预设时间段内接收的语音数据识别语义,可以实时性的确定用户输入的操作指令,无需用户操作手柄等设备,减少用户的操作时间。换言之,本实施例能够缩短用户输入操作指令所用的时间,有利于提升交互的即时性,从而提升用户使用虚拟现实设备的体验。
图5是根据一示例性实施例示出的一种场景控制装置的框图,参见图5,一种场景控制装置500,包括:
场景确定模块501,用于确定画面中的目标主体所处的场景;
动作确定模块502,用于根据所述目标主体所处的场景确定所述目标主体需要执行的动作;
指令展示模块503,用于根据所述需要执行的动作展示用于控制所述目标主体的操作指令;
动作执行模块504,用于在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
本公开实施例中通过场景确定模块501确定画面中的目标主体所处的场景,然后动作确定模块502根据所述目标主体所处的场景确定所述目标主体需要执行的动作,之后指令展示模块503根据所述需要执行的动作展示用于控制所述目标主体的操作指令,这样用户可以根据展示的操作指令进行语音控制,最后动作执行模块504在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。可见,本实施例中无需用户控制手柄操作,可以缩短用户输入操作指令所用的时间,有利于提升交互的即时性,从而提升用户使用虚拟现实设备的体验。
图6是根据另一示例性实施例示出的一种场景控制装置的框图,参见图6,在图5所示场景控制装置500的基础上,所述指令展示模块503包括:
文本框生成单元601,用于在所述画面的指定位置生成文本框;
指令展示单元602,用于在所述文本框内展示所述文本指令。
本实施例中,通过在指定位置的文本框内展示文本指令,可以使用户非常明确的了解文本指令并直接朗读该文本指令即可,减少用户的反应时间,有利于提升交互的即时性,从而提升用户使用虚拟现实设备的体验。
图7是根据又一示例性实施例示出的一种场景控制装置的框图,参见图7,在图5所示场景控制装置500的基础上,还包括:
开启状态判断模块701,用于在展示所述操作指令的同时,判断语音采集组件是否处于开启状态;还用于在所述语音采集组件未开启时,开启所述语音采集组件;还用于在所述语音采集组件开启,准备接收语音数据。
本实施例中,通过判断语音采集组件是否开始,可以保证可靠地采集到用户的语音数据,保证语音控制的实时性。
图8是根据又一示例性实施例示出的一种场景控制装置的框图,参见图8,在图5所示场景控制装置500的基础上,所述装置还包括:
语音处理模块801,用于在所述设定时间内接收到语音数据时,对所述语音数据进行语音识别和语义理解;
语音匹配模块802,用于判断所述语音数据的语义与所述操作指令是否匹配;还用于在所述语音数据的语义与所述操作指令匹配时,确定接收到包含所述操作指令的语音数据并触发所述动作执行模块。
图9是根据又一示例性实施例示出的一种场景控制装置的框图,参见图9,在图5所示场景控制装置500的基础上,所述装置还包括:
数据上传模块901,用于在所述设定时间内接收到语音数据时,将所述语音数据上传至云端;由所述云端对所述语音数据进行语音识别和语义理解;
语义接收模块902,用于接收所述云端反馈的语义识别结果;
语义匹配模块903,用于判断所述语义识别结果与所述操作指令是否匹配,还用于在所述语义识别结果与所述操作指令匹配时,确定接收到包含所述操作指令的语音数据并触发所述动作执行模块504。
本实施例中通过将语音数据上传至云端,由云端对语音数据进行语音识别和语义处理,这样虚拟现实设备仅发送语音数据和接收语义识别结果即可,可以保证场景控制方法的实时性,有利于提升用户的使用体验。
在一实施例中,所述指令展示模块还用于在所述目标主体执行所述操作指令对应的动作后或者到达设定时长后,停止显示所述操作指令。
需要说明的是,本实施例提供的场景控制装置的具体原理与方法实施例的具体原理相同,可以参考方法实施例的相关内容,在此不再赘述。
图10是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,电子设备1000可以包括以下一个或多个组件:处理组件1002,存储器1004,电源组件1006,多媒体组件1008,语音采集组件1010,输入/输出(I/O)的接口1012,传感器组件1014,以及通信组件1016。其中,存储器1004用于存储处理组件1002可执行的指令。处理组件1002从存储器1004读取指令以实现:
确定画面中的目标主体所处的场景;
根据所述目标主体所处的场景确定所述目标主体需要执行的动作;
根据所述需要执行的动作展示用于控制所述目标主体的操作指令;
在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
处理组件1002通常控制装置1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理组件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。
存储器1004被配置为存储各种类型的数据以支持在装置1000的操作。这些数据的示例包括用于在装置1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1006为装置1000的各种组件提供电力。电源组件1006可以包括电源管理系统,一个或多个电源,及其他与为装置1000生成、管理和分配电力相关联的组件。
多媒体组件1008包括在所述装置1000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当装置1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
语音采集组件1010被配置为输出和/或输入音频信号。例如,语音采集组件1010包括一个麦克风(MIC),当装置1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,语音采集组件1010还包括一个扬声器,用于输出音频信号。
I/O接口1012为处理组件1002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,用于为装置1000提供各个方面的状态评估。例如,传感器组件1014可以检测到装置1000的打开/关闭状态,组件的相对定位,例如所述组件为装置1000的显示器和小键盘,传感器组件1014还可以检测装置1000或装置1000一个组件的位置改变,用户与装置1000接触的存在或不存在,装置1000方位或加速/减速和装置1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1016被配置为便于装置1000和其他设备之间有线或无线方式的通信。装置1000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1004,上述指令可由装置1000的处理器1020执行。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种场景控制方法,其特征在于,所述方法包括:
确定画面中的目标主体所处的场景;
根据所述目标主体所处的场景确定所述目标主体需要执行的动作;
根据所述需要执行的动作展示用于控制所述目标主体的操作指令;
在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
2.根据权利要求1所述的场景控制方法,其特征在于,所述操作指令为文本指令,展示用于控制所述目标主体的操作指令包括:
在所述画面的指定位置生成文本框;
在所述文本框内展示所述文本指令。
3.根据权利要求1所述的场景控制方法,其特征在于,所述方法还包括:
在展示所述操作指令的同时,判断语音采集组件是否处于开启状态;
若否,则开启所述语音采集组件;若是,则准备接收语音数据。
4.根据权利要求1所述的场景控制方法,其特征在于,所述方法还包括:
在所述设定时间内接收到语音数据时,对所述语音数据进行语音识别和语义理解;
判断所述语音数据的语义与所述操作指令是否匹配;
若所述语音数据的语义与所述操作指令匹配,则确定接收到包含所述操作指令的语音数据。
5.根据权利要求1所述的场景控制方法,其特征在于,所述方法还包括:
在所述设定时间内接收到语音数据时,将所述语音数据上传至云端;由所述云端对所述语音数据进行语音识别和语义理解;
接收所述云端反馈的语义识别结果;
判断所述语义识别结果与所述操作指令是否匹配,若匹配,则确定接收到包含所述操作指令的语音数据。
6.根据权利要求1所述的场景控制方法,其特征在于,所述方法还包括:
在所述目标主体执行所述操作指令对应的动作后或者到达设定时长后,停止显示所述操作指令。
7.一种场景控制装置,其特征在于,所述装置包括:
场景确定模块,用于确定画面中的目标主体所处的场景;
动作确定模块,用于根据所述目标主体所处的场景确定所述目标主体需要执行的动作;
指令展示模块,用于根据所述需要执行的动作展示用于控制所述目标主体的操作指令;
动作执行模块,用于在设定时间段内接收到包含所述操作指令的语音数据时,控制所述目标主体执行与所述操作指令对应的动作。
8.根据权利要求7所述的场景控制装置,其特征在于,所述操作指令为文本指令,所述指令展示模块包括:
文本框生成单元,用于在所述画面的指定位置生成文本框;
指令展示单元,用于在所述文本框内展示所述文本指令。
9.根据权利要求7所述的场景控制装置,其特征在于,所述装置还包括:
开启状态判断模块,用于在展示所述操作指令的同时,判断语音采集组件是否处于开启状态;还用于在所述语音采集组件未开启时,开启所述语音采集组件;还用于在所述语音采集组件开启时,准备接收语音数据。
10.根据权利要求7所述的场景控制装置,其特征在于,所述装置还包括:
语音处理模块,用于在所述设定时间内接收到语音数据时,对所述语音数据进行语音识别和语义理解;
语音匹配模块,用于判断所述语音数据的语义与所述操作指令是否匹配;还用于在所述语音数据的语义与所述操作指令匹配时,确定接收到包含所述操作指令的语音数据并触发所述动作执行模块。
11.根据权利要求7所述的场景控制装置,其特征在于,所述装置还包括:
数据上传模块,用于在所述设定时间内接收到语音数据时,将所述语音数据上传至云端;由所述云端对所述语音数据进行语音识别和语义理解;
语义接收模块,用于接收所述云端反馈的语义识别结果;
语义匹配模块,用于判断所述语义识别结果与所述操作指令是否匹配,还用于在所述语义识别结果与所述操作指令匹配时,确定接收到包含所述操作指令的语音数据并触发所述动作执行模块。
12.根据权利要求7所述的场景控制装置,其特征在于,所述指令展示模块还用于在所述目标主体执行所述操作指令对应的动作后或者到达设定时长后,停止显示所述操作指令。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于实现权利要求1~6任一项所述的方法的步骤。
14.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述的方法的步骤。
CN201810671579.2A 2018-06-26 2018-06-26 场景控制方法及装置、电子设备、可读存储介质 Active CN108986803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810671579.2A CN108986803B (zh) 2018-06-26 2018-06-26 场景控制方法及装置、电子设备、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810671579.2A CN108986803B (zh) 2018-06-26 2018-06-26 场景控制方法及装置、电子设备、可读存储介质

Publications (2)

Publication Number Publication Date
CN108986803A true CN108986803A (zh) 2018-12-11
CN108986803B CN108986803B (zh) 2021-05-18

Family

ID=64538817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810671579.2A Active CN108986803B (zh) 2018-06-26 2018-06-26 场景控制方法及装置、电子设备、可读存储介质

Country Status (1)

Country Link
CN (1) CN108986803B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857326A (zh) * 2019-04-25 2020-10-30 北京小米移动软件有限公司 信号控制方法及装置
WO2021155812A1 (zh) * 2020-02-07 2021-08-12 海信视像科技股份有限公司 接收装置、服务器以及语音信息处理系统
CN113724398A (zh) * 2021-09-01 2021-11-30 北京百度网讯科技有限公司 增强现实方法、装置、设备以及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100420A (ja) * 2003-09-25 2005-04-14 Microsoft Corp 現在の音声発話者の視覚的指示
US20120295708A1 (en) * 2006-03-06 2012-11-22 Sony Computer Entertainment Inc. Interface with Gaze Detection and Voice Input
CN102982223A (zh) * 2011-09-06 2013-03-20 都强 一种新设备上的格斗游戏设计方案
CN106139587A (zh) * 2016-08-05 2016-11-23 惠州Tcl移动通信有限公司 一种基于vr游戏用来规避现实环境障碍物的方法及系统
CN106267813A (zh) * 2016-09-28 2017-01-04 黄佳维 一种用于虚拟现实控制的交互手柄
CN106512393A (zh) * 2016-10-14 2017-03-22 上海异界信息科技有限公司 适用于虚拟现实环境中应用语音控制的方法和系统
CN106648111A (zh) * 2017-01-03 2017-05-10 京东方科技集团股份有限公司 虚拟现实装置
CN106657060A (zh) * 2016-12-21 2017-05-10 惠州Tcl移动通信有限公司 一种基于现实场景的vr通讯方法及系统
CN107300970A (zh) * 2017-06-05 2017-10-27 百度在线网络技术(北京)有限公司 虚拟现实交互方法和装置
CN107308638A (zh) * 2017-06-06 2017-11-03 中国地质大学(武汉) 一种虚拟现实交互的游戏型上肢康复训练系统及方法
US20170339503A1 (en) * 2015-12-27 2017-11-23 Philip Scott Lyren Switching Binaural Sound
CN206711600U (zh) * 2017-02-24 2017-12-05 广州幻境科技有限公司 基于虚拟现实环境的具有情感功能的语音交互系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100420A (ja) * 2003-09-25 2005-04-14 Microsoft Corp 現在の音声発話者の視覚的指示
US20120295708A1 (en) * 2006-03-06 2012-11-22 Sony Computer Entertainment Inc. Interface with Gaze Detection and Voice Input
CN102982223A (zh) * 2011-09-06 2013-03-20 都强 一种新设备上的格斗游戏设计方案
US20170339503A1 (en) * 2015-12-27 2017-11-23 Philip Scott Lyren Switching Binaural Sound
CN106139587A (zh) * 2016-08-05 2016-11-23 惠州Tcl移动通信有限公司 一种基于vr游戏用来规避现实环境障碍物的方法及系统
CN106267813A (zh) * 2016-09-28 2017-01-04 黄佳维 一种用于虚拟现实控制的交互手柄
CN106512393A (zh) * 2016-10-14 2017-03-22 上海异界信息科技有限公司 适用于虚拟现实环境中应用语音控制的方法和系统
CN106657060A (zh) * 2016-12-21 2017-05-10 惠州Tcl移动通信有限公司 一种基于现实场景的vr通讯方法及系统
CN106648111A (zh) * 2017-01-03 2017-05-10 京东方科技集团股份有限公司 虚拟现实装置
CN206711600U (zh) * 2017-02-24 2017-12-05 广州幻境科技有限公司 基于虚拟现实环境的具有情感功能的语音交互系统
CN107300970A (zh) * 2017-06-05 2017-10-27 百度在线网络技术(北京)有限公司 虚拟现实交互方法和装置
CN107308638A (zh) * 2017-06-06 2017-11-03 中国地质大学(武汉) 一种虚拟现实交互的游戏型上肢康复训练系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张州: "浅谈虚拟现实系统的输入设备", 《科学技术创新》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857326A (zh) * 2019-04-25 2020-10-30 北京小米移动软件有限公司 信号控制方法及装置
WO2021155812A1 (zh) * 2020-02-07 2021-08-12 海信视像科技股份有限公司 接收装置、服务器以及语音信息处理系统
CN113498538A (zh) * 2020-02-07 2021-10-12 海信视像科技股份有限公司 接收装置、服务器以及语音信息处理系统
CN113724398A (zh) * 2021-09-01 2021-11-30 北京百度网讯科技有限公司 增强现实方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN108986803B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN105204742B (zh) 电子设备的控制方法、装置及终端
WO2017032126A1 (zh) 无人机的拍摄控制方法及装置、电子设备
WO2017156954A1 (zh) 视频直播的方法及装置
WO2017036035A1 (zh) 屏幕控制方法及装置
CN112118380B (zh) 相机操控方法、装置、设备及存储介质
CN106791893A (zh) 视频直播方法及装置
JP2016531362A (ja) 肌色調整方法、肌色調整装置、プログラム及び記録媒体
CN104090721A (zh) 终端控制方法和装置
CN104639843A (zh) 图像处理方法及装置
CN105117111B (zh) 虚拟现实交互画面的渲染方法和装置
CN103955275A (zh) 应用控制方法和装置
CN107204883A (zh) 网络故障处理方法及装置
CN109947981A (zh) 视频分享方法及装置
CN108986803A (zh) 场景控制方法及装置、电子设备、可读存储介质
CN108803444A (zh) 智能设备的控制方法、装置及存储介质
CN104301610A (zh) 图像拍摄控制方法及装置
CN108156506A (zh) 弹幕信息的进度调整方法及装置
CN103955274A (zh) 应用控制方法和装置
CN107132769A (zh) 智能设备控制方法及装置
CN110636383A (zh) 一种视频播放方法、装置、电子设备及存储介质
CN105430469B (zh) 音视频数据的播放方法、装置、终端及服务器
CN108803892A (zh) 一种在输入法中调用第三方应用程序的方法和装置
WO2024067468A1 (zh) 基于图像识别的交互控制方法、装置及设备
CN105425960A (zh) 信息匹配方法及装置
CN108509863A (zh) 信息提示方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant