CN112102836B - 语音控制屏幕显示方法、装置、电子设备和介质 - Google Patents
语音控制屏幕显示方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN112102836B CN112102836B CN202011290927.5A CN202011290927A CN112102836B CN 112102836 B CN112102836 B CN 112102836B CN 202011290927 A CN202011290927 A CN 202011290927A CN 112102836 B CN112102836 B CN 112102836B
- Authority
- CN
- China
- Prior art keywords
- user
- operated
- information
- name
- media information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000004044 response Effects 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 6
- 238000011022 operating instruction Methods 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
- G06F3/1423—Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开的实施例公开了语音控制屏幕显示方法、装置、电子设备和介质。该方法的一具体实施方式包括:采集用户的语音信息;对所述语音信息进行识别,得到操作指令;根据用户的控制权限和所述操作指令,控制目标屏幕的至少一个分屏进行媒体信息显示。该实施方式通过语音对目标屏幕进行控制,更加智能。控制的过程中不需要人工进行电脑操作,降低了人力成本,同时也提升了屏幕显示的控制效率。
Description
技术领域
本公开的实施例涉及语音信号处理技术领域,具体涉及语音控制屏幕显示方法、装置、电子设备和介质。
背景技术
在一些大型展厅中,会使用多个分屏(即独立的显示器或屏幕)组成一个屏幕,用于播放各种信息。现有技术中,对在屏幕上显示的信息主要是通过人工操作电脑的方式来实现。通过使用发现,这种控制方式不能及时响应用户需求,从而导致控制效率较低,且耗费人力。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了语音控制屏幕显示方法、装置、电子设备和介质,来解决以上背景技术部分提到的技术问题。
第一方面,本公开的一些实施例提供了一种语音控制屏幕显示方法,该方法包括:采集用户的语音信息;对上述语音信息进行识别,得到操作指令;根据用户的控制权限和所述操作指令,控制目标屏幕的至少一个分屏进行媒体信息显示。
第二方面,本公开的一些实施例提供了一种语音控制屏幕显示装置,装置包括:采集单元,被配置成采集用户的语音信息;识别单元,被配置成对上述语音信息进行识别,得到操作指令;显示单元,被配置成根据用户的控制权限和所述操作指令,控制目标屏幕的至少一个分屏进行媒体信息显示。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中所描述的方法。
本公开的上述各个实施例中的一个实施例具有如下有益效果:本公开的技术方案通过利用语音识别技术,对用户的语音信息进行识别,获取对目标屏幕显示进行控制的操作指令,利用该操作指令来控制在目标屏幕上显示信息。相比于现有技术,本公开的技术方案更加智能,不需要人工电脑操作,降低了人力成本;同时,也提升了屏幕显示的控制效率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的一些实施例的语音控制屏幕显示方法的一个应用场景的示意图;
图2是根据本公开的语音控制屏幕显示方法的一些实施例的流程图;
图3是根据本公开的语音控制屏幕显示方法的另一些实施例的流程图;
图4是根据本公开的语音控制屏幕显示装置的一些实施例的结构示意图;
图5是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开一些实施例的语音控制屏幕显示方法的一个应用场景的示意图。
在图1的应用场景中,首先,计算设备101可以采集用户的语音信息102。然后,计算设备101可以对语音信息102进行识别(如附图标记103所示),得到操作指令104。之后,计算设备101可以基于操作指令104和用户的控制权限105,控制目标屏幕106的至少一个分屏进行媒体信息显示,如附图标记107所示。
需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
继续参考图2,示出了根据本公开的语音控制屏幕显示方法的一些实施例的流程200。该方法可以由-图1中的计算设备101来执行。该语音控制屏幕显示方法,包括以下步骤:
步骤201,采集用户的语音信息。
在一些实施例中,语音控制屏幕显示方法的执行主体(如图1所示的计算设备101)可以通过麦克风或者麦克风阵列采集用户的语音信息。这里,麦克风阵列用于将至少一个麦克风的信号耦合为一个信号,信号强度高,可以消除环境中的噪音干扰。语音信息可以是对采集到的声信号进行处理得到的语音。
步骤202,对所述语音信息进行识别,得到操作指令。
在一些实施例中,上述执行主体可以通过如下步骤得到操作指令:第一步,上述执行主体可以对上述语音信息进行语音识别,得到识别文本。第二步,上述执行主体可以对得到的识别文本进行关键词检索,得到检索结果。这里,关键词可以是用于描述控制指令和控制目标的词语。作为示例,控制指令可以是“控制目标屏幕播放视频”,也可以是“控制分屏显示图片”。作为另一示例,控制目标可以是目标屏幕,可以是目标屏幕的至少一个分屏,也可以是媒体信息。作为另一示例,关键词可以是“控制目标屏幕”,可以是“控制分屏显示”,也可以是“播放视频”。第三步,上述执行主体可以将检索结果进行组合,得到操作指令。作为示例,检索结果可以是“控制分屏A;播放视频”,那么,操作指令可以是“控制分屏A播放视频”。
步骤203,根据用户的控制权限和所述操作指令,控制目标屏幕的至少一个分屏进行媒体信息显示。
在一些实施例中,首先,上述执行主体可以对上述语音信息进行声纹识别,得到识别结果。然后,上述执行主体可以基于上述识别结果,确定上述用户的身份信息。之后,上述执行主体可以基于上述身份信息,获取上述用户的控制权限。最后,上述执行主体可以基于上述操作指令,控制目标屏幕的至少一个分屏进行媒体信息显示。这里,目标屏幕可以是预先设定的用于播放媒体信息的屏幕,上述目标屏幕可以具有扬声器功能,上述目标屏幕还可以具有图像采集功能。作为示例,媒体信息可以是图片,也可以是视频。
作为示例,操作指令可以是“使用目标屏幕的分屏A播放名为‘图片剪辑教程’的视频”。上述执行主体可以控制“分屏A”播放媒体信息“图片剪辑教程”。
在一些实施例的一些可选的实现方式中,上述步骤204中,在对目标屏幕的至少一个分屏进行媒体信息显示时,还可以根据上述操作指令、上述用户的控制权限和预设显示方式,对上述目标屏幕的至少一个分屏进行媒体信息显示。此时,步骤204可以为:根据所述操作指令、用户的控制权限和预设显示方式,对上述目标屏幕的至少一个分屏进行媒体信息显示。这里,预设显示方式可以是对上述至少一个分屏的提示显示。例如,点亮显示,例如,改变上述至少一个分屏的亮度至预设亮度值;抖动显示等。
本公开的上述各个实施例中的一个实施例具有如下有益效果:本公开的技术方案通过利用语音识别技术,对用户的语音信息进行识别,获取对目标屏幕显示进行控制的操作指令,利用该操作指令来控制在目标屏幕上显示信息。相比于现有技术,本公开的技术方案更加智能,不需要人工电脑操作,降低了人力成本;同时,也提升了屏幕显示的控制效率。
继续参考图3,示出了根据本公开的语音控制屏幕显示方法的另一些实施例的流程300。该方法可以由图1中的计算设备101来执行。该语音控制屏幕显示方法,包括以下步骤:
步骤301,采集用户的语音信息。
在一些实施例中,步骤301的具体实现及所带来的技术效果可以参考图2对应的那些实施例中的步骤201,在此不再赘述。
步骤302,对所述语音信息进行声纹识别,得到识别结果。
在一些实施例中,上述执行主体可以对上述语音信息进行声纹识别,得到识别结果。这里,声纹识别用于辨别用户。具体地,对所述语音信息进行声纹识别,获得该语音信息的声纹特征,然后将该声纹特征与预设身份数据库中的数据进行匹配,得到识别结果。识别结果可以是“该语音信息与用户A匹配成功”或“该语音信息与用户A匹配失败”。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过如下步骤得到识别结果:第一步,上述执行主体可以采集上述用户的面部图像。第二步,上述执行主体可以对上述面部图像进行识别。这里,识别可以是对上述面部图像进行特征提取,获得面部特征,以及利用所述面部特征与预设对比图像库进行匹配得到匹配结果作为识别结果的方法。
在一些实施例中,通过利用不同途径(声纹识别和面部图像识别)来确定用户的身份,可以避免单一方式造成的误差,使得得到的识别结果准确度更高。
步骤303,基于所述识别结果,确认所述用户的身份信息。
在一些实施例中,上述执行主体可以基于上述识别结果,确定上述用户的身份信息。作为示例,识别结果可以是“该语音信息与用户B匹配成功”。那么,上述执行主体可以将“用户B”的身份信息确定为上述用户的身份信息。识别结果也可以是“该语音信息匹配失败”。那么,上述执行主体无法执行操作,可选的,上述执行主体可以选择让用户输入身份信息获得控制权限。
步骤304,基于所述身份信息,获取所述用户的控制权限。
在一些实施例中,上述执行主体可以基于上述身份信息,获取上述用户的控制权限。作为示例,上述执行主体基于上述身份信息,从预设用户控制权限表中抽取出身份信息与上述身份信息相同的控制权限名称。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过如下步骤得到上述用户的控制权限:第一步,上述执行主体可以采集上述用户的电子标识;第二步,上述执行主体可以对上述电子标识进行标识识别,得到识别结果;第三步,上述执行主体可以基于上述识别结果,确定上述用户对上述目标屏幕的控制权限。这里,电子标识可以是采集到的用户佩戴的身份标识的电子图像。作为示例,用户佩戴的身份标识可以是工牌,也可以是嵌有预先制作的智能芯片的身份牌。作为示例,上述对电子标识的识别可以是对工牌上工牌号码的识别。
步骤305,对所述语音信息进行识别,得到操作指令。
在一些实施例中,步骤305的具体实现及所带来的技术效果可以参考图2对应的那些实施例中的步骤202,在此不再赘述。
步骤306,对所述操作指令进行分析,确定所述操作指令中是否包含被操作分屏名称和被操作媒体信息名称。
在一些实施例中,上述执行主体可以对上述操作指令进行分析,确定上述操作指令中是否包含被操作分屏的名称和被操作媒体信息名称。这里,分析可以是用于确定操作指令中是否包含用于表示被操作分屏的名称和被操作媒体信息名称的字样的方法。
作为示例,操作指令可以是“控制目标屏幕的分屏C对视频名称为‘我爱做菜’的视频进行播放”。上述执行主体可以对操作指令进行分析,得到分析结果“操作指令中包含被操作分屏名称‘分屏C’和被操作媒体信息名称‘我爱做菜’”。然后根据分析结果,上述执行主体可以确定上述操作指令中包含被操作分屏名称和被操作媒体信息名称。反之,上述执行主体可以确定上述操作指令中不包含被操作分屏名称和被操作媒体信息名称。
步骤307,响应于确定所述操作指令中不包含被操作分屏名称和/或被操作媒体信息名称,生成用于表征所述操作指令中不包含操作对象的提示信息。
在一些实施例中,响应于确定上述操作指令中不包含被操作分屏名称和/或被操作媒体信息名称,上述执行主体可以生成用于表征上述操作指令中不包含操作对象的提示信息。作为示例,提示信息可以是“您没有说被操作的分屏名称”,提示信息也可以是“您没有说被操作媒体信息名称”,提示信息也可以是“您没有说被操作的分屏名称和被操作媒体信息名称”。
在一些实施例的一些可选的实现方式中,上述方法还包括:对所述操作指令进行分析,确定所述操作指令中是否包含被操作分屏名称和被操作媒体信息名称;响应于确定上述操作指令中不包含被操作分屏名称不包含被操作媒体信息名称,上述执行主体可以获取上述用户的控制权限中可操作的分屏数目和可操作性的媒体信息数目。响应于确定上述分屏数目为预设值(例如,预设值为1)、上述媒体信息数目为上述预设值,上述执行主体可以将上述用户可操作的媒体信息显示至上述用户可操作的分屏。
在一些实施例的一些可选的实现方式中,上述方法还包括:对所述操作指令进行分析,确定所述操作指令中是否包含被操作分屏名称和被操作媒体信息名称;响应于确定上述操作指令中包含被操作分屏名称和/或被操作媒体信息名称,确定上述用户的控制权限中是否包含上述被操作分屏名称对应的分屏和/或被操作媒体信息名称对应的媒体信息的操作权限。
进而,响应于确定包含,且响应于确定上述操作指令中不包含被操作分屏名称包含被操作媒体信息名称,上述执行主体可以确定上述用户的控制权限中可操作的分屏数目。响应于确定上述分屏数目为上述预设值,上述执行主体可以将上述被操作媒体信息名称对应的媒体信息显示至上述用户可操作的分屏。
响应于确定包含,且响应于确定上述操作指令中包含被操作分屏名称不包含被操作媒体信息名称,上述执行主体可以确定上述用户的控制权限中可操作的媒体信息数目。响应于确定上述媒体信息数目为上述预设值,上述执行主体可以将上述用户可操作的媒体信息显示至上述被操作分屏名称对应的分屏。
步骤308,控制所述目标屏幕对所述提示信息进行语音播放。
在一些实施例中,上述执行主体可以控制上述目标屏幕对上述提示信息进行语音播放。
在一些实施例的一些可选的实现方式中,上述方法还包括:响应于采集到所述用户的语音信息,采集上述用户的非语言符号图像;对上述非语言符号图像进行识别,得到图像操作指令;基于上述用户的控制权限、上述图像操作指令和预设显示方式,对上述目标屏幕的至少一个分屏进行显示。这里,非语言符号图像可以是用户的手部与面部的肢体语言。作为示例,上述非语言符号图像可以是用户点头、摇头,也可以是用户的手势图像。
在一些实施例的一些可选的实现方式中,上述方法还包括:响应于采集至少一个用户的语音信息,得到语音信息集合;对上述语音信息集合中的语音信息进行声纹识别,得到声纹识别结果集合;基于上述声纹识别结果集合,获取至少一个用户的用户权限,得到用户权限集合;基于上述用户权限集合,从上述语音信息集合中选择符合预设条件的语音信息作为目标语音信息,得到目标语音信息集合。这里,预设条件可以是目标语音信息对应的用户权限中包含对分屏的控制权限。
在一些实施例的一些可选的实现方式中,上述方法还包括:获取上述目标语音信息集合中各个目标语音信息对应的用户位置信息,得到用户位置信息集合;基于上述用户位置信息集合和上述用户权限集合,选择至少一个分屏作为目标分屏,得到目标分屏集合;获取上述目标分屏集合中目标分屏的使用状态信息,得到使用状态信息集合;对上述目标语音信息集合中的目标语音信息进行识别,得到语音操作指令集合;基于上述语音操作指令集合和上述使用状态信息集合,控制使用状态信息为未使用的目标分屏进行媒体信息显示。
可选的,上述执行主体可以采集上述至少一个用户的非语言符号图像(例如,手势图像)。然后,上述执行主体可以对上述非语言符号图像进行识别,得到图像操作指令。之后,上述执行主体可以控制目标分屏进行媒体信息显示。
上文陈述的用户位置信息可以是通过声源定位的方式确定得到的。作为示例,上述执行主体可以基于用户位置信息和用户权限,选择用户有控制权限的分屏中距用户距离近的分屏作为目标分屏。作为示例,使用状态信息可以是“使用中”,也可以是“未使用”。
在一些实施例中,通过对至少一个用户的语音信息进行识别以及根据用户权限选择分屏进行媒体信息的显示,实现了多个用户同时对目标屏幕进行操作,提高了用户体验。
从图3中可以看出,与图2对应的一些实施例的描述相比,图3对应的一些实施例中的语音控制屏幕显示方法的流程300体现了对如何得到识别结果、如何确定用户的控制权限和如何对操作指令进行分析进行扩展的步骤。由此,这些实施例描述的方案可以通过对语音信息的声纹识别和对用户的身份信息以及控制权限的确认,可以避免误操作带来的问题。对操作指令的分析,为控制目标屏幕显示媒体信息提供了便利。从而,侧面提高了用户体验。
进一步参考图4,作为对上述各图上述方法的实现,本公开提供了一种语音控制屏幕显示装置的一些实施例,这些装置实施例与图2上述的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,一些实施例的语音控制屏幕显示装置400包括:采集单元401、识别单元402和显示单元403。其中,采集单元401,被配置成采集用户的语音信息;识别单元402,被配置成对语音信息进行识别,得到操作指令;显示单元403,被配置成根据用户的控制权限和所述操作指令,控制目标屏幕的至少一个分屏进行媒体信息显示。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400被进一步配置成:采集所述用户的面部图像;对所述面部图像进行识别,得到识别结果;和/或对所述语音信息进行声纹识别,得到识别结果;基于所述识别结果,确认所述用户的身份信息;基于所述身份信息,获取所述用户的控制权限。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400的显示单元403被进一步配置成:对所述操作指令进行分析,确定所述操作指令中是否包含被操作分屏名称和被操作媒体信息名称;响应于确定所述操作指令中不包含被操作分屏名称和/或被操作媒体信息名称,生成用于表征所述操作指令中不包含操作对象的提示信息;控制所述目标屏幕对所述提示信息进行语音播放。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400的显示单元403被进一步配置成:对所述操作指令进行分析,确定所述操作指令中是否包含被操作分屏名称和被操作媒体信息名称;响应于确定所述操作指令中不包含被操作分屏名称不包含被操作媒体信息名称,确定所述用户的控制权限中可操作的分屏数目和可操作的媒体信息数目;响应于确定所述分屏数目为预设值、所述媒体信息数目为所述预设值,将所述用户可操作的媒体信息显示至所述用户可操作的分屏。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400的显示单元403被进一步配置成:对所述操作指令进行分析,确定所述操作指令中是否包含被操作分屏名称和被操作媒体信息名称;响应于确定所述操作指令中包含被操作分屏名称和/或被操作媒体信息名称,确定所述用户的控制权限中是否包含所述被操作分屏名称对应的分屏和/或被操作媒体信息名称对应的媒体信息的操作权限。响应于确定包含,控制至少一个分屏进行媒体信息显示。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400的显示单元403被进一步配置成:响应于确定所述操作指令中不包含被操作分屏名称包含被操作媒体信息名称,确定所述用户的控制权限中可操作的分屏数目;响应于确定所述分屏数目为所述预设值,将所述被操作媒体信息名称对应的媒体信息显示至所述用户可操作的分屏。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400的显示单元403被进一步配置成:响应于确定所述操作指令中包含被操作分屏名称不包含被操作媒体信息名称,确定所述用户的控制权限中可操作的媒体信息数目;响应于确定所述媒体信息数目为所述预设值,将所述用户可操作的媒体信息显示至所述被操作分屏名称对应的分屏。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400被进一步配置成:响应于采集到所述用户的语音信息,采集所述用户的非语言符号图像;对所述非语言符号图像进行识别,得到图像操作指令;基于所述用户的控制权限、所述图像操作指令和预设显示方式,对所述目标屏幕的至少一个分屏进行显示。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400被进一步配置成:采集所述用户的电子标识;对所述电子标识进行标识识别,得到识别结果;基于所述识别结果,确定所述用户对所述目标屏幕的控制权限。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400被进一步配置成:响应于采集至少一个用户的语音信息,得到语音信息集合;对所述语音信息集合中的语音信息进行声纹识别,得到声纹识别结果集合;基于所述声纹识别结果集合,获取至少一个用户的用户权限,得到用户权限集合;基于所述用户权限集合,从所述语音信息集合中选择符合预设条件的语音信息作为目标语音信息,得到目标语音信息集合。
在一些实施例的一些可选的实现方式中,语音控制屏幕显示装置400被进一步配置成:获取所述目标语音信息集合中各个目标语音信息对应的用户位置信息,得到用户位置信息集合;基于所述用户位置信息集合和所述用户权限集合,选择至少一个分屏作为目标分屏,得到目标分屏集合;获取所述目标分屏集合中目标分屏的使用状态信息,得到使用状态信息集合;对所述目标语音信息集合中的目标语音信息进行识别,得到语音操作指令集合;基于所述语音操作指令集合和所述使用状态信息集合,控制使用状态信息为未使用的目标分屏进行媒体信息显示。
可以理解的是,该装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的单元,在此不再赘述。
下面参考图5,其示出了适于用来实现本公开的一些实施例的电子设备(例如图1中的计算设备101)500的结构示意图。图5示出的服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述装置中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:采集用户的语音信息;对所述语音信息进行识别,得到操作指令;根据用户的控制权限和所述操作指令,控制目标屏幕的至少一个分屏进行媒体信息显示。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括采集单元、识别单元和显示单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,采集单元还可以被描述为“采集用户的语音信息的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (9)
1.一种语音控制屏幕显示方法,其特征在于,包括:
采集用户的语音信息;
对所述语音信息进行识别,得到操作指令;
获取所述用户的控制权限;
对所述操作指令进行分析,确定所述操作指令中是否包含所述操作指令的指令相关信息,得到确定结果,其中,所述指令相关信息包括以下至少一项:被操作分屏名称和被操作媒体信息名称;
基于所述确定结果和所述用户的控制权限,控制目标屏幕的至少一个分屏进行媒体信息显示;
响应于确定所述操作指令中不包含被操作分屏名称和/或被操作媒体信息名称,生成用于表征所述操作指令中不包含操作对象的提示信息;
控制所述目标屏幕对所述提示信息进行语音播放;
所述基于所述确定结果和所述用户的控制权限,控制目标屏幕的至少一个分屏进行媒体信息显示,包括:
响应于确定所述操作指令中不包含被操作分屏名称不包含被操作媒体信息名称,确定所述用户的控制权限中可操作的分屏数目和可操作的媒体信息数目;
响应于确定所述分屏数目为预设值、所述媒体信息数目为所述预设值,将所述用户可操作的媒体信息显示至所述用户可操作的分屏;
响应于确定所述操作指令中包含被操作分屏名称和/或被操作媒体信息名称,确定所述用户的控制权限中是否包含所述被操作分屏名称对应的分屏和/或被操作媒体信息名称对应的媒体信息的操作权限;
响应于确定包含,控制至少一个分屏进行媒体信息显示;
响应于确定所述操作指令中不包含被操作分屏名称包含被操作媒体信息名称,确定所述用户的控制权限中可操作的分屏数目;
响应于确定所述分屏数目为所述预设值,将所述被操作媒体信息名称对应的媒体信息显示至所述用户可操作的分屏;
响应于确定所述操作指令中包含被操作分屏名称不包含被操作媒体信息名称,确定所述用户的控制权限中可操作的媒体信息数目;
响应于确定所述媒体信息数目为所述预设值,将所述用户可操作的媒体信息显示至所述被操作分屏名称对应的分屏。
2.根据权利要求1所述的方法,其特征在于,所述采集用户的语音信息之后,所述方法还包括:
采集所述用户的面部图像;
对所述面部图像进行识别,得到识别结果;和/或
对所述语音信息进行声纹识别,得到识别结果;
基于所述识别结果,确认所述用户的身份信息;
基于所述身份信息,获取所述用户的控制权限。
3.根据权利要求1-2之一所述的方法,其特征在于,所述方法还包括:
采集所述用户的非语言符号图像;
对所述非语言符号图像进行识别,得到图像操作指令;
基于所述操作指令、所述图像操作指令和预设显示方式,对所述目标屏幕的至少一个分屏进行显示。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采集所述用户的电子标识;
对所述电子标识进行标识识别,得到识别结果;
基于所述识别结果,确定所述用户对所述目标屏幕的控制权限。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于采集至少一个用户的语音信息,得到语音信息集合;
对所述语音信息集合中的语音信息进行声纹识别,得到声纹识别结果集合;
基于所述声纹识别结果集合,获取至少一个用户的用户权限,得到用户权限集合;
基于所述用户权限集合,从所述语音信息集合中选择符合预设条件的语音信息作为目标语音信息,得到目标语音信息集合。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述目标语音信息集合中各个目标语音信息对应的用户位置信息,得到用户位置信息集合;
基于所述用户位置信息集合和所述用户权限集合,选择至少一个分屏作为目标分屏,得到目标分屏集合;
获取所述目标分屏集合中目标分屏的使用状态信息,得到使用状态信息集合;
对所述目标语音信息集合中的目标语音信息进行识别,得到语音操作指令集合;
基于所述语音操作指令集合和所述使用状态信息集合,控制使用状态信息为未使用的目标分屏进行媒体信息显示。
7.一种语音控制屏幕显示装置,其特征在于,包括:
采集单元,被配置成采集用户的语音信息;
识别单元,被配置成对所述语音信息进行识别,得到操作指令;
获取单元,被配置成获取所述用户的控制权限;
确定单元,被配置成对所述操作指令进行分析,确定所述操作指令中是否包含所述操作指令的指令相关信息,得到确定结果,其中,所述指令相关信息包括以下至少一项:被操作分屏名称和被操作媒体信息名称;
显示单元,被配置成基于所述确定结果和所述用户的控制权限,控制目标屏幕的至少一个分屏进行媒体信息显示;
生成单元,被配置成响应于确定所述操作指令中不包含被操作分屏名称和/或被操作媒体信息名称,生成用于表征所述操作指令中不包含操作对象的提示信息;
播放单元,被配置成控制所述目标屏幕对所述提示信息进行语音播放;
所述基于所述确定结果和所述用户的控制权限,控制目标屏幕的至少一个分屏进行媒体信息显示,包括:
响应于确定所述操作指令中不包含被操作分屏名称不包含被操作媒体信息名称,确定所述用户的控制权限中可操作的分屏数目和可操作的媒体信息数目;
响应于确定所述分屏数目为预设值、所述媒体信息数目为所述预设值,将所述用户可操作的媒体信息显示至所述用户可操作的分屏;
响应于确定所述操作指令中包含被操作分屏名称和/或被操作媒体信息名称,确定所述用户的控制权限中是否包含所述被操作分屏名称对应的分屏和/或被操作媒体信息名称对应的媒体信息的操作权限;
响应于确定包含,控制至少一个分屏进行媒体信息显示;
响应于确定所述操作指令中不包含被操作分屏名称包含被操作媒体信息名称,确定所述用户的控制权限中可操作的分屏数目;
响应于确定所述分屏数目为所述预设值,将所述被操作媒体信息名称对应的媒体信息显示至所述用户可操作的分屏;
响应于确定所述操作指令中包含被操作分屏名称不包含被操作媒体信息名称,确定所述用户的控制权限中可操作的媒体信息数目;
响应于确定所述媒体信息数目为所述预设值,将所述用户可操作的媒体信息显示至所述被操作分屏名称对应的分屏。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011290927.5A CN112102836B (zh) | 2020-11-18 | 2020-11-18 | 语音控制屏幕显示方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011290927.5A CN112102836B (zh) | 2020-11-18 | 2020-11-18 | 语音控制屏幕显示方法、装置、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112102836A CN112102836A (zh) | 2020-12-18 |
CN112102836B true CN112102836B (zh) | 2022-12-30 |
Family
ID=73785902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011290927.5A Active CN112102836B (zh) | 2020-11-18 | 2020-11-18 | 语音控制屏幕显示方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112102836B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115097970A (zh) * | 2022-06-30 | 2022-09-23 | 阿波罗智联(北京)科技有限公司 | 展示控制方法、装置、电子设备、存储介质及车辆 |
CN115579010B (zh) * | 2022-12-08 | 2023-04-28 | 中国汽车技术研究中心有限公司 | 智能座舱跨屏联动方法、设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7683856B2 (en) * | 2006-03-31 | 2010-03-23 | Sony Corporation | E-ink touchscreen visualizer for home AV system |
CN101819758B (zh) * | 2009-12-22 | 2013-01-16 | 中兴通讯股份有限公司 | 一种声音控制屏幕显示的系统及实现方法 |
US20120032981A1 (en) * | 2010-08-04 | 2012-02-09 | Tina Hackwell | Electronic Book With Configurable Display Panels |
CN103035222A (zh) * | 2011-10-10 | 2013-04-10 | 台达电子工业股份有限公司 | 用以调整电视墙的声控系统 |
US20150199092A1 (en) * | 2012-09-26 | 2015-07-16 | Google Inc. | Intelligent window placement |
CN104239296B (zh) * | 2013-06-06 | 2018-04-06 | 深圳市快播科技有限公司 | 多屏适配器浏览器的远程操控方法及系统 |
CN109493871A (zh) * | 2017-09-11 | 2019-03-19 | 上海博泰悦臻网络技术服务有限公司 | 车载系统的多屏语音交互方法及装置、存储介质和车机 |
CN107909997A (zh) * | 2017-09-29 | 2018-04-13 | 威创集团股份有限公司 | 一种拼接墙控制方法及系统 |
CN108099790B (zh) * | 2017-12-05 | 2021-07-20 | 华南理工大学 | 基于增强现实平视显示与多屏语音交互的驾驶辅助系统 |
CN108011978A (zh) * | 2017-12-27 | 2018-05-08 | 威创集团股份有限公司 | 一种使用移动终端app控制拼接显示墙的方法和系统 |
CN108062951B (zh) * | 2017-12-27 | 2020-10-23 | 威创集团股份有限公司 | 一种智能拼接墙系统 |
CN110704004B (zh) * | 2019-08-26 | 2021-06-01 | 华为技术有限公司 | 一种语音控制的分屏显示方法及电子设备 |
-
2020
- 2020-11-18 CN CN202011290927.5A patent/CN112102836B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112102836A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918040B (zh) | 语音指令分发方法和装置、电子设备及计算机可读介质 | |
CN109993150B (zh) | 用于识别年龄的方法和装置 | |
WO2016185809A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN108683937A (zh) | 智能电视的语音交互反馈方法、系统及计算机可读介质 | |
CN111739553A (zh) | 会议声音采集、会议记录以及会议记录呈现方法和装置 | |
US10186261B2 (en) | Systems and methods of interpreting speech data | |
CN112102836B (zh) | 语音控制屏幕显示方法、装置、电子设备和介质 | |
CN109934142B (zh) | 用于生成视频的特征向量的方法和装置 | |
CN113468344A (zh) | 实体关系抽取方法、装置、电子设备和计算机可读介质 | |
CN111312243B (zh) | 设备交互方法和装置 | |
CN110335237B (zh) | 用于生成模型的方法、装置和用于识别图像的方法、装置 | |
US12050883B2 (en) | Interaction information processing method and apparatus, device, and medium | |
CN112309387A (zh) | 用于处理信息的方法和装置 | |
US10599928B2 (en) | Method and system for enabling information in augmented reality applications | |
CN110096154A (zh) | 用于处理信息的方法及装置 | |
CN114637400A (zh) | 视觉内容更新方法、头戴式显示设备组件和计算机可读介质 | |
CN113835996A (zh) | 生成测试脚本的方法和装置 | |
CN111986669A (zh) | 信息处理方法及装置 | |
CN112614486B (zh) | 应用于扫地机的语音控制执行功能方法、装置、电子设备 | |
CN111292766B (zh) | 用于生成语音样本的方法、装置、电子设备和介质 | |
CN112581951B (zh) | 应用于扫地机的语音控制执行功能方法、装置、电子设备 | |
CN112650528B (zh) | 个性化算法生成方法、装置、电子设备和计算机可读介质 | |
CN111913737B (zh) | 一种数据服务接口的构建方法、装置、设备及存储介质 | |
CN112203113B (zh) | 视频流结构化方法、装置、电子设备和计算机可读介质 | |
CN114115784A (zh) | 基于智能麦克风的控制方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |