CN107765858A - 确定人脸角度的方法、装置、终端及存储介质 - Google Patents
确定人脸角度的方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN107765858A CN107765858A CN201711076915.0A CN201711076915A CN107765858A CN 107765858 A CN107765858 A CN 107765858A CN 201711076915 A CN201711076915 A CN 201711076915A CN 107765858 A CN107765858 A CN 107765858A
- Authority
- CN
- China
- Prior art keywords
- angle
- terminal
- sound source
- phonetic order
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种确定人脸角度的方法、装置、终端及计算机可读存储介质,涉及终端技术领域,该方法应用于包括至少三个语音接收模块的终端中,该方法包括:通过至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,语音指令用于指示开启图像采集功能;对至少三个语音信息进行处理,得到语音处理结果;基于语音处理结果,通过预设网络模型确定人脸角度,人脸角度为图像采集时用户的脸所在的平面与终端的前面板所在的平面之间的夹角。在本发明实施例中,终端可以根据用户发出的用于开启图像采集功能的语音指令,通过预设网络模型准确便捷的确定图像采集时的人脸角度,从而为后续进一步的处理采集到的图像提供数据基础。
Description
技术领域
本发明涉及终端技术领域,特别涉及一种确定人脸角度的方法、装置、终端及存储介质。
背景技术
随着信息处理技术的发展,人脸识别技术被越来越多的应用于日常生活中。例如,在移动终端中,可以通过人脸识别技术来进行移动终端的解锁。在智慧家庭中,也可以通过人脸识别技术来控制智慧家庭中的智能家电。另外,在移动终端中安装的某些进行人物图像处理的应用,例如,可以给人物图像进行虚拟上妆的应用,也需要用到人脸识别技术。在使用人脸识别技术的过程中,通常需要对人脸的各个部位进行准确的识别,而人脸角度则会直接影响到人脸的各个部位的识别准确性,因此,在图像采集时亟需一种确定人脸角度的方法来为准确的进行人脸识别提供数据基础。
发明内容
本申请实施例提供了一种确定人脸角度的方法、装置、终端及计算机可读存储介质,可以用于在图像采集时确定人脸角度,从而为准确的进行人脸识别提供数据基础。所述技术方案如下:
第一方面,提供了一种确定人脸角度的方法,应用于终端中,所述终端包括至少三个语音接收模块,所述方法包括:
通过所述至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,所述语音指令用于指示开启图像采集功能;
对所述至少三个语音信息进行处理,得到语音处理结果;
基于所述语音处理结果,通过预设网络模型确定人脸角度,所述人脸角度为图像采集时所述用户的脸所在的平面与所述终端的前面板所在的平面之间的夹角。
可选地,所述对所述至少三个语音信息进行处理,得到语音处理结果,包括:
基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度,所述声源角度用于指示所述声源位置相对于所述终端所处的方向;
获取所述至少三个语音信息的信号强度;
将所述声源位置、所述声源角度和所述至少三个语音信息的信号强度作为所述语音处理结果。
可选地,所述基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度,包括:
获取所述至少三个语音信息的接收时间;
基于所述至少三个语音信息的接收时间,确定所述用户发出所述语音指令的声源位置;
基于所述声源位置,确定所述声源角度。
可选地,所述基于所述声源位置,确定所述声源角度,包括:
确定所述声源位置和所述终端之间的连线;
确定所述连线与所述终端的宽度方向之间的第一夹角,确定所述连线与所述终端的长度方向之间的第二夹角,以及确定所述连线与所述终端的厚度方向的第三夹角;
将所述第一夹角、所述第二夹角和所述第三夹角确定为所述声源角度。
可选地,所述基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度之后,还包括:
确定所述声源位置在图像采集框中所对应的位置,所述图像采集框为所述终端在接收到所述语音指令时在显示屏上显示的用于采集图像的矩形区域;
基于所述声源位置在所述图像采集框中所对应的位置进行图像采集。
可选地,所述基于所述语音处理结果,通过预设网络模型确定人脸角度之前,还包括:
获取多个语音指令样本;
通过多个语音指令样本对初始化的网络模型进行训练,得到所述预设网络模型。
第二方面,提供了一种确定人脸角度的装置,应用于终端中,所述终端包括至少三个语音接收模块,所述装置包括:
接收模块,用于通过所述至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,所述语音指令用于指示开启图像采集功能;
处理模块,用于对所述至少三个语音信息进行处理,得到语音处理结果;
确定模块,用于基于所述语音处理结果,通过预设网络模型确定人脸角度,所述人脸角度为图像采集时所述用户的脸所在的平面与所述终端的前面板所在的平面之间的夹角。
可选地,所述处理模块包括:
第一确定子模块,用于基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度,所述声源角度用于指示所述声源位置相对于所述终端所处的方向;
获取子模块,用于获取所述至少三个语音信息的信号强度;
第二确定子模块,用于将所述声源位置、所述声源角度和所述至少三个语音信息的信号强度作为所述语音处理结果。
可选地,所述第一确定子模块具体用于:
获取所述至少三个语音信息的接收时间;
基于所述至少三个语音信息的接收时间,确定所述用户发出所述语音指令的声源位置;
基于所述声源位置,确定所述声源角度。
可选地,所述第一确定子模块具体用于:
确定所述声源位置和所述终端之间的连线;
确定所述连线与所述终端的宽度方向之间的第一夹角,确定所述连线与所述终端的长度方向之间的第二夹角,以及确定所述连线与所述终端的厚度方向的第三夹角;
将所述第一夹角、所述第二夹角和所述第三夹角确定为所述声源角度。
可选地,所述处理模块还包括:
第三确定子模块,用于确定所述声源位置在图像采集框中所对应的位置,所述图像采集框为所述终端在接收到所述语音指令时在显示屏上显示的用于采集图像的矩形区域;
采集子模块,用于基于所述声源位置在所述图像采集框中所对应的位置进行图像采集。
可选地,所述装置还包括:
获取模块,用于获取多个语音指令样本;
训练模块,用于通过多个语音指令样本对初始化的网络模型进行训练,得到所述预设网络模型。
第三方面,提供了一种终端,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面提供的任一步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面提供的任一步骤。
本发明实施例提供的技术方案带来的有益效果是:终端可以通过至少三个语音接收模块来接收用户的语音指令,得到至少三个语音信息,其中,该语音指令用于指示开启图像采集功能。之后,终端可以对至少三个语音信息进行处理,从而得到语音处理结果,并基于该语音处理结果通过预设网络模型来确定人脸角度。由此可见,在本发明实施例中,终端可以根据用户的语音指令,开启图像采集功能,与此同时,终端还可以根据该语音指令通过预设网络模型准确便捷的确定发出该语音指令的人脸角度,从而为后续进一步的处理采集到的图像提供数据基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种确定人脸角度的方法的流程图;
图2是本发明实施例提供的另一种确定人脸角度的方法的流程图;
图3A是本发明实施例提供的一种确定人脸角度的装置的框图;
图3B是本发明实施例提供的一种处理模块的框图;
图4是本发明实施例提供的一种终端的结构示意图;
图5是本发明实施例提供的另一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细的解释说明之前,先对本发明实施例涉及的应用场景予以介绍。
当前,人脸识别技术被越来越多的应用于日常生活中。在使用人脸识别技术的过程中,往往需要对人脸的各个部位进行准确的识别,而人脸角度则会直接影响到人脸的各个部位的识别准确性。例如,在移动终端中,当通过人脸识别技术来进行移动终端的解锁时,如果移动终端在进行图像采集时,用户面部是侧对着移动终端的摄像头的,在这种情况下,采集到的图像中用户面部中的某些部位就会被遮挡,从而影响到人脸识别的准确性,此时,为了保证人脸识别的准确性,移动终端可以获取人脸角度,从而基于该人脸角度对采集到图像进行处理。本发明实施例提供的确定人脸角度的方法即可以用于上述场景中,在图像采集时确定人脸角度,从而为准确的进行人脸识别提供数据基础。
在对本发明实施例的应用场景进行介绍之后,接下来将结合附图对本发明实施例提供的确定人脸角度的方法进行详细介绍。
图1是根据一示例性实施例示出的确定人脸角度的方法的流程图,参见图1,该方法可以应用于诸如智能手机、平板电脑、个人计算机等终端,该终端包括至少三个语音接收模块,该方法具体包括如下步骤。
步骤101:通过至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,该语音指令用于指示开启图像采集功能。
步骤102:对至少三个语音信息进行处理,得到语音处理结果。
步骤103:基于该语音处理结果,通过预设网络模型确定人脸角度,人脸角度为图像采集时用户的脸所在的平面与终端的前面板所在的平面之间的夹角。
在本发明实施例中,终端可以通过至少三个语音接收模块来接收用户的语音指令,得到至少三个语音信息,其中,该语音指令用于指示开启图像采集功能。之后,终端可以对至少三个语音信息进行处理,从而得到语音处理结果,并基于该语音处理结果通过预设网络模型来确定人脸角度。由此可见,在本发明实施例中,终端可以根据用户的语音指令,开启图像采集功能,与此同时,终端还可以根据该语音指令通过预设网络模型准确便捷的确定发出该语音指令的人脸角度,从而为后续进一步的处理采集到的图像提供数据基础。
可选地,对至少三个语音信息进行处理,得到语音处理结果,包括:
基于至少三个语音信息,确定语音指令所对应的声源位置和声源角度,声源角度用于指示声源位置相对于终端所处的方向;
获取至少三个语音信息的信号强度;
将声源位置、声源角度和至少三个语音信息的信号强度作为语音处理结果。
可选地,基于至少三个语音信息,确定语音指令所对应的声源位置和声源角度,包括:
获取至少三个语音信息的接收时间;
基于至少三个语音信息的接收时间,确定用户发出语音指令的声源位置;
基于声源位置,确定声源角度。
可选地,基于声源位置,确定声源角度,包括:
确定声源位置和终端之间的连线;
确定连线与终端的宽度方向之间的第一夹角,确定连线与终端的长度方向之间的第二夹角,以及确定连线与终端的厚度方向的第三夹角;
将第一夹角、第二夹角和第三夹角确定为声源角度。
可选地,基于至少三个语音信息,确定语音指令所对应的声源位置和声源角度之后,还包括:
确定声源位置在图像采集框中所对应的位置,图像采集框为终端在接收到语音指令时在显示屏上显示的用于采集图像的矩形区域;
基于声源位置在图像采集框中所对应的位置进行图像采集。
可选地,基于语音处理结果,通过预设网络模型确定人脸角度之前,还包括:
获取多个语音指令样本;
通过多个语音指令样本对初始化的网络模型进行训练,得到预设网络模型。
上述所有可选技术方案,均可按照任意结合形成本公开的可选实施例,本公开实施例对此不再一一赘述。
图2是本发明实施例提供的一种确定人脸角度的方法的流程图,该方法应用于终端中,该终端包括至少三个语音接收模块,如图2所示,该方法包括以下步骤:
步骤201:获取多个语音指令样本。
在本发明实施例中,终端在确定人脸角度之前,首先可以获取多个语音指令样本,以便根据该多个语音指令样本对初始化的网络模型进行训练。
其中,该多个语音指令样本中可以包括根据用户在距离终端不同距离处,用户面部朝向空间中不同方向发出的语音指令确定得到的语音指令样本。其中,每个语音指令样本可以包括多个参数,该多个参数可以包括接收到的语音指令所对应的语音信息,发出该语音指令的用户所处的位置以及人脸角度,该人脸角度是指用户在发出该语音指令时,用户的脸所在的平面与终端前面板所在的平面之间的夹角。
例如,该多个语音指令样本为{A,B,C,D,E…},其中,样本A可以是根据用户在距离终端的第一距离处,用户面部朝向空间中的第一方向时发出的语音指令确定得到的语音指令样本。样本B可以是用户在距离终端的第一距离处,用户面部朝向空间中的第二方向时发出的语音指令确定得到的语音指令样本。样本C可以是用户在距离终端的第二距离处,用户面部朝向空间中的第三方向时发出的语音指令确定得到的语音指令样本。样本D可以是用户在距离终端的第三距离处,用户面部朝向空间中的第三方向时发出的语音指令确定得到的语音指令样本等等。
步骤202:通过多个语音指令样本对初始化的网络模型进行训练,得到预设网络模型。
当获取到多个语音指令样本时,终端可以通过该多个语音指令样本对初始化的网络模型进行训练,得到预设网络模型。
其中,初始化网络模型可以为卷积神经网络(Convolutional Neural Network,CNN)模型、循环神经网络(Recurrent neural Network,RNN)模型或深度神经网络(DeepNeural Network,DNN)模型。终端可以将多个语音指令样本的参数作为训练初始化网络模型的训练参数,从而训练得到预设网络模型。该预设网络模型的输出即为人脸角度。
在本发明实施例中,终端可以通过步骤201和步骤202,训练得到预设网络模型,之后,当接收到用户的语音指令时,即可以通过该预设网络模型来确定人脸角度。需要说明的是,终端可以一次性训练得到该预设网络模型,也可以每隔预设时长,通过更新的多个语音指令样本训练一次预设网络模型,或者,终端也可以在每次通过用户的语音指令确定人脸角度之后,将该用户的语音指令和确定的人脸角度作为一个新的语音指令样本,添加到多个语音指令样本中,对初始化网络模型重新进行训练,得到预设网络模型。
步骤203:通过至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,该语音指令用于指示开启图像采集功能。
在本发明实施例中,当用户想要开启图像采集功能时,用户可以发出语音指令,该语音指令是预设的用于开启图像采集功能的语音指令。终端可以通过至少三个语音接收模块接收用户发出的语音指令,并对该语音指令进行识别。当终端确定该语音指令是用于开启图像采集功能的语音指令时,终端可以开启图像采集功能。其中,终端开启图像采集功能可以是指终端开启终端中的摄像头之后,进入图像采集界面或显示图像采集框。
需要说明的是,该语音指令可以是“拍照”。例如,当用户需要通过终端中的摄像头进行拍照时,即可以发出“拍照”的语音指令,终端在接收到该语音指令时,即可以开启图像采集功能。或者,该语音指令可以为“解锁”。例如,对于某些终端,可能需要通过人脸识别进行终端的解锁,在这种情况下,当用户需要对终端进行解锁时,用户可以发出“解锁”的语音指令,终端在接收到该语音指令时,即可以开启图像采集功能,以便对用户进行人脸图像采集。再例如,在智慧家庭中,某些入户门的开锁需要用到人脸识别,在这种情况下,当用户需要开锁时,用户可以发出“解锁”的语音指令,用于控制该入户门的终端在接收到该语音指令时,即可以开启图像采集功能。
值得注意的是,在本发明实施例中,用户可以通过发出语音指令以使得终端开启图像采集功能,这样,当用户距离终端较远或者当用户不方便手动开启图像采集功能时,即可以通过发出语音指令开启终端的图像采集功能,解放了用户的双手,为用户的使用带来了方便。
步骤204:对至少三个语音信息进行处理,得到语音处理结果。
当终端通过至少三个语音接收模块接收到语音指令,得到至少三个语音信息之后,终端可以对至少三个语音信息进行处理,得到语音处理结果,以便后续根据该语音处理结果,通过预设网络模型进行人脸角度的确定。
其中,终端可以基于至少三个语音信息,确定语音指令所对应的声源位置和声源角度,该声源角度用于指示声源位置相对于终端所处的方向;获取至少三个语音信息的信号强度;将声源位置、声源角度和至少三个语音信息的信号强度作为所述语音处理结果。
在本发明实施例中,在用户发出语音指令之后,终端通过至少三个语音接收模块接收该语音指令,每个语音接收模块将接收到一个语音信息,根据至少三个语音信息,即可以对用户当前所处的位置进行定位。具体的,可以以终端本身建立终端坐标系,其中,终端前面板的中心位置可以作为终端坐标系的原点,平行于终端的长度方向且指向终端的上边缘的方向作为终端坐标系的z轴,平行于终端的宽度方向且指向终端的右边缘的方向作为终端坐标系的y轴,垂直于终端的前面板且指向终端前面板的方向为终端坐标系的x轴。终端可以根据至少三个语音信息,确定语音指令所对应的声源位置,该声源位置实际上就是在终端坐标系下,用户发出该语音指令时的位置坐标。而声源角度则包括在终端坐标系下,声源位置的位置坐标与终端坐标系的原点之间的连线分别与终端坐标系的x轴、y轴和z轴的夹角。通过该声源位置和声源角度,即可以对发出该语音指令的用户进行唯一的定位。
具体的,当基于至少三个语音信息确定语音指令所对应的声源位置和声源角度时,终端可以获取至少三个语音接收模块接收该至少三个语音信息的接收时间,并基于至少三个语音信息的接收时间,确定用户发出语音指令的声源位置,之后,基于该声源位置,即可以确定声源角度。
需要说明的是,终端的至少三个语音接收模块可以记录并存储接收到语音指令时的接收时间。根据至少三个语音信息的接收时间,通过到达时间差(Time Difference ofArrival,TDOA)算法,即可以确定得到该语音指令所对应的声源位置的坐标,该坐标即为终端坐标系下声源位置的位置坐标。
当确定声源位置之后,终端可以确定声源位置和终端之间的连线,也即是,确定声源位置和终端坐标系的原点之间的连线。当确定连线之后,终端可以确定连线与终端的宽度方向,也即连线与终端坐标系的y轴之间的第一夹角,确定连线与终端的长度方向,也即连线与终端坐标系的z轴之间的第二夹角,以及确定连线与终端的厚度方向,也即连线与终端坐标系的x轴之间的第三夹角。确定得到第一夹角、第二夹角和第三夹角即为声源角度。
另外,当用户位于同一位置上但发出语音指令时的人脸角度不同时,终端接收到的用户发出的语音指令的信号强度也不同,例如,用户的脸正对终端时和用户的脸侧对终端时,终端接收到的用户的语音指令的信号强度是完全不同的。由此可见,语音指令的信号强度是用来判断人脸角度的有效参数。基于此,在确定声源位置和声源角度之后,终端还可以获取至少三个语音信息的信号强度,并将该声源位置、声源角度和至少三个语音信息的信号强度作为用于确定人脸角度的语音处理结果。
可选地,在本发明实施例中,如果终端在开启图像采集功能时,在显示屏上显示有用于采集图像的图像采集框,那么,当基于至少三个语音信息确定得到声源位置之后,终端还可以确定声源位置在图像采集框中所对应的位置,并基于该声源位置在图像采集框中所对应的位置进行图像采集。具体的,终端可以将该声源位置在图像采集框中所对应的位置作为聚焦位置进行聚焦并进行图像采集,这样,用户就无需通过手动点击显示屏的图像采集框中的某个位置进行聚焦,由终端根据确定的声源位置即可以完成聚焦,简化了用户的操作,尤其在用户的双手不方便进行操作时,可以为用户带来极大的方便。
步骤205:基于该语音处理结果,通过预设网络模型确定人脸角度,人脸角度为图像采集时用户的脸所在的平面与终端的前面板所在的平面之间的夹角.
当通过步骤204得到语音处理结果之后,终端可以将该语音处理结果作为参数,输入到预设网络模型中。预设网络模型可以基于该语音处理结果确定得到人脸角度。
另外,在本发明实施例中,为了实时的更新用于训练网络模型的语音指令样本,以使训练得到的预设网络模型能够更准确的确定人脸角度,当确定人脸角度之后,终端可以将步骤204中得到的语音处理结果,该语音处理结果对应的语音指令以及本步骤中确定得到的人脸角度作为一个语音指令样本的多个参数,并将该语音指令样本加入到用于训练初始化网络模型的多个语音指令样本中。
在本发明实施例中,终端可以通过至少三个语音接收模块来接收用户的语音指令,得到至少三个语音信息,其中,该语音指令用于指示开启图像采集功能。之后,终端可以对至少三个语音信息进行处理,从而得到语音处理结果,并基于该语音处理结果通过预设网络模型来确定人脸角度。由此可见,在本发明实施例中,终端可以根据用户的语音指令,开启图像采集功能,与此同时,终端还可以根据该语音指令通过预设网络模型准确便捷的确定发出该语音指令的人脸角度,从而为后续进一步的处理采集到的图像提供数据基础。另外,在本发明实施例中,用户可以通过发出语音指令以使得终端开启图像采集功能,并且,终端可以根据用户发出的语音指令自动进行聚焦,这样,当用户距离终端较远或者当用户不方便手动操作时,即可以通过发出语音指令来开启终端的图像采集功能并完成图像采集,解放了用户的双手,为用户的使用带来了方便。
接下来,对本发明提供的确定人脸角度的装置进行介绍。
图3A为本发明实施例提供的一种确定人脸角度的装置300的框图,参见图3A,该确定人脸角度的装置可以由软件、硬件或者两者的结合实现。该装置包括:接收模块301、处理模块302和确定模块303。
接收模块301,用于通过至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,语音指令用于指示开启图像采集功能;
处理模块302,用于对至少三个语音信息进行处理,得到语音处理结果;
确定模块303,用于基于语音处理结果,通过预设网络模型确定人脸角度,人脸角度为图像采集时用户的脸所在的平面与终端的前面板所在的平面之间的夹角。
可选地,参见图3B,处理模块302包括:
第一确定子模块3021,用于基于至少三个语音信息,确定语音指令所对应的声源位置和声源角度,声源角度用于指示声源位置相对于终端所处的方向;
获取子模块3022,用于获取至少三个语音信息的信号强度;
第二确定子模块3023,用于将声源位置、声源角度和至少三个语音信息的信号强度作为语音处理结果。
可选地,第一确定子模块3021具体用于:
获取至少三个语音信息的接收时间;
基于至少三个语音信息的接收时间,确定用户发出语音指令的声源位置;
基于声源位置,确定声源角度。
可选地,第一确定子模块3021具体用于:
确定声源位置和终端之间的连线;
确定连线与终端的宽度方向之间的第一夹角,确定连线与终端的长度方向之间的第二夹角,以及确定连线与终端的厚度方向的第三夹角;
将第一夹角、第二夹角和第三夹角确定为声源角度。
可选地,处理模块302还包括:
第三确定子模块,用于确定声源位置在图像采集框中所对应的位置,图像采集框为终端在接收到语音指令时在显示屏上显示的用于采集图像的矩形区域;
采集子模块,用于基于声源位置在图像采集框中所对应的位置进行图像采集。
可选地,该装置300还包括:
获取模块,用于获取多个语音指令样本;
训练模块,用于通过多个语音指令样本对初始化的网络模型进行训练,得到预设网络模型。
综上所述,在本发明实施例中,终端可以通过至少三个语音接收模块来接收用户的语音指令,得到至少三个语音信息,其中,该语音指令用于指示开启图像采集功能。之后,终端可以对至少三个语音信息进行处理,从而得到语音处理结果,并基于该语音处理结果通过预设网络模型来确定人脸角度。由此可见,在本发明实施例中,终端可以根据用户的语音指令,开启图像采集功能,与此同时,终端还可以根据该语音指令通过预设网络模型准确便捷的确定发出该语音指令的人脸角度,从而为后续进一步的处理采集到的图像提供数据基础。
需要说明的是:上述实施例提供的确定人脸角度的装置在确定人脸角度时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定人脸角度的装置与确定人脸角度的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图4和图5所示,其示出了本申请一个示例性实施例提供的终端400的结构方框图是根据一示例性实施例示出的一种用于确定人脸角度的装置400的框图。例如,该终端可以是手机、平板电脑、笔记本电脑、个人计算机和电子书等。本申请中的终端400可以包括一个或多个如下部件:处理器410、存储器420和触摸显示屏430。
处理器410可以包括一个或者多个处理核心。处理器410利用各种接口和线路连接整个终端400内的各个部分,通过运行或执行存储在存储器420内的指令、程序、代码集或指令集,以及调用存储在存储器420内的数据,执行终端400的各种功能和处理数据。可选地,处理器410可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器410可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏430所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器410中,单独通过一块芯片进行实现。
存储器420可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选地,该存储器420包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器420可用于存储指令、程序、代码、代码集或指令集。存储器420可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储根据终端400的使用所创建的数据(比如音频数据、电话本)等。
以操作系统为安卓(Android)系统为例,存储器420中存储的程序和数据如图4所示,存储器420中存储有Linux内核层520、系统运行库层540、应用框架层560和应用层580。Linux内核层520为终端400的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层540通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持,OpenGL/ES库提供了3D绘图的支持,Webkit库提供了浏览器内核的支持等。在系统运行库层540中还提供有Android运行时库542(Android Runtime),它主要提供了一些核心库,能够允许开发者使用Java语言来编写Android应用。应用框架层560提供了构建应用程序时可能用到的各种API,开发者也可以通过使用这些API来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层580中运行有至少一个应用程序,这些应用程序可以是操作系统自带的联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的应用程序,比如即时通信程序、相片美化程序等。
以操作系统为IOS系统为例,存储器420中存储的程序和数据如图5所示,IOS系统包括:核心操作系统层620(Core OS layer)、核心服务层640(CoreServices layer)、媒体层660(Media layer)、可触摸层680(Cocoa Touch Layer)。核心操作系统层620包括了操作系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层640的程序框架所使用。核心服务层640提供给应用程序所需要的系统服务和/或程序框架,比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层660为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层680为应用程序开发提供了各种常用的界面相关的框架,可触摸层680负责用户在终端400上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface,UI)框架、用户界面UIKit框架、地图框架等等。
在图5所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层640中的基础框架和可触摸层680中的UIKit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和UI无关。而UIKit框架提供的类是基础的UI类库,用于创建基于触摸的用户界面,iOS应用程序可以基于UIKit框架来提供UI,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
触摸显示屏430用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏630通常设置在终端400的前面板。触摸显示屏430可被设计成为全面屏、曲面屏或异型屏。触摸显示屏430还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,或者,该触摸显示屏430还可以为可折叠的显示屏,本实施例对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的终端400的结构并不构成对终端400的限定,终端400可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端400中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(Digital Subscriber Line,DSL))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(Digital Versatile Disc,DVD))、或者半导体介质(例如:固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种确定人脸角度的方法,应用于终端中,所述终端包括至少三个语音接收模块,其特征在于,所述方法包括:
通过所述至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,所述语音指令用于指示开启图像采集功能;
对所述至少三个语音信息进行处理,得到语音处理结果;
基于所述语音处理结果,通过预设网络模型确定人脸角度,所述人脸角度为图像采集时所述用户的脸所在的平面与所述终端的前面板所在的平面之间的夹角。
2.如权利要求1所述的方法,其特征在于,所述对所述至少三个语音信息进行处理,得到语音处理结果,包括:
基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度,所述声源角度用于指示所述声源位置相对于所述终端所处的方向;
获取所述至少三个语音信息的信号强度;
将所述声源位置、所述声源角度和所述至少三个语音信息的信号强度作为所述语音处理结果。
3.如权利要求2所述的方法,其特征在于,所述基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度,包括:
获取所述至少三个语音信息的接收时间;
基于所述至少三个语音信息的接收时间,确定所述用户发出所述语音指令的声源位置;
基于所述声源位置,确定所述声源角度。
4.如权利要求3所述的方法,其特征在于,所述基于所述声源位置,确定所述声源角度,包括:
确定所述声源位置和所述终端之间的连线;
确定所述连线与所述终端的宽度方向之间的第一夹角,确定所述连线与所述终端的长度方向之间的第二夹角,以及确定所述连线与所述终端的厚度方向的第三夹角;
将所述第一夹角、所述第二夹角和所述第三夹角确定为所述声源角度。
5.如权利要求2-4任一所述的方法,其特征在于,所述基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度之后,还包括:
确定所述声源位置在图像采集框中所对应的位置,所述图像采集框为所述终端在接收到所述语音指令时在显示屏上显示的用于采集图像的矩形区域;
基于所述声源位置在所述图像采集框中所对应的位置进行图像采集。
6.如权利要求1所述的方法,其特征在于,所述基于所述语音处理结果,通过预设网络模型确定人脸角度之前,还包括:
获取多个语音指令样本;
通过多个语音指令样本对初始化的网络模型进行训练,得到所述预设网络模型。
7.一种确定人脸角度的装置,应用于终端中,所述终端包括至少三个语音接收模块,其特征在于,所述装置包括:
接收模块,用于通过所述至少三个语音接收模块接收用户的语音指令,得到至少三个语音信息,所述语音指令用于指示开启图像采集功能;
处理模块,用于对所述至少三个语音信息进行处理,得到语音处理结果;
确定模块,用于基于所述语音处理结果,通过预设网络模型确定人脸角度,所述人脸角度为图像采集时所述用户的脸所在的平面与所述终端的前面板所在的平面之间的夹角。
8.如权利要求7所述的装置,其特征在于,所述处理模块包括:
第一确定子模块,用于基于所述至少三个语音信息,确定所述语音指令所对应的声源位置和声源角度,所述声源角度用于指示所述声源位置相对于所述终端所处的方向;
获取子模块,用于获取所述至少三个语音信息的信号强度;
第二确定子模块,用于将所述声源位置、所述声源角度和所述至少三个语音信息的信号强度作为所述语音处理结果。
9.一种终端,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711076915.0A CN107765858B (zh) | 2017-11-06 | 2017-11-06 | 确定人脸角度的方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711076915.0A CN107765858B (zh) | 2017-11-06 | 2017-11-06 | 确定人脸角度的方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107765858A true CN107765858A (zh) | 2018-03-06 |
CN107765858B CN107765858B (zh) | 2019-12-31 |
Family
ID=61272735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711076915.0A Active CN107765858B (zh) | 2017-11-06 | 2017-11-06 | 确定人脸角度的方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107765858B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047384A (zh) * | 2018-10-15 | 2020-04-21 | 北京京东尚科信息技术有限公司 | 智能设备的信息处理方法和智能设备 |
WO2020151580A1 (zh) * | 2019-01-25 | 2020-07-30 | 华为技术有限公司 | 一种屏幕控制和语音控制方法及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096373A (zh) * | 2016-06-27 | 2016-11-09 | 旗瀚科技股份有限公司 | 机器人与用户的交互方法及装置 |
CN107301406A (zh) * | 2017-07-13 | 2017-10-27 | 珠海多智科技有限公司 | 基于深度学习的快速人脸角度识别方法 |
CN107297745A (zh) * | 2017-06-28 | 2017-10-27 | 上海木爷机器人技术有限公司 | 语音交互方法、语音交互装置及机器人 |
-
2017
- 2017-11-06 CN CN201711076915.0A patent/CN107765858B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096373A (zh) * | 2016-06-27 | 2016-11-09 | 旗瀚科技股份有限公司 | 机器人与用户的交互方法及装置 |
CN107297745A (zh) * | 2017-06-28 | 2017-10-27 | 上海木爷机器人技术有限公司 | 语音交互方法、语音交互装置及机器人 |
CN107301406A (zh) * | 2017-07-13 | 2017-10-27 | 珠海多智科技有限公司 | 基于深度学习的快速人脸角度识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047384A (zh) * | 2018-10-15 | 2020-04-21 | 北京京东尚科信息技术有限公司 | 智能设备的信息处理方法和智能设备 |
WO2020151580A1 (zh) * | 2019-01-25 | 2020-07-30 | 华为技术有限公司 | 一种屏幕控制和语音控制方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107765858B (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11158102B2 (en) | Method and apparatus for processing information | |
WO2021004247A1 (zh) | 视频封面生成方法、装置及电子设备 | |
WO2021082760A1 (zh) | 虚拟形象的生成方法、装置、终端及存储介质 | |
CN110188719B (zh) | 目标跟踪方法和装置 | |
CN107831999A (zh) | 屏幕控制方法、装置及终端 | |
CN107765968A (zh) | 任务切换方法、装置、终端及计算机可读存储介质 | |
JP2023547917A (ja) | 画像分割方法、装置、機器および記憶媒体 | |
CN110166842B (zh) | 一种视频文件操作方法、装置和存储介质 | |
TWI788662B (zh) | 安全認證方法、訓練安全認證模型的方法、安全認證裝置、安全認證模型的訓練裝置、電子設備及電腦可讀儲存媒體 | |
CN107544670A (zh) | 具有力触发的非视觉响应的计算设备 | |
CN107526525A (zh) | 一种截屏方法、装置、移动终端及计算机可读存储介质 | |
CN109814801A (zh) | 应用登录方法、装置、终端及存储介质 | |
WO2020253616A1 (zh) | 音频采集设备定位方法及装置、说话人识别方法及系统 | |
CN107786740A (zh) | 来电控制方法、装置、终端及计算机可读存储介质 | |
CN112232311B (zh) | 人脸跟踪方法、装置及电子设备 | |
CN109271929B (zh) | 检测方法和装置 | |
CN114882437A (zh) | 一种识别模型的训练方法、装置、电子设备和存储介质 | |
CN107831981A (zh) | 终端控制方法、装置、终端及计算机可读存储介质 | |
US20230133416A1 (en) | Image processing method and apparatus, and device and medium | |
CN113723087A (zh) | 信息处理方法、装置、设备、可读存储介质及产品 | |
CN109218538A (zh) | 移动终端屏幕控制方法、移动终端及计算机可读存储介质 | |
EP4319139A1 (en) | Method and apparatus for adding animation to video, and device and medium | |
CN107765858A (zh) | 确定人脸角度的方法、装置、终端及存储介质 | |
CN109829431B (zh) | 用于生成信息的方法和装置 | |
WO2020155908A1 (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong Applicant after: OPPO Guangdong Mobile Communications Co., Ltd. Address before: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong Applicant before: Guangdong OPPO Mobile Communications Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |