CN111124109A - 一种交互方式的选择方法、智能终端、设备及存储介质 - Google Patents

一种交互方式的选择方法、智能终端、设备及存储介质 Download PDF

Info

Publication number
CN111124109A
CN111124109A CN201911163979.3A CN201911163979A CN111124109A CN 111124109 A CN111124109 A CN 111124109A CN 201911163979 A CN201911163979 A CN 201911163979A CN 111124109 A CN111124109 A CN 111124109A
Authority
CN
China
Prior art keywords
face
target
proportion
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911163979.3A
Other languages
English (en)
Other versions
CN111124109B (zh
Inventor
渠淼
周荣刚
谭北平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing Mininglamp Software System Co ltd
Original Assignee
Beihang University
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Beijing Mininglamp Software System Co ltd filed Critical Beihang University
Priority to CN201911163979.3A priority Critical patent/CN111124109B/zh
Publication of CN111124109A publication Critical patent/CN111124109A/zh
Application granted granted Critical
Publication of CN111124109B publication Critical patent/CN111124109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本申请提供了一种交互方式的选择方法、智能终端、设备及存储介质,应用于具有语音交互方式和视觉交互方式的智能终端,其中,该方法包括:当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;从声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与目标声纹相匹配的声纹信息所对应的面部比例阈值;对获取的目标图像进行识别,计算出目标图像中的面部区域所占面积的比例;基于计算出的比例与所述面部比例阈值之间的比较结果,选择与所述目标人员之间的交互方式。这样,无需用户手动操作就可以完成交互方式的选择,使交互更具灵活性,从而提高信息获取的效率。

Description

一种交互方式的选择方法、智能终端、设备及存储介质
技术领域
本申请涉及人机交互技术领域,尤其是涉及一种交互方式的选择方法、智能终端、设备及存储介质。
背景技术
现代电子设备以其智能感知、多通道交互、响应速度快等特点,被广泛应用于各个领域。其中,电子设备的交互方式通常包括语音交互和视觉交互。
语音交互方式为用户向设备终端输入语音信息,设备终端根据语音信息进行处理,反馈给用户答复信息;视觉交互方式为用户在设备终端的可操作界面上的特定区域输入查询指令,设备终端根据查询指令进行查询处理,并将查询结果反馈给用户。
现有技术中,具有语音交互方式和视觉交互方式的智能终端通常设置有特定的功能键以便于交互方式的选择,然而,交互方式的选择需要用户手动完成,其便捷性不足、灵活性差,影响信息的获取效率。
发明内容
有鉴于此,本申请的目的在于提供一种交互方式的选择方法、智能终端、设备及存储介质,通过计算目标图像中面部区域所占面积的比例,选择与用户之间合适的交互方式,无需用户手动操作就可以完成交互方式的选择,使交互更具灵活性,从而提高信息获取的效率。
第一方面,本申请实施例提供了一种交互方式的选择方法,应用于具有语音交互方式和视觉交互方式的智能终端,包括:
当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;
从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;
对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;
基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,在所述当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像之前,所述选择方法还包括:
录入目标人员的声纹信息,以及在所述目标人员处于与预设朝向正对的可视距离时所拍摄的图像;
将所述图像中的面部区域所占图像面积的比例确定为与所述声纹信息相对应的面部比例阈值。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例,包括:
对获取的目标图像进行人脸识别;
提取出所述目标图像中的面部信息,并计算所述面部信息所指示的面部区域所占目标图像面积的比例。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式,包括:
若计算出的比例大于或等于面部比例阈值,则确定与所述目标人员之间的首选交互方式为视觉交互方式;
若计算出的比例小于面部比例阈值,则确定与所述目标人员之间的首选交互方式为语音交互方式。
第二方面,本申请实施例提供了一种智能终端,所述智能终端具有语音交互方式和视觉交互方式,包括:
接收模块,用于当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;
获取模块,用于从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;
计算模块,用于对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;
比较模块,用于基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
结合第二方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述智能终端还包括:
录入模块,用于录入目标人员的声纹信息,以及在所述目标人员处于与预设朝向正对的可视距离时所拍摄的图像;
确定模块,用于将所述图像中的面部区域所占图像面积的比例确定为与所述声纹信息相对应的面部比例阈值。
结合第二方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述计算模块包括:
获取单元,用于对获取的目标图像进行人脸识别;
计算单元,用于提取出所述目标图像中的面部信息,并计算所述面部信息所指示的面部区域所占目标图像面积的比例。
结合第二方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述比较模块包括:
第一确定单元,用于若计算出的比例大于或等于面部比例阈值,则确定与所述目标人员之间的首选交互方式为视觉交互方式;
第二确定单元,用于若计算出的比例小于面部比例阈值,则确定与所述目标人员之间的首选交互方式为语音交互方式。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的交互方式的选择方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的交互方式的选择方法的步骤。
本申请实施例提供的一种交互方式的选择方法、智能终端、设备及存储介质,当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
与现有技术中的手动选择交互方式的方法相比,本申请通过采集预设朝向内的目标图像,确定出目标图像中面部区域所占面积的比例,并将确定的比例与预设的面部比例阈值进行比较,根据比较结果选择与用户之间的交互方式,这样,可以使交互更具灵活性,节省用户手动选择交互方式的时间,从而提高信息获取的效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种交互方式的选择方法的流程图;
图2示出了本申请另一实施例所提供的一种交互方式的选择方法的流程图;
图3示出了本申请实施例所提供的一种智能终端的结构示意图之一;
图4示出了本申请实施例所提供的一种智能终端的结构示意图之二;
图5示出了图3中所示的计算模块的结构示意图;
图6示出了图3中所示的比较模块的结构示意图;
图7示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可以应用于具有语音交互方式和视觉交互方式的智能终端,包括带屏幕的智能音箱,应用于智能终端的各类语音助手等。当智能终端被唤醒时,通过计算目标图像中面部区域所占图像面积的比例,并与预设面部比例阈值进行比较,根据比较结果选择与目标人员之间的交互方式,可以节省用户手动选择交互方式的时间,提高操作的便捷性和交互的灵活性。
经研究发现,现阶段,智能终端的语音交互方式和视觉交互方式是相互独立的,即用户根据实际需要或操作习惯选择语音交互方式或视觉交互方式,系统采用以用户所选择的交互方式为主的方式与用户进行交互。例如,手机的交互方式默认为视觉交互,用户通过触摸屏上的操作界面进行交互,当用户无法触碰手机时,无法与手机进行交互;智能音箱的交互方式默认为语音交互,当接收到唤醒词时,与用户通过语音交互,当用户可以通过视觉接收信息时,仍需要通过冗长的语音进行交互,其便捷性不足,影响用户获取信息的效率。
基于此,本申请实施例提供了一种交互方式的选择方法,通过采集预设朝向内的目标图像,确定出目标图像中面部区域所占面积的比例,并将确定的比例与预设的面部比例阈值进行比较,根据比较结果选择与用户之间的交互方式,可以使交互更具灵活性,节省用户手动选择交互方式的时间,从而提高信息获取的效率。
请参阅图1,图1为本申请实施例所提供的一种交互方式的选择方法的流程图。如图1中所示,本申请实施例提供的交互方式的选择方法,包括:
步骤101,当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像。
该步骤中,智能终端接收唤醒指令,采集预设范围内的声音和预设朝向内的目标图像,从采集的声音中获取声音信息。
其中,预设范围可以根据实际需要进行设置,当处于噪音多的环境下,智能终端只需要与位于预设范围内的用户进行交互。具体的,可以通过声源定位算法对发出指令的目标人员进行定位,如果在预设范围内,则采集预设朝向内的目标图像,否则,不进行后续的操作。预设朝向通常为智能设备的正前方。
这样,可以获得目标人员的声音信息和预设朝向内的目标图像,便于后续对目标人员当前状态的判断。
步骤102,从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值。
该步骤中,从步骤101中所采集的声音信息中提取目标声纹,将目标声纹与预先存储的声纹信息进行匹配,获取与目标声纹对应的面部比例阈值。
其中,面部比例阈值和声纹信息一一对应,在目标人员存储面部比例阈值的同时,同时记录并存储目标人员的声纹信息。
这样,根据采集的声音信息,确定声音信息所属的人员,可以确定出该人员预先存储的面部比例阈值。
步骤103,对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例。
该步骤中,将步骤101中获取的目标图像输入人脸检测模型,检测出目标图像中面部区域所在的位置,提取目标图像中的面部区域,并计算出面部区域所占图像面积的比例。具体的,可以以目标图像的左上角为原点,建立以像素为单位的坐标系,通过检测,得到面部区域对应的像素的位置坐标,计算面部区域的像素数目与目标图像的像素数目的比值,用以表征面部区域所占图像面积的比例。
步骤104,基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
该步骤中,根据目标图像中面部区域所占图像面积的比例与声音信息对应的面部比例阈值进行比较,根据比较的结果选择与目标人员之间的交互方式。
其中,选择交互方式的条件可以是将目标图像中面部区域所占图像面积的比例与声音信息对应的面部比例阈值进行对比,也可以是将目标图像中的面部区域面积与由面部比例阈值计算的面积进行对比,根据对比的结果选择与目标人员之间的交互方式。
本申请实施例提供的交互方式的选择方法,当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
与现有技术中的手动选择交互方式的方法相比,本申请通过采集预设朝向内的目标图像,确定出目标图像中面部区域所占面积的比例,并将确定的比例与预设的面部比例阈值进行比较,根据比较结果选择与用户之间的交互方式,这样可以使交互更具灵活性,节省用户手动选择交互方式的时间。当用户可以通过视觉获取信息时,无需听完冗长的语音,而是快速选择所需要的信息;当用户无法通过视觉获取信息时,可以通过语音交互,获得需要的全部信息,从而提高了信息获取的效率。
请参阅图2,图2为本申请另一实施例提供的一种交互方式的选择方法的流程图。如图2中所示,本申请实施例提供的交互方式的选择方法,包括:
步骤201,录入目标人员的声纹信息,以及在所述目标人员处于与预设朝向正对的可视距离时所拍摄的图像。
该步骤中,在目标人员初次使用智能终端时,需要进行初始化操作。具体的初始化操作可以为,录入目标人员的声纹信息,以及目标人员在智能终端的正前方,且能看清楚屏幕上最大或者最小的文字的距离时,智能终端拍摄的带有目标人员面部的图像。
步骤202,将所述图像中的面部区域所占图像面积的比例确定为与所述声纹信息相对应的面部比例阈值。
该步骤中,识别出步骤201中智能终端所拍摄的图像中的面部区域,计算面部区域所占图像面积的比例,具体可以为面部区域的像素点数目与图像像素点总数的比值,也可以为将图像中的面部区域进行分割,重新组成规则的图形,计算该图形的面积与图像面积的比值。
步骤203,当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;
步骤204,从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值。
步骤205,对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例。
步骤206,基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
其中,步骤203至步骤206的描述可以参照步骤101至步骤104的描述,并且能达到相同的技术效果,对此不做赘述。
本申请实施例中,作为一可选实施例,对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例,包括:
对获取的目标图像进行人脸识别;
提取出所述目标图像中的面部信息,并计算所述面部信息所指示的面部区域所占目标图像面积的比例。
该步骤中,通过人脸识别方法,从获取的目标图像中识别出面部区域的位置,并计算出面部区域所占目标图像面积的比例,具体可以为面部区域的像素点数目与图像像素点总数的比值,也可以为将图像中的面部区域进行分割,重新组成规则的图形,计算该图形的面积与图像面积的比值。
其中,人脸识别方法包括特征提取法、特征脸法、相关匹配法、基于隐马尔柯夫模型的识别方法等。以特征脸法为例,先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性,然后再计算出它们的几何特征量,而这些几何特征量构成描述面部区域的特征向量,根据这些特征向量,识别出目标图像中面部区域的位置。
本申请实施例中,作为一可选实施例,基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式,包括:
若计算出的比例大于或等于面部比例阈值,则确定与所述目标人员之间的首选交互方式为视觉交互方式;
若计算出的比例小于面部比例阈值,则确定与所述目标人员之间的首选交互方式为语音交互方式。
该步骤中,如果采集到的目标图像中面部区域所占面积的比例大于或等于面部比例阈值,则将视觉交互方式作为与目标人员进行交互的首选的方式,可以在智能终端的显示屏上显示可操作性选项,用户通过操作界面上的各选项与智能终端进行交互,获取所需要的信息。如果采集到的目标图像中面部区域所占面积的比例小于面部比例阈值,则将语音交互方式作为与目标人员进行交互的首选的方式,可以通过语音进行“问答”式交互,通过语音提供可选的功能选项,识别目标人员的指示语音,提供与指示相对应的答复,可以设置语音的时长,保证答复简洁,避免给目标人员带来认知负担。
这样,能够有效判断出目标人员当前的状态,并选择出合适的交互方式与目标人员进行交互。当用户可以通过视觉获取信息时,无需听完冗长的语音,而是快速选择所需要的信息;当用户无法通过视觉获取信息时,可以通过语音交互,获得需要获取的全部信息,从而提高了信息获取的效率。
本申请实施例提供的一种交互方式的选择方法,录入目标人员的声纹信息,以及在所述目标人员处于与预设朝向正对的可视距离时所拍摄的图像;将所述图像中的面部区域所占图像面积的比例确定为与所述声纹信息相对应的面部比例阈值;当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
与现有技术中的手动选择交互方式的方法相比,本申请通过采集预设朝向内的目标图像,确定出目标图像中面部区域所占面积的比例,并将确定的比例与预设的面部比例阈值进行比较,根据比较结果选择与用户之间的交互方式,这样可以使交互更具灵活性,节省用户手动选择交互方式的时间,提高信息获取的效率。当用户可以通过视觉获取信息时,无需听完冗长的语音,而是快速选择所需要的信息;当用户无法通过视觉获取信息时,可以通过语音交互,获得需要的全部信息,从而提高了信息获取的效率。进一步的,通过目标人员的声音信息和图像信息,可以有效检测出目标人员当前的状态,提高判断结果的准确性和有效性。
请参阅图3、图4、图5和图6,图3示出了本申请实施例所提供的一种智能终端的结构示意图之一,图4示出了本申请实施例所提供的一种智能终端的结构示意图之二,图5示出了图3中所示的计算模块的结构示意图,图6示出了图3中所示的比较模块的结构示意图。如图3中所示,所述智能终端300包括:
接收模块310,用于当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;
获取模块320,用于从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;
计算模块330,用于对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;
比较模块340,用于基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
如图4中所示,所述智能终端300还包括:
录入模块350,用于录入目标人员的声纹信息,以及在所述目标人员处于与预设朝向正对的可视距离时所拍摄的图像;
确定模块360,用于将所述图像中的面部区域所占图像面积的比例确定为与所述声纹信息相对应的面部比例阈值。
进一步的,如图5中所示,所述计算模块330包括:
获取单元331,用于对获取的目标图像进行人脸识别;
计算单元332,用于提取出所述目标图像中的面部信息,并计算所述面部信息所指示的面部区域所占目标图像面积的比例。
进一步的,如图6中所示,所述比较模块340包括:
第一确定单元341,用于若计算出的比例大于或等于面部比例阈值,则确定与所述目标人员之间的首选交互方式为视觉交互方式;
第二确定单元342,用于若计算出的比例小于面部比例阈值,则确定与所述目标人员之间的首选交互方式为语音交互方式。
本申请实施例提供的智能终端,所述智能终端具有语音交互方式和视觉交互方式,当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
与现有技术中的手动选择交互方式的方法相比,本申请通过采集预设朝向内的目标图像,确定出目标图像中面部区域所占面积的比例,并将确定的比例与预设的面部比例阈值进行比较,根据比较结果选择与用户之间的交互方式,这样可以使交互更具灵活性,节省用户手动选择交互方式的时间,从而提高信息获取的效率。进一步的,通过目标人员的声音信息和图像信息可以有效检测出目标人员当前的状态,提高判断结果的准确性和有效性。
请参阅图7,图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括处理器710、存储器720和总线730。
所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图1以及图2所示方法实施例中的交互方式的选择方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的交互方式的选择方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种交互方式的选择方法,其特征在于,应用于具有语音交互方式和视觉交互方式的智能终端,所述选择方法包括:
当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;
从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;
对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;
基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
2.根据权利要求1所述的选择方法,其特征在于,在所述当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像之前,所述选择方法还包括:
录入目标人员的声纹信息,以及在所述目标人员处于与预设朝向正对的可视距离时所拍摄的图像;
将所述图像中的面部区域所占图像面积的比例确定为与所述声纹信息相对应的面部比例阈值。
3.根据权利要求1所述的选择方法,其特征在于,所述对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例,包括:
对获取的目标图像进行人脸识别;
提取出所述目标图像中的面部信息,并计算所述面部信息所指示的面部区域所占目标图像面积的比例。
4.根据权利要求1所述的选择方法,其特征在于,所述基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式,包括:
若计算出的比例大于或等于面部比例阈值,则确定与所述目标人员之间的首选交互方式为视觉交互方式;
若计算出的比例小于面部比例阈值,则确定与所述目标人员之间的首选交互方式为语音交互方式。
5.一种智能终端,其特征在于,所述智能终端具有语音交互方式和视觉交互方式,所述智能终端包括:
接收模块,用于当接收到目标人员发出的唤醒指令时,获取预设范围内的声音信息和预设朝向内的目标图像;
获取模块,用于从所述声音信息中提取目标声纹,并基于预先存储的声纹信息与面部比例阈值的映射关系,获取与所述目标声纹相匹配的声纹信息所对应的面部比例阈值,其中,所述面部比例阈值为预设的面部区域的面积与包括所述面部区域的图像面积的比值;
计算模块,用于对获取的目标图像进行识别,计算出所述目标图像中的面部区域所占面积的比例;
比较模块,用于基于计算出的比例与所述面部比例阈值之间的比较结果,从语音交互方式和视觉交互方式中选择与所述目标人员之间的交互方式。
6.根据权利要求5所述的智能终端,其特征在于,所述智能终端还包括:
录入模块,用于录入目标人员的声纹信息,以及在所述目标人员处于与预设朝向正对的可视距离时所拍摄的图像;
确定模块,用于将所述图像中的面部区域所占图像面积的比例确定为与所述声纹信息相对应的面部比例阈值。
7.根据权利要求5所述的智能终端,其特征在于,所述计算模块包括:
获取单元,用于对获取的目标图像进行人脸识别;
计算单元,用于提取出所述目标图像中的面部信息,并计算所述面部信息所指示的面部区域所占目标图像面积的比例。
8.根据权利要求5所述的智能终端,其特征在于,所述比较模块包括:
第一确定单元,用于若计算出的比例大于或等于面部比例阈值,则确定与所述目标人员之间的首选交互方式为视觉交互方式;
第二确定单元,用于若计算出的比例小于面部比例阈值,则确定与所述目标人员之间的首选交互方式为语音交互方式。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一项所述的交互方式的选择方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4中任一项所述的交互方式的选择方法的步骤。
CN201911163979.3A 2019-11-25 2019-11-25 一种交互方式的选择方法、智能终端、设备及存储介质 Active CN111124109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911163979.3A CN111124109B (zh) 2019-11-25 2019-11-25 一种交互方式的选择方法、智能终端、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911163979.3A CN111124109B (zh) 2019-11-25 2019-11-25 一种交互方式的选择方法、智能终端、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111124109A true CN111124109A (zh) 2020-05-08
CN111124109B CN111124109B (zh) 2023-05-05

Family

ID=70496477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911163979.3A Active CN111124109B (zh) 2019-11-25 2019-11-25 一种交互方式的选择方法、智能终端、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111124109B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377821A (zh) * 2021-06-09 2021-09-10 深圳前海微众银行股份有限公司 组合比例获取方法、设备、介质及程序产品
CN113406567A (zh) * 2021-06-25 2021-09-17 安徽淘云科技股份有限公司 一种声源定位方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
WO2017031860A1 (zh) * 2015-08-24 2017-03-02 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
CN106790054A (zh) * 2016-12-20 2017-05-31 四川长虹电器股份有限公司 基于人脸识别和声纹识别的交互式认证系统及方法
CN107450729A (zh) * 2017-08-10 2017-12-08 上海木爷机器人技术有限公司 机器人交互方法及装置
CN108490797A (zh) * 2018-03-20 2018-09-04 北京百度网讯科技有限公司 智能设备的搜索结果展示方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017031860A1 (zh) * 2015-08-24 2017-03-02 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
CN106127156A (zh) * 2016-06-27 2016-11-16 上海元趣信息技术有限公司 基于声纹和人脸识别的机器人交互方法
CN106790054A (zh) * 2016-12-20 2017-05-31 四川长虹电器股份有限公司 基于人脸识别和声纹识别的交互式认证系统及方法
CN107450729A (zh) * 2017-08-10 2017-12-08 上海木爷机器人技术有限公司 机器人交互方法及装置
CN108490797A (zh) * 2018-03-20 2018-09-04 北京百度网讯科技有限公司 智能设备的搜索结果展示方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377821A (zh) * 2021-06-09 2021-09-10 深圳前海微众银行股份有限公司 组合比例获取方法、设备、介质及程序产品
CN113377821B (zh) * 2021-06-09 2024-06-07 深圳前海微众银行股份有限公司 组合比例获取方法、设备、介质及程序产品
CN113406567A (zh) * 2021-06-25 2021-09-17 安徽淘云科技股份有限公司 一种声源定位方法、装置、设备及存储介质
CN113406567B (zh) * 2021-06-25 2024-05-14 安徽淘云科技股份有限公司 一种声源定位方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111124109B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN108664364B (zh) 一种终端测试方法及装置
TWI652628B (zh) 指紋識別方法及電子裝置
CN109800731B (zh) 指纹录入方法及相关装置
CN111143925B (zh) 图纸标注方法及相关产品
CN111597884A (zh) 面部动作单元识别方法、装置、电子设备及存储介质
CN105912912A (zh) 一种终端用户身份登录方法和系统
CN106200941B (zh) 一种虚拟场景的控制方法及电子设备
CN110741387B (zh) 人脸识别方法、装置、存储介质及电子设备
CN107291238B (zh) 一种数据处理方法与装置
CN111124109A (zh) 一种交互方式的选择方法、智能终端、设备及存储介质
CN112149570B (zh) 多人活体检测方法、装置、电子设备及存储介质
CN111640169A (zh) 历史事件呈现方法、装置、电子设备及存储介质
CN112581446A (zh) 一种图像的显著性物体检测方法、装置、设备及存储介质
CN109271228A (zh) 应用的界面功能识别方法、装置及电子设备
CN109840515B (zh) 面部姿态调整方法、装置和终端
CN110084187B (zh) 基于计算机视觉的位置识别方法、装置、设备及存储介质
CN112991555B (zh) 数据展示方法、装置、设备以及存储介质
CN104586352A (zh) 疲劳检测方法及系统
CN110187806B (zh) 指纹模板录入方法及相关装置
CN108803991A (zh) 一种对象筛选方法、装置、计算机可读存储介质及电子终端
CN112861571A (zh) 家电设备控制方法、控制设备及计算机可读存储介质
CN106126087A (zh) 一种基于具有触摸屏的智能终端的显示图片方法和装置
CN112004080B (zh) 汽车显示设备的故障检测方法、设备、存储介质及装置
CN111090382B (zh) 一种文字内容的输入方法及终端设备
CN105528198B (zh) 操作界面识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant