CN111243585B - 多人场景下的控制方法、装置、设备及存储介质 - Google Patents

多人场景下的控制方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111243585B
CN111243585B CN202010014526.0A CN202010014526A CN111243585B CN 111243585 B CN111243585 B CN 111243585B CN 202010014526 A CN202010014526 A CN 202010014526A CN 111243585 B CN111243585 B CN 111243585B
Authority
CN
China
Prior art keywords
person
target
target person
character
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010014526.0A
Other languages
English (en)
Other versions
CN111243585A (zh
Inventor
戚耀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010014526.0A priority Critical patent/CN111243585B/zh
Publication of CN111243585A publication Critical patent/CN111243585A/zh
Application granted granted Critical
Publication of CN111243585B publication Critical patent/CN111243585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本申请公开了多人场景下的控制方法、装置、设备及存储介质,涉及计算机技术领域。具体实现方案为:通过阵列麦克风采集多个方向上的声音特征,并通过摄像头采集至少一个人物的神态特征,根据多个方向上的声音特征和至少一个人物的神态特征,在至少一个人物中确定目标人物,执行目标人物发出的语音命令。本申请的方法,实现了智能设备在多人场景中获取最优监听用户并执行用户指令的功能,提高了设备的智能化。

Description

多人场景下的控制方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种人工智能技术。
背景技术
目前,智能音箱和智能电视等电子设备的技术不断成熟,电子设备的唤醒方式影响了设备的使用是否方便及智能化。
现有技术中常常通过语音的方式进行唤醒,当设备接收到一个指定用户发出的特定的唤醒词时,设备被唤醒,执行用户指令中对应的操作。
然而现有技术只能在同一时间接收一个人的信息,当同时有多个用户发出命令,电子设备无法被唤醒执行相应的操作,这种唤醒方式使得电子设备无法在多人场景下使用,影响了设备的智能化。
发明内容
本申请提供一种多人场景下的控制方法、装置、设备及存储介质,从而扩展了电子设备的应用场景,提高了电子设备的智能化。
第一方面,本申请提供一种应用于多人场景下的控制方法,包括:通过阵列麦克风采集多个方向上的第一声音特征,并通过摄像头采集至少一个人物的第一神态特征;根据多个方向上的第一声音特征和至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物;执行第一目标人物发出的语音命令。其中,本申请提供的是多人场景下的控制方法,相对于一对一的唤醒及交互方法,其应用场景更加广泛,唤醒方式更加智能,解决了在多人说话的场景中设备无法识别用户的问题。并且电子设备可以结合人物的声音特征和神态特征来确定目标人物,从而可以提高电子设备的人物识别成功率。
可选的,执行第一目标人物发出的语音命令之后,还包括:通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征;根据多个方向上的第二声音特征和至少一个人物的第二神态特征,在至少一个人物中确定第二目标人物;若第二目标人物与第一目标人物不同,则执行第二目标人物发出的语音命令。即本申请提供的技术方案还适用于插话场景。
可选的,还包括:若第二目标人物与第一目标人物不同,则清除第一目标人物发出的语音命令,从而可以节省电子设备的存储空间。
可选的,通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征,包括:若获取到目标唤醒词,则通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征。相反地,若未获取到目标唤醒词,则不通过阵列麦克风采集多个方向上的第二声音特征,并不通过摄像头采集至少一个人物的第二神态特征,从而可以降低电子设备的功耗。
可选的,还包括:获取第一目标人物的标识;显示第一目标人物的标识和第一目标人物发出的语音命令,从而可以提高电子设备的智能性。
可选的,根据多个方向上的第一声音特征和至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物,包括:对多个方向上的第一声音特征和各个人物的声音特征进行匹配,以确定当前正在讲话的至少一个人物;根据至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物。即电子设备可以结合人物的声音特征和神态特征来确定目标人物,从而可以提高电子设备的人物识别成功率。
可选的,任一个人物的第一神态特征包括:该人物的眼神特征和\或口型特征,相应的,根据至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物,包括:若根据至少一个人物各自的眼神特征确定存在一个人物的眼神方向朝着摄像头,和\或,根据该人物的口型特征确定该人物正在发出语音命令,则将该人物确定为第一目标人物。即电子设备可以根据人物的眼神特征和\或口型特征来确定目标人物,从而可以提高电子设备的人物识别成功率。
可选的,还包括:跟踪第一目标人物,以调整摄像头的方向,能够更好的对用户进行监听实现交互,同时给用户更好的使用体验。
本申请还提供一种应用于多人场景下的控制装置、设备、可读存储介质以及计算机程序产品,其效果可参考上述方法部分对应的效果,下面对此不再赘述。
第二方面,本申请提供一种应用于多人场景下的控制装置,包括:第一采集模块、第一确定模块和第一执行模块,第一采集模块用于通过阵列麦克风采集多个方向上的第一声音特征,并通过摄像头采集至少一个人物的第一神态特征;第一确定模块用于根据多个方向上的第一声音特征和至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物;第一执行模块用于执行第一目标人物发出的语音命令。
可选的,还包括第二采集模块,用于通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征;第二确定模块用于根据多个方向上的第二声音特征和至少一个人物的第二神态特征,在至少一个人物中确定第二目标人物;第二执行模块用于若第二目标人物与第一目标人物不同,则执行第二目标人物发出的语音命令。
可选的,还包括:清除模块,若第二目标人物与第一目标人物不同,则清除第一目标人物发出的语音命令。
可选的,第二采集模块具体用于:若获取到目标唤醒词,则通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征。
可选的,还包括:获取模块和显示模块,获取模块用于获取第一目标人物的标识;显示模块用于显示第一目标人物的标识和第一目标人物发出的语音命令。
可选的,第一确定模块具体用于:对多个方向上的第一声音特征和各个人物的声音特征进行匹配,以确定当前正在讲话的至少一个人物;根据至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物。
可选的,第一确定模块具体用于:若根据至少一个人物各自的眼神特征确定存在一个人物的眼神方向朝着摄像头,和\或,根据该人物的口型特征确定该人物正在发出语音命令,则将该人物确定为第一目标人物。
可选的,还包括:跟踪模块用于跟踪第一目标人物,以调整摄像头的方向。
第三方面,本申请实施例提供一种电子设备,包括至少一个处理器以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第一方面的可选方式的任一项所述的应用于多人场景下的控制方法。
第四方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第一方面的可选方式的任一项所述的应用于多人场景下的控制方法。
第五方面,本申请实施例提供一种计算机程序产品,该产品包括:计算机指令,该计算机指令用于使计算机执行如第一方面或第一方面的可选方式的任一项所述的应用于多人场景下的控制方法。
本申请提供的一种多人场景下的控制方法、装置、设备及存储介质,通过阵列麦克风采集的声音特征结合摄像头采集神态特征,根据多个方向上的声音特征和至少一个人物的神态特征,确定在多人场景中的最优监听对象,达到了电子设备在多人场景中的唤醒和交互功能,使得电子设备的应用场景更加广泛,设备更加智能化,进一步的,通过对采集到的声音特征及面部特征的分析,可以检测是否有人插话以及插话情境下的处理,从而使电子设备的应用更加灵活。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请提供的电子设备的应用场景的示意图;
图2为本申请提供的一种多人场景下的控制方法的流程示意图;
图3(a)和图3(b)为电子设备显示标识的示意图;
图4为本申请提供的另一种多人场景下的控制方法的流程示意图;
图5为本申请提供的再一种多人场景下的控制方法的流程示意图;
图6为本申请提供的多人场景下的控制装置的结构示意图;
图7为本申请提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
示例性的,图1为本申请提供的应用场景示意图。如图1所示,电子设备包括:显示面板11、阵列麦克风12和摄像头13。该方案中,阵列麦克风12用于采集设备周围的声音,麦克风阵列12可以设置在任一便于采集用户的语音信号的位置,例如分布于该电子设备的顶部,或者设置于电子设备的四周。如图1所示,本实施例将阵列麦克风均匀的设置于电子设备的顶端,以便于阵列麦克风采集来自前后左右各个方向的语音信息,分布式的设计更容易使设备判断声音的来源,从而确定声音的方向。摄像头13用于采集用户的面部特征,摄像头13可以为一个可旋转的活动式摄像头,也可以为架设在一可旋转底座上的固定摄像头,以便摄像头的朝向根据不同方向的用户进行调整,也可在电子设备的不同方向设置多个摄像头,满足对不同方向的用户的面部特征的采集,如图1所示,本实施例将摄像头设置于电子设备的上方。显示面板11用于显示电子设备反馈给用户的信息,可以是电子设备与用户的文字对话记录,可以是用户的名称和\或用户画像,也可以是电子设备的模拟眼神图画等。可以理解的是,为了便于示例,图1仅示出了电子设备阵列麦克风的位置、摄像头的位置以及显示面板的位置,本发明对上述构成的位置、个数、大小及形状均不做具体限定。
图2为本申请提供的一种多人场景下的控制方法的流程示意图。该方法由电子设备的部分或者全部执行,所谓电子设备的部分可以指电子设备的处理器,下面以该方法的执行主体为电子设备为例,对上述控制方法进行说明,如图2所示,该方法包括如下步骤:
步骤S100:电子设备通过阵列麦克风采集多个方向上的第一声音特征,并通过摄像头采集至少一个人物的第一神态特征。
步骤S101:电子设备根据多个方向上的第一声音特征和至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物。
步骤S102:电子设备执行第一目标人物发出的语音命令。
针对步骤S100进行如下说明:
用户的声音特征主要包括以下至少一项:响度、音调和音色特征,不同的声音的频率表现在波形方面的与众不同的特性称之为声音的音色,确定的波形具有确定的音色,同一个人在说话时的波形是连续的,即音色是连续不变的,结合说话人的音调可以区分不同的声音。声音的响度即声音的大小。用户的神态特征包括用户的眼神特征和\或口型特征,通过摄像头,采集以上神态特征。
针对步骤101进行如下说明:
可选方式一,电子设备可以先根据多个方向上的第一声音特征确定至少一个人物,再根据这些人物各自的第一神态特征,在这些人物中确定第一目标人物。
例如第一声音特征为响度特征,电子设备将采集到的多个方向上的第一声音特征与预设响度阈值进行比较,将第一声音特征高于预设响度阈值的人物确定为上述至少一个人物。
再例如第一声音特征为音色特征,电子设备内部设置一个预设时间段,如果在预设时间段内检测到持续的同一音色特征,将具有持续的同一音色特征的人物确定为上述至少一个人物。
电子设备确定上述至少一个人物之后,再根据用户的第一神态特征,在至少一个人物中确定第一目标人物,例如存在一个人物的眼神方向朝着所述摄像头,和\或,根据该人物的口型特征确定该人物正在发出语音命令,则该人物为第一目标人物。
可选方式二,电子设备可以先根据多个人物各自的第一神态特征,确定至少一个人物,再根据这些人物各自的第一声音特征,在这些人物中确定第一目标人物。
例如根据各个方向上各个人物的眼神特征确定存在至少一个人物的眼神方向朝着所述摄像头,和\或,根据各个方向上各个人物的口型特征确定该人物正在发出语音命令,则将该人物确定为上述至少一个人物,再根据第一声音特征,例如声音响度大于预设响度阈值的人物为第一目标人物。
可选的,电子设备内部可以提前存储有不同用户的声音特征和对应用户的标识,当电子设备确定第一目标人物之后,获取存储在设备内部的与声音特征信息匹配的标识,在显示面板上显示第一目标人物的标识以及第一目标人物发出的语音命令,以便用户确认电子设备是否正确识别用户并且执行该语音命令。
可选的,上述第一目标人物的标识也可以是电子设备根据摄像头采集到的用户面部特征所刻画的用户画像。例如:图3(a)左侧示出的是“爸爸”的用户画像,图3(b)左侧示出的是“妈妈”的用户画像。
可选的,当第一目标人物移动时,电子设备跟踪所述第一目标人物,并且调整摄像头的方向,使摄像头始终面向第一目标人物,能够更好的对用户进行监听实现交互,同时给用户更好的使用体验。
图4为本申请提供的另一种多人场景下的控制方法的流程示意图,图4是在图2所述实施例的基础上,进一步的,还包括:
S104:电子设备通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征。
S105:电子设备根据多个方向上的第二声音特征和至少一个人物的第二神态特征,在至少一个人物中确定第二目标人物。
S106:若第二目标人物与第一目标人物不同,则电子设备执行第二目标人物发出的语音命令。
针对步骤S104-S106进行如下说明:
本实施例是针对插话场景设置的,在电子设备与人对话的过程中,如果有其他人进行插话,设备检测是否有人进行插话,并且决策是否让此人插话,设置插话模式的检测使得电子设备使用更加灵活,能够应对更多场景。
可选的,对插话模式的检测可以在电子设备和用户交互对话的整个过程中持续进行,如果在电子设备和用户交互对话的过程中,电子设备检测到有比第一目标人物表达意愿更为强烈的用户,即通过用户的声音特征和神态特征判定到第二目标人物,且第一目标人物和第二目标人物不同,那么电子设备决定让第二目标人物插话。或者,电子设备可以周期性地检测第二目标人物。又或者,电子设备只在接收到目标唤醒词时,才检测是否存在第二目标人物。该目标唤醒词可以是电子设备在出厂时已经设置好的唤醒词,也可以根据用户的实际需要设置。例如:该目标唤醒词可以是出厂设置好的“小度、小度”。
如图4所示,本实施例以电子设备接收到目标唤醒词后进入插话模式为例,当电子设备正在与用户监护对话的过程中,通过麦克风采集到的了目标唤醒词,当电子设备检测到目标唤醒词时,判断为用户对电子设备在一段时间下的再次唤醒,进入插话模式的检测,判断根据阵列麦克风和摄像头判断当前表达意愿最为强烈的用户,确定为第二目标人物,若第二目标人物和第一目标人物相同,仍然执行第一目标人物的语音命令,如果第二目标人物和第一目标人物不同,执行第二目标人物发出的语音命令。
可选的,若第二目标人物与所述第一目标人物不同,则电子设备清除第一目标人物发出的语音命令。清除第一目标用户的语音命令,可以节省电子设备内部空间,提高速度,减少内存消耗。
针对步骤S101的可选方式一进行如下说明:图5为本申请提供的再一种多人场景下的控制方法的流程示意图,图5是在图2所述实施例的基础上,进一步的,步骤S101具体包括:
S101a:电子设备对多个方向上的第一声音特征和各个人物的声音特征进行匹配,以确定当前正在讲话的至少一个人物。
S101b:电子设备根据至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物。
针对步骤S101a进行如下说明:
可选的,电子设备预先存储有多个人物的声音特征和声音特征对应的用户标识,该声音特征包括以下至少一项:声音的响度、音色和音调。基于此,电子设备获取到各个方向上的第一声音特征之后,电子设备可以对各个方向上的第一声音特征和预先存储的多个人物的声音特征进行匹配,若某第一声音特征与预先存储的某声音特征匹配成功,则确定该预先存储的声音特征对应的人物为正在讲话的人物。
针对步骤S101b进行如下说明:
可选的,若根据至少一个人物各自的眼神特征确定存在一个人物的眼神方向朝着所述摄像头,和\或,根据该人物的口型特征确定该人物正在发出语音命令,则将该人物确定为第一目标人物。
本实施例电子设备首先根据麦克风获取的声音特征与预先存储的声音特征和对应的用户标识进行匹配,初步的确定一个人物,再结合摄像头采集到的神态特征进行进一步的判断,更加准确的确定第一目标人物。
图6为本申请提供的多人场景下的控制装置的结构示意图。如图6所示,该多人场景下的控制装置包括:
第一采集模块601,用于通过阵列麦克风采集多个方向上的第一声音特征,并通过摄像头采集至少一个人物的第一神态特征。
第一确定模块602用于根据多个方向上的第一声音特征和至少一个人物的第一神态特征,在至少一个人物中确定第一目标人物。
第一执行模块603用于执行第一目标人物发出的语音命令。
可选的,还包括:
第二采集模块601a,用于通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征。
第二确定模块602a,用于根据多个方向上的第二声音特征和至少一个人物的第二神态特征,在至少一个人物中确定第二目标人物。
第二执行模块603a,用于若第二目标人物与第一目标人物不同,则执行第二目标人物发出的语音命令。
可选的,还包括:
清除模块604用于若第二目标人物与第一目标人物不同,则清除第一目标人物发出的语音命令。
获取模块605用于获取第一目标人物的标识;
显示模块606用于显示第一目标人物的标识和第一目标人物发出的语音命令。
跟踪模块607用于跟踪第一目标人物,以调整摄像头的方向。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
图7为本申请提供的电子设备的结构示意图。如图7所示,是根据本申请实施例的多人场景下的控制的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的多人场景下的控制的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的多人场景下的控制的方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的多人场景下的控制的方法对应的程序指令/模块(例如,附图6所示的采集模块601、确定模块602和执行模块603)。处理器701通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的多人场景下的控制的方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据多人场景下的控制的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至多人场景下的控制电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
多人场景下的控制的方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与XXX的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过阵列麦克风采集多个方向上的声音特征,并通过摄像头采集至少一个人物的神态特征,根据多个方向上的声音特征和至少一个人物的神态特征,在至少一个人物中确定目标人物,执行目标人物发出的语音命令。本申请的方法,实现了电子设备在多人场景中获取最优监听用户并执行用户指令的功能,提高了设备的智能化。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种应用于多人场景下的控制方法,其特征在于,包括:
通过阵列麦克风采集多个方向上的第一声音特征,并通过摄像头采集至少一个人物的第一神态特征;
根据所述多个方向上的第一声音特征和所述至少一个人物的第一神态特征,在所述至少一个人物中确定第一目标人物;
执行所述第一目标人物发出的语音命令;
通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征;
根据所述多个方向上的第二声音特征和所述至少一个人物的第二神态特征,在所述至少一个人物中确定第二目标人物;
若所述第二目标人物与所述第一目标人物不同,则执行所述第二目标人物发出的语音命令。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述第二目标人物与所述第一目标人物不同,则清除所述第一目标人物发出的语音命令。
3.根据权利要求1或2所述的方法,其特征在于,所述通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征,包括:
若获取到目标唤醒词,则通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述第一目标人物的标识;
显示所述第一目标人物的标识和所述第一目标人物发出的语音命令。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个方向上的第一声音特征和所述至少一个人物的第一神态特征,在所述至少一个人物中确定第一目标人物,包括:
对所述多个方向上的第一声音特征和各个人物的声音特征进行匹配,以确定当前正在讲话的所述至少一个人物;
根据所述至少一个人物的第一神态特征,在所述至少一个人物中确定第一目标人物。
6.根据权利要求5所述的方法,其特征在于,任一个人物的所述第一神态特征包括:该人物的眼神特征和\或口型特征,相应的,所述根据所述至少一个人物的第一神态特征,在所述至少一个人物中确定第一目标人物,包括:
若根据所述至少一个人物各自的眼神特征确定存在一个人物的眼神方向朝着所述摄像头,和\或,根据该人物的口型特征确定该人物正在发出语音命令,则将该人物确定为所述第一目标人物。
7.根据权利要求1所述的方法,其特征在于,还包括:
跟踪所述第一目标人物,以调整所述摄像头的方向。
8.一种应用于多人场景下的控制装置,其特征在于,包括:
第一采集模块,通过阵列麦克风采集多个方向上的第一声音特征,并通过摄像头采集至少一个人物的第一神态特征;
第一确定模块,根据所述多个方向上的第一声音特征和所述至少一个人物的第一神态特征,在所述至少一个人物中确定第一目标人物;
第一执行模块,执行所述第一目标人物发出的语音命令;
第二采集模块,用于通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征;
第二确定模块,用于根据所述多个方向上的第二声音特征和所述至少一个人物的第二神态特征,在所述至少一个人物中确定第二目标人物;
第二执行模块,用于若所述第二目标人物与所述第一目标人物不同,则执行所述第二目标人物发出的语音命令。
9.根据权利要求8所述的装置,其特征在于,还包括:
清除模块,若所述第二目标人物与所述第一目标人物不同,则清除所述第一目标人物发出的语音命令。
10.根据权利要求8或9所述的装置,其特征在于,所述第二采集模块具体用于:
若获取到目标唤醒词,则通过阵列麦克风采集多个方向上的第二声音特征,并通过摄像头采集至少一个人物的第二神态特征。
11.根据权利要求8所述的装置,其特征在于,还包括:
获取模块,获取所述第一目标人物的标识;
显示模块,显示所述第一目标人物的标识和所述第一目标人物发出的语音命令。
12.根据权利要求8所述的装置,其特征在于,所述第一确定模块具体用于:
对所述多个方向上的第一声音特征和各个人物的声音特征进行匹配,以确定当前正在讲话的所述至少一个人物;
根据所述至少一个人物的第一神态特征,在所述至少一个人物中确定第一目标人物。
13.根据权利要求12所述的装置,其特征在于,任一个人物的所述第一神态特征包括:该人物的眼神特征和\或口型特征,相应的,所述第一确定模块具体用于:
若根据所述至少一个人物各自的眼神特征确定存在一个人物的眼神方向朝着所述摄像头,和\或,根据该人物的口型特征确定该人物正在发出语音命令,则将该人物确定为所述第一目标人物。
14.根据权利要求8所述的装置,其特征在于,还包括:
跟踪模块,跟踪所述第一目标人物,以调整所述摄像头的方向。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN202010014526.0A 2020-01-07 2020-01-07 多人场景下的控制方法、装置、设备及存储介质 Active CN111243585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010014526.0A CN111243585B (zh) 2020-01-07 2020-01-07 多人场景下的控制方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010014526.0A CN111243585B (zh) 2020-01-07 2020-01-07 多人场景下的控制方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111243585A CN111243585A (zh) 2020-06-05
CN111243585B true CN111243585B (zh) 2022-11-22

Family

ID=70879857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010014526.0A Active CN111243585B (zh) 2020-01-07 2020-01-07 多人场景下的控制方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111243585B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245267B (zh) * 2022-02-27 2022-07-08 北京荣耀终端有限公司 多设备协同工作的方法、系统及电子设备
CN116978372A (zh) * 2022-04-22 2023-10-31 华为技术有限公司 语音交互方法、电子设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330540B1 (en) * 1999-05-27 2001-12-11 Louis Dischler Hand-held computer device having mirror with negative curvature and voice recognition
JP2006030880A (ja) * 2004-07-21 2006-02-02 Honda Motor Co Ltd 車両用音声認識装置及び移動体
CN102324035A (zh) * 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及系统
CN104834222A (zh) * 2015-04-30 2015-08-12 广东美的制冷设备有限公司 家用电器的控制方法和装置
CN106440192A (zh) * 2016-09-19 2017-02-22 珠海格力电器股份有限公司 一种家电控制方法、装置、系统及智能空调
CN109307856A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种机器人空间定位的交互方法及装置
CN109377995A (zh) * 2018-11-20 2019-02-22 珠海格力电器股份有限公司 一种控制设备的方法与装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330540B1 (en) * 1999-05-27 2001-12-11 Louis Dischler Hand-held computer device having mirror with negative curvature and voice recognition
JP2006030880A (ja) * 2004-07-21 2006-02-02 Honda Motor Co Ltd 車両用音声認識装置及び移動体
CN102324035A (zh) * 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及系统
CN104834222A (zh) * 2015-04-30 2015-08-12 广东美的制冷设备有限公司 家用电器的控制方法和装置
CN106440192A (zh) * 2016-09-19 2017-02-22 珠海格力电器股份有限公司 一种家电控制方法、装置、系统及智能空调
CN109307856A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种机器人空间定位的交互方法及装置
CN109377995A (zh) * 2018-11-20 2019-02-22 珠海格力电器股份有限公司 一种控制设备的方法与装置

Also Published As

Publication number Publication date
CN111243585A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
US20220044463A1 (en) Speech-driven animation method and apparatus based on artificial intelligence
CN111261159B (zh) 信息指示的方法及装置
CN111276139A (zh) 语音唤醒方法及装置
CN112667068A (zh) 虚拟人物的驱动方法、装置、设备及存储介质
CN105122353A (zh) 用于虚拟个人助理系统的自然人-计算机交互
CN111243585B (zh) 多人场景下的控制方法、装置、设备及存储介质
CN110557699B (zh) 一种智能音箱交互方法、装置、设备及存储介质
CN111966212A (zh) 基于多模态的交互方法、装置、存储介质及智能屏设备
KR20110025718A (ko) 화상 통화 방법 및 시스템
CN112669831A (zh) 语音识别控制方法、装置、电子设备和可读存储介质
CN112969087B (zh) 一种信息展示方法、客户端、电子设备及存储介质
CN111367488A (zh) 语音设备及语音设备的交互方法、设备、存储介质
CN111443801A (zh) 人机交互方法、装置、设备及存储介质
CN111936964A (zh) 非中断性nui命令
CN112530419A (zh) 语音识别控制方法、装置、电子设备和可读存储介质
CN112581945A (zh) 语音控制方法、装置、电子设备和可读存储介质
JP4845183B2 (ja) 遠隔対話方法及び装置
CN112149599B (zh) 表情追踪方法、装置、存储介质和电子设备
CN111491124B (zh) 视频处理方法、装置及电子设备
CN112449098B (zh) 一种拍摄方法、装置、终端及存储介质
CN112929739A (zh) 发声控制方法、装置、电子设备和存储介质
CN112382292A (zh) 基于语音的控制方法和装置
CN111402271A (zh) 一种图像处理方法及电子设备
CN111160318A (zh) 电子设备控制方法及装置
CN112270918A (zh) 信息处理方法、装置、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210521

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant