CN109688512B - 一种拾音方法及装置 - Google Patents

一种拾音方法及装置 Download PDF

Info

Publication number
CN109688512B
CN109688512B CN201811604751.9A CN201811604751A CN109688512B CN 109688512 B CN109688512 B CN 109688512B CN 201811604751 A CN201811604751 A CN 201811604751A CN 109688512 B CN109688512 B CN 109688512B
Authority
CN
China
Prior art keywords
pickup range
state
sound pickup
determining
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811604751.9A
Other languages
English (en)
Other versions
CN109688512A (zh
Inventor
李思达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201811604751.9A priority Critical patent/CN109688512B/zh
Publication of CN109688512A publication Critical patent/CN109688512A/zh
Application granted granted Critical
Publication of CN109688512B publication Critical patent/CN109688512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones

Abstract

本发明涉及人工智能领域,尤其涉及一种拾音方法及装置,该方法包括,获取智能设备的当前状态;基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;基于确定的拾音范围,控制所述智能设备进行拾音,这样,根据当前状态,调整拾音范围,实现了拾音范围的动态调整,从而可以满足不同交互场景的需求,提高拾音效果,提升用户体验。

Description

一种拾音方法及装置
技术领域
本发明涉及人工智能领域,尤其涉及一种拾音方法及装置。
背景技术
随着智能技术发展,目前,出现了很多可以进行语音交互的智能设备,例如机器人等,智能设备也越来越受关注和欢迎,如何有效高质量地对目标用户拾音是非常有必要的。
现有技术中,智能设备拾音方法主要为,在拾音范围内采用波束成形(Beamforming)技术拾取音频信号,但是,现有技术中,智能设备的拾音范围是固定的,这样,若拾音范围较大,则可能拾音效果不好,容易对周围噪声误识别,若拾音范围较小,则可能识别不到目标用户声音,例如在运动状态时,目标用户与智能设备的角度和方位不断变化,可能对目标用户拾音效果差,因此,现有技术中拾音范围是不变的,不能自动调节,不能满足不同场景下的语音交互需求,拾音效果较差,降低了用户体验。
发明内容
本发明实施例提供一种拾音方法及装置,以解决现有技术中拾音范围固定,不能自动调节,拾音效果较差的问题。
本发明实施例提供的具体技术方案如下:
一种拾音方法,包括:
获取智能设备的当前状态;
基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;
基于确定的拾音范围,控制所述智能设备进行拾音。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,具体包括:
若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方;或
若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,具体包括:
若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度;或
若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度;
其中,所述第一预设幅度小于所述第二预设幅度。
可选的,所述目标用户为发出智能设备唤醒词语音的用户。
可选的,获取智能设备的当前状态,具体包括:
获取智能设备的当前任务状态;
基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,具体包括:
基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围。
可选的,所述方法还包括:在确定的拾音范围内确定波束成形方向。
可选的,在确定的拾音范围内确定波束成形方向,具体包括:
获取在确定的拾音范围内检测到的用户信息;
根据所述用户信息,在所述拾音范围内确定波束成形方向。
一种拾音装置,包括:
获取模块,用于获取智能设备的当前状态;
确定模块,用于基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;
控制模块,用于基于确定的拾音范围,控制所述智能设备进行拾音。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围时,确定模块具体用于:
若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方;或
若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围时,确定模块具体用于:
若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度;或
若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度;
其中,所述第一预设幅度小于所述第二预设幅度。
可选的,获取模块具体用于:获取智能设备的当前任务状态;
确定模块具体用于:基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围。
一种电子设备,包括:
至少一个存储器,用于存储计算机程序;
至少一个处理器,用于执行存储器中存储的计算机程序时实现上述任一种拾音方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种拾音方法的步骤。
本发明实施例中,获取智能设备的当前状态;基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;基于确定的拾音范围,控制所述智能设备进行拾音,这样,可以根据当前状态,调整拾音范围,实现了拾音范围的动态调节,从而可以满足不同交互场景的需求,针对智能设备运动或非运动的场景,都可以更好地对目标用户拾音,提高拾音效果,并提升了用户体验。
附图说明
图1为本发明实施例中智能设备拾音参数说明示意图;
图2为本发明实施例中拾音方法流程图;
图3为本发明实施例中拾音装置结构示意图;
图4为本发明实施例中电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:
拾音:就是把声音收集的过程。
拾音范围:表示智能设备能够收集声音的范围,其中,本发明实施例中拾音范围由拾音范围中心方向和拾音范围幅度表征。
拾音范围中心方向:表示拾音范围的中心所处于的位置方向。
波束成形(Beamforming):在波束成形范围内拾音增强,在波束成形范围外被抑制。
具体参阅图1所示,为本发明实施例中智能设备拾音参数说明示意图,智能设备例如机器人拾音有两个参数angle_center和angle_range,其中,angle_center为拾音范围中心方向,angle_range为拾音范围幅度,如图1所示,图1中直线扇形区域为拾音范围,虚线扇形区域为波束成形范围。本发明实施例中,主要是实现可以调整angle_center的方向取值,并调整angle_range的幅度取值,例如,定义某一方向的角度为0度,angle_center的方向值为0°,angle_range幅度取值为60°。
本发明实施例中,拾音方法的应用场景主要为用户与智能设备之间的交互,其中,智能设备可以是任何可以支持语音交互的智能设备,例如智能音箱、智能早教机、智能玩具等智能机器人,智能设备中还可以包括图像采集装置,例如摄像头,和音频采集装置,例如麦克风阵列等,智能设备还包括显示屏,以便可以显示更多信息,提高和用户交互效果,用户可以与智能设备进行人机交互,例如用户可以向智能设备下达指令,智能设备可以识别用户的语音、图像等信息,然后根据指令执行相应的操作。
需要说明的是,本发明实例中拾音方法可以由智能设备执行,也可以智能设备将获取到的信息上传到服务器,并由服务器进行计算,并将结果返回智能设备,来控制智能设备的拾音范围,智能设备与服务器之间可以通过互联网相连,实现相互之间的通信,服务器可以认为是提供相应网络服务的后台服务器,对于这两种方式,本发明实施例中并不进行限制。
参阅图2所示,为本发明实施例中,一种拾音方法的流程图,该方法包括:
步骤200:获取智能设备的当前状态。
其中,智能设备的当前状态,例如正面交互状态、非正面交互状态、运动状态和非运动状态等。
本发明实施例中,智能设备在进行拾音时,是基于一定的拾音范围幅度和拾音范围中心方向进行拾音的,在拾音范围外的声音可能就拾取不到了,而智能设备处于不同的状态,其所需的拾音范围是不同的,例如,若为运动状态,为保证能有效对目标用户拾音,其拾音范围幅度较大,而若为非运动状态,为避免误识别,有效对噪声进行抑制,其拾音范围幅度较小,因此,本发明实施例中,考虑智能设备的当前状态,进行拾音范围的调整。
步骤210:基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,拾音范围由拾音范围中心方向和拾音范围幅度表征。
基于智能设备不同的状态,执行步骤220时,可以包括但不限于以下几种情况:
第一种情况:与目标用户正面交互状态。
此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方。
其中,本发明实施例中,智能设备正面交互组件为智能设备处于与目标用户正面交互状态时,例如焦点跟随时,智能设备上需要与用户始终保持面对面的组件。
本发明实施例中,当处于与目标用户正面交互状态时,将拾音范围中心方向指向智能设备正面交互组件的正前方,这是因为,在正面交互状态时,智能设备正面交互组件应该是始终朝向目标用户的,这时将拾音范围中心方向指向智能设备正面交互组件的正前方,可以保证对目标用户的拾音。
例如,若智能设备为类人型机器人,则智能设备正面交互组件可以为该机器人的头部,这样该机器人与用户正面交互时,机器人的头部会始终朝向用户,交互更自然拟人,这时拾音范围中心方向指向机器人头部的正前方。
又例如,若智能设备为具有显示屏的机器人,智能设备正面交互组件可以为该机器人的显示屏,这样该机器人与用户正面交互时,机器人的显示屏始终朝向用户,便于为用户提供更多信息,这时拾音范围中心方向指向机器人显示屏的正前方。
具体可以有以下两种方式实现智能设备与目标用户的正面交互状态:
第一种方式:基于声源和视觉。
本发明实施例中可以认为发出智能设备唤醒词语音的用户为目标用户,进行正面交互。这时可以确定唤醒词语音声源方向,控制智能设备或智能设备正面交互组件转向该声源方向,然后确定发出唤醒词语音的用户,即目标用户根据该用户的方向,来校正智能设备或智能设备正面交互组件的转向角度,以使智能设备正面交互组件能够朝向目标用户。
具体的,确定发出唤醒词语音的用户,包括:
若存在一个用户的用户方向与唤醒词语音声源方向偏差在预设范围内,则确定该一个用户为发出唤醒词语音的用户;
若存在多个用户的用户方向与唤醒词语音声源方向偏差在预设范围内,则从该多个用户中确定出用户方向与唤醒词语音声源方向偏差最小的用户,确定方向偏差最小的用户为发出唤醒词语音的用户。
进一步的,若不存在用户的用户方向与唤醒词语音声源方向偏差在预设范围内,即未找到发出唤醒词语音的用户,则可以控制智能设备或智能设备正面交互组件转回之前的朝向。
也就是说,本发明实施例中,可以根据用户的方向,具体可以为用户人脸的位置信息,来校正方向偏差。根据声源方向,控制智能设备或智能设备正面交互组件转向该声源方向,认为该声源方向附近有需要交互的目标用户,转向该声源方向后,若的确有目标用户,则应该会检测到人脸,这时也就可以认为该人脸的用户即为声源对应的用户,根据该人脸的位置信息校正方向偏差,保证智能设备正面交互组件的正前方朝向目标用户,即朝向人脸的位置信息。
第二种方式:基于视觉。
例如对目标用户进行焦点跟随时,可以仅通过视觉实现与目标用户的正面交互状态。这时可以根据采集到的目标用户的人脸图像,确定人脸的位置信息,根据人脸的位置信息,控制智能设备或智能设备正面交互组件转向人脸的位置的方向,以使智能设备正面交互组件能够朝向目标用户。
第二种情况:与目标用户非正面交互状态。
此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。
例如,智能设备执行引领任务时,其中,引领任务表征接待、导览、参观等复用引领运动逻辑的任务,通常目标用户在智能设备的旁边或后方,无需正面交互,这时智能设备正面交互组件并不一定朝向目标用户,因此,调整拾音范围中心方向指向目标用户方向,保证对目标用户的拾音。
其中,目标用户方向具体可以为目标用户声源方向,也可以为目标用户人脸方向。
第三种情况:非运动状态。
其中,非运动状态指智能设备处于固定位置,可以原地静止或原地转动,但不存在位移。
此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度。
例如,智能设备执行巡逻任务时,当监听到有用户叫它时,可以控制智能设备停止运动,则此时智能设备处于非运动状态。进一步地,在控制智能设备停止运动后,还可以控制智能设备或智能设备正面交互组件转动,使智能设备与目标用户正面交互。此时,可以确定拾音范围为第一预设幅度。
进一步的,确定智能设备的当前状态对应的拾音范围,具体也可以为:若智能设备的当前状态为非运动状态,且为与目标用户的正面交互状态,则确定对应的拾音范围幅度为第一预设幅度;否则,确定对应的拾音范围幅度为第二预设幅度。其中,第一预设幅度小于第二预设幅度。
例如,智能设备执行引领任务时,当监听到有用户叫它时,可以控制智能设备停止运动,但不控制智能设备或智能设备正面交互组件转动,即不控制智能设备与目标用户正面交互。此时,可以确定拾音范围为第二预设幅度。
第四种情况:运动状态。
其中,运动状态指智能设备存在位移。
此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度。
本发明实施例中,设置非运动状态下的拾音范围幅度的第一预设幅度小于运动状态下的拾音范围幅度的第二预设幅度,这是因为,智能设备处于运动状态,目标用户与智能设备交互时,目标用户与智能设备的相对位置不断变化,为了能够保证智能设备仍对目标用户有较好的拾音效果,因此,在运动状态下需要将拾音范围幅度设置的稍大一些。
而非运动状态较运动状态,拾音范围幅度无需设置太大,可以避免误识别,提高对噪声的抑制性,并且也可以根据通常非运动状态时交互的最大并排的用户数目,例如,通常为3个用户,综合考虑,即不能设置太大,也能保证通常情况下多人并排交互的场景,例如,可以将第一预设幅度设置为60°,第二预设幅度设置为120°,本发明实施例中并不进行限制。
步骤220:基于确定的拾音范围,控制智能设备进行拾音。
基于上述实施例可知,本发明实施例中,可以根据与目标用户是否正面交互,来确定拾音范围中心方向,并且根据是否为运动状态,确定拾音范围幅度,从而最终确定智能设备的拾音范围。
需要说明是,本发明实施例中,可以设置默认拾音范围,具体可以将第一预设幅度和指向正面交互组件的正前方,设置为拾音范围幅度和拾音范围中心方向的默认值。
本发明实施例中,主要是通过调整拾音范围幅度和拾音范围中心方向,来满足不同场景的拾音需求,获取智能设备的当前状态;基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,基于确定的拾音范围,控制智能设备进行拾音,这样,根据智能设备的当前状态,对拾音范围进行动态调整,满足不同应用场景的拾音需求,可以适用于非运动情况下正面交互场景,也可以适用于运动情况下用户在旁边或后方的非正面交互场景,提高了拾音效果,也提升了用户使用体验。
需要说明的是,本发明实施例中并不仅限于上述几种状态,还可以针对智能设备的其它状态,只要设置智能设备的状态与拾音范围的对应关系,都可以实现动态调整智能设备的拾音范围。
在具体的机器人应用场景中,若机器人正面交互组件为机器人头部显示屏,即机器人与目标用户正面交互时,机器人头部显示屏需始终面向目标用户,此时,可以设定机器人头部显示屏正前方的方向值为0°,第一预设幅度的幅度值为60°,第二预设幅度的幅度值为120°。
实际实施时,可以预先设定默认拾音范围为:拾音范围中心方向指向机器人头部屏幕的正前方,拾音范围幅度为较小的第一预设幅度,即angle_center的方向值为0°,angle_range幅度取值为60°。在出现机器人唤醒词语音时,根据唤醒词语音进行声源定位,并确定任务状态。
在任务状态为人机正面交互任务时,可以控制机器人转向声源方向,以使机器人头部屏幕朝向目标用户,并且可以进一步结合视觉矫正机器人转向,此时,机器人当前状态为与目标用户正面交互状态,且为非运动状态,因此可以确定拾音范围中心方向指向机器人头部屏幕的正前方,拾音范围幅度为较小的第一预设幅度。即angle_center的方向值为0°,angle_range幅度取值为60°。若在控制机器人转向声源方向后,结合视觉矫正机器人转向时,在设定时间内如2s内通过视觉未检测到目标用户,则可以控制机器人转回原始方向。
在任务状态为巡逻任务时,可以控制机器人减速至停止运动并转向声源方向,以使机器人头部屏幕朝向目标用户,并且可以进一步结合视觉矫正机器人转向,此时,机器人当前状态为与目标用户正面交互状态,且为非运动状态,因此可以确定拾音范围中心方向指向机器人头部屏幕的正前方,拾音范围幅度为较小的第一预设幅度。即angle_center的方向值为0°,angle_range幅度取值为60°。若在控制机器人转向声源方向后,结合视觉矫正机器人转向时,在设定时间内如2s内通过视觉未检测到目标用户,则可以控制机器人转回原始方向。
在任务状态为引领任务时,可以控制机器人减速至停止但不转向目标用户,等待目标用户指令,此时,机器人当前状态为与目标用户非正面交互状态,由运动状态减速切换为非运动状态的过程中,机器人与目标用户的相对位置不断发生变化,因此可以确定拾音范围中心方向指向目标用户方向,拾音范围幅度为较大的第二预设幅度,即angle_center可以指向声源方向,angle_range幅度取值为120°。若在设定时间内如6s内接收到了目标用户的任务退出指令,则控制机器人退出引领任务,确定拾音范围为默认拾音范围。
在本发明的另一个实施例中,智能设备的状态也可以具体指智能设备的任务状态,即此时:
获取智能设备的当前状态,具体包括:获取智能设备的当前任务状态;
基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,具体包括:基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围。
即针对智能设备的不同任务,设定不同的拾音范围。在智能设备执行不同的任务时,根据智能设备当前执行的任务,确定对应的拾音范围进行拾音。
进一步地,本发明实施例中执行步骤220之后,可以基于确定的拾音范围进行拾音,并为了提高对目标用户的拾音增强,并抑制噪声,本发明实施例中还包括:在确定的拾音范围内确定波束成形方向。具体地:
首先,获取在确定的拾音范围内检测到的用户信息。
具体包括:获取在智能设备的拾音范围内、基于智能设备的拾音传感器检测到的用户信息;和/或,获取在智能设备的拾音范围内、基于智能设备的视觉传感器检测到的用户信息。
其中,用户信息具体可以包括但不限于用户语音、用户声源、用户唇动、用户人脸角度、用户距离中的至少一种。
其中,用户语音、用户声源可以是基于拾音传感器检测到的,用户唇动、用户人脸角度和用户距离可以是基于视觉传感器检测到的。
然后,根据用户信息,在拾音范围内确定波束成形方向。
具体包括:根据用户信息,基于预设规则,在拾音范围内确定语音交互意图最强的用户;确定波束成形方向指向语音交互意图最强的用户。
其中,根据用户信息,基于预设规则,在拾音范围内确定语音交互意图最强的用户,具体地,可以包括但不限于以下几种方式:
第一种方式:基于声源进行初始判断,可以包括但不限于以下两种情况:
第一种情况:在拾音范围内,若存在一个用户声源的方向持续预设时长未发生变化,则确定一个用户声源对应的一个用户为语音交互意图最强的用户。
第二种情况:在拾音范围内,若存在多个用户声源的方向持续预设时长未发生变化,则根据多个用户声源的波形、多个用户声源对应的多个用户的用户人脸角度和/或多个用户的用户距离,从多个用户中选择出语音交互意图最强的用户。
1)根据多个用户声源的波形,从多个用户中选择波形幅值最大的用户,作为语音交互意图最强的用户。
2)根据多个用户声源对应的多个用户的用户人脸角度,从多个用户中选择人脸最正对智能设备的用户,作为语音交互意图最强的用户。
3)根据多个用户的用户距离,从多个用户中选择用户距离最近的用户,作为语音交互意图最强的用户。
当然,存在多个用户声源的方向持续预设时长未发生变化时,也可以基于用户声源的波形、用户人脸角度和用户距离其中任意两种或结合这三种用户信息,进行判断,最终确定出语音交互意图最强的用户。
这样,判断用户声源的方向,基于用户声源的方向,结合其它用户信息,最终确定语音交互意图最强的用户,从而确定波束成形方向,保证目标用户的拾音增强,并对其它声音能够进行抑制。
其中,确定用户声源对应的用户时,具体包括:若存在一个用户的用户方向与用户声源的方向偏差在预设范围内,则确定一个用户为用户声源对应的用户;若存在多个用户的用户方向与用户声源的方向偏差在预设范围内,则从多个用户中确定出用户方向与用户声源的方向偏差最小的用户,确定方向偏差最小的用户为用户声源对应的用户。
第二种方式:基于视觉进行初始判断,可以包括但不限于以下两种情况:
第一种情况:在拾音范围内,若存在一个用户存在用户唇动,则确定该一个用户为语音交互意图最强的用户。
第二种情况:在拾音范围内,若存在多个用户存在用户唇动,则根据多个用户的用户声源的波形、多个用户的用户人脸角度和/或多个用户的用户距离,从多个用户中选择出语音交互意图最强的用户。
1)根据多个用户声源的波形,从多个用户中选择波形幅值最大的用户,作为语音交互意图最强的用户。
2)根据多个用户的用户人脸角度,从多个用户中选择人脸最正对智能设备的用户,作为语音交互意图最强的用户。
3)根据多个用户的用户距离,从多个用户中选择用户距离最近的用户,作为语音交互意图最强的用户。
当然,若存在多个用户存在用户唇动,也可以基于用户声源的波形、用户人脸角度和用户距离其中任意两种或结合这三种用户信息,进行判断,最终确定出语音交互意图最强的用户。
这样,判断用户唇动,基于用户唇动,结合其它用户信息,最终确定语音交互意图最强的用户,从而确定波束成形方向。
第三种方式:基于语义判断,具体地:对用户语音进行语义分析,根据语义分析结果在拾音范围内确定波束成形方向。
具体可以包括:对当前波束成形方向的用户的用户语音进行语义分析,若语义分析结果表征放弃和智能设备交互,则调整波束成形方向指向拾音范围内的其他用户。
当然,对当前波束成形方向的用户的用户语音进行语义分析时,若存在多个其他用户,则确定语音交互意图最强的用户时,还可以根据用户人脸角度,选择人脸最正对智能设备的,或者,根据用户距离,选择用户距离最小的,或者根据用户人脸角度和用户距离结合,来最终确定语音交互意图最强的用户,本发明实施例中并不进行限制。
进一步地,本发明实施例中,还可以根据确定的波束成形方向,控制智能设备进行波束成形。
基于上述实施例,参阅图3所示,本发明实施例中,拾音装置具体包括:
获取模块30,用于获取智能设备的当前状态;
确定模块31,用于基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;
控制模块32,用于基于确定的拾音范围,控制所述智能设备进行拾音。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围时,确定模块31具体用于:
若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方;或若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围时,确定模块31具体用于:
若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度;或若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度;其中,所述第一预设幅度小于所述第二预设幅度。
可选的,所述目标用户为发出智能设备唤醒词语音的用户。
获取模块具体用于:获取智能设备的当前任务状态;
确定模块具体用于:基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围。
可选的,还包括,波束成形模块33,用于在确定的拾音范围内确定波束成形方向。
可选的,在确定的拾音范围内确定波束成形方向时,波束成形模块33具体用于:
获取在确定的拾音范围内检测到的用户信息;
根据所述用户信息,在所述拾音范围内确定波束成形方向。
基于上述实施例,参阅图4所示,本发明实施例中,一种电子设备的结构示意图。
本发明实施例提供了一种电子设备,该电子设备可以包括处理器410(CenterProcessing Unit,CPU)、存储器420、输入设备430和输出设备440等,输入设备430可以包括键盘、鼠标、触摸屏等,输出设备440可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器420可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器410提供存储器420中存储的程序指令和数据。在本发明实施例中,存储器420可以用于存储本发明实施例中拾音方法的程序。
处理器410通过调用存储器420存储的程序指令,处理器410用于按照获得的程序指令执行:
获取智能设备的当前状态;
基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;
基于确定的拾音范围,控制所述智能设备进行拾音。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围时,处理器410具体用于:
若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方;或若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。
可选的,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围时,处理器410具体用于:
若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度;或若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度;其中,所述第一预设幅度小于所述第二预设幅度。
可选的,所述目标用户为发出智能设备唤醒词语音的用户。
可选的,处理器410具体用于:获取智能设备的当前任务状态;基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围。
可选的,处理器410还用于:在确定的拾音范围内确定波束成形方向。
可选的,在确定的拾音范围内确定波束成形方向时,处理器410具体用于:
获取在确定的拾音范围内检测到的用户信息;
根据所述用户信息,在所述拾音范围内确定波束成形方向。
上述电子设备具体可以为智能设备,如机器人;也可以为与机器人通信的外部设备,如服务器。本申请对此不做具体限定。
基于上述实施例,本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的拾音方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种拾音方法,其特征在于,包括:
获取智能设备的当前状态,其中,所述当前状态包括运动状态、非运动状态或当前任务状态;
基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,具体包括:若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度,其中,所述拾音范围幅度表征拾音范围的角度大小;或,若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度,其中,所述第一预设幅度小于所述第二预设幅度;或,若所述当前状态为当前任务状态,则基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围;其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;
基于确定的拾音范围,控制所述智能设备进行拾音。
2.如权利要求1所述的方法,其特征在于,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,具体包括:
若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方;或
若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。
3.如权利要求2所述的方法,其特征在于,所述目标用户为发出智能设备唤醒词语音的用户。
4.如权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
在确定的拾音范围内确定波束成形方向。
5.如权利要求4所述的方法,其特征在于,在确定的拾音范围内确定波束成形方向,具体包括:
获取在确定的拾音范围内检测到的用户信息;
根据所述用户信息,在所述拾音范围内确定波束成形方向。
6.一种拾音装置,其特征在于,包括:
获取模块,用于获取智能设备的当前状态,其中,所述当前状态包括运动状态、非运动状态或当前任务状态;
确定模块,用于基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,其中,所述拾音范围由拾音范围中心方向和拾音范围幅度表征;所述确定模块具体用于:若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度,其中,所述拾音范围幅度表征拾音范围的角度大小;或,若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度,其中,所述第一预设幅度小于所述第二预设幅度;或,若所述当前状态为当前任务状态,则基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围;
控制模块,用于基于确定的拾音范围,控制所述智能设备进行拾音。
7.如权利要求6所述的装置,其特征在于,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围时,确定模块具体用于:
若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方;或
若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。
8.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储计算机程序;
至少一个处理器,用于执行存储器中存储的计算机程序时实现如权利要求1-5中任意一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述方法的步骤。
CN201811604751.9A 2018-12-26 2018-12-26 一种拾音方法及装置 Active CN109688512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811604751.9A CN109688512B (zh) 2018-12-26 2018-12-26 一种拾音方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811604751.9A CN109688512B (zh) 2018-12-26 2018-12-26 一种拾音方法及装置

Publications (2)

Publication Number Publication Date
CN109688512A CN109688512A (zh) 2019-04-26
CN109688512B true CN109688512B (zh) 2020-12-22

Family

ID=66189848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811604751.9A Active CN109688512B (zh) 2018-12-26 2018-12-26 一种拾音方法及装置

Country Status (1)

Country Link
CN (1) CN109688512B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111083625B (zh) * 2019-12-16 2021-08-31 潍坊歌尔微电子有限公司 麦克风性能的测试方法、测试管理设备及测试系统
CN113593548B (zh) * 2021-06-29 2023-12-19 青岛海尔科技有限公司 智能设备的唤醒方法和装置、存储介质及电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102186129A (zh) * 2011-05-20 2011-09-14 广州励华声光科技有限公司 扩声扬声器点阵的指向性控制方法和音箱
CN105812969A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 一种拾取声音信号的方法、系统及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148810A (en) * 1990-02-12 1992-09-22 Acuson Corporation Variable origin-variable angle acoustic scanning method and apparatus
KR101491354B1 (ko) * 2013-11-25 2015-02-06 현대자동차주식회사 음성인식 장치 및 방법
CN106162427B (zh) * 2015-03-24 2019-09-17 青岛海信电器股份有限公司 一种声音获取元件的指向性调整方法和装置
CN106328130A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种机器人语音寻向转动系统及方法
CN107680593A (zh) * 2017-10-13 2018-02-09 歌尔股份有限公司 一种智能设备的语音增强方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102186129A (zh) * 2011-05-20 2011-09-14 广州励华声光科技有限公司 扩声扬声器点阵的指向性控制方法和音箱
CN105812969A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 一种拾取声音信号的方法、系统及装置

Also Published As

Publication number Publication date
CN109688512A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109640224B (zh) 一种拾音方法及装置
US10970850B2 (en) Method and device for recognizing motion
EP3665676B1 (en) Speaking classification using audio-visual data
US11809637B2 (en) Method and device for adjusting the control-display gain of a gesture controlled electronic device
CN105122353A (zh) 用于虚拟个人助理系统的自然人-计算机交互
CN105635776B (zh) 虚拟操作界面遥控控制方法及系统
CN109688512B (zh) 一种拾音方法及装置
CN111251307B (zh) 应用于机器人的语音采集方法和装置、一种机器人
US11861265B2 (en) Providing audio information with a digital assistant
KR102649722B1 (ko) 중점 학습 내용 결정 방법, 장치, 기기 및 저장 매체
CN113676592B (zh) 录音方法、装置、电子设备及计算机可读介质
US20210327436A1 (en) Voice Interaction Method, Device, and System
CN115620728B (zh) 音频处理方法、装置、存储介质及智能眼镜
CN115620727A (zh) 音频处理方法、装置、存储介质及智能眼镜
CN111182280A (zh) 一种投影方法、投影装置、音箱设备及存储介质
CN113853529A (zh) 用于空间音频捕获的装置和相关方法
CN112711331A (zh) 机器人交互方法、装置、存储设备和电子设备
CN111932619A (zh) 结合图像识别和语音定位的麦克风跟踪系统及方法
CN111103807A (zh) 一种家用终端设备的控制方法及装置
CN116301381A (zh) 一种交互方法及相关设备和系统
KR102134860B1 (ko) 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법
CN103076873B (zh) 一种计算机视觉控制窗口的自适应系统及方法
CN110730378A (zh) 一种信息处理方法及系统
CN115249359B (zh) 讲解方法、机器人、电子设备和存储介质
CN112860067B (zh) 基于麦克风阵列的魔镜调整方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant