CN110941455B - 主动唤醒方法、装置及电子设备 - Google Patents
主动唤醒方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110941455B CN110941455B CN201911177463.4A CN201911177463A CN110941455B CN 110941455 B CN110941455 B CN 110941455B CN 201911177463 A CN201911177463 A CN 201911177463A CN 110941455 B CN110941455 B CN 110941455B
- Authority
- CN
- China
- Prior art keywords
- target object
- sound
- information
- probability
- far
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000003860 storage Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开实施例中提供了一种主动唤醒方法、装置及电子设备,属于语音处理技术领域,该方法包括:实时获取目标对象的特定声音信息,以得到声音采集结果;基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息;利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息;基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。本公开的方案能够根据目标对象的行为特性确定是否主动发起唤醒操作。
Description
技术领域
本公开涉及语音处理技术领域,尤其涉及一种主动唤醒方法、装置及电子设备。
背景技术
随着机器人技术的快速发展,机器人在和工业生产及生活服务中得到了广泛应用,机器人智能化的要求越来越高。传统的基于语音交互的机器人通常是被动被唤醒后才进入交互状态,导致机器人与人交的效率不高。
发明内容
有鉴于此,本公开实施例提供一种主动唤醒方法、装置及电子设备,至少部分解决现有技术中存在的问题。
第一方面,本公开实施例提供了一种主动唤醒方法,包括:
实时获取目标对象的特定声音信息,以得到声音采集结果;
基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息;
利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息;
基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。
根据本公开实施例的一种具体实现方式,所述实时获取目标对象的声音信息,包括:
采用包含多个声音采集器的声音采集阵列,对所述目标对象的特定声音进行采集。
根据本公开实施例的一种具体实现方式,所述实时获取目标对象的声音信息,包括:
获取与所述目标对象的特定声音信息相对应的特定声音频率范围;
基于所述特定声音频率范围,确定与所述特定声音信息无关的滤波频率范围;
基于所述滤波频率范围,对所述采集到的声音进行过滤处理,以得到所述声音采集结果。
根据本公开实施例的一种具体实现方式,所述确定所述目标对象的第一概率信息及方位信息,包括:
在所述声音采集结果进行特征比对,判断是否含有脚步声;
若是,则进一步基于所述脚步声的连续特征,判断所述脚步声由近及远的概率值A1以及所述脚步声由近及远的概率值A2;
基于所述概率值A1和所述概率值A2,确定所述第一概率信息。
根据本公开实施例的一种具体实现方式,所述确定所述目标对象的第一概率信息及方位信息,包括:
从声音采集阵列中获取不同阵列单元采集到的目标对象的声音信息,形成多个语音通道信息;
基于所述多个语音通道信息,对所述目标对象的方向进行定位,形成所述方位信息。
根据本公开实施例的一种具体实现方式,所述利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息,包括:
根据所述方位信息,确定进行视频检测的视频采集模块的视频方向;
在所述视频方向内,对所述目标对象进行视频检测,以得到所述第二概率信息。
根据本公开实施例的一种具体实现方式,所述在所述视频角度内,对所述目标对象进行视频检测,以得到所述第二概率信息,包括:
在所述视频方向上,判断是否存在所述目标对象的图像;
基于所述目标对象的图像在时间维度上的变化趋势,确定所述目标对象由近及远的概率值B1以及由近及远的概率值B2。
根据本公开实施例的一种具体实现方式,所述基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作,包括:
基于预先设置的训练参数,对所述第一概率信息和所述第二概率信息进行点积计算;
将所述点积计算的结果与预设阈值进行比较,得到比较结果;
基于所述比较结果,确定是否执行唤醒操作。
第二方面,本公开实施例提供了一种主动唤醒装置,包括:
获取模块,用于实时获取目标对象的特定声音信息,以得到声音采集结果;
第一确定模块,用于基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息;
检测模块,用于利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息;
第二确定模块,用于基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。
第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式中的主动唤醒方法。
第四方面,本公开实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的主动唤醒方法。
第五方面,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的主动唤醒方法。
本公开实施例中的主动唤醒方案,包括实时获取目标对象的特定声音信息,以得到声音采集结果;基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息;利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息;基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。通过本公开的方案,能够基于目标对象的声音和视频信息,确定是否进行主动唤醒操作。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种主动唤醒流程示意图;
图2为本公开实施例提供的另一种主动唤醒流程示意图;
图3为本公开实施例提供的另一种主动唤醒流程示意图;
图4为本公开实施例提供的另一种主动唤醒流程示意图;
图5为本公开实施例提供的一种主动唤醒装置结构示意图;
图6为本公开实施例提供的电子设备示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种主动唤醒方法。本实施例提供的主动唤醒方法可以由一计算装置来执行,该计算装置可以实现为软件,或者实现为软件和硬件的组合,该计算装置可以集成设置在服务器、终端设备等中。
参见图1,本公开实施例提供的一种主动唤醒方法,包括如下步骤:
S101,实时获取目标对象的特定声音信息,以得到声音采集结果。
本方案的应用场景可以是所有具有唤醒功能的电子设备,例如,可以是具有自动唤醒功能的智能音箱、手机、电子计算机等。目标对象是需要主动唤醒的触发对象,作为一个例子,目标对象可以是一个人。当目标设备接近或离开具有唤醒功能的电子设备的时候,具有唤醒功能的电子设备便可以基于目标对象的行为动作来判断是否需要执行主动唤醒操作。
为此,电子设备可以实时的采集目标对象的行为,基于目标对象的行为来判断是否需要启动唤醒操作。启动唤醒操作之后,电子设备便可以按照正常的交互模型向目标设备提供交互服务,在电子设备没有被唤醒之前,电子设备可以是处于休眠状态。
作为一个应用方式,可以通过采集的声音的方式来采集目标对象的动作。例如,可以采集目标对象的特定声音,这些特定声音可以是目标对象特有的声音,例如,脚步声。不同的目标对象的脚步声可以具有不同频谱、倒频谱、共振峰、基音、反射系数、节奏、速度等声音信息。通过采集这些特定声音信息,可以得到声音采集结果。
当然,除了目标对象的脚步声之外,还可以采集目标对象的其他特征声音,在此对于特定声音的类型不作限定。
在采集目标对象特定声音信息的过程中,可以采用声音采集设备来进行采集,声音采集设备可以是一个麦克风阵列,麦克风阵列中的每一个麦克风采集的声音形成一个单独的声音通道。例如,对于一个2×2阵列的麦克风阵列而言,可以形成一个4通道的声音采集结果。
S102,基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息。
获得了声音采集结果之后,可以对声音采集结果中的内容进行分析,从而进一步的提取目标对象是否存在接近或离开电子设备的信息。
可以在电子设备中设置特定声音(例如脚步声)识别模块,通过特定声音的特征提取判别特定声音,特征提取包括频谱、倒频谱、共振峰、基音、反射系数、节奏、速度等,然后计算和比对,判断是否是特定声音。
然后通过提取特定声音的连续特征,从而进一步判断目标对象是由远及近还是由近及远的接触电子设备。
以脚步声为例,首先通过脚步声的特征提取判别脚步声,特征提取包括频谱、倒频谱、共振峰、基音、反射系数、节奏、速度等,然后计算和比对,判断是脚步声;然后通过连续脚步声的比较判端,给出脚步声是由近及远还是由远及近的概率判断,从而得到第一概率信息A=(A1,A2),其中A1是目标对象由近及远的概率值,A2是目标对象由近及远的概率值。
在麦克风阵列的情况下,通过对麦克风阵列形成的多通道声音进行分析,可以判断特定声音的方位D1。通过声音阵列对目标设备进行位置定位属于本领域常见的技术,在此不再对该技术的详细内容进行赘述。
S103,利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息。
为了保证对目标对象检测的准确性,除了采用声音进行检测之外,还需要进一步的通过视频的方式来对目标对象是否接近或离开电子设备进行检测。
为此,可以在电子设备上设置一个或多个摄像装置(例如,摄像头),通过摄像装置来进一步的采集目标设备的图像,通过观察目标对象在图像中的变化趋势,来对目标对象的动作趋势进行判断。
作为一种方式,可以通过电子设备中的视频模块来设置一个或多个摄像装置,该视频模块可以控制任意或多个摄像装置同时打开。
当通过声音采集装置确定有特定声音触发事件时,根据返回的角度D1转换成摄像装置对应的空间坐标W1(X’,Y’,X’),并打开相应的摄像装置,或旋转摄像装置,结合特定声音由远及近或由进及远的输入,进行目标对象执行人脸检测(当有人脸在可视范围内)或人体检测(无人脸检测到时或需要进一步判定人体时),从而进一步的判断有人正在朝电子设备(例如,机器人)走来或有人正在离开电子设备。
通过对视频模块对采集到的图像进行分析,可以得到目标对象的第二概率信息B=(B1,B2),其中B1是目标对象由近及远的概率值,B2是目标对象由近及远的概率值。
S104,基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。
通过综合A1,A2,B1,B2,可以进一步的构建唤醒函数,通过唤醒函数来判断是否需要对电子设备执行唤醒操作。作为一个例子,唤醒函数可以是:
F2N=αA1+βA2;
N2F=αB1+βB2;
其中,α,β为根据数据训练得出的系数。
这样一来,通过计算F2N和N2F的值,能够得到出由远及近和由近及远的概率推断值,将(F2N,N2F)与设定阈值(f2n,n2f)进行比较,可以目标对象是由远及近或由近及远的结论。
根据上述结论给出电子设备是否需要执行唤醒操作。
通过上述实施例中的内容,可以使得电子设备感知目标对象的到来和离开,以及到来的角度,从而使电子设备可以采取主动行动,比如向目标对象打招呼,说再见等,提高了电子设备与目标对象之间的交互性。
根据本公开实施例的一种具体实现方式,所述实时获取目标对象的声音信息,包括:采用包含多个声音采集器的声音采集阵列,对所述目标对象的特定声音进行采集。
参见图2,根据本公开实施例的一种具体实现方式,所述实时获取目标对象的声音信息,包括:
S201,获取与所述目标对象的特定声音信息相对应的特定声音频率范围。
可以根据实际的需要来设定特定声音频率的范围,例如,可以将脚步声的所有频率范围作为特定声音频率范围。
S202,基于所述特定声音频率范围,确定与所述特定声音信息无关的滤波频率范围。
通过该特定声音频率范围,可以排除到与该特定声音频率范围无关的其他频率范围,从而能够更加专注的采集声音信号。
S203,基于所述滤波频率范围,对所述采集到的声音进行过滤处理,以得到所述声音采集结果。
通过基于频率范围进行滤波,可以得到特定声音范围之内的声音信号,从而便于后续的分析。
参见图3,根据本公开实施例的一种具体实现方式,所述确定所述目标对象的第一概率信息及方位信息,包括:
S301,在所述声音采集结果进行特征比对,判断是否含有脚步声。
S302,若是,则进一步基于所述脚步声的连续特征,判断所述脚步声由近及远的概率值A1以及所述脚步声由近及远的概率值A2。
S303,基于所述概率值A1和所述概率值A2,确定所述第一概率信息。
在执行步骤S301和步骤S303的过程中,可以首先通过脚步声的特征提取判别脚步声,特征提取包括频谱、倒频谱、共振峰、基音、反射系数、节奏、速度等,然后计算和比对,判断是脚步声;然后通过连续脚步声的比较判端,给出脚步声是由近及远还是由远及近的概率判断,从而得到第一概率信息A=(A1,A2),其中A1是目标对象由近及远的概率值,A2是目标对象由近及远的概率值。在麦克风阵列的情况下,通过对麦克风阵列形成的多通道声音进行分析,可以判断特定声音的方位D1。
根据本公开实施例的一种具体实现方式,所述确定所述目标对象的第一概率信息及方位信息,包括:从声音采集阵列中获取不同阵列单元采集到的目标对象的声音信息,形成多个语音通道信息;基于所述多个语音通道信息,对所述目标对象的方向进行定位,形成所述方位信息。
根据本公开实施例的一种具体实现方式,所述利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息,包括:根据所述方位信息,确定进行视频检测的视频采集模块的视频方向;在所述视频方向内,对所述目标对象进行视频检测,以得到所述第二概率信息。
根据本公开实施例的一种具体实现方式,所述在所述视频角度内,对所述目标对象进行视频检测,以得到所述第二概率信息,包括:在所述视频方向上,判断是否存在所述目标对象的图像;基于所述目标对象的图像在时间维度上的变化趋势,确定所述目标对象由近及远的概率值B1以及由近及远的概率值B2。
参见图4,根据本公开实施例的一种具体实现方式,所述基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作,包括:
S401,基于预先设置的训练参数,对所述第一概率信息和所述第二概率信息进行点积计算;
S402,将所述点积计算的结果与预设阈值进行比较,得到比较结果;
S403,基于所述比较结果,确定是否执行唤醒操作。
在执行步骤S401~403的过程中,可以通过综合A1,A2,B1,B2,可以进一步的构建唤醒函数,通过唤醒函数来判断是否需要对电子设备执行唤醒操作。作为一个例子,唤醒函数可以是:
F2N=αA1+βA2;
N2F=αB1+βB2;
其中,α,β为根据数据训练得出的系数。
这样一来,通过计算F2N和N2F的值,能够得到出由远及近和由近及远的概率推断值,将(F2N,N2F)与设定阈值(f2n,n2f)进行比较,可以目标对象是由远及近或由近及远的结论。
与上面的方法实施例相对应,参见图5,本公开实施例还提供了一种主动唤醒装置50,包括
获取模块501,用于实时获取目标对象的特定声音信息,以得到声音采集结果;
第一确定模块502,用于基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息;
检测模块503,用于利用所述方位信息,对所述目标对象进行视频检测,以得到第二概率信息;
第二确定模块504,用于基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。
图5所示装置可以对应的执行上述方法实施例中的内容,本实施例未详细描述的部分,参照上述方法实施例中记载的内容,在此不再赘述。
参见图6,本公开实施例还提供了一种电子设备60,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述方法实施例中主动唤醒方法。
本公开实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实施例中。
本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述方法实施例中的主动唤醒方法。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备60的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备60可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备60操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备60与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备60,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取至少两个网际协议地址;向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求,其中,所述节点评价设备从所述至少两个网际协议地址中,选取网际协议地址并返回;接收所述节点评价设备返回的网际协议地址;其中,所获取的网际协议地址指示内容分发网络中的边缘节点。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收包括至少两个网际协议地址的节点评价请求;从所述至少两个网际协议地址中,选取网际协议地址;返回选取出的网际协议地址;其中,接收到的网际协议地址指示内容分发网络中的边缘节点。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种主动唤醒方法,其特征在于,包括:
采用声音采集设备实时进行声音采集,基于与目标对象的特定声音信息相对应的特定声音频率范围,对所采集到的声音进行过滤处理,以得到声音采集结果;
通过特定声音识别模块,确定所述声音采集结果是否是所述目标对象的特定声音信息,若所述声音采集结果是所述目标对象的特定声音信息,则基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息,所述第一概率信息包括所述目标对象由近及远的概率值A1和所述目标对象由远及近的概率值A2;
根据所述方位信息,控制摄像装置打开,通过所述摄像装置采集所述目标对象的图像;
基于所述目标对象的图像在时间维度上的变化趋势,确定所述目标对象的第二概率信息,所述变化趋势通过所述摄像装置对目标对象的人脸检测或人体检测确定,所述第二概率信息包括所述目标对象由近及远的概率值B1以及所述目标对象由远及远的概率值B2;
基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。
2.根据权利要求1所述的方法,其特征在于,所述采用声音采集设备实时进行声音采集,包括:
采用包含多个声音采集器的声音采集阵列,对所述目标对象的特定声音进行采集。
3.根据权利要求1所述的方法,其特征在于,所述基于与目标对象的特定声音信息相对应的特定声音频率范围,对所采集到的声音进行过滤处理,以得到声音采集结果,包括:
获取与所述目标对象的特定声音信息相对应的特定声音频率范围;
基于所述特定声音频率范围,确定与所述特定声音信息无关的滤波频率范围;
基于所述滤波频率范围,对所述采集到的声音进行过滤处理,以得到所述声音采集结果。
4.根据权利要求1所述的方法,其特征在于,所述通过特定声音识别模块,确定所述声音采集结果是否是所述目标对象的特定声音信息,若所述声音采集结果是所述目标对象的特定声音信息,则基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息,包括:
在所述声音采集结果进行特征比对,判断是否含有脚步声;
若是,则进一步基于所述脚步声的连续特征,判断所述脚步声由近及远的概率值A1以及所述脚步声由远及远的概率值A2;
基于所述概率值A1和所述概率值A2,确定所述第一概率信息。
5.根据权利要求1所述的方法,其特征在于,所述确定所述目标对象的第一概率信息及方位信息,包括:
从声音采集阵列中获取不同阵列单元采集到的所述目标对象的声音信息,形成多个语音通道信息;
基于所述多个语音通道信息,对所述目标对象的方向进行定位,形成所述方位信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作,包括:
基于预先设置的训练参数,对所述第一概率信息和所述第二概率信息进行点积计算;
将所述点积计算的结果与预设阈值进行比较,得到比较结果;
基于所述比较结果,确定是否执行唤醒操作。
7.一种主动唤醒装置,其特征在于,包括:
获取模块,用于采用声音采集设备实时进行声音采集,基于与目标对象的特定声音信息相对应的特定声音频率范围,对所采集到的声音进行过滤处理,以得到声音采集结果;
第一确定模块,用于通过特定声音识别模块,确定所述声音采集结果是否是所述目标对象的特定声音信息,若所述声音采集结果是所述目标对象的特定声音信息,则基于所述声音采集结果,确定所述目标对象的第一概率信息及方位信息,所述第一概率信息包括所述目标对象由近及远的概率值A1和所述目标对象由远及近的概率值A2;
检测模块,用于根据所述方位信息,控制摄像装置打开,通过所述摄像装置采集所述目标对象的图像;
所述检测模块,还用于基于所述目标对象的图像在时间维度上的变化趋势,确定所述目标对象的第二概率信息,所述变化趋势通过所述摄像装置对目标对象的人脸检测或人体检测确定,所述第二概率信息包括:确定所述目标对象由近及远的概率值B1以及由远及远的概率值B2;
第二确定模块,用于基于所述第一概率信息和所述第二概率信息,确定是否执行唤醒操作。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一权利要求1-6所述的主动唤醒方法。
9.一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述任一权利要求1-6所述的主动唤醒方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177463.4A CN110941455B (zh) | 2019-11-27 | 2019-11-27 | 主动唤醒方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911177463.4A CN110941455B (zh) | 2019-11-27 | 2019-11-27 | 主动唤醒方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110941455A CN110941455A (zh) | 2020-03-31 |
CN110941455B true CN110941455B (zh) | 2024-02-20 |
Family
ID=69908967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911177463.4A Active CN110941455B (zh) | 2019-11-27 | 2019-11-27 | 主动唤醒方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941455B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182380B (zh) * | 2020-09-28 | 2022-09-30 | 上海嗨普智能信息科技股份有限公司 | 数据处理方法、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105798931A (zh) * | 2016-04-26 | 2016-07-27 | 南京玛锶腾智能科技有限公司 | 智能机器人唤醒方法及装置 |
CN106537283A (zh) * | 2014-10-03 | 2017-03-22 | 谷歌公司 | 智能装置唤醒 |
CN107168539A (zh) * | 2017-06-27 | 2017-09-15 | 乐视致新电子科技(天津)有限公司 | 一种设备唤醒方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107591151B (zh) * | 2017-08-22 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
CN108335696A (zh) * | 2018-02-09 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
-
2019
- 2019-11-27 CN CN201911177463.4A patent/CN110941455B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106537283A (zh) * | 2014-10-03 | 2017-03-22 | 谷歌公司 | 智能装置唤醒 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105798931A (zh) * | 2016-04-26 | 2016-07-27 | 南京玛锶腾智能科技有限公司 | 智能机器人唤醒方法及装置 |
CN107168539A (zh) * | 2017-06-27 | 2017-09-15 | 乐视致新电子科技(天津)有限公司 | 一种设备唤醒方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110941455A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287810B (zh) | 车门动作检测方法、装置和计算机可读存储介质 | |
CN112509584B (zh) | 声源位置确定方法、装置和电子设备 | |
CN111222509B (zh) | 目标检测方法、装置及电子设备 | |
CN110837758B (zh) | 一种关键词输入方法、装置及电子设备 | |
CN110287816B (zh) | 车门动作检测方法、装置和计算机可读存储介质 | |
CN111738316B (zh) | 零样本学习的图像分类方法、装置及电子设备 | |
CN112233689B (zh) | 音频降噪方法、装置、设备及介质 | |
EP3608904A1 (en) | Method for updating a speech recognition model, electronic device and storage medium | |
CN113053368A (zh) | 语音增强方法、电子设备和存储介质 | |
CN111429902B (zh) | 用于唤醒设备的方法和装置 | |
CN110069997B (zh) | 场景分类方法、装置及电子设备 | |
CN111191556A (zh) | 人脸识别方法、装置及电子设备 | |
CN110941455B (zh) | 主动唤醒方法、装置及电子设备 | |
WO2021212985A1 (zh) | 声学网络模型训练方法、装置及电子设备 | |
CN112863545B (zh) | 性能测试方法、装置、电子设备及计算机可读存储介质 | |
CN110992953A (zh) | 一种语音数据处理方法、装置、系统及存储介质 | |
CN112233688B (zh) | 音频降噪方法、装置、设备及介质 | |
CN112669837B (zh) | 智能终端的唤醒方法、装置及电子设备 | |
CN112116908B (zh) | 唤醒音频确定方法、装置、设备及存储介质 | |
CN113780163A (zh) | 一种页面加载时间的检测方法、装置、电子设备及介质 | |
CN113342170A (zh) | 手势控制方法、装置、终端和存储介质 | |
CN116884402A (zh) | 语音转文本的方法、装置、电子设备及存储介质 | |
CN110879975B (zh) | 人员流量检测方法、装置及电子设备 | |
CN111176744A (zh) | 电子设备控制方法、装置、终端及存储介质 | |
CN111832354A (zh) | 目标对象年龄识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |