CN108962263B - 一种智能设备控制方法及系统 - Google Patents

一种智能设备控制方法及系统 Download PDF

Info

Publication number
CN108962263B
CN108962263B CN201810565141.6A CN201810565141A CN108962263B CN 108962263 B CN108962263 B CN 108962263B CN 201810565141 A CN201810565141 A CN 201810565141A CN 108962263 B CN108962263 B CN 108962263B
Authority
CN
China
Prior art keywords
intelligent sound
sound box
speaker
smart
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810565141.6A
Other languages
English (en)
Other versions
CN108962263A (zh
Inventor
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810565141.6A priority Critical patent/CN108962263B/zh
Publication of CN108962263A publication Critical patent/CN108962263A/zh
Application granted granted Critical
Publication of CN108962263B publication Critical patent/CN108962263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种智能设备控制方法和系统,多于一个的智能音箱构成智能音箱阵列,所述方法包括通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差;依据所述信号接收时延差确定距离所述发声者最近的智能音箱;控制所确定的距离所述发声者最近的智能音箱对所述语音信号进行响应。本发明所述方法和系统可以确定与发声者距离最近的智能音箱,由其为发声者提供服务,避免了多个智能音箱同时响应造成的混乱,也降低了智能音箱的功耗。

Description

一种智能设备控制方法及系统
【技术领域】
本发明涉及计算机应用技术,特别涉及智能设备控制方法及系统。
【背景技术】
随着语音识别技术的日益成熟,市场中正出现越来越多的智能设备,例如智能音箱,这些智能设备基于语音识别技术,为消费者提供更便捷的交互方式。
目前的智能音箱通常具有识别声音和播放声音的功能。现有技术中,房间或会议室中可能存在多个智能音箱,以为房间或会议室中的每一个发声者提供服务,或给出立体声效果或环绕声效果。由于房间或者会议室中的智能音箱都是在固定的位置,如果讲话者离智能音箱很近的话,则智能音箱录制并识别讲话者的语音会比较好,而如果讲话者离智能音箱很远的话,则智能音箱录制并识别讲话者的语音会存在周围环境的噪音,且该语音信号的信噪比会很低。同时,多个智能音箱同时工作,有可能会对同一语音操作指令进行响应,造成混乱。
【发明内容】
本申请的多个方面提供了智能设备控制方法、系统、设备及存储介质,能够确定与发声者距离最近的智能音箱,由其为发声者提供服务,避免了多个智能音箱同时响应造成的混乱,也降低了智能音箱的功耗。
本申请的一方面,提供一种智能设备控制方法,多于一个的智能音箱构成智能音箱阵列,所述方法包括:
通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差;
依据所述信号接收时延差确定距离所述发声者最近的智能音箱;
控制所确定的距离所述发声者最近的智能音箱对所述语音信号进行响应。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差包括:
将所述智能音箱阵列中两两智能音箱构成智能音箱对;
根据所述智能音箱阵列中各智能音箱的麦克风接收到的语音信号对应的包络函数,确定所述各智能音箱的麦克风接收到的所述语音信号对应的递增特征函数;
分别根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差包括:
对智能音箱对中一个智能音箱的麦克风接收到的语音信号对应的递增特征函数进行延迟处理;
确定延迟处理后的递增特征函数与另一个音箱的麦克风接收到的语音信号对应的递增特征函数之间的互相关函数;
计算互相关函数的最大值,并将所述最大值对应的延迟值的数值作为智能音箱对之间的信号接收时延差。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
在利用快速傅里叶变换确定所述互相关函数之后,对信号进行频域增强,以对所述互相关函数进行锐化。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,依据所述信号接收时延差确定距离所述发声者最近的智能音箱包括:
以一个智能音箱为基准,得到其他智能音箱与基准智能音箱的信号接收时延差,根据接收语音信号的时间从小到大的顺序对各个智能音箱进行排序,将接收语音信号的时间最小的智能音箱作为距离所述发声者最近的智能音箱。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
判断接收语音信号的时间最小的智能音箱接收到的语音信号的能量是否大于等于预设阈值;若大于或等于预设阈值,则将其作为距离所述发声者最近的智能音箱;若小于预设阈值,则顺延到排序第二的智能音箱继续进行判断。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
根据不同发声者发出的语音信号的声纹特征对不同发声者进行识别,以便分别确定距离不同发声者最近的智能音箱。
本发明的另一方面,提供一种智能设备控制系统,多于一个的智能音箱构成智能音箱阵列,所述系统包括:
信号接收时延差计算模块,用于通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差;
智能音箱确定模块,用于依据所述信号接收时延差确定距离所述发声者最近的智能音箱;
响应控制模块,用于控制所确定的距离所述发声者最近的智能音箱对所述语音信号进行响应。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信号接收时延差计算模块具体用于:
将所述智能音箱阵列中两两智能音箱构成智能音箱对;
根据所述智能音箱阵列中各智能音箱的麦克风接收到的语音信号对应的包络函数,确定所述各智能音箱的麦克风接收到的所述语音信号对应的递增特征函数;
分别根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差包括:
对智能音箱对中一个智能音箱的麦克风接收到的语音信号对应的递增特征函数进行延迟处理;
确定延迟处理后的递增特征函数与另一个音箱的麦克风接收到的语音信号对应的递增特征函数之间的互相关函数;
计算互相关函数的最大值,并将所述最大值对应的延迟值的数值作为智能音箱对之间的信号接收时延差。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信号接收时延差计算模块还用于:
将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信号接收时延差计算模块还用于:
在利用快速傅里叶变换确定所述互相关函数之后,对信号进行频域增强,以对所述互相关函数进行锐化。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述智能音箱确定模块具体用于:
以一个智能音箱为基准,得到其他智能音箱与基准智能音箱的信号接收时延差,根据接收语音信号的时间从小到大的顺序对各个智能音箱进行排序,将接收语音信号的时间最小的智能音箱作为距离所述发声者最近的智能音箱。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述智能音箱确定模块还用于:
判断接收语音信号的时间最小的智能音箱接收到的语音信号的能量是否大于等于预设阈值;若大于或等于预设阈值,则将其作为距离发声者最近的智能音箱;若小于预设阈值,则顺延到排序第二的智能音箱继续进行判断。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括声纹识别模块,用于根据不同发声者发出的语音信号的声纹特征对不同发声者进行识别,以便分别确定距离不同发声者最近的智能音箱。
本发明的另一方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
本发明的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,能够确定与发声者距离最近的智能音箱,由其为发声者提供服务,避免了多个智能音箱同时响应造成的混乱,也降低了智能音箱的功耗。
【附图说明】
图1为本发明所述智能设备控制方法的流程图;
图2为本发明所述智能设备控制系统的结构图;
图3为本发明智能音箱阵列的摆放示意图;
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
图1为本发明所述智能设备控制方法实施例的流程图,多于一个的智能音箱构成智能音箱阵列,如图1所示,包括以下步骤:
步骤S11、获取智能音箱阵列中各智能音箱分别接收的发声者的同一语音信号;
步骤S12、通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差;
步骤S13、依据所述信号接收时延差确定距离所述发声者最近的智能音箱;
步骤S14、控制所确定的距离所述发声者最近的智能音箱对所述语音信号进行响应。
其中,所述智能音箱阵列包括设置在房间,例如会议室,内的多个智能音箱。
所述方法的执行主体可以是云端服务器,也可以是智能音箱阵列中的某一个智能音箱。智能音箱通过WiFi与云端服务器互连;智能音箱之间通过蓝牙或WiFi互连。
所述智能音箱的麦克风7x24小时接收外部声音,由处理器持续分析检测唤醒词,一旦检测到了唤醒词,就将后续语音传给服务器进行处理。
所述处理器包括唤醒子模块,所述唤醒子模块内置唤醒词算法,随时等待接收发声者语音操作指令。优选地,所述唤醒模块可以是低功耗DSP/协处理器。
本实施例的使用场景中,仅考虑单个发声者呼叫智能音箱的情况。
在步骤S11的一种优选实现方式中,
优选地,若确定需要采集声源,即发声者发出的语音信号时,获取智能音箱阵列中各智能音箱分别接收的发声者发送的携带预设唤醒词的语音信号,以便确定距离发声者最近的智能音箱。
例如,若智能音箱的预设唤醒词为“小度小度”,发声者发出语音“小度小度”的语音信号,则可以为发声者发出的语音信号。也就是说,本实施例中,在对目标声源进行定位时,可以根据目标声源使用预设唤醒词唤醒智能音箱的语音信号进行定位,而不需要再采集目标声源的其他语音信号。
本实施例中,为了能够确定与发声者距离最近的智能音箱,需要选择所有任意两两组合的智能音箱接收发声者发送的携带预设唤醒词的语音信号。如图3所示,以房间内设置4个智能音箱为例,4个智能音箱位于房间的四个角落,发声者位于任意一个座椅处,该4个智能音箱两两组合具有6种组合方式,则其智能音箱阵列会产生6个互相关函数,并且对所接收的发声者的同一语音信号将会获得6个时延差的值。
优选地,智能音箱的麦克风采集智能音箱所处环境中的声音信息;在智能音箱工作时,其中,所述麦克风始终处于拾音状态(持续对声音信息进行采样、量化)。
优选地,也可以根据具体需要,例如为了降低智能音箱的功耗,按照预设周期采集智能音箱所处环境中的声音信息;例如,以10ms为周期进行检测。所述定期音量检测的周期可以在智能音箱出厂时预设,也可以由发声者根据自身需求设置。优选地,可以根据智能音箱的运行环境设置相应的检测周期。
本实施例中,所述声音信息可以理解为:智能音箱所处环境中,智能音箱所能够采集到的任意声音对应的信息,例如,人发出的声音、电视发出的声音、智能音箱扬声器播放的音乐或语音等,只要所述智能音箱能够采集即可。
对麦克风采集的声音信息进行语音检测;对检测得到的语音段进行唤醒检测;将检测得到的唤醒指令对应的语音段作为发声者发送的携带预设唤醒词的语音信号。
由于会议室或房间中的智能音箱设置距离相对较远,米级别,因此,相比较于不同职能音箱所接收到的语音信号的时延差,智能音箱的麦克风阵列,厘米级别,所接收到的语音信号的时延差可以忽略不计。
在步骤S12的一种优选实现方式中,
优选地,通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差。
可以理解的是,当声源发出语音信号后,由于智能音箱阵列设置在房间的不同位置,因此,智能音箱的麦克风接收到的语音信号的时间不同,存在信号接收时延差。本实施例中,以两个智能音箱组成的智能音箱对分别接收到的语音信号为例进行后续分析过程的说明,其他5种组合方式的智能音箱分别即受到的语音信号的分析过程与之一致,不再赘叙。
优选地,包括以下子步骤:
子步骤S121、将所述智能音箱阵列中两两智能音箱构成智能音箱对;
子步骤S122、根根据所述智能音箱阵列中各智能音箱的麦克风接收到的语音信号对应的包络函数,确定所述各智能音箱的麦克风接收到的所述语音信号对应的递增特征函数。
确定智能音箱对分别接收到的语音信号各自对应的包络函数。
优选地,智能音箱接收到的语音信号为连续时间信号,也可以对所述语音信号进行采样,确定采样后的语音信号对应的包络函数。需要说明的是,应该以同样的采样间隔对各个智能音箱接收到的语音信号进行采样。
优选地,递增特征函数为反映包络函数递增部分的递增特征的函数。
子步骤S123、分别根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差。
优选地,计算对智能音箱对中一个智能音箱的麦克风接收到的语音信号对应的所述递增特征函数进行延迟处理后所得结果与另一个音箱的麦克风接收到的语音信号对应的递增特征函数之间的互相关函数。
计算互相关函数的最大值,并将上述最大值对应的延迟值的数值作为智能音箱对之间的信号接收时延差。
优选地,得到互相关函数之后,还可以将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。将互相关函数通过FFT与IFFT变换快速得到的基本原理是:在一帧的信号长度中,将采样点n的时域转变为频域得到频点k,将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
在利用快速傅里叶变换确定所述互相关函数之前,还可以对获取的每帧信号进行加窗预处理,保证数据的连续性。所谓加窗,就是对一个有限长的时域采样信号加了一个特性的窗函数,如汉明窗或汉宁窗等。然而加窗并不是为了截取信号的某一节,而是由于FFT算法默认其采样的信号是无限长周期的信号,例如认为一个有限长度的数据是不断重复的,其通过将有限长度的数据的最后一个点之后又连到第一个点,以此形成不断重复的数据,通过将有限长度的数据的最后一个点之后又连到第一个点,可能会出现波形突然不连续的情况,这个不连续会导致FFT结果出现频谱泄漏现象。基于这种现象,可以以加窗的方式让不太连续的地方(最后一个点和第一个的连接处)看上去平滑,没有原来那么明显的突变了。
优选地,为了提高互相关函数峰值的分辨能力,以及噪声环境下的抗干扰能力,还可以在利用快速傅里叶变换确定所述互相关函数之后,对信号进行频域增强,以对所述互相关函数进行锐化。其中,所述增强是依据所述语音信号的信噪比确定的。在噪声较小的情况下,可以使用较大的权重系数来对语音信号进行频域的增强,提高互相关函数的峰值的尖锐程度,从而提高在噪声环境下的抗干扰能力。
通过上述可选操作,可以保证互相相关函数计算的运算速度和测量精度。
可选的,所述互相关还可以为广义互相关函数。
优选地,根据相同方式,获得其他5对智能音箱对分别接收到的语音信号的信号接收时延差。
在步骤S13的一种优选实现方式中,
优选地,依据所述信号接收时延差确定距离所述发声者最近的智能音箱。
由于已经获得所有智能音箱之间的信号接收时延差,可以根据接收语音信号的时间从小到大的顺序对各个智能音箱进行排序,将各个智能音箱之间的相对接收时延差转换为时间轴上的绝对的时延差,即以一个智能音箱为基准,得到各个智能音箱与基准智能音箱的时延差。
理论上,接收语音信号的时间最早的智能音箱即为距离发声者最近的智能音箱。优选地,考虑到语音的自回归特性,根据智能音箱接收到的语音信号的能量对排序结果进行校正,判断其接收到的语音信号的能量是否大于等于预设阈值,若排名第一的智能音箱接收到的语音信号的能量小于预设阈值,则顺延到排名第二的智能音箱,判断其接收到的语音信号的能量是否大于等于预设阈值。
在步骤S14的一种优选实现方式中,
由所确定的距离发声者最近的智能音箱对发声者的语音操作指令进行响应。在此过程中,其他智能音箱继续处于拾音状态,不对发声者的语音操作指令进行响应,以避免造成串扰。
优选地,智能音箱对发声者的语音操作指令进行响应包括:
接收发声者发出的后续语音操作指令;
优选地,智能音箱已被唤醒,接收发声者发出的后续语音操作指令。
对所述语音操作指令进行语音信号处理;
优选地,所述语音信号处理包括:
语音检测、降噪、声学回声消除、去混响处理、声源定位、波束形成等操作;其中,
语音检测(英文一般称为Voice Activity Detection,VAD)的目标是,准确的检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,高效准确的VAD不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。
由于实际环境中存在着空调、风扇以及其他各种各样的噪声。需要进行降噪,以降低噪声干扰,提高信噪比,降低后端语音识别的难度。常用的降噪算法有自适应LMS和维纳滤波等。
声学回声消除(Acoustic Echo Cancellaction,AEC)的目的是,在音箱扬声器工作(播放音乐或语音)时,从麦克风中收集的语音中,去除自身播放的声音信号,这是双工模式的前提。
去混响处理用于去除语音会被墙壁等多次反射所造成的延迟的语音叠加产生的掩蔽效应,
声源定位是根据智能音箱上的麦克风阵列收集的声音语,确定说话人的位置。至少有两个用途,1)用于方位灯的展示,增强交互效果;2)作为波束形成的前导任务,确定空间滤波的参数。
波束形成是利用空间滤波的方法,将麦克风阵列接收的多路声音信号,整合为一路信号。通过波束形成,一方面可以增强原始的语音信号,另一方面抑制旁路信号,起到降噪和去混响的作用
将处理后的语音信号发送给云端进行语音识别,实现语音交互。
云端将处理后的语音信号转化为文本,进行自然语言理解,得到所述语音信号对应的操作指令,执行对应操作。并通过所述智能音箱播放对应的音频信息。
例如,把处理后的语音信号的答复,通过语音合成(Text-to-Speech,TTS),得到对应的音频信息,发送给智能音箱,由智能音箱播放出来,
优选地,可以根据所有智能音箱之间的信号接收时延差,将对距离发声者较近的智能音箱的声音信号添加时延,使多个智能音箱播放的音频信息同时到达发声者的位置,以便给发声者形成更好的环绕立体声。
在本发明的一个优选实施例中,
提取发声者发出的语音信号的声纹特征,为该发声者设立ID,建立并存储发声者ID与发声者声纹特征的对应关系。上述建立并存储发声者ID与发声者声纹特征的对应关系的过程可以在发声者首次唤醒智能音箱的过程中进行,便于后续直接使用该对应关系检测。通过确定距离发声者最近的智能音箱,将所述智能音箱ID与发声者ID绑定,即建立了智能音箱ID与发声者声纹特征的对应关系。
这样,当房间或会议室存在多个发声者的情况下,智能音箱接收到发声者发出的语音信号,提取所述语音信号的声纹特征,根据预存储的智能音箱ID与声纹特征的对应关系,确定对发声者的语音操作指令进行响应的智能音箱。
优选地,由于发声者在房间或会议室中的位置可能会发生改变,可以在发声者位置发生改变的情况下,重新执行上述定位过程;也可以定期重新执行上述定位过程。
应用本发明所述方案,可以确定与发声者距离最近的智能音箱,由其为发声者提供服务,避免了多个智能音箱同时响应造成的混乱,也降低了智能音箱的功耗。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述智能设备控制系统实施例的结构图,多于一个的智能音箱构成智能音箱阵列,如图2所示,包括以下模块:
语音信号获取模块21,用于获取智能音箱阵列中各智能音箱分别接收的发声者的同一语音信号;
信号接收时延差计算模块22,用于通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差;
智能音箱确定模块23,用于依据所述信号接收时延差确定距离所述发声者最近的智能音箱;
响应控制模块24,用于控制所确定的距离所述发声者最近的智能音箱对所述语音信号进行响应。
所述系统可以位于云端服务器,也可以位于智能音箱阵列中的某一个智能音箱。智能音箱通过WiFi与云端服务器互连;智能音箱之间通过蓝牙或WiFi互连。
其中,所述智能音箱阵列包括设置在房间,例如会议室内的多个智能音箱。
所述智能音箱的麦克风7x24小时接收外部声音,由处理器持续分析检测唤醒词,一旦检测到了唤醒词,就将后续语音传给服务器进行处理。
所述处理器包括唤醒子模块,所述唤醒子模块内置唤醒词算法,随时等待接收发声者语音操作指令。优选地,所述唤醒模块可以是低功耗DSP/协处理器。
本实施例的使用场景中,仅考虑单个发声者呼叫智能音箱的情况。
在语音信号获取模块21的一种优选实现方式中,
优选地,若确定需要采集声源,即发声者发出的语音信号时,获取智能音箱阵列中各智能音箱分别接收的发声者发送的携带预设唤醒词的语音信号,以便确定距离发声者最近的智能音箱。
例如,若智能音箱的预设唤醒词为“小度小度”,发声者发出语音“小度小度”的语音信号,则可以为发声者发出的语音信号。也就是说,本实施例中,在对目标声源进行定位时,可以根据目标声源使用预设唤醒词唤醒智能音箱的语音信号进行定位,而不需要再采集目标声源的其他语音信号。
本实施例中,为了能够确定与发声者距离最近的智能音箱,需要选择所有任意两两组合的智能音箱接收发声者发送的携带预设唤醒词的语音信号。如图3所示,以房间内设置4个智能音箱为例,4个智能音箱位于房间的四个角落,发声者位于任意一个座椅处,该4个智能音箱两两组合具有6种组合方式,则其智能音箱阵列会产生6个互相关函数,并且对所接收的发声者的同一语音信号将会获得6个时延差的值。
优选地,智能音箱的麦克风采集智能音箱所处环境中的声音信息;在智能音箱工作时,其中,所述麦克风始终处于拾音状态(持续对声音信息进行采样、量化)。
优选地,也可以根据具体需要,例如为了降低智能音箱的功耗,按照预设周期采集智能音箱所处环境中的声音信息;例如,以10ms为周期进行检测。所述定期音量检测的周期可以在智能音箱出厂时预设,也可以由发声者根据自身需求设置。优选地,可以根据智能音箱的运行环境设置相应的检测周期。
本实施例中,所述声音信息可以理解为:智能音箱所处环境中,智能音箱所能够采集到的任意声音对应的信息,例如,人发出的声音、电视发出的声音、智能音箱扬声器播放的音乐或语音等,只要所述智能音箱能够采集即可。
对麦克风采集的声音信息进行语音检测;对检测得到的语音段进行唤醒检测;将检测得到的唤醒指令对应的语音段作为发声者发送的携带预设唤醒词的语音信号。
由于会议室或房间中的智能音箱设置距离相对较远,米级别,因此,相比较于不同职能音箱所接收到的语音信号的时延差,智能音箱的麦克风阵列,厘米级别,所接收到的语音信号的时延差可以忽略不计。
在信号接收时延差计算模块22的一种优选实现方式中,
优选地,通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差。
可以理解的是,当声源发出语音信号后,由于智能音箱阵列设置在房间的不同位置,因此,智能音箱的麦克风接收到的语音信号的时间不同,存在信号接收时延差。本实施例中,以两个智能音箱组成的智能音箱对分别接收到的语音信号为例进行后续分析过程的说明,其他5种组合方式的智能音箱分别即受到的语音信号的分析过程与之一致,不再赘叙。
优选地,包括以下子模块:
第一确定子模块221,用于将所述智能音箱阵列中两两智能音箱构成智能音箱对。
第二确定子模块222,用于
根根据所述智能音箱阵列中各智能音箱的麦克风接收到的语音信号对应的包络函数,确定所述各智能音箱的麦克风接收到的所述语音信号对应的递增特征函数。
确定智能音箱对分别接收到的语音信号各自对应的包络函数。
优选地,智能音箱接收到的语音信号为连续时间信号,也可以对所述语音信号进行采样,确定采样后的语音信号对应的包络函数。需要说明的是,应该以同样的采样间隔对各个智能音箱接收到的语音信号进行采样。
优选地,递增特征函数为反映包络函数递增部分的递增特征的函数。
第三确定子模块223,用于分别根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差。
优选地,计算对智能音箱对中一个智能音箱的麦克风接收到的语音信号对应的所述递增特征函数进行延迟处理后所得结果与另一个音箱的麦克风接收到的语音信号对应的递增特征函数之间的互相关函数。
计算互相关函数的最大值,并将上述最大值对应的延迟值的数值作为智能音箱对分别接收到的语音信号的信号接收时延差。
优选地,得到互相关函数之后,还可以将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。将互相关函数通过FFT与IFFT变换快速得到的基本原理是:在一帧的信号长度中,将采样点n的时域转变为频域得到频点k,将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
在利用快速傅里叶变换确定所述互相关函数之前,还可以对获取的每帧信号进行加窗预处理,保证数据的连续性。所谓加窗,就是对一个有限长的时域采样信号加了一个特性的窗函数,如汉明窗或汉宁窗等。然而加窗并不是为了截取信号的某一节,而是由于FFT算法默认其采样的信号是无限长周期的信号,例如认为一个有限长度的数据是不断重复的,其通过将有限长度的数据的最后一个点之后又连到第一个点,以此形成不断重复的数据,通过将有限长度的数据的最后一个点之后又连到第一个点,可能会出现波形突然不连续的情况,这个不连续会导致FFT结果出现频谱泄漏现象。基于这种现象,可以以加窗的方式让不太连续的地方(最后一个点和第一个的连接处)看上去平滑,没有原来那么明显的突变了。
优选地,为了提高互相关函数峰值的分辨能力,以及噪声环境下的抗干扰能力,还可以在利用快速傅里叶变换确定所述互相关函数之后,对信号进行频域增强,以对所述互相关函数进行锐化。其中,所述增强是依据所述语音信号的信噪比确定的。在噪声较小的情况下,可以使用较大的权重系数来对语音信号进行频域的增强,提高互相关函数的峰值的尖锐程度,从而提高在噪声环境下的抗干扰能力。
通过上述可选操作,可以保证互相相关函数计算的运算速度和测量精度。
可选的,所述互相关还可以为广义互相关函数。
优选地,根据相同方式,获得其他5对智能音箱对分别接收到的语音信号的信号接收时延差。
在智能音箱确定模块23的一种优选实现方式中,
优选地,依据所述信号接收时延差确定距离所述发声者最近的智能音箱。
由于已经获得所有智能音箱之间的信号接收时延差,可以根据接收语音信号的时间从小到大的顺序对各个智能音箱进行排序,将各个智能音箱之间的相对接收时延差转换为时间轴上的绝对的时延差,即以一个智能音箱为基准,得到各个智能音箱与基准智能音箱的时延差。
理论上,接收语音信号的时间最小的智能音箱即为距离发声者最近的智能音箱。优选地,考虑到语音的自回归特性,根据智能音箱接收到的语音信号的能量对排序结果进行校正,判断其接收到的语音信号的能量是否大于等于预设阈值,若排名第一的智能音箱接收到的语音信号的能量小于预设阈值,则顺延到排名第二的智能音箱,判断其接收到的语音信号的能量是否大于等于预设阈值。
在响应控制模块24的一种优选实现方式中,
由所确定的距离发声者最近的智能音箱对发声者的语音操作指令进行响应。在此过程中,其他智能音箱继续处于拾音状态,不对发声者的语音操作指令进行响应,以避免造成串扰。
优选地,智能音箱对发声者的语音操作指令进行响应包括:
接收发声者发出的后续语音操作指令;
优选地,智能音箱已被唤醒,接收发声者发出的后续语音操作指令。
对所述语音操作指令进行语音信号处理;
优选地,所述语音信号处理包括:
语音检测、降噪、声学回声消除、去混响处理、声源定位、波束形成等操作;其中,
语音检测(英文一般称为Voice Activity Detection,VAD)的目标是,准确的检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,高效准确的VAD不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。
由于实际环境中存在着空调、风扇以及其他各种各样的噪声。需要进行降噪,以降低噪声干扰,提高信噪比,降低后端语音识别的难度。常用的降噪算法有自适应LMS和维纳滤波等。
声学回声消除(Acoustic Echo Cancellaction,AEC)的目的是,在音箱扬声器工作(播放音乐或语音)时,从麦克风中收集的语音中,去除自身播放的声音信号,这是双工模式的前提。
去混响处理用于去除语音会被墙壁等多次反射所造成的延迟的语音叠加产生的掩蔽效应,
声源定位是根据智能音箱上的麦克风阵列收集的声音语,确定说话人的位置。至少有两个用途,1)用于方位灯的展示,增强交互效果;2)作为波束形成的前导任务,确定空间滤波的参数。
波束形成是利用空间滤波的方法,将麦克风阵列接收的多路声音信号,整合为一路信号。通过波束形成,一方面可以增强原始的语音信号,另一方面抑制旁路信号,起到降噪和去混响的作用
将处理后的语音信号发送给云端进行语音识别,实现语音交互。
云端将处理后的语音信号转化为文本,进行自然语言理解,得到所述语音信号对应的操作指令,执行对应操作。并通过所述智能音箱播放对应的音频信息。
例如,把处理后的语音信号的答复,通过语音合成(Text-to-Speech,TTS),得到对应的音频信息,发送给智能音箱,由智能音箱播放出来,
优选地,可以根据所有智能音箱之间的信号接收时延差,将对距离发声者较近的智能音箱的声音信号添加时延,使多个智能音箱播放的音频信息同时到达发声者的位置,以便给发声者形成更好的环绕立体声。
在本发明的一个优选实施例中,
所述系统还包括声纹识别模块,用于提取发声者发出的语音信号的声纹特征,为该发声者设立ID,建立并存储发声者ID与发声者声纹特征的对应关系。上述建立并存储发声者ID与发声者声纹特征的对应关系的过程可以在发声者首次唤醒智能音箱的过程中进行,便于后续直接使用该对应关系检测。通过确定距离发声者最近的智能音箱,将所述智能音箱ID与发声者ID绑定,即建立了智能音箱ID与发声者声纹特征的对应关系。
这样,当房间或会议室存在多个发声者的情况下,智能音箱接收到发声者发出的语音信号,提取所述语音信号的声纹特征,根据预存储的智能音箱ID与声纹特征的对应关系,确定对发声者的语音操作指令进行响应的智能音箱。
优选地,由于发声者在房间或会议室中的位置可能会发生改变,可以在发声者位置发生改变的情况下,重新执行上述定位过程;也可以定期重新执行上述定位过程。
应用本发明所述方案,可以确定与发声者距离最近的智能音箱,由其为发声者提供服务,避免了多个智能音箱同时响应造成的混乱,也降低了智能音箱的功耗。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的终端和服务器的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图4显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理器016,系统存储器028,连接不同系统组件(包括系统存储器028和处理器016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得发声者能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器016通过运行存储在系统存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在发声者计算机上执行、部分地在发声者计算机上执行、作为一个独立的软件包执行、部分在发声者计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到发声者计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种智能设备控制方法,其特征在于,多于一个的智能音箱构成智能音箱阵列,所述方法包括:
通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差;
以一个智能音箱为基准,得到其他智能音箱与基准智能音箱的信号接收时延差,根据接收语音信号的时间从小到大的顺序对各个智能音箱进行排序;判断接收语音信号的时间最小的智能音箱接收到的语音信号的能量是否大于等于预设阈值;若大于或等于预设阈值,则将其作为距离所述发声者最近的智能音箱;若小于预设阈值,则顺延到排序第二的智能音箱继续进行判断;
控制所确定的距离所述发声者最近的智能音箱对所述语音信号进行响应。
2.根据权利要求1所述的方法,其特征在于,通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差包括:
将所述智能音箱阵列中两两智能音箱构成智能音箱对;
根据所述智能音箱阵列中各智能音箱的麦克风接收到的语音信号对应的包络函数,确定所述各智能音箱的麦克风接收到的所述语音信号对应的递增特征函数;
分别根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差。
3.根据权利要求2所述的方法,其特征在于,根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差包括:
对智能音箱对中一个智能音箱的麦克风接收到的语音信号对应的递增特征函数进行延迟处理;
确定延迟处理后的递增特征函数与另一个音箱的麦克风接收到的语音信号对应的递增特征函数之间的互相关函数;
计算互相关函数的最大值,并将所述最大值对应的延迟值的数值作为智能音箱对之间的信号接收时延差。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在利用快速傅里叶变换确定所述互相关函数之后,对信号进行频域增强,以对所述互相关函数进行锐化。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据不同发声者发出的语音信号的声纹特征对不同发声者进行识别,以便分别确定距离不同发声者最近的智能音箱。
7.一种智能设备控制系统,其特征在于,多于一个的智能音箱构成智能音箱阵列,所述系统包括:
信号接收时延差计算模块,用于通过所述智能音箱阵列对发声者同一语音信号的接收状况,确定所述多于一个智能音箱之间的信号接收时延差;
智能音箱确定模块,用于以一个智能音箱为基准,得到其他智能音箱与基准智能音箱的信号接收时延差,根据接收语音信号的时间从小到大的顺序对各个智能音箱进行排序;判断接收语音信号的时间最小的智能音箱接收到的语音信号的能量是否大于等于预设阈值;若大于或等于预设阈值,则将其作为距离所述发声者最近的智能音箱;若小于预设阈值,则顺延到排序第二的智能音箱继续进行判断;
响应控制模块,用于控制所确定的距离所述发声者最近的智能音箱对所述语音信号进行响应。
8.根据权利要求7所述的系统,其特征在于,所述信号接收时延差计算模块具体用于:
将所述智能音箱阵列中两两智能音箱构成智能音箱对;
根据所述智能音箱阵列中各智能音箱的麦克风接收到的语音信号对应的包络函数,确定所述各智能音箱的麦克风接收到的所述语音信号对应的递增特征函数;
分别根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差。
9.根据权利要求8所述的系统,其特征在于,根据各智能音箱对中各智能音箱的麦克风对应的所述递增特征函数之间的相关性,确定各智能音箱对之间的信号接收时延差包括:
对智能音箱对中一个智能音箱的麦克风接收到的语音信号对应的递增特征函数进行延迟处理;
确定延迟处理后的递增特征函数与另一个音箱的麦克风接收到的语音信号对应的递增特征函数之间的互相关函数;
计算互相关函数的最大值,并将所述最大值对应的延迟值的数值作为智能音箱对之间的信号接收时延差。
10.根据权利要求9所述的系统,其特征在于,所述信号接收时延差计算模块还用于:
将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
11.根据权利要求10所述的系统,其特征在于,所述信号接收时延差计算模块还用于:
在利用快速傅里叶变换确定所述互相关函数之后,对信号进行频域增强,以对所述互相关函数进行锐化。
12.根据权利要求7所述的系统,其特征在于,所述系统还包括声纹识别模块,用于根据不同发声者发出的语音信号的声纹特征对不同发声者进行识别,以便分别确定距离不同发声者最近的智能音箱。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
CN201810565141.6A 2018-06-04 2018-06-04 一种智能设备控制方法及系统 Active CN108962263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810565141.6A CN108962263B (zh) 2018-06-04 2018-06-04 一种智能设备控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810565141.6A CN108962263B (zh) 2018-06-04 2018-06-04 一种智能设备控制方法及系统

Publications (2)

Publication Number Publication Date
CN108962263A CN108962263A (zh) 2018-12-07
CN108962263B true CN108962263B (zh) 2019-09-20

Family

ID=64493459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810565141.6A Active CN108962263B (zh) 2018-06-04 2018-06-04 一种智能设备控制方法及系统

Country Status (1)

Country Link
CN (1) CN108962263B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3783604A1 (en) * 2019-08-22 2021-02-24 Beijing Xiaomi Intelligent Technology Co., Ltd. Method for responding to voice signal, electronic device, medium and system

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461449B (zh) * 2018-12-29 2021-12-14 思必驰科技股份有限公司 用于智能设备的语音唤醒方法及系统
CN109979447A (zh) * 2019-01-25 2019-07-05 广州富港万嘉智能科技有限公司 一种基于位置的点餐控制方法、电子设备及存储介质
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN110048863A (zh) * 2019-03-08 2019-07-23 佛山市云米电器科技有限公司 一种智能家居设备响应仲裁系统与方法
CN110047494B (zh) * 2019-04-15 2022-06-03 北京小米智能科技有限公司 设备响应方法、设备及存储介质
CN111833862B (zh) * 2019-04-19 2023-10-20 佛山市顺德区美的电热电器制造有限公司 一种设备的控制方法、控制设备及存储介质
CN110349592B (zh) * 2019-07-17 2021-09-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110491385A (zh) * 2019-07-24 2019-11-22 深圳市合言信息科技有限公司 同声传译方法、装置、电子装置及计算机可读存储介质
CN110572799B (zh) * 2019-07-25 2020-12-25 华为技术有限公司 一种同时响应的方法及设备
CN112634884A (zh) * 2019-09-23 2021-04-09 北京声智科技有限公司 控制输出音频的方法、输出音频的方法、装置、电子设备、和计算机可读存储介质
CN110808044B (zh) * 2019-11-07 2022-04-01 深圳市欧瑞博科技股份有限公司 智能家居设备语音控制方法、装置、电子设备及存储介质
CN111294704B (zh) * 2020-01-22 2021-08-31 北京小米松果电子有限公司 音频处理方法、装置及存储介质
CN112750439B (zh) * 2020-12-29 2023-10-03 恒玄科技(上海)股份有限公司 语音识别方法,电子设备及存储介质
CN113625582A (zh) * 2021-08-16 2021-11-09 青岛海尔空调器有限总公司 用于家电设备控制的系统、方法、装置及云端服务器
CN117014246A (zh) * 2022-04-29 2023-11-07 青岛海尔科技有限公司 智能设备的控制方法、存储介质及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096956A (zh) * 2015-08-05 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
CN105467364A (zh) * 2015-11-20 2016-04-06 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置
CN106030331A (zh) * 2013-10-01 2016-10-12 奥尔德巴伦机器人公司 声源定位方法和使用这种方法的仿人机器人
CN107329114A (zh) * 2017-06-21 2017-11-07 歌尔股份有限公司 声源定位方法和装置
CN107705785A (zh) * 2017-08-01 2018-02-16 百度在线网络技术(北京)有限公司 智能音箱的声源定位方法、智能音箱及计算机可读介质
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106030331A (zh) * 2013-10-01 2016-10-12 奥尔德巴伦机器人公司 声源定位方法和使用这种方法的仿人机器人
CN105096956A (zh) * 2015-08-05 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
CN105467364A (zh) * 2015-11-20 2016-04-06 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置
CN107329114A (zh) * 2017-06-21 2017-11-07 歌尔股份有限公司 声源定位方法和装置
CN107705785A (zh) * 2017-08-01 2018-02-16 百度在线网络技术(北京)有限公司 智能音箱的声源定位方法、智能音箱及计算机可读介质
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3783604A1 (en) * 2019-08-22 2021-02-24 Beijing Xiaomi Intelligent Technology Co., Ltd. Method for responding to voice signal, electronic device, medium and system

Also Published As

Publication number Publication date
CN108962263A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108962263B (zh) 一种智能设备控制方法及系统
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
CN110648678B (zh) 一种用于具有多麦克风会议的场景识别方法和系统
Cauchi et al. Combination of MVDR beamforming and single-channel spectral processing for enhancing noisy and reverberant speech
RU2758192C2 (ru) Звукозапись с использованием формирования диаграммы направленности
EP3793212A1 (en) Multi-microphone switching method and system for conference system
TW202008352A (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
US9241223B2 (en) Directional filtering of audible signals
WO2012061145A1 (en) Systems, methods, and apparatus for voice activity detection
EP3757993A1 (en) Pre-processing for automatic speech recognition
US11222652B2 (en) Learning-based distance estimation
CN110619895A (zh) 定向发声控制方法及装置、发声设备、介质和电子设备
US20080120100A1 (en) Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
US10659877B2 (en) Combined audio signal output
JP2024524770A (ja) スピーチ信号の残響除去方法およびシステム
JP2017181899A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム
US11528571B1 (en) Microphone occlusion detection
US11039242B2 (en) Audio capture using beamforming
WO2020064089A1 (en) Determining a room response of a desired source in a reverberant environment
CN114464184B (zh) 语音识别的方法、设备和存储介质
CN113223544A (zh) 音频的方向定位侦测装置及方法以及音频处理系统
CN113270118B (zh) 语音活动侦测方法及装置、存储介质和电子设备
US12119017B2 (en) Information processing device, information processing system and information processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant