CN106782563B

CN106782563B - 一种智能家居语音交互系统

Info

Publication number: CN106782563B
Application number: CN201611230764.5A
Authority: CN
Inventors: 叶伟
Original assignee: Shanghai Perspicace Intelligence Technology Co ltd
Current assignee: Changzhou bailongzhi Technology Co.,Ltd.
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2020-06-02
Anticipated expiration: 2036-12-28
Also published as: CN106782563A

Abstract

一种智能家居语音交互系统，包括步骤：A1，使用麦克风阵列采集声音样本后，经过信号降噪和语音检测；A2，如果声音样本中包含语音信号，则采用2D_MUSIC算法估计信号源数目和方位；A3，根据信号源方位，依照MV_Bearnforning计算信号的权向量，做加权处理，形成声音样本的语音波束；A4，与已经保存在系统的语音波束系列进行声纹匹配，如果有未匹配成功的，则将未匹配成功的语音波束加入系列列表；A5，定时根据声纹聚类，将近似的语音波束聚合为同一类语音信号，系统对同一类语音信号认为是同一人语音。

Description

一种智能家居语音交互系统

技术领域

本发明属于智能家居技术领域，特别涉及一种智能家居语音交互系统。

背景技术

在实际家庭环境、办公环境中，多人同时说话的场合很多。用户做语音控制时，其他在场人员的语音会干扰系统造成误判。所以，现有技术中，对于智能家庭设备语音控制，语音使用场景中如果同时有多人说话时，难以辨识出真正与系统语音交互的用户语音。如果同时有多个用户与系统语音交互时，系统也难以分别响应的问题。如果用户要求其他人员不说话，会造成极大极大不便，也不太现实。

发明内容

为了解决多人声场景下难以准确识别语音指令使语音交互控制智能家居的适用场景大受限制这一问题，本发明基于此提出了一种基于多人声分离的智能家居语音交互系统，使语音控制的适用场合更为广泛。

一种智能家居语音交互系统，包括以下步骤：

A1，使用麦克风阵列采集声音样本后，经过信号降噪和语音检测；

A2，如果声音样本中包含语音信号，则采用2D_MUSIC算法估计信号源数目和方位；

A3，根据信号源方位，依照MV_Beamforning计算信号的权向量，做加权处理，形成声音样本的语音波束；

A4，与已经保存在系统的语音波束系列进行声纹匹配，如果有未匹配成功的，则将未匹配成功的语音波束加入系列列表；

A5，定时根据声纹聚类，将近似的语音波束聚合为同一类语音信号，系统对同一类语音信号认为是同一人语音。

系统为每一个人创建单独的处理线程，分别对声源进行语音识别，对于每一个说话人，系统创建一个单独的语义上下文环境；

如果系统识别到用户的语义与系统提供指令功能匹配时，则认为是用户指令，系统分析用户意图，执行指令；

当有多个用户同时发出指令时，系统分别执行；

当用户发出指令有冲突时，系统给予用户语音反馈。

本发明集合了现有的声纹识别、话人跟踪、麦克风阵列采样分析、波束形成、语音识别、基于上下文的语义理解、语义关键词匹配等技术。

本发明的有益效果是：在室内有多人同时说话时，系统通过分离出不同人的声音信息，分别进行语音识别、语义处理、独立出各自的上下文对话场景，提高多人声场景语音交互时，指令识别的准确率。当多人说话的语音声源同时处在麦克风阵列监听范围内，意图和系统语音交互的用户不必刻意提高音量、不必刻意靠近麦克风阵列，不必要求周围人降低音量或暂停说话，可以直接和系统正常语音交互。从而使语音交互真正成为能适应复杂场合的短距离非接触的交互方式，减少了使用语音交互的限制，大幅度提高语音控制的使用场合，为现代人室内生活提供一种无需随身设备载体、简便智能的人机交互。

本发明点的创新点还在于：本系统不仅将语音别处理，而且能在一段时间的多人对话中，分析出人与人的对话、人与系统的对话，再通过多人场景语境语义分析，获取多人场景下用户的一个或多个指令，给出统一或区别回复。如此实现一个人机共生的良好交互手段，进一步将智能家居的语音交互智能化、广适化。

附图说明

图1是本发明实施例中的步骤流程示意图。

具体实施方式

麦克风阵列采集声音样本后，经过先进行信号降噪、多人语音分离。麦克风阵列中各个麦克风接收到的声音声源强弱，结合2D_MUSIC算法估计信源数目和方位，再根据方位信息，依照MV_Beamforning计算各个麦克风收到信号的权向量，做加权处理，形成波束。随后按照图1所示，将声音波束先按定位聚类。对于有间断且方位信息不同的声源，做声纹相似度聚类。系统将聚为同一类的声源信号认为是同一人的语音信息。至此，实现了多人语音声源分离、说话人识别。

完成声源分离、话人识别的语音信息，系统将为每一个人创建单独的处理线程，分别对声源进行语音识别。对于每一个说话人，系统创建一个单独的语义上下文环境。如果系统识别到用户的语义与系统提供功能匹配，则认为是用户指令，系统分析用户意图，执行指令。当有多个用户同时发出指令时，系统分别执行。当用户发出指令有冲突时，系统给予用户语音反馈。

本发明涉及的2D_MUSIC算法和MV_Beamforning算法可以参考文献：[1][2]林静然，基于麦克风阵列的说话人跟踪及语音分离实现技术的研究，电子科技大学，硕士学位论文，2005。

Claims

1.一种智能家居语音交互方法，其特征在于，包括以下步骤：

A5，定时根据声纹聚类，将近似的语音波束聚合为同一类语音信号，系统对同一类语音信号认为是同一人语音，

当有多个用户同时发出指令时，系统分别执行；

当用户发出指令有冲突时，系统给予用户语音反馈。