CN106782563B - 一种智能家居语音交互系统 - Google Patents
一种智能家居语音交互系统 Download PDFInfo
- Publication number
- CN106782563B CN106782563B CN201611230764.5A CN201611230764A CN106782563B CN 106782563 B CN106782563 B CN 106782563B CN 201611230764 A CN201611230764 A CN 201611230764A CN 106782563 B CN106782563 B CN 106782563B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- user
- beams
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
一种智能家居语音交互系统,包括步骤:A1,使用麦克风阵列采集声音样本后,经过信号降噪和语音检测;A2,如果声音样本中包含语音信号,则采用2D_MUSIC算法估计信号源数目和方位;A3,根据信号源方位,依照MV_Bearnforning计算信号的权向量,做加权处理,形成声音样本的语音波束;A4,与已经保存在系统的语音波束系列进行声纹匹配,如果有未匹配成功的,则将未匹配成功的语音波束加入系列列表;A5,定时根据声纹聚类,将近似的语音波束聚合为同一类语音信号,系统对同一类语音信号认为是同一人语音。
Description
技术领域
本发明属于智能家居技术领域,特别涉及一种智能家居语音交互系统。
背景技术
在实际家庭环境、办公环境中,多人同时说话的场合很多。用户做语音控制时,其他在场人员的语音会干扰系统造成误判。所以,现有技术中,对于智能家庭设备语音控制,语音使用场景中如果同时有多人说话时,难以辨识出真正与系统语音交互的用户语音。如果同时有多个用户与系统语音交互时,系统也难以分别响应的问题。如果用户要求其他人员不说话,会造成极大极大不便,也不太现实。
发明内容
为了解决多人声场景下难以准确识别语音指令使语音交互控制智能家居的适用场景大受限制这一问题,本发明基于此提出了一种基于多人声分离的智能家居语音交互系统,使语音控制的适用场合更为广泛。
一种智能家居语音交互系统,包括以下步骤:
A1,使用麦克风阵列采集声音样本后,经过信号降噪和语音检测;
A2,如果声音样本中包含语音信号,则采用2D_MUSIC算法估计信号源数目和方位;
A3,根据信号源方位,依照MV_Beamforning计算信号的权向量,做加权处理,形成声音样本的语音波束;
A4,与已经保存在系统的语音波束系列进行声纹匹配,如果有未匹配成功的,则将未匹配成功的语音波束加入系列列表;
A5,定时根据声纹聚类,将近似的语音波束聚合为同一类语音信号,系统对同一类语音信号认为是同一人语音。
系统为每一个人创建单独的处理线程,分别对声源进行语音识别,对于每一个说话人,系统创建一个单独的语义上下文环境;
如果系统识别到用户的语义与系统提供指令功能匹配时,则认为是用户指令,系统分析用户意图,执行指令;
当有多个用户同时发出指令时,系统分别执行;
当用户发出指令有冲突时,系统给予用户语音反馈。
本发明集合了现有的声纹识别、话人跟踪、麦克风阵列采样分析、波束形成、语音识别、基于上下文的语义理解、语义关键词匹配等技术。
本发明的有益效果是:在室内有多人同时说话时,系统通过分离出不同人的声音信息,分别进行语音识别、语义处理、独立出各自的上下文对话场景,提高多人声场景语音交互时,指令识别的准确率。当多人说话的语音声源同时处在麦克风阵列监听范围内,意图和系统语音交互的用户不必刻意提高音量、不必刻意靠近麦克风阵列,不必要求周围人降低音量或暂停说话,可以直接和系统正常语音交互。从而使语音交互真正成为能适应复杂场合的短距离非接触的交互方式,减少了使用语音交互的限制,大幅度提高语音控制的使用场合,为现代人室内生活提供一种无需随身设备载体、简便智能的人机交互。
本发明点的创新点还在于:本系统不仅将语音别处理,而且能在一段时间的多人对话中,分析出人与人的对话、人与系统的对话,再通过多人场景语境语义分析,获取多人场景下用户的一个或多个指令,给出统一或区别回复。如此实现一个人机共生的良好交互手段,进一步将智能家居的语音交互智能化、广适化。
附图说明
图1是本发明实施例中的步骤流程示意图。
具体实施方式
麦克风阵列采集声音样本后,经过先进行信号降噪、多人语音分离。麦克风阵列中各个麦克风接收到的声音声源强弱,结合2D_MUSIC算法估计信源数目和方位,再根据方位信息,依照MV_Beamforning计算各个麦克风收到信号的权向量,做加权处理,形成波束。随后按照图1所示,将声音波束先按定位聚类。对于有间断且方位信息不同的声源,做声纹相似度聚类。系统将聚为同一类的声源信号认为是同一人的语音信息。至此,实现了多人语音声源分离、说话人识别。
完成声源分离、话人识别的语音信息,系统将为每一个人创建单独的处理线程,分别对声源进行语音识别。对于每一个说话人,系统创建一个单独的语义上下文环境。如果系统识别到用户的语义与系统提供功能匹配,则认为是用户指令,系统分析用户意图,执行指令。当有多个用户同时发出指令时,系统分别执行。当用户发出指令有冲突时,系统给予用户语音反馈。
本发明涉及的2D_MUSIC算法和MV_Beamforning算法可以参考文献:[1][2]林静然,基于麦克风阵列的说话人跟踪及语音分离实现技术的研究,电子科技大学,硕士学位论文,2005。
Claims (1)
1.一种智能家居语音交互方法,其特征在于,包括以下步骤:
A1,使用麦克风阵列采集声音样本后,经过信号降噪和语音检测;
A2,如果声音样本中包含语音信号,则采用2D_MUSIC算法估计信号源数目和方位;
A3,根据信号源方位,依照MV_Beamforning计算信号的权向量,做加权处理,形成声音样本的语音波束;
A4,与已经保存在系统的语音波束系列进行声纹匹配,如果有未匹配成功的,则将未匹配成功的语音波束加入系列列表;
A5,定时根据声纹聚类,将近似的语音波束聚合为同一类语音信号,系统对同一类语音信号认为是同一人语音,
系统为每一个人创建单独的处理线程,分别对声源进行语音识别,对于每一个说话人,系统创建一个单独的语义上下文环境;
如果系统识别到用户的语义与系统提供指令功能匹配时,则认为是用户指令,系统分析用户意图,执行指令;
当有多个用户同时发出指令时,系统分别执行;
当用户发出指令有冲突时,系统给予用户语音反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611230764.5A CN106782563B (zh) | 2016-12-28 | 2016-12-28 | 一种智能家居语音交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611230764.5A CN106782563B (zh) | 2016-12-28 | 2016-12-28 | 一种智能家居语音交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106782563A CN106782563A (zh) | 2017-05-31 |
CN106782563B true CN106782563B (zh) | 2020-06-02 |
Family
ID=58922416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611230764.5A Active CN106782563B (zh) | 2016-12-28 | 2016-12-28 | 一种智能家居语音交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782563B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109307856A (zh) * | 2017-07-27 | 2019-02-05 | 深圳市冠旭电子股份有限公司 | 一种机器人空间定位的交互方法及装置 |
CN107729433B (zh) * | 2017-09-29 | 2022-04-22 | 联想(北京)有限公司 | 一种音频处理方法及设备 |
CN107886947A (zh) * | 2017-10-19 | 2018-04-06 | 珠海格力电器股份有限公司 | 一种图像处理的方法以及装置 |
CN107862060B (zh) * | 2017-11-15 | 2021-03-23 | 吉林大学 | 一种追踪目标人的语义识别装置及识别方法 |
CN108597536A (zh) * | 2018-03-20 | 2018-09-28 | 成都星环科技有限公司 | 一种基于声音信息定位的交互系统 |
CN108534297A (zh) * | 2018-04-16 | 2018-09-14 | 奥克斯空调股份有限公司 | 一种基于语音识别的智能空调系统及控制方法 |
CN108920639B (zh) * | 2018-07-02 | 2022-01-18 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
CN110858476B (zh) * | 2018-08-24 | 2022-09-27 | 北京紫冬认知科技有限公司 | 一种基于麦克风阵列的声音采集方法及装置 |
CN110503969B (zh) | 2018-11-23 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN109461456B (zh) * | 2018-12-03 | 2022-03-22 | 云知声智能科技股份有限公司 | 一种提升语音唤醒成功率的方法 |
CN109754803B (zh) * | 2019-01-23 | 2021-06-22 | 上海华镇电子科技有限公司 | 车载多音区语音交互系统及方法 |
CN111524527B (zh) * | 2020-04-30 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 话者分离方法、装置、电子设备和存储介质 |
CN113096669B (zh) * | 2021-03-31 | 2022-05-27 | 重庆风云际会智慧科技有限公司 | 基于角色识别的语音识别系统 |
CN113311391A (zh) * | 2021-04-25 | 2021-08-27 | 普联国际有限公司 | 基于麦克风阵列的声源定位方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221761A (zh) * | 2007-01-12 | 2008-07-16 | 台达电子工业股份有限公司 | 具有智慧型鉴别调适功能的语音辨识方法及系统 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN103258535A (zh) * | 2013-05-30 | 2013-08-21 | 中国人民财产保险股份有限公司 | 基于声纹识别的身份识别方法及系统 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN105719651A (zh) * | 2016-02-03 | 2016-06-29 | 合肥联宝信息技术有限公司 | 一种声纹采集和处理系统及其采集和处理方法 |
-
2016
- 2016-12-28 CN CN201611230764.5A patent/CN106782563B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221761A (zh) * | 2007-01-12 | 2008-07-16 | 台达电子工业股份有限公司 | 具有智慧型鉴别调适功能的语音辨识方法及系统 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN103258535A (zh) * | 2013-05-30 | 2013-08-21 | 中国人民财产保险股份有限公司 | 基于声纹识别的身份识别方法及系统 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN105719651A (zh) * | 2016-02-03 | 2016-06-29 | 合肥联宝信息技术有限公司 | 一种声纹采集和处理系统及其采集和处理方法 |
Non-Patent Citations (1)
Title |
---|
基于麦克风阵列的双波束近场定位及语音分离;林静然;《仪器仪表学报》;20041230;第25卷(第4期);第1000-1002页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106782563A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782563B (zh) | 一种智能家居语音交互系统 | |
EP3923273B1 (en) | Voice recognition method and device, storage medium, and air conditioner | |
Wang et al. | Robust environmental sound recognition for home automation | |
CN102298443B (zh) | 结合视频通道的智能家居语音控制系统及其控制方法 | |
CN106531179B (zh) | 一种基于语义先验的选择性注意的多通道语音增强方法 | |
CN110556103A (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
WO2005048239A1 (ja) | 音声認識装置 | |
CN103310789A (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
US11264017B2 (en) | Robust speaker localization in presence of strong noise interference systems and methods | |
Guo et al. | Localising speech, footsteps and other sounds using resource-constrained devices | |
Yamakawa et al. | Environmental sound recognition for robot audition using matching-pursuit | |
Varzandeh et al. | Exploiting periodicity features for joint detection and DOA estimation of speech sources using convolutional neural networks | |
US11222652B2 (en) | Learning-based distance estimation | |
CN109859749A (zh) | 一种语音信号识别方法和装置 | |
CN108297108A (zh) | 一种球形跟随机器人及其跟随控制方法 | |
Brueckmann et al. | Adaptive noise reduction and voice activity detection for improved verbal human-robot interaction using binaural data | |
EP2795616A1 (en) | Speech recognition method and system | |
Hummes et al. | Robust acoustic speaker localization with distributed microphones | |
Araki et al. | Speaker indexing and speech enhancement in real meetings/conversations | |
Xia et al. | Ava: An adaptive audio filtering architecture for enhancing mobile, embedded, and cyber-physical systems | |
Sasaki et al. | Daily sound recognition using pitch-cluster-maps for mobile robot audition | |
Oualil et al. | Joint detection and localization of multiple speakers using a probabilistic interpretation of the steered response power | |
Morales-Cordovilla et al. | Room localization for distant speech recognition. | |
Hu et al. | Wake-up-word detection for robots using spatial eigenspace consistency and resonant curve similarity | |
Díaz et al. | Short-time deep-learning based source separation for speech enhancement in reverberant environments with beamforming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210324 Address after: 213000 No.2 Hongyang Road, Tianning District, Changzhou City, Jiangsu Province Patentee after: Changzhou bailongzhi Technology Co.,Ltd. Address before: 200050 West Yan'an Road, Changning District, Changning District, Shanghai, 4 Patentee before: SHANGHAI PERSPICACE INTELLIGENCE TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |