CN109147787A

CN109147787A - 一种智能电视声控识别系统及其识别方法

Info

Publication number: CN109147787A
Application number: CN201811160466.2A
Authority: CN
Inventors: 张思芳; 刘屹
Original assignee: Shenzhen Arctic Gull Semiconductor Co Ltd
Current assignee: Shenzhen Arctic Gull Semiconductor Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-01-04

Abstract

本发明公开了一种智能电视声控识别系统及其识别方法，所述系统包括功放模块、4个麦克风、功放音过滤模块、音频解码器、语音识别模块和指令控制模块，4个所述麦克风横向并列设置，4个所述麦克风输出的环境声音信号和功放模块输出的功放声音信号输入到功放音过滤模块；以功放声音信号作为参考信号，通过功放音过滤模块将环境声音信号中的功放声音信号进行消除，再经音频解码器解码后，语音识别模块对其进行识别，并将识别出的指令发送至指令控制模块，通过指令控制模块控制电视机进行操作；具有语音识别精度高、抗干扰能力强、语音识别速度快、功能丰富的优点。

Description

一种智能电视声控识别系统及其识别方法

技术领域

本发明涉及智能交互技术领域，更具体地说，它涉及一种智能电视声控识别系统及其识别方法。

背景技术

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。以电视机领域来说，也有着较久的交互技术发展历史。从最初的面板控制到后来的遥控器远程控制，随着时代及科技的发展，人们也追求着让电视听懂人说的话，通过语音控制电视机进行切换、操作。

在公告号为CN104363545A的中国专利中公开了一种音频降噪电路、采用该音频降噪电路的智能终端机及教学方法，采用双麦克风阵列消除噪音，利用ICA算法进行盲源分析，实现对语音的提取和分离，提高嘈杂环境下的语音质量，使用户在嘈杂的环境下也可以得到清晰的语音通话或录制效果；该专利对于稳态噪声，通过在频域上进行功率谱的叠加，然后采用滤波消除；而对于非稳态噪声，通过不同位置上的两个麦克风，对接收到的信号进行处理，根据其相位，幅度，频率，信噪比等的不同特征，从而分离出所有不希望得到的稳态噪声和非稳态噪声，从而实现去噪。然而在面对电视机场景下的语音识别时，仍存在扬声器播放音乐、旁边人聊天等声音的干扰无法消除，会影响真正需要控制电视机操作的人的语音识别的准确度。其降噪技术需要进一步的改善。

发明内容

针对现有技术存在的不足，本发明的目的一在于提供一种智能电视声控识别系统，具有较强的抗噪声干扰能力、较为精准的语音识别精度。

为实现上述目的，本发明提供了如下技术方案：

一种智能电视声控识别系统，包括功放模块、4个麦克风、功放音过滤模块、音频解码器、语音识别模块和指令控制模块，4个所述麦克风横向并列设置，4个所述麦克风输出的环境声音信号和功放模块输出的功放声音信号输入到功放音过滤模块；

以功放声音信号作为参考信号，通过功放音过滤模块将环境声音信号中的功放声音信号进行消除，再经音频解码器解码后，语音识别模块对其进行识别，并将识别出的指令发送至指令控制模块，通过指令控制模块控制电视机进行操作。

通过采用上述技术方案，面对电视机的语音控制场景下，往往面对的是一长排沙发的人的语音控制，用来控制的语音发送源的来源面较广，而单麦克风的收音面比较短而窄，超出一定范围后收音的声音强度有较大减弱，本方案通过并排设置4个麦克风进行收音，协同叠加收音，可以较好地满足生活中看电视时的语音控制需求，达到较为灵敏的控制响应效果。同时在电视机播放电视节目时，在功放模块中会发出较大的声音，往往比看电视的人的语音控制的声音还大，而且功放模块的声源离麦克风的距离普遍还是较近。麦克风一起收进来的声音，会直接影响本系统的语音识别精度。而通过上述技术方案，通过功放音过滤模块接入功放模块的功放声音信号，系统可以知道了电视机正在播放什么，然后进一步的将这一部分声音从麦克风收进来的环境声音信号中过滤掉，去除了电视机声音对语音识别的干扰，较大地提高了语音识别的精度。

进一步的，4个所述麦克风输出的环境声音信号和功放模块输出的功放声音信号通过8路I2S音频输入总线输入到所述功放音过滤模块中，8路I2S音频输入总线的其中4路接入口分别电连接着4个所述麦克风的信号输出口，8路I2S音频输入总线另外的4路接入口与所述功放模块的4个AV接口相电连接。

通过采用上述技术方案，8路I2S音频输入总线为I2S(Inter—IC Sound)总线，又称集成电路内置音频总线，是为数字音频设备之间的音频数据传输而制定的一种总线标准，该总线专门用于音频设备之间的数据传输，广泛应用于各种多媒体系统。它采用了沿独立的导线传输时钟与数据信号的设计，通过将数据和时钟信号分离，避免了因时差诱发的失真，为用户节省了购买抵抗音频抖动的专业设备的费用。在将8路I2S音频输入总线与电视机的功放模块进行连接时，只需插入电视机固有的4个AV接口即可实现便捷连接。不要额外改装、操作便捷、安全。且可靠性高，声音传输稳定性较强。

进一步的，4个所述麦克风所处的竖直平面位于所述功放模块所在竖直平面的前方。

通过采用上述技术方案，使得功放模块位于麦克风后方，由于麦克风的收音范围较窄，可以较大地降低麦克风收进来的功放模块放出的声音，使得人发出语音声音更加突出，防止完全盖住人的语音声音，在此基础上，再以功放声音信号以一定的权重比去消除环境声音信号中的功放模块的声音，可以更加容易剥离出人的语音信号，达到了较为精准的语音识别的效果。

进一步的，还包括背景音过滤模块，背景音过滤模块耦接在功放音过滤模块和音频解码器之间，在功放音过滤模块将环境声音信号中的功放声音信号消除后，背景音过滤模块再将环境声音信号中的背景音进行过滤，得到语音信号，再将语音信号传至音频解码器处解码；

其中，所述背景音过滤模块在对环境声音信号进行过滤时，先对声音信号的位置进行判断，将环境声音信号中在一控制区域外的位置的声音过滤掉。

进一步的，所述背景音过滤模块根据比较4个麦克风传来的环境声音信号的声音强度的比例关系以及4个麦克风之间的间距测算出环境声音信号中声音的位置。

通过采用上述技术方案，因为在实际家庭生活环境中，当坐在沙发上看电视的人发出控制电视操作的语音时，在一旁聊天的人说话的声音也会收入到麦克风中就会造成语音指令的误识别，通过上述技术方案的设置，由于采用的4个麦克风并排设置的设计，不同位置发出声音到达各麦克风的强度、相位都存在着一定的差别，且与其所在的位置呈比例关系，依据此可以在空间中建立一套坐标，可以划定位于电视机前方的一定区域为控制区域，只有这个区域内发出的声源可以被识别，其他位置的声源可以直接过滤掉，可以到达较为精准的语音识别的效果，降低了误识别的情景发生，实现了定向识别。

进一步的，还包括摄像头以及与所述摄像头相耦接的人脸识别模块，摄像头将其拍摄的画面发送至所述人脸识别模块，所述人脸识别模块对其进行识别，并将识别出的结果发送至与其相耦接的指令控制模块处，通过指令控制模块控制电视机进行操作。

通过采用上述技术方案，为了满足现在人们对于智能电视的不断增高的要求，本技术方案中增加了拍摄以及人脸识别的功能，配合着降噪作用的麦克风，可以满足高质量的视频通话功能，且也可以作为支付、游戏等场景下的人物身份的识别功能，更加多元化，多功能化。

进一步的，还包括耦接着所述人脸识别模块的红外传感器，当所述红外传感器感应到电视机前存在人时所述人脸识别模块再对所述摄像头发送来的画面进行人脸识别。

通过采用上述技术方案，通过红外传感器确认摄像头前方的是人而不是照片后再进行人脸识别，可以减少资源损耗，节能，减少算法运作及反应速度，也避免了机器的误判断，比如镜头中的一个包装盒上的人脸就误识别成了人，在上述技术方案下就可以避免这种误判断，特别在某些支付场景下，可以增强安全性，避免账户资金被人用照片人脸识别盗走，设计上更加安全。

进一步的，当所述人脸识别模块在控制区域内识别到人存在时，所述指令控制模块再执行语音识别模块识别出的指令。

通过采用上述技术方案，在实际家庭生活环境中，在一旁聊天的人说话的声音也会收入到麦克风中就会造成语音指令的误识别，为了避免电视机的误控制，通过上述技术方案的设置，通过摄像头拍摄到电视机前面的画面，在画面中建立一个空间坐标以及划定一个控制区域，只有当电视机前面的控制区域内存在人时再对语音进行识别，可以有效的避免无人时其他区域的声音造成的语音误识别。提高了语音识别的准确度。

进一步的，所述指令控制模块内设置有用来给人分配控制权限的权限管理模块，权限管理模块内存储着允许操作电视机的人物库，当所述人脸识别模块识别出的人属于所述人物库内后，所述指令控制模块再执行语音识别模块识别出的指令。

通过采用上述技术方案，在日常生活中，现在的电视机所具有的功能越来越多，为了避免小孩子对电视的沉溺或者误操作，必须家长在场监护下再进行语音控制，以及其他的一些场景下的权限限制，通过上述技术方案即可实现了权限分配与控制。赋予了更人性化的的识别，运用场景更加丰富。

本发明的目的二在于提供一种智能电视声控识别系统的识别方法，具有较强的抗噪声干扰能力、较为精准的语音识别精度。

为实现上述目的，本发明提供了如下技术方案：

一种智能电视声控识别系统的识别方法，所述方法包括：

通过4个并列设置的麦克风收取电视机前方的声音并输出一环境声音信号；

功放音过滤模块以功放模块输出的功放声音信号作为参考信号，将环境声音信号中的功放声音信号进行消除；

一背景音过滤模块再将消除功放声音信号后的环境声音信号中的背景音进行过滤，得到语音信号；

音频解码器对所述语音信号进行解码；

语音识别模块对解码后的语音信号进行识别，并将识别出的指令发送至指令控制模块，通过指令控制模块控制电视机进行操作。

与现有技术相比，本发明的优点是：

（1）通过并排设置4个麦克风进行收音，协同叠加收音，可以较好地满足生活中看电视时的语音控制需求，达到较为灵敏的控制响应效果、较宽的收音范围；

（2）通过功放音过滤模块接入功放模块的功放声音信号，将这一部分声音从麦克风收进来的环境声音信号中过滤掉，去除了电视机声音对语音识别的干扰，较大地提高了语音识别的精度；

（3）通过8路I2S音频输入总线连接着4个麦克风、功放模块来接入声音信号，通过将数据和时钟信号分离，避免了因时差诱发的失真，为用户节省了购买抵抗音频抖动的专业设备的费用，可靠性较好，且与电视的连接便捷，直接连接AV接口；

（4）融合了人脸识别的功能，使电视具有更加多元化的功能；

（5）过滤了背景噪音，提高了语音识别的精度。

附图说明

图1为实施例一的智能电视声控识别系统的电路模块示意图；

图2为实施例一中麦克风、摄像头、红外传感器、盒体在电视机上的安装的结构示意图，图中显示的为电视机的正面的一侧；

图3为实施例一中功放模块、盒体在电视机上的安装的结构示意图，图中显示的为电视机的背面的一侧；

图4为实施例二的智能电视声控识别系统的电路模块示意图；

图5为实施例二的智能电视声控识别系统的电视机前方划定的控制区域的俯视图；

图6为实施例二的声源定位的方案一的实施示意图，显示除了平行声波过来后由于运行距离存在差值而产生的相位差；

图7为实施例二的声源定位的方案一中不同的入射角产生不同的叠加波形的波形示意图；

图8为实施例二的声源定位的方案二的实施示意图，示出了以点声源模型下的声波传播方位关系；

图9为实施例四的智能电视声控识别系统的电路模块示意图；

图10为实施例五的智能电视声控识别系统的识别方法的步骤示意框图。

附图标记：1、功放模块；2、8路I2S音频输入总线；3、功放音过滤模块；4、背景音过滤模块；5、音频解码器；6、语音识别模块；7、指令控制模块；71、权限管理模块；8、盒体；9、摄像头；10、红外传感器；11、人脸识别模块；12、控制区域。

具体实施方式

下面结合附图和实施例，对本发明进行详细描述。

本文中所揭示的方面而描述的方法或算法的步骤及/或动作可直接以硬件、以由处理器执行的软件模块或以两者的组合来实施。软件模块可驻留于RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。示范性存储媒体可耦合到处理器，使得处理器可从存储媒体读取信息及向存储媒体写入信息。在替代方案中，存储媒体可与处理器成一体式。另外，在一些方面中，处理器及存储媒体可驻留于ASIC中。另外，ASIC可驻留于用户终端中。在替代方案中，处理器及存储媒体可作为离散组件而驻留于用户终端中。另外，在一些方面中，方法或算法的步骤及/或动作可作为代码及/或指令中的一者或其任何组合或集合而驻留于机器可读媒体及/或计算机可读媒体上，机器可读媒体及/或计算机可读媒体可并入计算机程序产品中。

实施例一，如图1、图2和图3所示，一种智能电视声控识别系统，包括功放模块1、4个麦克风、8路I2S音频输入总线2、功放音过滤模块3、音频解码器5、语音识别模块6和指令控制模块7。所述功放模块1为电视机的功放喇叭。麦克风可以为为MEMS麦克风，在此处4个麦克风分别为MIC1、MIC2、MIC3、MIC4。4个所述麦克风横向并列且等距安装于一盒体8内，并朝向电视机的前方区域。

面对电视机的语音控制场景下，往往面对的是一长排沙发的人的语音控制，用来控制的语音发送源的来源面较广，而单麦克风的收音面比较短而窄，超出一定范围后收音的声音强度有较大减弱，本方案通过并排等距设置4个麦克风进行收音，协同叠加收音，可以较好地满足生活中看电视时的语音控制需求，达到较为灵敏的控制响应效果。

4个所述麦克风输出的环境声音信号和功放模块1输出的功放声音信号通过8路I2S音频输入总线2输入到所述功放音过滤模块3中，8路I2S音频输入总线2的其中4路接入口分别电连接着4个所述麦克风的信号输出口，8路I2S音频输入总线2另外的4路接入口与所述功放模块1的4个AV接口相电连接。

8路I2S音频输入总线2全称为I2S(Inter—IC Sound)总线，又称集成电路内置音频总线，是为数字音频设备之间的音频数据传输而制定的一种总线标准，该总线专门用于音频设备之间的数据传输，广泛应用于各种多媒体系统。它采用了沿独立的导线传输时钟与数据信号的设计，通过将数据和时钟信号分离，避免了因时差诱发的失真，为用户节省了购买抵抗音频抖动的专业设备的费用。在将8路I2S音频输入总线2与电视机的功放模块1进行连接时，只需插入电视机固有的4个AV接口即可实现便捷连接。不要额外改装、操作便捷、安全。且可靠性高，声音传输稳定性较强。

本方案的工作原理及步骤为：

4个所述麦克风输出的环境声音信号和功放模块1输出的功放声音信号经8路I2S音频输入总线2输入到功放音过滤模块3；

功放音过滤模块3以功放声音信号作为参考信号，根据现功放模块1播放的音量强度进行对应比例的权重后取相反信号，与环境声音信号中的功放声音信号进行叠加抵消，再经音频解码器5解码后，语音识别模块6对其进行识别，并将识别出的指令发送至指令控制模块7，通过指令控制模块7控制电视机进行操作。指令控制模块7与电视机的主控CPU之间相电连接，实现二者之间的信号交互与控制。指令控制模块7与电视机的主控CPU之间亦可以通过一定的蓝牙等无线模块进行无线连接，实现二者之间数据的交互与控制。

比如，使用者说出“帮我找一首刘德华的歌”，经语音识别模块6识别、解析后，将指令发至指令控制模块7，通过指令控制模块7控制电视搜索刘德华的歌曲并播放。

在电视机播放电视节目时，在功放模块1中会发出较大的声音，往往比看电视的人的语音控制的声音还大，而且功放模块1的声源离麦克风的距离普遍还是较近。麦克风一起收进来的声音，会直接影响本系统的语音识别精度。而通过上述技术方案，通过功放音过滤模块3接入功放模块1的功放声音信号，系统可以自己知道了电视机正在播放什么，然后进一步的将这一部分声音从麦克风收进来的环境声音信号中过滤掉，去除了电视机声音对语音识别的干扰，较大地提高了语音识别的精度。

而上述的语音识别技术是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的高科技技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition），关键词识别（或称关键词检出，keyword spotting）和连续语音识别。

其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等。连续语音识别的任务是识别任意的连续语音，如一个句子或一段话。连续语音流中的关键词检测针对的是连续语音，但其并不识别全部文字，只是检测已知的若干关键词在何处出现。如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。

本发明主要使用目前成熟语音供应商的语音识别方案，达到实现智能设备系统的功能。该功能能够通过训练提高语音识别功能,并且支持云端语音库支持，对系统处理速度以及要求很低，MCU主频超过100Mhz，RAM（随机存储器）大于64KB，离线库存储库可以按照MCUROM进行自行裁减，但相应对语音库信息有影响。

另外安装4个所述麦克风的盒体8所处的竖直平面位于所述功放模块1所在竖直平面的前方。使得功放模块1位于4个麦克风后方，由于麦克风的收音范围较窄，可以较大地降低麦克风收进来的功放模块1放出的声音，使得人发出语音声音更加突出，防止完全盖住人的语音声音，在此基础上，再以功放声音信号以一定的权重比去消除环境声音信号中的功放模块1的声音，可以更加容易剥离出人的语音信号，达到了较为精准的语音识别的效果。

其次，所述系统还包括摄像头9、红外传感器10、人脸识别模块11。人脸识别模块11与摄像头9、红外传感器10、指令控制模块7相电连接，实现信号上的交互连接。摄像头9和红外传感器10安装在盒体8上的MIC2与MIC3之间的位置，并朝向电视机的前方区域。

在实际使用中，摄像头9将其拍摄的画面发送至所述人脸识别模块11，同时红外传感器10会对电视机前是否存在真实的人进行红外检测；当检测到人时，所述人脸识别模块11对摄像头9拍摄的画面进行人脸识别，并将识别出的结果发送至与其相耦接的指令控制模块7处，通过指令控制模块7控制电视机进行操作。

因为，为了满足现在人们对于智能电视的不断增高的要求，本技术方案中增加了拍摄以及人脸识别的功能，配合着降噪作用的麦克风，可以满足高质量的视频通话功能，且也可以作为支付、游戏等场景下的人物身份的识别功能，更加多元化，多功能化。

另外，上述技术方案中，通过红外传感器10确认摄像头9前方的是人而不是照片后再进行人脸识别，可以减少资源损耗，节能，减少算法运作及反应速度，也避免了机器的误判断，比如镜头中的一个包装盒上的人脸就误识别成了人，在上述技术方案下就可以避免这种误判断，特别在某些支付场景下，可以增强安全性，避免账户资金被人用照片人脸识别盗走，设计上更加安全。

上述的人脸识别技术，是基于人的脸部特征，对输入的人脸图像或者视频流首先判断其是否存在人脸 ,如果存在人脸，则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份。

具体来讲，人脸识别技术包含三个部分：

(1)人脸检测

面貌检测是指在动态的场景与复杂的背景中判断是否存在面像，并分离出这种面像。一般有下列几种方法；

①参考模板法

首先设计一个或数个标准人脸的模板，然后计算测试采集的样品与标准模板之间的匹配程度，并通过阈值来判断是否存在人脸；

②人脸规则法

由于人脸具有一定的结构分布特征，所谓人脸规则的方法即提取这些特征生成相应的规则以判断测试样品是否包含人脸；

③样品学习法

这种方法即采用模式识别中人工神经网络的方法，即通过对面像样品集和非面像样品集的学习产生分类器；

④肤色模型法

这种方法是依据面貌肤色在色彩空间中分布相对集中的规律来进行检测；

⑤特征子脸法

这种方法是将所有面像集合视为一个面像子空间，并基于检测样品与其在子空间的投影之间的距离判断是否存在面像。

值得提出的是，上述5种方法在实际检测系统中也可综合采用。

(2)人脸跟踪

面貌跟踪是指对被检测到的面貌进行动态目标跟踪。具体采用基于模型的方法或基于运动与模型相结合的方法。此外，利用肤色模型跟踪也不失为一种简单而有效的手段。

(3)人脸比对

面貌比对是对被检测到的面貌像进行身份确认或在面像库中进行目标搜索。这实际上就是说，将采样到的面像与库存的面像依次进行比对，并找出最佳的匹配对象。所以，面像的描述决定了面像识别的具体方法与性能。

主要采用特征向量与面纹模板两种描述方法：

①特征向量法

该方法是先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性，然后再计算出它们的几何特征量，而这些特征量形成一描述该面像的特征向量。

②面纹模板法

该方法是在库中存贮若干标准面像模板或面像器官模板，在进行比对时，将采样面像所有象素与库中所有模板采用归一化相关量度量进行匹配。此外，还有采用模式识别的自相关网络或特征与模板相结合的方法。

人脸识别技术的核心实际为“局部人体特征分析”和“图形/神经识别算法。”这种算法是利用人体面部各器官及特征部位的方法。如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认。一般要求判断时间低于1秒。

实施例二，如图4所示，一种智能电视声控识别系统，与实施例一的区别在于，所述系统还包括背景音过滤模块4，所述背景音过滤模块4耦接在功放音过滤模块3和音频解码器5之间，在功放音过滤模块3将环境声音信号中的功放声音信号消除后，背景音过滤模块4再将环境声音信号中的背景音进行过滤，得到语音信号，再将语音信号传至音频解码器5处解码。

背景音过滤模块4过滤背景音的具体工作原理为：

如图4和图5所示，背景音过滤模块4先与实际空间相对应建立一坐标空间，划定电视机前方靠近的一块区域为控制区域12，只有在该区域内的声源发出的声音可以控制电视机进行操作。背景音过滤模块4在对环境声音信号进行过滤时，对声音信号的主要声源的位置进行判断，将环境声音信号中在控制区域12外的位置的声音过滤掉。

因为在实际家庭生活环境中，当坐在沙发上看电视的人发出控制电视操作的语音时，在一旁聊天的人说话的声音也会收入到麦克风中就会造成语音指令的误识别，通过上述技术方案的设置，由于采用的4个麦克风并排设置的设计，不同位置发出声音到达各麦克风的强度、相位都存在着一定的差别，且与其所在的位置呈比例关系，依据此可以在空间中建立一套坐标，可以划定位于电视机前方的一定区域为控制区域12，只有这个区域内发出的声源可以被识别，其他位置的声源可以直接过滤掉，可以到达较为精准的语音识别的效果，降低了误识别的情景发生，实现了定向识别。

而关于声源的定位的方案，在此提供两套：

方案一：基于最大输出功率的可控波束形成技术 Beamforming，它的基本思想就是将各阵元采集来的信号进行加权求和形成波束，通过搜索声源的可能位置来引导该波束，修改权值使得传声器阵列的输出信号功率最大。这种方法既能在时域中使用，也能在频域中使用。它在时域中的时间平移等价于在频域中的相位延迟。在频域处理中，首先使用一个包含自谱和互谱的矩阵，我们称之为互谱矩阵(Cross-Spectral Matrix，CSM)。在每个感兴趣频率之处，阵列信号的处理给出了在每个给定的空间扫描网格点上或每个信号到达方向(Direction ofArrival，DOA)的能量水平。因此，阵列表示了一种与声源分布相关联的响应求和后的数量。这种方法适用于大型麦克风阵列，对测试环境适应性强。

Beamforming 的基本工作原理图，如图6所示。使用波束形成算法，先决条件是远场声源（近场声源用 TDOA），这样可以假设入射声波都是平行的；平行的声场，如果入射角度与麦克风平面垂直，则能同时到达各个麦克风，如果不垂直，则出现图 1 的现象，声场到达每个麦克风都会有延时，这个延时大小是由入射角度而定。

如图7所示，从该图中可看出：不同的入射角度，叠加出来的最终波形强度是不一样的。如θ=-45 度，几乎没有信号，θ=0 度，微微有点信号，θ=45 度，信号达到最强。这说明把原来没有极性的单支麦克风组装成一个阵列后，整个阵列是有极性的，可以引出下一个极性图。

每个麦克风阵列都是一个方向阵，这个方向阵的指向性可通过时域算法Delay&Sum 简单实现，控制不同的 Delay，实现不同方向的指向。这个方向阵指向可控相当于给了一个空间滤波器，可以先把定位区域进行网格划分，再通过每个网格点的 Delay 时间对各个麦进行时域 Delay，并最终把它 Sum 起来，就可以算出每个网格的声压，最终得到每个网格的相对声压，就可以出声源定位的全息彩图。从而实现了声源定位。

方案二：在空气中，离麦克风距离越远，相同的声源最终麦克风能接收到的声音强度越小，而且一般衰减比例为一个固定的比例。那么当人位于电视机前方，发出声音后，到达4个麦克风处最终的声音强度大小与4个麦克风距离声源的距离是互相相关的。

如图8所示，设MIC1、MIC2、MIC3、MIC4相互之间的间距为m，声源为Y，Y与MIC1之间的间距为n，Y与MIC2之间的间距为a倍的n，Y与MIC3之间的间距为b倍的n，MIC1、MIC2之间的连线与MIC2、Y之间的连线的夹角为α，MIC2、MIC3之间的连线与MIC2、Y之间的连线的夹角为β。

如图8所示，α=180°-β。m长度是预设固定已知的。由于到达4个麦克风处最终的声音强度大小与4个麦克风距离声源的距离是互相相关的。a、b可以通过比较MIC1、MIC2、MIC3各自接收到的声音的强度的比例得到。只有n、α、β为未知数。

另外由余弦定理，得

。

进而可以求得n、α、β，确定出声源的位置。

实施例三，如图4所示，一种智能电视声控识别系统，与实施例二的区别在于，在声源的定位方式上存在区别。不再使用声音的直接定位，而是直接通过摄像头9判断控制区域12内是否有人存在，进行干扰状况的排除。

实际工作方法为：所述系统中指令控制模块7同步监控着语音识别模块6和人脸识别模块11。只有当所述人脸识别模块11在控制区域12内识别到人存在时，所述指令控制模块7再执行语音识别模块6识别出的指令。

在实际家庭生活环境中，在一旁聊天的人说话的声音也会收入到麦克风中就会容易造成语音指令的误识别，为了避免电视机的误控制，通过上述技术方案的设置，通过摄像头9拍摄到电视机前面的画面，在画面中建立一个空间坐标以及划定一个控制区域12，只有当电视机前面的控制区域12内存在人时再对语音进行识别，可以有效的避免无人时其他区域的聊天等声音造成的语音误识别。提高了语音识别的准确度。

实施例四，如图9所示，一种智能电视声控识别系统，与实施例三的区别在于，进一步加强了语音识别模块6和人脸识别模块11之间的交互功能，发挥对电视机控制的智能化。具体来说，所述指令控制模块7内设置有用来给人分配控制权限的权限管理模块71，权限管理模块71内存储着允许操作电视机的人物库，当所述人脸识别模块11识别出的人属于所述人物库内后，所述指令控制模块7再执行语音识别模块6识别出的指令。

实施例五，如图10所示，一种智能电视声控识别系统的识别方法，所述方法包括：

步骤S1，通过4个并列设置的麦克风收取电视机前方的声音并输出一环境声音信号；

步骤S2，功放音过滤模块3以功放模块1输出的功放声音信号作为参考信号，将环境声音信号中的功放声音信号进行消除；

步骤S3，背景音过滤模块4对声音信号的主要声源的位置进行判断；

步骤S4，背景音过滤模块4将环境声音信号中在控制区域12外的位置的声音过滤掉，得到语音信号；

步骤S5，音频解码器5对所述语音信号进行解码；

步骤S6，语音识别模块6对解码后的语音信号进行识别，并将识别出的指令发送至指令控制模块7，通过指令控制模块7控制电视机进行操作。

面对电视机的语音控制场景下，往往面对的是一长排沙发的人的语音控制，用来控制的语音发送源的来源面较广，而单麦克风的收音面比较短而窄，超出一定范围后收音的声音强度有较大减弱，本方案通过并排设置4个麦克风进行收音，协同叠加收音，可以较好地满足生活中看电视时的语音控制需求，达到较为灵敏的控制响应效果。同时在电视机播放电视节目时，在功放模块1中会发出较大的声音，往往比看电视的人的语音控制的声音还大，而且功放模块1的声源离麦克风的距离普遍还是较近。麦克风一起收进来的声音，会直接影响本系统的语音识别精度。而通过上述技术方案，通过功放音过滤模块3接入功放模块1的功放声音信号，系统可以知道了电视机正在播放什么，然后进一步的将这一部分声音从麦克风收进来的环境声音信号中过滤掉，去除了电视机声音对语音识别的干扰，较大地提高了语音识别的精度。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。此外，就术语“包括”用于具体实施方式或权利要求书中的程度来说，此术语希望以类似于术语“包含”在“包含”作为过渡词用于权利要求中时被解释的方式而为包括性的。此外，尽管所描述方面及/或实施例的元件、模块可能是以单数形式描述或主张，但除非明确声明限于单数形式，否则也涵盖复数形式。另外，除非另有声明，否则任何方面及/或实施例的全部或一部分可与任何其它方面及/或实施例的全部或一部分一起被利用。

Claims

1.一种智能电视声控识别系统，其特征在于，包括功放模块(1)、4个麦克风、功放音过滤模块(3)、音频解码器(5)、语音识别模块(6)和指令控制模块(7)，4个所述麦克风横向并列设置，4个所述麦克风输出的环境声音信号和功放模块(1)输出的功放声音信号输入到功放音过滤模块(3)；

以功放声音信号作为参考信号，通过功放音过滤模块(3)将环境声音信号中的功放声音信号进行消除，再经音频解码器(5)解码后，语音识别模块(6)对其进行识别，并将识别出的指令发送至指令控制模块(7)，通过指令控制模块(7)控制电视机进行操作。

2.根据权利要求1所述的一种智能电视声控识别系统，其特征在于，4个所述麦克风输出的环境声音信号和功放模块(1)输出的功放声音信号通过8路I2S音频输入总线(2)输入到所述功放音过滤模块(3)中，8路I2S音频输入总线(2)的其中4路接入口分别电连接着4个所述麦克风的信号输出口，8路I2S音频输入总线(2)另外的4路接入口与所述功放模块(1)的4个AV接口相电连接。

3.根据权利要求1所述的一种智能电视声控识别系统，其特征在于，4个所述麦克风所处的竖直平面位于所述功放模块(1)所在竖直平面的前方。

4.根据权利要求1所述的一种智能电视声控识别系统，其特征在于，还包括背景音过滤模块(4)，背景音过滤模块(4)耦接在功放音过滤模块(3)和音频解码器(5)之间，在功放音过滤模块(3)将环境声音信号中的功放声音信号消除后，背景音过滤模块(4)再将环境声音信号中的背景音进行过滤，得到语音信号，再将语音信号传至音频解码器(5)处解码；

其中，所述背景音过滤模块(4)在对环境声音信号进行过滤时，先对声音信号的位置进行判断，将环境声音信号中在一控制区域(12)外的位置的声音过滤掉。

5.根据权利要求4所述的一种智能电视声控识别系统，其特征在于，所述背景音过滤模块(4)根据比较4个麦克风传来的环境声音信号的声音强度的比例关系以及4个麦克风之间的间距测算出环境声音信号中声音的位置。

6.根据权利要求1所述的一种智能电视声控识别系统，其特征在于，还包括摄像头(9)以及与所述摄像头(9)相耦接的人脸识别模块(11)，摄像头(9)将其拍摄的画面发送至所述人脸识别模块(11)，所述人脸识别模块(11)对其进行识别，并将识别出的结果发送至与其相耦接的指令控制模块(7)处，通过指令控制模块(7)控制电视机进行操作。

7.根据权利要求6所述的一种智能电视声控识别系统，其特征在于，还包括耦接着所述人脸识别模块(11)的红外传感器(10)，当所述红外传感器(10)感应到电视机前存在人时所述人脸识别模块(11)再对所述摄像头(9)发送来的画面进行人脸识别。

8.根据权利要求6所述的一种智能电视声控识别系统，其特征在于，当所述人脸识别模块(11)在控制区域(12)内识别到人存在时，所述指令控制模块(7)再执行语音识别模块(6)识别出的指令。

9.根据权利要求6所述的一种智能电视声控识别系统，其特征在于，所述指令控制模块(7)内设置有用来给人分配控制权限的权限管理模块(71)，权限管理模块(71)内存储着允许操作电视机的人物库，当所述人脸识别模块(11)识别出的人属于所述人物库内后，所述指令控制模块(7)再执行语音识别模块(6)识别出的指令。

10.一种如权利要求4所述的智能电视声控识别系统的识别方法，其特征在于，所述方法包括：

功放音过滤模块(3)以功放模块(1)输出的功放声音信号作为参考信号，将环境声音信号中的功放声音信号进行消除；

一背景音过滤模块(4)再将消除功放声音信号后的环境声音信号中的背景音进行过滤，得到语音信号；

音频解码器(5)对所述语音信号进行解码；

语音识别模块(6)对解码后的语音信号进行识别，并将识别出的指令发送至指令控制模块(7)，通过指令控制模块(7)控制电视机进行操作。