CN102496262B - 一种基于sopc的可进化的语音识别红外控制器 - Google Patents
一种基于sopc的可进化的语音识别红外控制器 Download PDFInfo
- Publication number
- CN102496262B CN102496262B CN2011104256009A CN201110425600A CN102496262B CN 102496262 B CN102496262 B CN 102496262B CN 2011104256009 A CN2011104256009 A CN 2011104256009A CN 201110425600 A CN201110425600 A CN 201110425600A CN 102496262 B CN102496262 B CN 102496262B
- Authority
- CN
- China
- Prior art keywords
- infrared
- user
- voice
- signal
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于语音识别控制技术领域,具体为是一种基于SOPC的可进化的语音识别红外控制器。该控制器由可配置软核处理器及其接口、可配置语音处理芯片、FLASH存储器、数字信号处理器、红外收发机、LCD模块组成。本发明通过对用户的语音训练库进行采集和基于MEL倒谱的特征提取,形成识别用户语音命令的语料库,并通过与红外控制信号进行库匹配,实现基于红外信号的语音识别控制系统。本发明实现了应用范围广、兼容性高的红外信号收发机制,通过采样保存不同红外信号,达到了整合种类繁杂的红外控制器的目的,并进一步与语音识别结合,实现了兼容所有红外协议的语音控制系统。同时基于SOPC系统可进化的特性,提供了一种低成本、高实用性的语音控制解决方案。
Description
技术领域
本发明属于语音控制技术领域,具体涉及一种基于SOPC的可进化的语音识别红外控制器。
背景技术
SOPC(System On Programmable Chip)系统是以基于FPGA的软核或硬核处理器和外周电路构成的SOC(System on Chip)系统。其基本思想是构建以应用为中心,以计算机技术为基础,以可编程芯片为载体,软硬件可剪裁、可重构、可进化,可靠性,成本,体积,功耗有着严格要求的专用计算机系统。
语音识别技术,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。基于特定人孤立词的语音识别系统的主要目的是通过分析和提取特定人的孤立词语音命令声学特征,以获取语音词汇的特征训练库作为语音命令匹配的主要依据。声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。
红外控制技术是一种利用红外线进行点对点通信的技术,它在技术上的主要优点是:1、无需专门申请特定频率的使用执照;2、具有移动通信设备所必需的体积小、功率低的特点;3、传输速率适合于家庭和办公室使用的网络;4、信号无干扰,传输准确度高;5、成本低廉。
然而,首先,现有的家用电子设备的红外控制器往往由于厂商标准的差异采用不同协议速率和数据格式,彼此难以兼容并且种类繁多,为了使用多种设备,用户不得不频繁切换于不同的控制器之间。另一方面,红外控制设备的功能趋于复杂,对视觉障碍和高龄用户群体具有非常不友好的用户体验。其次,现有的语音识别控制技术往往关注于新产品的应用与推广,而忽略了巨大的用户现有的传统设备的保有量。导致用户为了体验语音识别控制技术的便捷,不得不购置提供相应功能的设备,需要付出可观的成本。最后,现有的成本敏感的SOC系统,产品一旦硬件设计实现完成,系统结构和功能就被固化,不能再加以进化和升级。
而本发明提出的基于SOPC的可进化的语音识别红外控制器则通过提供了一个兼容性高,可采样且非挥发性保存的红外信号采集机制,具备了整合不同种红外设备功能无需手动切换的能力。并进一步将其与语音识别技术相结合,以语音命令代替按键操作,为用户,特别是视觉障碍人士以及高龄用户提供了友好的用户体验。同时,还将系统的硬件实现基于可重构的低成本FPGA技术,从根本上改变了传统产品硬件无法升级的局面。本发明可以通过对设备的重新配置而达到硬件升级和进化的目的。
发明内容
本发明的目的在于针对当前家用消费电子设备的红外控制器的种类繁复使用不便的问题,提供了一种无关现有设备预置功能的、低成本、可进化的语音识别红外控制器。
本发明提供的可进化的语音识别红外控制器,是基于SOPC的,该控制器采用低成本的FPGA实现的可配置的软核处理器、数字信号处理部件以及外周存储电路和红外收发器作为核心单元,采用软件控制和硬件处理协同工作,在减少系统复杂性的同时,实现了低成本的、基于现有家用红外设备的语音识别控制器。
本发明的可进化的基于SOPC的语音红外控制器,包括:可配置软核处理器及其接口、数字信号处理部件、FLASH存储器、语音编码器、红外收发器和LCD模块,其中:
所述的可配置软核处理器及其接口,采用Altera公司生产的Cyclone II EP-2C35实现,其内部包括软核处理器、红外FIFO接口电路、FLASH控制器。所述软核处理器作为控制单元,负责通过执行用户软件指令,实现语音数据与红外控制数据的采集、调度和模板匹配;所述红外FIFO接口电路提供与软核处理器内部总线匹配的数据采集接口,以方便通过软件指令来调度和匹配红外控制信号;所述FLASH控制器负责匹配片外FLASH存储器的读写时序,以保证可靠的数据读写。
所述的数字信号处理部件,是指运算Mel倒谱特征参数的所有硬线数据处理单元,包括:
256点FFT、Mel滤波器、离散余弦变换单元。所采集到的语音信号通过256点FFT运算得到语音信号的功率谱;Mel滤波器为一组Mel频标上线性分布的三角窗滤波器,用于对语音信号的功率谱进行滤波,以此模拟人耳的掩蔽效应;离散余弦变换单元(Discrete Cosine
Transformation, DCT)用以去除各维信号之间的相关性。Mel倒谱特征参数的提取过程如图2所示,该数字信号处理部件以流水的形式对数字信号进行复数帧的特征参数的提取。
所述的FLASH存储器,采用Spansion公司生产的S29AL032D-Flash存储器,电原理图如图3所示。该FLASH存储器为语音数据(语音信号)的特征参数以及红外控制信号的存储提供了非挥发性的存储介质。以保证用户在设备掉电后,用户的语音命令、红外信号数据、系统配置信息不会丢失。同时,FPGA芯片的配置文件和软件也存储在FLASH存储器上,以实现上电后自动配置为设计的系统。
所述的语音编码器,采用Wolfson生产的WM8731语音编码芯片,其结构框图如图4所示。该芯片用于将用户的模拟信号语音命令通过ADC采样量化为脉冲调制PCM(Pulse-coded
modulation)的数字信号,并提供低通滤波和降噪处理,高保真地为语音命令的特征参数提取提供数据源。
所述的红外线收发器,采用Agilent Technologies生产的HSDL-3201红外收发器,如图5所示。通过使用该收发器将用户的红外控制设备的信号进行接收、采集并与相应的语音命令配对后,存储在上述的FLASH存储器中,形成用户的语音命令库等待用户调用。
所述LCD模块,采用Crystalfontz America公司生产的CFAH1602B-TMC-JP 字符型LCD显示屏。用于用户和系统之间的信息交互。
本发明提出的可进化的语音识别红外控制器,其输入为用户的语音命令和用户定义的红外控制设备的红外控制信号,通过语音编码器的语音编码、数字信号处理部件的特征提取,再经过红外线收发器的红外控制采集、模板匹配后,输出用户期望的语音命令代表的红外控制信号。
本发明中,所述的S29AL032D FLASH存储器通过接口电路与EP-2C35实现的软核处理器硬线连接提供存储空间;所述的语音编码器WM8731通过EP2C-35实现的接口FIFO与软核处理器硬线连接,并由EP2C35实现的分频电路提供WM8731所需要时钟信号;同时与线性输入和MIC输入端口硬线相连,提供一条模拟语音电平到数字语音数据的通路;所述红外收发器HSDL-3201通过EP-2C35实现的接口FIFO与软核处理器硬线连接,提供红外信号的数据收发通路;所述LCD模块CFAH1602B-TMC-JP通过EP2C-35实现的LCD模块控制器与软核处理器硬线相连,提供用户信息交互界面。
本发明由于采用了FIFO(先入先出存储器)对红外信号全部波形进行过采样存储,所以可以兼容不同协议速率的红外控制信号。语音识别方面,采用了软件实现调度、模板匹配,硬件实现提取特征参数相结合的方式,在获得快速系统响应的同时降低了电路的复杂性。与一般的商用语音识别控制设备相比,本设计的结构简单,在不改变不增加用户额外成本,不改造现有设备的条件下,充分利用了用户现有的设备功能,不仅可以按照用户喜好整合多种红外控制器的功能,还将其与语音命令相结合,以基于低成本FPGA的SOPC系统实现语音驱动的红外控制。更为重要的是,鉴于FPGA可重构的特性,为进一步优化硬件系统和软件系统,改善用户体验提供了非常大的可行性与便捷性。这是目前一般语音识别控制设备不能提供的。
附图说明
图1 语音识别控制器的整体结构框图。
图2 特征参数的提取过程示意图。
图3 S29AL032D-Flash存储器电原理图。
图4 WM8731 电原理图。
图5 HSDL-3201电原理图。
图6 CFAH1602B-TMC-JP
LCD显示屏电原理图。
具体实施方式
下面结合附图1和具体实施方式对本发明做进一步说明。
如图1所示,一种可进化的语音识别控制器的包含了,3.3V稳压芯片,用于配置的USB BLASTER,用于上电配置的FLASH存储器EPCS,用于信息交互的LCD模块,EP-2C35 FPGA,
用于程序运行和数据采集的FLASH存储器,用于语音采样编码的WM8731以及线路输入和MIC输入的输入端子,红外收发器(IrDA),以及用来输入的4个控制按键。
所示稳压芯片为系统芯片提供稳定的3.3v工作电压,以使芯片处于正常的工作区间。用于配置USB BLASTER为Altera的FPGA/CPLD程序下载芯片,通过计算机的USB接口可对Altera的FPGA/CPLD以及配置芯片进行编程、调试等操作。USB-Blaster™驱动来自PC的配置或者编程数据,对Altera器件进行配置或者编程。下载电缆与标准USB PC端口连接。通过EPCS串行配置存储器与FPGA连接,提供上电后的主动串行配置码流。线路输入端口和MIC输入端口与、WM8731相连,提供模拟信号输入通道。LCD模块、WM8731、FLASH存储器、控制按键、红外收发器通过FPGA与内部软核处理器以及数字信号处理部件相连。
系统上电后,由EPCS主动配置FPGA,并从FLASH中加载固件程序,随后系统进入待机状态,由LCD提示用户可以进行命令输入或者训练新的语音命令。
当用户按下按键1,选择进行新语音命令的输入后,用户有5s的窗口时间通过MIC或者线性输入端口发出语音命令。用户的语音命令信号通过8khz的采样频率,16bit的量化精度转换为PCM数字信号。通过串并转换,端点识别,语音分帧后,送入数字信号处理部件。分别对每一帧语音信号进行MEL倒谱特征参数的提取。提取后的特征参数由软核处理器进一步处理后存入FLASH中。随后,LCD将反馈信息给用户提示输入红外线信号。此时用户按下按键2后,可以使用期望的红外控制设备向系统发送一个红外信号,该红外信号通过过采样由FIFO进行采集,通过串并转换存入FLASH中和语音特征参数建立匹配。此时系统将提示配对成功,随后进入待机状态。至此,一次完整的语音命令训练结束。
当在待机状态下,用户按下按键0时,将发起一次语音命令的接收过程。与训练过程类似,此时用户有5s时间通过线性输入或者MIC输入端口发出一个语音命令。当5s窗口时间结束,系统提取特征参数完毕后,将进入模板匹配流程。系统采用DTW动态时间规整,对于不同长度的语音信号的特征参数矢量进行非线性映射,待测矢量和模板矢量的时间轴非线性地相映射在一起,再去计算其欧拉距离。如果命中,则将存储在FLASH中的红外信号发出;如果没有命中,则通过LCD提示失败信息,系统随后进入待机状态。上述循环可以多次进行,以实现多次命令匹配或者多条语音命令的训练。
当新的硬件升级文件发布后,用户可以选择升级设备以提高系统性能或者增加新功能。用户可以使用USB线缆连接在任何兼容USB1.1/2.0、安装了WINXP以上操作系统,以及免费版的Quartus II 6.0以上的个人电脑上,通过将提供的新的配置文件下载在EPCS串行配置存储器中以实现系统的升级,实现可进化的目标。
按键3用作扩展按键,为未来升级预留。
通过上面的分析可以得出,本发明设计的结构简单的语音识别控制器,不仅可以实现语音命令驱动的红外控制信号的匹配和发送,还通过FPGA可配置的特性,完全实现了产品售出后硬件可以免费灵活升级的可进化特性。通过多组语音和红外控制信号的匹配,可以将用户现有的红外控制器功能整合在本系统中,并通过语音命令进行发送,彻底将用户从多种家用电器的繁杂的红外控制器中解放出来,有效提高用户体验。
参考文献
:
[1].
Rabiner L, Juang B H. Fundamentals
of Speech Recognition.Prentice-Hall International.
Inc, 1999. p.17。
Claims (2)
1.一种基于SOPC的可进化的语音识别红外控制器,其特征在于包括:可配置软核处理器及其接口、数字信号处理部件、FLASH存储器、语音编码器、红外收发器和LCD模块,其中:
所述的可配置软核处理器及其接口,采用Altera公司生产的Cyclone II EP-2C35实现,其内部包括软核处理器、红外FIFO接口电路、FLASH控制器;其中,所述软核处理器作为控制单元,负责通过执行用户软件指令,实现语音数据与红外控制数据的采集、调度和模板匹配;所述红外FIFO接口电路提供与软核处理器内部总线匹配的数据采集接口,以方便通过软件指令来调度和匹配红外控制信号;所述FLASH控制器负责匹配片外FLASH存储器的读写时序,以保证可靠的数据读写;
所述的数字信号处理部件,指运算Mel倒谱特征参数的所有硬线数据处理单元,包括:
256点FFT、Mel滤波器、离散余弦变换单元;所采集到的语音信号通过256点FFT运算得到语音信号的功率谱;Mel滤波器为一组Mel频标上线性分布的三角窗滤波器,用于对语音信号的功率谱进行滤波,以此模拟人耳的掩蔽效应;离散余弦变换单元用以去除各维信号之间的相关性;该数字信号处理部件以流水的形式对语音信号进行复数帧的特征参数的提取;
所述的FLASH存储器,采用Spansion公司生产的S29AL032D-Flash存储器,该FLASH存储器为语音信号的特征参数以及红外控制信号的存储提供非挥发性的存储介质;FPGA芯片的配置文件和软件也存储在FLASH存储器上,以实现上电后自动配置为设计的系统;
所述的语音编码器,采用Wolfson生产的WM8731语音编码芯片,该芯片用于将用户的模拟信号语音命令通过ADC采样量化为脉冲调制PCM的数字信号,并提供低通滤波和降噪处理,高保真地为语音命令的特征参数提取提供数据源;
所述的红外线收发器,采用Agilent Technologies生产的HSDL-3201红外收发器,该红外收发器将用户的红外控制设备的信号进行接收、采集并与相应的语音命令配对后,存储在上述的FLASH存储器中,形成用户的语音命令库等待用户调用;
所述LCD模块,用于用户和系统之间的信息交互;
所述的可进化的语音识别红外控制器,其输入为用户的语音命令和用户定义的红外控制设备的红外控制信号,通过语音编码器的语音编码、数字信号处理部件的特征提取,再经过红外线收发器的红外控制采集、模板匹配后,输出用户期望的语音命令代表的红外控制信号。
2.根据权利要求1 所述的基于SOPC的可进化的语音识别红外控制器,其特征在于:所述的S29AL032D FLASH存储器通过接口电路与EP-2C35实现的软核处理器硬线连接提供存储空间;所述的语音编码器WM8731通过EP2C-35实现的接口FIFO与软核处理器硬线连接,并由EP2C35实现的分频电路提供WM8731所需要时钟信号;同时与线性输入和MIC输入端口硬线相连,提供一条模拟语音电平到数字语音数据的通路;所述红外收发器HSDL-3201通过EP-2C35实现的接口FIFO与软核处理器硬线连接,提供红外信号的数据收发通路;所述LCD模块CFAH1602B-TMC-JP通过EP2C-35实现的LCD模块控制器与软核处理器硬线相连,提供用户信息交互界面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104256009A CN102496262B (zh) | 2011-12-19 | 2011-12-19 | 一种基于sopc的可进化的语音识别红外控制器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104256009A CN102496262B (zh) | 2011-12-19 | 2011-12-19 | 一种基于sopc的可进化的语音识别红外控制器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102496262A CN102496262A (zh) | 2012-06-13 |
CN102496262B true CN102496262B (zh) | 2013-08-21 |
Family
ID=46188081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104256009A Expired - Fee Related CN102496262B (zh) | 2011-12-19 | 2011-12-19 | 一种基于sopc的可进化的语音识别红外控制器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102496262B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111158270A (zh) * | 2019-12-13 | 2020-05-15 | 惠州高盛达科技有限公司 | 红外语音控制模组 |
CN117424644B (zh) * | 2023-12-18 | 2024-03-12 | 中国科学院长春光学精密机械与物理研究所 | 基于红外传输协议的室内语音传输装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201196837Y (zh) * | 2008-03-26 | 2009-02-18 | 珠海格力电器股份有限公司 | 遥控器座、空调遥控装置 |
CN201707567U (zh) * | 2010-04-30 | 2011-01-12 | 盛玉林 | 语音控制电器遥控设备 |
CN201927172U (zh) * | 2010-12-21 | 2011-08-10 | 上海盛淘智能科技有限公司 | 学习型语音控制红外遥控器 |
-
2011
- 2011-12-19 CN CN2011104256009A patent/CN102496262B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201196837Y (zh) * | 2008-03-26 | 2009-02-18 | 珠海格力电器股份有限公司 | 遥控器座、空调遥控装置 |
CN201707567U (zh) * | 2010-04-30 | 2011-01-12 | 盛玉林 | 语音控制电器遥控设备 |
CN201927172U (zh) * | 2010-12-21 | 2011-08-10 | 上海盛淘智能科技有限公司 | 学习型语音控制红外遥控器 |
Also Published As
Publication number | Publication date |
---|---|
CN102496262A (zh) | 2012-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102111314A (zh) | 一种基于蓝牙传输的智能家居语音控制系统及方法 | |
CN104376711B (zh) | 一种快速配置移动终端红外遥控器的方法及装置 | |
CN109737521A (zh) | 具有语音控制功能的空气净化器 | |
CN201181413Y (zh) | 声控智能家居控制装置 | |
CN101345819A (zh) | 一种用于机顶盒的语音控制系统 | |
EP3425630A1 (en) | Electronic device-awakening method and apparatus, device and computer-readable storage medium | |
CN106023991B (zh) | 一种面向多任务交互的手持式语音交互装置及交互方法 | |
CN103198829A (zh) | 一种降低车内噪音提高语音识别率的方法、装置和设备 | |
CN203325186U (zh) | 一种控制家电设备的家庭语音盒子装置 | |
CN102496262B (zh) | 一种基于sopc的可进化的语音识别红外控制器 | |
CN110109365A (zh) | 音箱控制方法、装置及计算机可读存储介质 | |
CN104123930A (zh) | 喉音识别方法及装置 | |
CN201369095Y (zh) | 可双向通信的智能语音识别遥控器 | |
CN104253661A (zh) | 基于软件无线电的超短波电台波形移植方法与平台 | |
CN205582481U (zh) | 可加载个性化特征模型的语音识别系统 | |
CN203849992U (zh) | 可使用外部存储设备进行音色更新的效果器 | |
CN207473563U (zh) | 一种语音处理鼠标 | |
KR102380717B1 (ko) | 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법 | |
CN101789238B (zh) | 一种基于mcu硬件平台的音乐节奏提取系统及其方法 | |
CN110971968A (zh) | 一种智能机顶盒系统 | |
Prasanna et al. | Low cost home automation using offline speech recognition | |
CN110148407A (zh) | 用于智能手环的语音控制方法 | |
CN202600936U (zh) | 一种带有语音功能的遥控器 | |
CN204066447U (zh) | 多功能英语翻译装置 | |
CN105741837A (zh) | 基于spce061a的语音控制系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130821 Termination date: 20151219 |
|
EXPY | Termination of patent right or utility model |