CN110265012A - 基于开源硬件可交互智能语音家居控制装置及控制方法 - Google Patents
基于开源硬件可交互智能语音家居控制装置及控制方法 Download PDFInfo
- Publication number
- CN110265012A CN110265012A CN201910530638.9A CN201910530638A CN110265012A CN 110265012 A CN110265012 A CN 110265012A CN 201910530638 A CN201910530638 A CN 201910530638A CN 110265012 A CN110265012 A CN 110265012A
- Authority
- CN
- China
- Prior art keywords
- module
- voice
- vad
- open source
- source hardware
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000003993 interaction Effects 0.000 claims abstract description 4
- 238000005516 engineering process Methods 0.000 claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 239000011324 bead Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000000465 moulding Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于开源硬件可交互智能语音家居控制装置及控制方法为:所述麦克风模组采集环境中的语音输入信号,并通过音频处理模块与VAD静音检测模块连接;所述移动终端安装有用于发出语音指令或文本指令的APP,并通过互联网和WiFi模块与VAD静音检测模块连接,互联网与云平台进行数据交互;所述空气质量模块和温湿度模块分别通过Arduino控制模块与VAD静音检测模块连接,所述Arduino控制模块通过继电器模块对智能家用电器进行控制;所述VAD静音检测模块对语音输入信号、语音指令或文本指令进行检测与识别后,反馈至音频输出模块、灯光控制模块或Arduino控制模块进行智能家用电器控制、灯组色温亮度调控、室内温湿度或空气质量查询。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于开源硬件可交互智能语音家居控制装置及控制方法。
背景技术
智能家居在现代生活中越来越受到人们的关注,智能家居在国外也有很多的应用,语音控制技术在智能家居中的应用也非常广泛,语音控制技术的智能化、方便化备受人们的欢迎。然而,传统声控灯仅仅是通过响声来控制灯的开关,不能够进行语音指令识别,更不能调节灯光的模式。现有的语音识别灯光控制器只能识别厂家预设的指令词,并且识别错误率较大。通讯方式是通过SPP蓝牙串行端口服务来建立蓝牙串口数据传输或通过本地AP热点来建立WI-FI串口通信数据传输,传输距离有限。
发明内容
本发明的目的在于针对现有技术不足,提供一种可识别家居开关灯、亮度与色温调控、家中空气质量、温湿度查询以及家电控制等语音命令,完成灯组色温亮度调控并开关、家中温湿度与空气质量查询以及家中家用电器开关等功能的基于开源硬件可交互智能语音家居控制装置及控制方法。
为实现上述第一个目的,本发明采用以下技术方案:
基于开源硬件可交互智能语音家居控制装置,其包括开源硬件、麦克风模组、音频处理模块、移动终端、WiFi模块、空气质量模块、温湿度模块、Arduino控制模块、智能家用电器、音频输出模块和灯光控制模块,所述开源硬件内设有VAD静音检测模块;
所述麦克风模组采集环境中的语音输入信号,并通过音频处理模块与VAD静音检测模块连接;
所述移动终端安装有用于发出语音指令或文本指令的APP,并通过互联网和WiFi模块与VAD静音检测模块连接,互联网与云平台进行数据交互;
所述空气质量模块和温湿度模块分别通过Arduino控制模块与VAD静音检测模块连接,所述Arduino控制模块通过继电器模块对智能家用电器进行控制;
所述VAD静音检测模块对语音输入信号、语音指令或文本指令进行检测与识别后,反馈至音频输出模块、灯光控制模块或Arduino控制模块进行智能家用电器控制、灯组色温亮度调控、室内温湿度或空气质量查询。
作为优选,所述开源硬件为BCM2837开源硬件,音频处理模块为AC108音频处理模块,所述BCM2837开源硬件的GPIO口与AC108音频处理模块连接,BCM2837开源硬件的TX口和RX口分别与Arduino控制模块连接,BCM2837开源硬件的音频输出口与音频输出模块连接;所述音频输出模块为音响设备;所述移动终端为手机端,APP为微信客户端,微信客户端通过微信服务器接入互联网;所述空气质量模块为MQ-135传感器;所述温湿度模块为DHT11传感器;所述灯光控制模块包括12个由APA102驱动芯片控制的灯珠。
作为优选,所述VAD静音检测模块由语音活动检测模块VAD、嵌入式网关、关键词检测模块KWS、自动语音识别模块ASR、自然语言理解技术模块NLU和语音合成模块TTS组成;所述语音活动检测模块VAD经关键词检测模块KWS与嵌入式网关的输入端连接,所述嵌入式网关分别与自动语音识别模块ASR、自然语言理解技术模块NLU和语音合成模块TTS连接进行技能匹配和处理。
为实现上述第二个目的,本发明采用以下技术方案:
一种基于开源硬件可交互智能语音家居控制方法,其包括以下步骤:
1)离线唤醒方案:在开源硬件的VAD静音检测模块内配置唤醒词,并设置每隔0.03秒进行一次语音检测;
2)利用麦克风采集语音输入信号,通过语音活动检测模块VAD对语音输入信号进行检测,当语音能量帧达到预设门限时,进入关键词检测模块KWS进行热词匹配;热词匹配完成后,通过音频输出模块播放预先设定的提示音进行应答,同时按照预先设定的录音时长进行录音并保存录音文件,并通过自动语音识别模块ASR将录音文件的内容转化为文本信息,得到识别文本;
3)对识别文本利用自然语言理解技术模块NLU进行意图理解分析处理,并匹配云平台所预设的应答策略,提取出意图关键词,得到解析文本信息;
4)根据得到的解析文本信息轮流对音频输出模块、灯光控制模块和Arduino控制模块进行策略匹配,若匹配成功,则触发相应模块执行相应技能,若匹配不成功,则执行步骤5);
5)将解析文本信息传输至聊天机器人系统中生成文本聊天消息,并将文本聊天消息通过嵌入式网关添加到音频输出模块的语音播报队列中进行语音播放;
6)根据得到的解析文本信息,当需要播放语音时,把解析文本信息通过语音合成模块TTS进行语音合成,然后通过音频输出模块进行语音播放,并通过互联网传输到云平台进行存储。
作为优选,步骤2)中还包括利用移动终端采集语音指令或者文字指令,所述利用移动终端采集语音指令或者文字指令的方法为:通过手机端安装的微信客户端扫描二维码登录到微信网页端,微信客户端通过发送语音指令或者文字指令至微信服务器,由微信服务器通过互联网发送给VAD静音检测模块;若发送的是语音指令,则将语音指令发送至自动语音识别模块ASR进行语音识别,得到识别文本;若发送的是文字指令,则执行步骤3)。
作为优选,步骤5)中所述聊天机器人系统为集成聊天机器人API,通过智能机器人开放平台获取机器人的返回消息。
作为优选,步骤2)中利用麦克风采集语音输入的方法为:采用单独的24Mhz的时钟模块来控制麦克风阵列的4个通道收录时间,并经MIC放大器连接到AC108音频处理模块。
作为优选,所述VAD静音检测模块是在高斯混合模型的基础上对语音和噪声建模,并对每帧信号求其是语音或噪声的概率,噪声和语音模型如下:
其中,xk是选取的特征量,即子带能量;rk是输出直流电压平均值Uz和方差σ的参数集合,Z=0代表噪声,Z=1代表语音;
设定VAD检测是在10ms的帧窗口,8k的采样率的基础上进行,则计算子带能量,子带分为80-250Hz、250-500Hz、500-1000Hz、1000-2000Hz、2000-3000Hz和3000-4000Hz六个子带通道,计算每个子带能量的结果存放,分别对应于feature[0]—feature[5];调用GMMProbability计算概率,通过高斯混合模型分别计算为语音或非语音的概率,使用假设检验的方法确定信号的种类,利用高斯模型计算假设检验中的H0和H1,通过门限值判决,然后更新概率计算所需要的语音均值、噪声均值、语音方差和噪声方差。
作为优选,高斯概率计算采用的高斯公式如下:
假设两个参数是相互独立的,将这两个高斯参数当作不相关的,进行简化,当这两个高斯分布是不相关的,将乘法近似化简成加法;
(1)高斯改立计算采用的高斯公式:省去使得在做似然比计算的时候,不产生计算误差;
(2)对每一个子带(特征),计算二元高斯对数似然比:
其中假设x和y不相关得到联合概率,x,y是输入的两个特征,μxs和μys是对应语音的一个子带的两个均值,同理μxn和μyn是噪音的一个子带内的两个均值;
(3)对数似然比,分为全局和局部,全局是六个子带之加权之和,而局部是指每一个子带则是局部,所以语音判决会先判断子带,子带判断没有时会判断全局,只要有一方过了,就算有语音,公式表达如下:
其中,Lt是似然比加权之和,Li是每一次的似然比;
参数更新:噪声均值更新,函数对每个特征,求出100个帧里头的前16个最小值;每个最小值都对应一个age,最大不超过100,超过100则失效,用这个最小值来跟新噪声;
u(n)=an1un1(n-1)+an2un2(n-1)
模型参数更新:更新噪声均值、语音均值和噪声方差语音方差,体现其自适应性;其中噪声更新只在非语音帧进行更新;
噪声均值更新:
语音模型均值更新:
噪声模型方差更新:
语音模型方差更新:
本发明采用以上技术方案,采用开源硬件BCM2837,其兼容性强、扩展接口多以及超高性价比等多种优良特性,很大程度上提升了系统的使用效率,节约了整个系统的成本,达到提高系统的安全性、可靠性、稳定性和抗干扰性的目的。根据使用者定制个性化的语音需求,通过语音识别API接口,连接到各大云平台的语音识别引擎、语音合成引擎、语义理解引擎,提供了一种新的语音识别技术应用途径,结合各云平台提供的SDK,优选出最可靠的应用模式,将系统内部的文本信息合成语音并使用系统音频设备播放语音信息。本发明使用12个APA102可编程RGB LED可调亮度与色温灯光输出。把系统链接到定义的云平台,通过语音输入或通过微信的语音、文本与智能模块进行交互,实现了网络化灯光模式调控,继电器对家用电器进行控制,通过微信查询到当前室内温湿度和空气质量。本装置应用开源硬件BCM2837、AC108语音处理模块、微信语音与文本插入、Arduino控制模块、继电器模块、温湿度模块、空气质量传感模块以及灯组APA102等硬件在云平台的支持下,可识别家居开关灯、亮度与色温调控、家中空气质量、温湿度查询以及家电控制等语音命令,完成灯组色温亮度调控并开关、家中温湿度与空气质量查询以及家中家用电器开关等功能。
附图说明
现结合附图对本发明作进一步阐述:
图1为本发明基于开源硬件可交互智能语音家居控制装置的结构框图;
图2为本发明VAD静音检测模块的结构框图;
图3为本发明嵌入式网关核心控制器的电路图;
图4为本发明基于开源硬件可交互智能语音家居控制方法的流程图;
图5为本发明利用移动终端采集语音指令或者文字指令的流程图;
图6为本发明Arduino控制模块的电路图;
图7为本发明VAD静音检测模块的检测流程;
图8为本发明高斯混合模型的流程图;
图9为本发明VAD静音检测模块静音检测语音能量呼吸灯流程图。
具体实施方式
如图1-9之一所示,本发明的基于开源硬件可交互智能语音家居控制装置,其包括开源硬件、麦克风模组、音频处理模块、移动终端、WiFi模块、空气质量模块、温湿度模块、Arduino控制模块、智能家用电器、音频输出模块和灯光控制模块,所述开源硬件内设有VAD静音检测模块;
所述麦克风模组采集环境中的语音输入信号,并通过音频处理模块与VAD静音检测模块连接;
所述移动终端安装有用于发出语音指令或文本指令的APP,并通过互联网和WiFi模块与VAD静音检测模块连接,互联网与云平台进行数据交互;
所述空气质量模块和温湿度模块分别通过Arduino控制模块与VAD静音检测模块连接,所述Arduino控制模块通过继电器模块对智能家用电器进行控制;
所述VAD静音检测模块对语音输入信号、语音指令或文本指令进行检测与识别后,反馈至音频输出模块、灯光控制模块或Arduino控制模块进行智能家用电器控制、灯组色温亮度调控、室内温湿度或空气质量查询。
作为优选,所述开源硬件为BCM2837开源硬件,音频处理模块为AC108音频处理模块,所述BCM2837开源硬件的GPIO口与AC108音频处理模块连接,BCM2837开源硬件的TX口和RX口分别与Arduino控制模块连接,BCM2837开源硬件的音频输出口与音频输出模块连接;所述音频输出模块为音响设备;所述移动终端为手机端,APP为微信客户端,微信客户端通过微信服务器接入互联网;所述空气质量模块为MQ-135传感器;所述温湿度模块为DHT11传感器;所述灯光控制模块包括12个由APA102驱动芯片控制的灯珠。
如图2所示,所述VAD静音检测模块由语音活动检测模块VAD、嵌入式网关、关键词检测模块KWS、自动语音识别模块ASR、自然语言理解技术模块NLU和语音合成模块TTS组成;所述语音活动检测模块VAD经关键词检测模块KWS与嵌入式网关的输入端连接,所述嵌入式网关分别与自动语音识别模块ASR、自然语言理解技术模块NLU和语音合成模块TTS连接进行技能匹配和处理。该设计使其能够自由更换系统组件,具有一定的成本优势。
本设计中,采用AC108为主控芯片的4麦克风阵列,级联4路麦克风。其中4麦阵列由单独的24Mhz的时钟模块来控制4个通道的收录时间,达到通道时钟同步一致的效果。其中麦克风使用贴片式,经过MIC放大器连接到AC108。多MIC阵列采用通道间的差异进行算法处理,AC108集成了四个同步ADC,具有独立的可编程麦克风偏置电压和麦克风升压放大器,可提供有效的通道数据,从而消除通道串扰、避免回声饱和。模拟输入端口设计为四个差分麦克风引脚,可实现低抖动时钟输出和最多四个数字麦克风的抽取滤波器。每个通道都提供独立的数字语音控制器。该设计可有效提供高保真声音录入,避免回声,为消除背景噪声、语音检测提供基础数据。
本发明的关键词检测模块(KWS)是使用智能语音交互服务时,当在某些场景下需要对一些特定的词语进行针对性识别,用户可以通过自定义关键词及其置信度的方式来达到检测语音中是否包含该关键字的目的。用户可以通过RESTful API或SDK上传关键词词表,然后通过SDK调用KWS服务。
本发明的关键词检测模块(KWS)主要涉及以下四个过程:
(1)首先需要通过提供的restful或sdk接口进行创建词表;
(2)检测服务收到创建词表的请求后,会把相应的词存储到数据库中,并返回用户结果(词表id);
(3)拿到词表id后,调用语音识别sdk并传入词表id及app_key;
(4)服务端收到检测请求时会解析词表id查询数据库,并返回用户检测结果。
该系统使用上述关键词搜索技术,对用户的语音信息进行匹配判断,例如本系统采用的唤醒词“snowboy”,当麦克风接收到该唤醒词时,系统开始匹配“snowboy”关键词模型,然后系统应答并进行录音。同样使用KWS技术对录音文件进行关键词模型搜索匹配和判断。
本发明关键词检测模块(KWS)的关键程序如下:
本发明自动语音识别模块ASR采用的自动语音识别技术是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1、识别词汇表的大小和语音的复杂性;2、语音信号的质量;3、单个说话人还是多说话人;4、硬件。
自动语音识别通常有以下几种分类方法:
(1)按系统的用户情况分:特定人和非特定人识别系统;
(2)按系统词汇量分:小词汇量、中词汇量和大词汇量系统;
(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;
(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;
(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
(6)按输入语音的情感状态分;中性语音、情感语音识别系统。
主要原理
(1)训练:预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。
(2)识别:待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。
(3)失真测度:在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
(4)主要识别框架:基于模式匹配的动态时间规整法和基于统计模型的隐马尔可夫模型法。
本系统采用上述关键词检测语音识别技术对保存的录音文件进行文本转换,将录音文件先进行格式转化分割,调整为关键词检测平台适用格式,再传送至各种云平台,平台会把该文件转换后的文本信息反馈至网关系统,网关接收并保存该文本信息进行格式转换以待后续使用。
本发明自动语音识别模块ASR的关键程序如下:
本发明的自然语言理解技术(NLU)是人机对话产品中的重要一环,是指机器能够执行人类所期望的某些语言功能,换句话说就是人与机器交流的桥梁。
语言理解主要包括以下方面内容:
1.能够理解句子的正确次序规则和概念,又能理解不含规则的句子;
2.知道词的确切含义、形式、词类及构词法;
3.了解词的语义分类、词的多义性、词的歧义性;
4.问题领域的结构知识和实践概念;
5.语言的语气信息和韵律表现;
6.有关语言表达形式的文字知识。
该系统使用上述NLU自然语言理解技术将保存的文本信息进行意图分析。例如文本信息中存在“开灯”“关灯”“照明”等意图关键词时,NLU模块将对文本信息进行理解,然后提取出意图关键词,系统将根据关键词进行轮询,以便进入相对应的模块。
本发明自然语言理解技术(NLU)的关键程序如下:
本发明的语音合成模块TTS,又称文本转语音,是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。
前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消除歧义、韵律预测等子模块。
后端模块根据前端分析结果,通过一定的方法生成语音波形,后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。传统的语音合成系统,都是相对复杂的系统,比如,前端系统需要较强的语言学背景,并且不同语言的语言学知识还差异明显,因此需要特定领域的专家支持。后端模块中的参数系统需要对语音的发声机理有一定的了解,由于传统的参数系统建模时存在信息损失,限制了合成语音表现力的进一步提升。
该系统采用上述语音合成技术,将系统的预设回答文本或聊天机器人的反馈文本合成相应的语音,对用户的指令做出应答。例如将需要转换的文本信息传送至各种云系统,同时在本地新建一个mp3格式文件,将转换后的语音接收并保存至mp3文件中,通过系统的3.5mm音频输出口进行语音播报。
本发明语音合成模块TTS的关键程序如下:
本发明的基于开源硬件可交互智能语音家居控制方法,其包括以下步骤:
1)离线唤醒方案:在开源硬件的VAD静音检测模块内配置唤醒词,并设置每隔0.03秒进行一次语音检测;
2)利用麦克风采集语音输入信号,通过语音活动检测模块VAD对语音输入信号进行检测,当语音能量帧达到预设门限时,进入关键词检测模块KWS进行热词匹配;热词匹配完成后,通过音频输出模块播放预先设定的提示音进行应答,同时按照预先设定的录音时长进行录音并保存录音文件,并通过自动语音识别模块ASR将录音文件的内容转化为文本信息,得到识别文本;
3)对识别文本利用自然语言理解技术模块NLU进行意图理解分析处理,并匹配云平台所预设的应答策略,提取出意图关键词,得到解析文本信息;
4)根据得到的解析文本信息轮流对音频输出模块、灯光控制模块和Arduino控制模块进行策略匹配,若匹配成功,则触发相应模块执行相应技能,若匹配不成功,则执行步骤5);
5)将解析文本信息传输至聊天机器人系统中生成文本聊天消息,并将文本聊天消息通过嵌入式网关添加到音频输出模块的语音播报队列中进行语音播放;
6)根据得到的解析文本信息,当需要播放语音时,把解析文本信息通过语音合成模块TTS进行语音合成,然后通过音频输出模块进行语音播放,并通过互联网传输到云平台进行存储。
如图5所示,步骤2)中还包括利用移动终端采集语音指令或者文字指令,所述利用移动终端采集语音指令或者文字指令的方法为:通过手机端安装的微信客户端扫描二维码登录到微信网页端,微信客户端通过发送语音指令或者文字指令至微信服务器,由微信服务器通过互联网发送给VAD静音检测模块;若发送的是语音指令,则将语音指令发送至自动语音识别模块ASR进行语音识别,得到识别文本;若发送的是文字指令,则执行步骤3)。
作为优选,步骤5)中所述聊天机器人系统为集成聊天机器人API,通过智能机器人开放平台获取机器人的返回消息。
当VAD静音检测模块通过微信接收到控制指令(语音或文本)时,反馈的信息将通过文本信息转发回微信手机端。
本发明微信远程控制文本指令操作的关键程序如下:
本发明微信远程控制语音指令操作的关键程序如下:
作为优选,步骤2)中利用麦克风采集语音输入的方法为:采用单独的24Mhz的时钟模块来控制麦克风阵列的4个通道收录时间,并经MIC放大器连接到AC108音频处理模块。
本发明通过由Arduino开发板设计的环境信息读取模块来读取系统环境情况。室内环境信息读取模块主要由DHT11传感器和MQ-135传感器组成。
Arduino的D4引脚发送一次低电平信号后,DHT11传感器从低功耗模式(即此时不通过DOUT传输温湿度数据)转换到传输模式(即此时开始传输温湿度数据)。DHT11进入传输模式时,首先会发送一个高电平,以表示准备输出。再输出数据,每bit数据都以50us低电平时隙开始,电平的高低决定数据位是0还是1。等待主机开始信号结束后,DHT11发送响应信号,送出40bit的数据,并触发一次信号采集,采集数据后转换到低功耗模式。
传输模式时,Arduino的收到的是一个40位二进制数据,0-7位为湿度整数部分,0-15位为湿度小数部分,16-23位是温度整数部分,24-31位是温度小数部分,其余的是校验位。
通过计算校验位数据,判断数据是否有误,若校验未通过,舍弃本次数据重新再次进入传输模式采集温湿度信息。
MQ-135气体传感器能对室内气体进行检测,它的小型鼻状传感器会自动响应气体浓度的变化。在连接到Arduino后,它将感知周围环境的气体,获得空气浓度水平。MQ-135气体传感器是以电压电平的形式进行输出,再将其转换为PPM。因此,为了转换PPM中的输出,本系统采用了MQ-135传感器的库。
本设计采用继电器模块,支持250V交流电压,10A的电流,适用于家用电器控制。通过高电平触发,当继电器输入回路IN端口收到高电平的时候,继电器输出回路闭合。
如图6所示,本发明的Arduino控制模块,Arduino主控板的TX口和RX口,与BCM2837为核心CPU电路相连接,在核心CPU的控制下,读取连接到模拟输入A0的MQ-135传感器的空气质量数据和连接到第4个数字输入针的DHT11模块的温湿度数据以及控制连接到模拟输出A1的继电器对家电进行控制。
本发明Arduino控制模块的关键程序如下:
本发明使用12个APA102可编程RGB LED,在语音的命令下,根据场景需求对灯光的开关、亮度与色温输出进行调控。APA102为内置IC灯珠,提供RGB三色LED输出,256级色彩调节范围,32级亮度调整。颜色由RGB三原色构成,每个灯珠的RGB亮度从[0-255]之间变化,如R(红色)G(绿色)B(蓝色)的亮度为[255,255,255]时为白光,[255,0,0]时候为红光以此类推。
本发明用于模拟灯光环境使用12个由APA102驱动芯片控制的灯珠组成,在本地硬件系统的GPIO5写入高电平,控制MOS管开关给LED的VCC供电,通过嵌入式网关最先送达24bit数据至D1灯珠内部的数据锁存器,剩余的数据在通过APA102内部整形电路放大信号后,通过D1的SDO/CKO端口转发给下一级联的灯珠(D2),每级减少24bit直到D12接收完成。给APA102驱动芯片设置LED的颜色,然后灯珠一直保持该颜色,直到接收到新的命令或者VCC供电复位。
如图7所示,本发明的VAD静音检测模块,主要功能是判断是否有语音输入,其检测流程为:
所述VAD静音检测模块是在高斯混合模型的基础上对语音和噪声建模,并对每帧信号求其是语音或噪声的概率,噪声和语音模型如下:
其中,xk是选取的特征量,即子带能量;rk是输出直流电压平均值Uz和方差σ的参数集合,Z=0代表噪声,Z=1代表语音;
设定VAD检测是在10ms的帧窗口,8k的采样率的基础上进行,则计算子带能量,子带分为80-250Hz、250-500Hz、500-1000Hz、1000-2000Hz、2000-3000Hz和3000-4000Hz六个子带通道,计算每个子带能量的结果存放,分别对应于feature[0]—feature[5];调用GMMProbability计算概率,通过高斯混合模型分别计算为语音或非语音的概率,使用假设检验的方法确定信号的种类,利用高斯模型计算假设检验中的H0和H1,通过门限值判决,然后更新概率计算所需要的语音均值、噪声均值、语音方差和噪声方差。
作为优选,高斯概率计算采用的高斯公式如下:
假设两个参数是相互独立的,将这两个高斯参数当作不相关的,进行简化,当这两个高斯分布是不相关的,将乘法近似化简成加法;
(1)高斯改立计算采用的高斯公式:省去使得在做似然比计算的时候,不产生计算误差;
(2)对每一个子带(特征),计算二元高斯对数似然比:
其中,假设x和y不相关得到联合概率,x,y是输入的两个特征,μxs和μys是对应语音的一个子带的两个均值,同理μxn和μyn是噪音的一个子带内的两个均值;
(3)对数似然比,分为全局和局部,全局是六个子带之加权之和,而局部是指每一个子带则是局部,所以语音判决会先判断子带,子带判断没有时会判断全局,只要有一方过了,就算有语音,公式表达如下:
其中,Lt是似然比加权之和,Li是每一次的似然比;
参数更新:噪声均值更新,函数对每个特征,求出100个帧里头的前16个最小值;每个最小值都对应一个age,最大不超过100,超过100则失效,用这个最小值来跟新噪声;
u(n)=an1un1(n-1)+an2un2(n-1)
模型参数更新:更新噪声均值、语音均值和噪声方差语音方差,体现其自适应性;其中噪声更新只在非语音帧进行更新;
噪声均值更新:
语音模型均值更新:
噪声模型方差更新:
语音模型方差更新:
如图9所示,本发明VAD静音检测模块静音检测语音能量呼吸灯流程图,即呼吸灯模式设计,待机时上模拟灯组的灯光随语音信息能量大小平滑变化。在VAD静音检测运行时,根据子频带能量,按照一定比例来控制灯光亮度变化。
本发明采用以上技术方案,采用开源硬件BCM2837,其兼容性强、扩展接口多以及超高性价比等多种优良特性,很大程度上提升了系统的使用效率,节约了整个系统的成本,达到提高系统的安全性、可靠性、稳定性和抗干扰性的目的。根据使用者定制个性化的语音需求,通过语音识别API接口,连接到各大云平台的语音识别引擎、语音合成引擎、语义理解引擎,提供了一种新的语音识别技术应用途径,结合各云平台提供的SDK,优选出最可靠的应用模式,将系统内部的文本信息合成语音并使用系统音频设备播放语音信息。本发明使用12个APA102可编程RGB LED可调亮度与色温灯光输出。把系统链接到定义的云平台,通过语音输入或通过微信的语音、文本与智能模块进行交互,实现了网络化灯光模式调控,继电器对家用电器进行控制,通过微信查询到当前室内温湿度和空气质量。本装置应用开源硬件BCM2837、AC108语音处理模块、微信语音与文本插入、Arduino控制模块、继电器模块、温湿度模块、空气质量传感模块以及灯组APA102等硬件在云平台的支持下,可识别家居开关灯、亮度与色温调控、家中空气质量、温湿度查询以及家电控制等语音命令,完成灯组色温亮度调控并开关、家中温湿度与空气质量查询以及家中家用电器开关等功能。
本发明具有两种模式用于启动VAD静音检测模块的识别模块,第一种是对麦克风输入唤醒词,唤醒之后,输入语音指令来启用,第二种是登录微信,通过文件助手直接发送语音指令或者文字指令。
本发明具有的优点如下:
1、微信远程控制
通过登录微信,使用文件助手直接发送语音指令或者文字指令传输信息。
2、程序灵活可变性强
本发明采用多引擎模块组件,能够在程序模块上改变其中任意一个模块,即,ASR引擎模块可以从百度ASR改变为科大讯飞ASR,同样TTS引擎模块、NLU引擎模块可以任意改变。
3、通过网络传输信息
本发明通过网络进行信息传递,和传统蓝牙及WIFI相比,突破了距离的限制。能够通过ip网络进行远距离传输,连接到多个智能设备节点,实现组网功能。能够与多个服务器端建立连接,进而获取多种功能。
以上描述不应对本发明的保护范围有任何限定。
Claims (9)
1.基于开源硬件可交互智能语音家居控制装置,其特征在于:其包括开源硬件、麦克风模组、音频处理模块、移动终端、WiFi模块、空气质量模块、温湿度模块、Arduino控制模块、智能家用电器、音频输出模块和灯光控制模块,所述开源硬件内设有VAD静音检测模块;
所述麦克风模组采集环境中的语音输入信号,并通过音频处理模块与VAD静音检测模块连接;
所述移动终端安装有用于发出语音指令或文本指令的APP,并通过互联网和WiFi模块与VAD静音检测模块连接,互联网与云平台进行数据交互;
所述空气质量模块和温湿度模块分别通过Arduino控制模块与VAD静音检测模块连接,所述Arduino控制模块通过继电器模块对智能家用电器进行控制;
所述VAD静音检测模块对语音输入信号、语音指令或文本指令进行检测与识别后,反馈至音频输出模块、灯光控制模块或Arduino控制模块进行智能家用电器控制、灯组色温亮度调控、室内温湿度或空气质量查询。
2.根据权利要求1所述的基于开源硬件可交互智能语音家居控制装置,其特征在于:所述开源硬件为BCM2837开源硬件,音频处理模块为AC108音频处理模块,所述BCM2837开源硬件的GPIO口与AC108音频处理模块连接,BCM2837开源硬件的TX口和RX口分别与Arduino控制模块连接,BCM2837开源硬件的音频输出口与音频输出模块连接;所述音频输出模块为音响设备;所述移动终端为手机端,APP为微信客户端,微信客户端通过微信服务器接入互联网;所述空气质量模块为MQ-135传感器;所述温湿度模块为DHT11传感器;所述灯光控制模块包括12个由APA102驱动芯片控制的灯珠。
3.根据权利要求1所述的基于开源硬件可交互智能语音家居控制装置,其特征在于:所述VAD静音检测模块由语音活动检测模块VAD、嵌入式网关、关键词检测模块KWS、自动语音识别模块ASR、自然语言理解技术模块NLU和语音合成模块TTS组成;所述语音活动检测模块VAD经关键词检测模块KWS与嵌入式网关的输入端连接,所述嵌入式网关分别与自动语音识别模块ASR、自然语言理解技术模块NLU和语音合成模块TTS连接进行技能匹配和处理。
4.一种基于开源硬件可交互智能语音家居控制方法,其特征在于:其包括以下步骤:
1)离线唤醒方案:在开源硬件的VAD静音检测模块内配置唤醒词,并设置每隔0.03秒进行一次语音检测;
2)利用麦克风采集语音输入信号,通过语音活动检测模块VAD对语音输入信号进行检测,当语音能量帧达到预设门限时,进入关键词检测模块KWS进行热词匹配;热词匹配完成后,通过音频输出模块播放预先设定的提示音进行应答,同时按照预先设定的录音时长进行录音并保存录音文件,并通过自动语音识别模块ASR将录音文件的内容转化为文本信息,得到识别文本;
3)对识别文本利用自然语言理解技术模块NLU进行意图理解分析处理,并匹配云平台所预设的应答策略,提取出意图关键词,得到解析文本信息;
4)根据得到的解析文本信息轮流对音频输出模块、灯光控制模块和Arduino控制模块进行策略匹配,若匹配成功,则触发相应模块执行相应技能,若匹配不成功,则执行步骤5);
5)将解析文本信息传输至聊天机器人系统中生成文本聊天消息,并将文本聊天消息通过嵌入式网关添加到音频输出模块的语音播报队列中进行语音播放;
6)根据得到的解析文本信息,当需要播放语音时,把解析文本信息通过语音合成模块TTS进行语音合成,然后通过音频输出模块进行语音播放,并通过互联网传输到云平台进行存储。
5.根据权利要求4所述的基于开源硬件可交互智能语音家居控制方法,其特征在于:步骤2)中还包括利用移动终端采集语音指令或者文字指令,所述利用移动终端采集语音指令或者文字指令的方法为:通过手机端安装的微信客户端扫描二维码登录到微信网页端,微信客户端通过发送语音指令或者文字指令至微信服务器,由微信服务器通过互联网发送给VAD静音检测模块;若发送的是语音指令,则将语音指令发送至自动语音识别模块ASR进行语音识别,得到识别文本;若发送的是文字指令,则执行步骤3)。
6.根据权利要求5所述的基于开源硬件可交互智能语音家居控制方法,其特征在于:步骤5)中所述聊天机器人系统为集成聊天机器人API,通过智能机器人开放平台获取机器人的返回消息。
7.根据权利要求4所述的基于开源硬件可交互智能语音家居控制方法,其特征在于:步骤2)中利用麦克风采集语音输入的方法为:采用单独的24Mhz的时钟模块来控制麦克风阵列的4个通道收录时间,并经MIC放大器连接到AC108音频处理模块。
8.根据权利要求4所述的基于开源硬件可交互智能语音家居控制方法,其特征在于:所述VAD静音检测模块是在高斯混合模型的基础上对语音和噪声建模,并对每帧信号求其是语音或噪声的概率,噪声和语音模型如下:
其中,xk是选取的特征量,即子带能量;rk是输出直流电压平均值Uz和方差σ的参数集合,Z=0代表噪声,Z=1代表语音;
设定VAD检测是在10ms的帧窗口,8k的采样率的基础上进行,则计算子带能量,子带分为80-250Hz、250-500Hz、500-1000Hz、1000-2000Hz、2000-3000Hz和3000-4000Hz六个子带通道,计算每个子带能量的结果存放,分别对应于feature[0]—feature[5];调用GMMProbability计算概率,通过高斯混合模型分别计算为语音或非语音的概率,使用假设检验的方法确定信号的种类,利用高斯模型计算假设检验中的H0和H1,通过门限值判决,然后更新概率计算所需要的语音均值、噪声均值、语音方差和噪声方差。
9.根据权利要求8所述的基于开源硬件可交互智能语音家居控制方法,其特征在于:高斯概率计算采用的高斯公式如下:
假设两个参数是相互独立的,将这两个高斯参数当作不相关的,进行简化,当这两个高斯分布是不相关的,将乘法近似化简成加法;
(1)高斯改立计算采用的高斯公式:省去使得在做似然比计算的时候,不产生计算误差;
(2)对每一个子带(特征),计算二元高斯对数似然比:
其中假设x和y不相关得到联合概率,x,y是输入的两个特征,μxs和μys是对应语音的一个子带的两个均值,同理μxn和μyn是噪音的一个子带内的两个均值;
(3)对数似然比,分为全局和局部,全局是六个子带之加权之和,而局部是指每一个子带则是局部,所以语音判决会先判断子带,子带判断没有时会判断全局,只要有一方过了,就算有语音,公式表达如下:
其中Lt是似然比加权之和,Li是每一次的似然比;
参数更新:噪声均值更新,函数对每个特征,求出100个帧里头的前16个最小值;每个最小值都对应一个age,最大不超过100,超过100则失效,用这个最小值来跟新噪声;
u(n)=an1un1(n-1)+an2un2(n-1)
模型参数更新:更新噪声均值、语音均值和噪声方差语音方差,体现其自适应性;其中噪声更新只在非语音帧进行更新;
噪声均值更新:
语音模型均值更新:
噪声模型方差更新:
语音模型方差更新:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530638.9A CN110265012A (zh) | 2019-06-19 | 2019-06-19 | 基于开源硬件可交互智能语音家居控制装置及控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530638.9A CN110265012A (zh) | 2019-06-19 | 2019-06-19 | 基于开源硬件可交互智能语音家居控制装置及控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110265012A true CN110265012A (zh) | 2019-09-20 |
Family
ID=67919339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910530638.9A Pending CN110265012A (zh) | 2019-06-19 | 2019-06-19 | 基于开源硬件可交互智能语音家居控制装置及控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110265012A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091818A (zh) * | 2019-12-24 | 2020-05-01 | 广东美的白色家电技术创新中心有限公司 | 语音识别电路、语音交互设备和家电设备 |
CN111274434A (zh) * | 2020-01-16 | 2020-06-12 | 上海携程国际旅行社有限公司 | 音频语料自动标注方法、系统、介质和电子设备 |
CN111370030A (zh) * | 2020-04-03 | 2020-07-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音情感检测方法与装置、存储介质、电子设备 |
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112750464A (zh) * | 2020-12-25 | 2021-05-04 | 深圳米唐科技有限公司 | 基于多传感器的人体发声状态检测方法、系统及存储介质 |
CN113409805A (zh) * | 2020-11-02 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 人机交互方法、装置、存储介质及终端设备 |
CN113643711A (zh) * | 2021-08-03 | 2021-11-12 | 常州匠心独具智能家居股份有限公司 | 用于智能家具的基于离线模式和在线模式的语音系统 |
CN114875632A (zh) * | 2022-05-31 | 2022-08-09 | 四川虹美智能科技有限公司 | 智能烘洗控制方法及装置 |
CN116580711A (zh) * | 2023-07-11 | 2023-08-11 | 北京探境科技有限公司 | 音频控制方法、装置、存储介质及电子设备 |
CN113409805B (zh) * | 2020-11-02 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 人机交互方法、装置、存储介质及终端设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120173234A1 (en) * | 2009-07-21 | 2012-07-05 | Nippon Telegraph And Telephone Corp. | Voice activity detection apparatus, voice activity detection method, program thereof, and recording medium |
CN103714815A (zh) * | 2013-12-09 | 2014-04-09 | 何永 | 语音控制方法及其设备 |
CN104123940A (zh) * | 2014-08-06 | 2014-10-29 | 苏州英纳索智能科技有限公司 | 一种基于智能家居系统的语音控制系统及方法 |
CN106952646A (zh) * | 2017-02-27 | 2017-07-14 | 深圳市朗空亿科科技有限公司 | 一种基于自然语言的机器人交互方法和系统 |
CN109378002A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备和存储介质 |
-
2019
- 2019-06-19 CN CN201910530638.9A patent/CN110265012A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120173234A1 (en) * | 2009-07-21 | 2012-07-05 | Nippon Telegraph And Telephone Corp. | Voice activity detection apparatus, voice activity detection method, program thereof, and recording medium |
CN103714815A (zh) * | 2013-12-09 | 2014-04-09 | 何永 | 语音控制方法及其设备 |
CN104123940A (zh) * | 2014-08-06 | 2014-10-29 | 苏州英纳索智能科技有限公司 | 一种基于智能家居系统的语音控制系统及方法 |
CN106952646A (zh) * | 2017-02-27 | 2017-07-14 | 深圳市朗空亿科科技有限公司 | 一种基于自然语言的机器人交互方法和系统 |
CN109378002A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
JOON-HYUK CHANG ET AL.: "《Voice activity detection based on multiple statistical models》", 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 * |
姜楠: "《手机语音识别系统中语音活动检测算法研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
雷建军等: "《基于复高斯混合模型的鲁棒VAD算法》", 《天津大学学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091818A (zh) * | 2019-12-24 | 2020-05-01 | 广东美的白色家电技术创新中心有限公司 | 语音识别电路、语音交互设备和家电设备 |
CN111274434A (zh) * | 2020-01-16 | 2020-06-12 | 上海携程国际旅行社有限公司 | 音频语料自动标注方法、系统、介质和电子设备 |
CN111370030A (zh) * | 2020-04-03 | 2020-07-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音情感检测方法与装置、存储介质、电子设备 |
CN112002317B (zh) * | 2020-07-31 | 2023-11-14 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN113409805A (zh) * | 2020-11-02 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 人机交互方法、装置、存储介质及终端设备 |
CN113409805B (zh) * | 2020-11-02 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 人机交互方法、装置、存储介质及终端设备 |
CN112750464A (zh) * | 2020-12-25 | 2021-05-04 | 深圳米唐科技有限公司 | 基于多传感器的人体发声状态检测方法、系统及存储介质 |
CN113643711A (zh) * | 2021-08-03 | 2021-11-12 | 常州匠心独具智能家居股份有限公司 | 用于智能家具的基于离线模式和在线模式的语音系统 |
CN113643711B (zh) * | 2021-08-03 | 2024-04-19 | 常州匠心独具智能家居股份有限公司 | 用于智能家具的基于离线模式和在线模式的语音系统 |
CN114875632B (zh) * | 2022-05-31 | 2023-08-22 | 四川虹美智能科技有限公司 | 智能烘洗控制方法及装置 |
CN114875632A (zh) * | 2022-05-31 | 2022-08-09 | 四川虹美智能科技有限公司 | 智能烘洗控制方法及装置 |
CN116580711B (zh) * | 2023-07-11 | 2023-09-29 | 北京探境科技有限公司 | 音频控制方法、装置、存储介质及电子设备 |
CN116580711A (zh) * | 2023-07-11 | 2023-08-11 | 北京探境科技有限公司 | 音频控制方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110265012A (zh) | 基于开源硬件可交互智能语音家居控制装置及控制方法 | |
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
US11195531B1 (en) | Accessory for a voice-controlled device | |
US11138977B1 (en) | Determining device groups | |
CN109074806A (zh) | 控制分布式音频输出以实现语音输出 | |
US9443527B1 (en) | Speech recognition capability generation and control | |
CN109949808A (zh) | 兼容普通话和方言的语音识别家电控制系统和方法 | |
CN109189980A (zh) | 与用户进行语音交互的方法和电子设备 | |
CN108281137A (zh) | 一种全音素框架下的通用语音唤醒识别方法及系统 | |
KR20030085584A (ko) | 암시적인 스피커 적응을 사용하는 음성 인식 시스템 | |
Caranica et al. | Speech recognition results for voice-controlled assistive applications | |
CN109887511A (zh) | 一种基于级联dnn的语音唤醒优化方法 | |
CN110956965A (zh) | 一种基于声纹识别的个性化智能家居安全控制系统及方法 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
WO2020233363A1 (zh) | 语音识别的方法、装置、电子设备和存储介质 | |
CN105788596A (zh) | 一种语音识别电视控制方法及系统 | |
CN109272991A (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN110383236A (zh) | 对主装置进行选择以实现同步音频 | |
US11067718B1 (en) | Aggregating sensor data for environment conditions | |
CN113393828A (zh) | 一种语音合成模型的训练方法、语音合成的方法及装置 | |
CN105700359A (zh) | 一种语音识别智能家居控制方法及系统 | |
US20240029743A1 (en) | Intermediate data for inter-device speech processing | |
CN209328511U (zh) | 一种便携式ai语音交互控制系统 | |
CN109240641A (zh) | 音效调整方法、装置、电子设备以及存储介质 | |
CN116343797A (zh) | 语音唤醒方法及相应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190920 |
|
RJ01 | Rejection of invention patent application after publication |