CN107993660A - 用于物联网智能控制系统的语音控制系统 - Google Patents
用于物联网智能控制系统的语音控制系统 Download PDFInfo
- Publication number
- CN107993660A CN107993660A CN201711428162.5A CN201711428162A CN107993660A CN 107993660 A CN107993660 A CN 107993660A CN 201711428162 A CN201711428162 A CN 201711428162A CN 107993660 A CN107993660 A CN 107993660A
- Authority
- CN
- China
- Prior art keywords
- control system
- language
- voice
- speech
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 12
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 210000002569 neuron Anatomy 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000004378 air conditioning Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了用于物联网智能控制系统的语音控制系统,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,智能语音识别单元将语音转化为文本信息,语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块。本发明使语音识别更加精准、高效。
Description
技术领域
本发明涉及语音控制系统的应用领域,特别涉及一种用于物联网智能控制系统的语音控制系统。
背景技术
目前,语音识别是研究如何将人类说话的声音转换为文本的技术,可以实现人机交互,当今人类的日常生活中,手机电脑等各种小型设备得到了广泛的应用,各种传统家电也开使与人工智能相结合,从而开启了智能家电的新篇章。
早期的语音识别是从孤立词,关键词识别开始的,DTW(Dynamic Time Warping)和LPC(Linear predictive coding)等方法是早期比较主流的方法。随着研究的进一步发展,HMM(Hidden Markov Model)为大规模连续语音识别的实现提供了可能。
尽管HMM以及HMM-高斯混合模型(Gaussian Mixture Model)在语音识别上的应用对语音识别技术的发展贡献很大,但是目前仍存在许多问题,对于在静音环境下正常录制的语音,当前主流语音识别系统的识别率,可以接近人类进行仍语音识别的精准程度。
然而在实际应用下,语音中很容易混淆噪声,回声等,这些都导致语音识别系统性能的急剧下降,所以,如何提高语音识别的识别率是语音识别研究领域的一个非常重要的课题。
同时,随着全球化的发展,多种语言音声识别以及音声对话被广泛关注,在此,识别入力声音为何种语言的识别技术也尤为重要。
在此,本产品应用基于DNN(Deep Neural Network)的声学模型,大幅度提高了识别率,使得各国家的用户可以舒适准确的使用此产品。
发明内容
为解决上述背景技术中存在的问题,本发明的目的在于提供一种用于物联网智能控制系统的语音控制系统,以达到使语音识别更加精准、高效的目的。
为达到上述目的,本发明的技术方案如下:
用于物联网智能控制系统的语音控制系统,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,所述智能语音识别单元将语音转化为文本信息,所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,所述语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块,所述特征提取模块将声音信号转换为频域,并为声学模型模块提取特征向量,所述声学模型模块根据声学特性为输入计算一个声学模型的分数,所述语言模型模块计算一句话对应的词序列,所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息,并将输入的特征详情所对应的词序列进行输出,所述外部选配设备均为通过语音直接控制的设备。
优选的,所述外部选配设备包括空调、电视、窗帘、安防设备,其上均设置有集成的温湿度传感器、光感应器、人体传感器。
优选的,所述智能语音识别单元基于DNN的语音识别。
优选的,所述DNN为前进型神经网络,设短时间音频单元的声学特征量为x,语言l的后验概率直接推定DNN模型,其中,y代表DNN的参数,第j个神经元的入力值为z,出力于以下公式定义
运用softmax函数作为激励函数,出力层各神经元对应各个语言的标签,这时语言l的后验概率可由定义为如下公式
在此,为l对应节点的参数,DNN是通过学习所有层的所有神经元的权重参数决定的。
通过上述技术方案,本发明提供的用于物联网智能控制系统的语音控制系统,可根据客户的需求进行搭配,不仅降低了成本,还提高了语音的识别率,实现高精度的语音识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的结构示意图;
图2为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的结构示意图;
图3为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的示意图;
图4为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的的框架示意图;
图5为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的外部选配设备的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供的用于物联网智能控制系统的语音控制系统,如图1-5所示,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,所述智能语音识别单元基于DNN的语音识别,其将语音转化为文本信息,所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,所述语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块,所述特征提取模块将声音信号转换为频域,常见的方法有MFCC等,并为声学模型模块提取特征向量,所述声学模型模块根据声学特性为输入计算一个声学模型的分数,所述语言模型模块计算一句话对应的词序列,所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息,并将输入的特征详情所对应的词序列进行输出,所述外部选配设备均为通过语音直接控制的设备,所述外部选配设备包括空调、电视、窗帘、安防设备,其上均设置有集成的温湿度传感器、光感应器、人体传感器。
特征提取模块是语音识别系统的第一部分,接受最原始的音频信号,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。
声学模型模块以特征提取部分生成的特征为输入,为可变长特征序列生成声学模型分数。
语言模型模块估计通过训练语料学习词与词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数。如果了解领域或任务相关的先验知识,语言模型的分数通常可以估计的更准确。
解码模块搜索综合声学模型分数与语言模型分数的结果,将总体输出分数最高的词序列当做识别结果。
所述DNN为前进型神经网络,设短时间音频单元的声学特征量为x,语言l的后验概率直接推定DNN模型,其中,y代表DNN的参数,第j个神经元的入力值为z,出力于以下公式定义
运用softmax函数作为激励函数,出力层各神经元对应各个语言的标签,这时语言l的后验概率可由定义为如下公式
在此,为l对应节点的参数,DNN是通过学习所有层的所有神经元的权重参数决定的。
将用已有方法得出的DNN后验概率离散,对于每种语言的离散系列进行建模,从而实现高精度的语言识别。
设为第k帧的后验概率分布,DNN后验概率系列P=变换为离散系列S= ,用k-means聚类进行离散系列。
取向量集合中指定数量的centroid(代表向量)进行训练,设所求T个centroid为,则利用centroid的DNN后验概率的离散化遵循以下公式
在此,D表示2向量间的Euclid距离。即此处理为各后验概率centroid的序号离散。
为检测上述的有效性,使用了多语言声音数据库Globalphone进行评价。Globalphone数据库为各国语言的native speakers的录音。本发明相对于现有方法的语音识别的精准度,有了大幅度的改善,并且通过对各种语言建模的方法,提高了多语言的识别度。
本发明公开的用于物联网智能控制系统的语音控制系统,可根据客户的需求进行搭配,不仅降低了成本,还提高了语音的识别率,实现高精度的语音识别。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.用于物联网智能控制系统的语音控制系统,其特征在于,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,所述智能语音识别单元将语音转化为文本信息,所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,所述语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块,所述特征提取模块将声音信号转换为频域,并为声学模型模块提取特征向量,所述声学模型模块根据声学特性为输入计算一个声学模型的分数,所述语言模型模块计算一句话对应的词序列,所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息,并将输入的特征详情所对应的词序列进行输出,所述外部选配设备均为通过语音直接控制的设备。
2.根据权利要求1所述的用于物联网智能控制系统的语音控制系统,其特征在于,所述外部选配设备包括空调、电视、窗帘、安防设备,其上均设置有集成的温湿度传感器、光感应器、人体传感器。
3.根据权利要求1所述的用于物联网智能控制系统的语音控制系统,其特征在于,所述智能语音识别单元基于DNN的语音识别。
4.根据权利要求3所述的用于物联网智能控制系统的语音控制系统,其特征在于,所述DNN为前进型神经网络,设短时间音频单元的声学特征量为x,语言l的后验概率直接推定DNN模型,其中,y代表DNN的参数,第j个神经元的入力值为z,出力于以下公式定义
运用softmax函数作为激励函数,出力层各神经元对应各个语言的标签,这时语言l的后验概率可由定义为如下公式
在此,为l对应节点的参数,DNN是通过学习所有层的所有神经元的权重参数决定的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711428162.5A CN107993660A (zh) | 2017-12-26 | 2017-12-26 | 用于物联网智能控制系统的语音控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711428162.5A CN107993660A (zh) | 2017-12-26 | 2017-12-26 | 用于物联网智能控制系统的语音控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107993660A true CN107993660A (zh) | 2018-05-04 |
Family
ID=62042736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711428162.5A Pending CN107993660A (zh) | 2017-12-26 | 2017-12-26 | 用于物联网智能控制系统的语音控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107993660A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410911A (zh) * | 2018-09-13 | 2019-03-01 | 何艳玲 | 基于语音识别的人工智能学习方法 |
CN110501918A (zh) * | 2019-09-10 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
CN111443613A (zh) * | 2020-03-27 | 2020-07-24 | 珠海格力电器股份有限公司 | 一种电器设备的控制方法、装置、存储介质及电器设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
CN105137828A (zh) * | 2015-07-31 | 2015-12-09 | 佛山市父母通智能机器人有限公司 | 一种基于物联网的老人智能生活自助系统 |
CN105185378A (zh) * | 2015-10-20 | 2015-12-23 | 珠海格力电器股份有限公司 | 声控方法、声控系统及能够进行声控的空调 |
CN105847099A (zh) * | 2016-05-30 | 2016-08-10 | 北京百度网讯科技有限公司 | 基于人工智能的物联网实现系统和方法 |
US20170070478A1 (en) * | 2015-09-09 | 2017-03-09 | Samsung Electronics Co., Ltd. | Nickname management method and apparatus |
-
2017
- 2017-12-26 CN CN201711428162.5A patent/CN107993660A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
CN105137828A (zh) * | 2015-07-31 | 2015-12-09 | 佛山市父母通智能机器人有限公司 | 一种基于物联网的老人智能生活自助系统 |
US20170070478A1 (en) * | 2015-09-09 | 2017-03-09 | Samsung Electronics Co., Ltd. | Nickname management method and apparatus |
CN105185378A (zh) * | 2015-10-20 | 2015-12-23 | 珠海格力电器股份有限公司 | 声控方法、声控系统及能够进行声控的空调 |
CN105847099A (zh) * | 2016-05-30 | 2016-08-10 | 北京百度网讯科技有限公司 | 基于人工智能的物联网实现系统和方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410911A (zh) * | 2018-09-13 | 2019-03-01 | 何艳玲 | 基于语音识别的人工智能学习方法 |
CN110501918A (zh) * | 2019-09-10 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
CN110501918B (zh) * | 2019-09-10 | 2022-10-11 | 百度在线网络技术(北京)有限公司 | 智能家电控制方法、装置、电子设备和存储介质 |
CN111443613A (zh) * | 2020-03-27 | 2020-07-24 | 珠海格力电器股份有限公司 | 一种电器设备的控制方法、装置、存储介质及电器设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Spontaneous speech emotion recognition using multiscale deep convolutional LSTM | |
CN109196495B (zh) | 用于细粒度自然语言理解的系统和方法 | |
CN107329996B (zh) | 一种基于模糊神经网络的聊天机器人系统与聊天方法 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
CN109155132A (zh) | 说话者验证方法和系统 | |
CN106463113A (zh) | 在语音辨识中预测发音 | |
Caranica et al. | Speech recognition results for voice-controlled assistive applications | |
Tao et al. | An ensemble framework of voice-based emotion recognition system for films and TV programs | |
Kadyan et al. | A heterogeneous speech feature vectors generation approach with hybrid hmm classifiers | |
Lee et al. | Personalizing recurrent-neural-network-based language model by social network | |
CN107993660A (zh) | 用于物联网智能控制系统的语音控制系统 | |
Baljekar | Speech synthesis from found data | |
Deekshitha et al. | Multilingual spoken term detection: a review | |
Huang et al. | Novel sub-band spectral centroid weighted wavelet packet features with importance-weighted support vector machines for robust speech emotion recognition | |
WO2023154427A1 (en) | Voice adaptation using synthetic speech processing | |
JP5723711B2 (ja) | 音声認識装置および音声認識プログラム | |
Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
Hou et al. | Domain adversarial training for improving keyword spotting performance of esl speech | |
CN107507627B (zh) | 语音数据热度分析方法及系统 | |
Chen et al. | Integrated expression prediction and speech synthesis from text | |
Katuri et al. | Conversion of Acoustic Signal (Speech) Into Text By Digital Filter using Natural Language Processing | |
CN116564330A (zh) | 弱监督语音预训练方法、电子设备和存储介质 | |
Desot et al. | Corpus generation for voice command in smart home and the effect of speech synthesis on End-to-End SLU | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
Song et al. | Multimodal Sentiment Analysis Based on Pre-LN Transformer Interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190116 Address after: 215500 No. 98 Huangpujiang Road, Changshu High-tech Industrial Development Zone, Suzhou City, Jiangsu Province Applicant after: Jiangsu Dalen Electronic Co., Ltd. Address before: 215500 No. 8, Jindu Road, Changshu High-tech Industrial Development Zone, Suzhou City, Jiangsu Province Applicant before: Jiangsu smart Polytron Technologies Inc |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180504 |