CN107993660A - 用于物联网智能控制系统的语音控制系统 - Google Patents

用于物联网智能控制系统的语音控制系统 Download PDF

Info

Publication number
CN107993660A
CN107993660A CN201711428162.5A CN201711428162A CN107993660A CN 107993660 A CN107993660 A CN 107993660A CN 201711428162 A CN201711428162 A CN 201711428162A CN 107993660 A CN107993660 A CN 107993660A
Authority
CN
China
Prior art keywords
control system
language
voice
speech
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711428162.5A
Other languages
English (en)
Inventor
张萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Dalen Electronic Co Ltd
Original Assignee
Jiangsu Smart Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Smart Polytron Technologies Inc filed Critical Jiangsu Smart Polytron Technologies Inc
Priority to CN201711428162.5A priority Critical patent/CN107993660A/zh
Publication of CN107993660A publication Critical patent/CN107993660A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了用于物联网智能控制系统的语音控制系统,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,智能语音识别单元将语音转化为文本信息,语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块。本发明使语音识别更加精准、高效。

Description

用于物联网智能控制系统的语音控制系统
技术领域
本发明涉及语音控制系统的应用领域,特别涉及一种用于物联网智能控制系统的语音控制系统。
背景技术
目前,语音识别是研究如何将人类说话的声音转换为文本的技术,可以实现人机交互,当今人类的日常生活中,手机电脑等各种小型设备得到了广泛的应用,各种传统家电也开使与人工智能相结合,从而开启了智能家电的新篇章。
早期的语音识别是从孤立词,关键词识别开始的,DTW(Dynamic Time Warping)和LPC(Linear predictive coding)等方法是早期比较主流的方法。随着研究的进一步发展,HMM(Hidden Markov Model)为大规模连续语音识别的实现提供了可能。
尽管HMM以及HMM-高斯混合模型(Gaussian Mixture Model)在语音识别上的应用对语音识别技术的发展贡献很大,但是目前仍存在许多问题,对于在静音环境下正常录制的语音,当前主流语音识别系统的识别率,可以接近人类进行仍语音识别的精准程度。
然而在实际应用下,语音中很容易混淆噪声,回声等,这些都导致语音识别系统性能的急剧下降,所以,如何提高语音识别的识别率是语音识别研究领域的一个非常重要的课题。
同时,随着全球化的发展,多种语言音声识别以及音声对话被广泛关注,在此,识别入力声音为何种语言的识别技术也尤为重要。
在此,本产品应用基于DNN(Deep Neural Network)的声学模型,大幅度提高了识别率,使得各国家的用户可以舒适准确的使用此产品。
发明内容
为解决上述背景技术中存在的问题,本发明的目的在于提供一种用于物联网智能控制系统的语音控制系统,以达到使语音识别更加精准、高效的目的。
为达到上述目的,本发明的技术方案如下:
用于物联网智能控制系统的语音控制系统,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,所述智能语音识别单元将语音转化为文本信息,所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,所述语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块,所述特征提取模块将声音信号转换为频域,并为声学模型模块提取特征向量,所述声学模型模块根据声学特性为输入计算一个声学模型的分数,所述语言模型模块计算一句话对应的词序列,所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息,并将输入的特征详情所对应的词序列进行输出,所述外部选配设备均为通过语音直接控制的设备。
优选的,所述外部选配设备包括空调、电视、窗帘、安防设备,其上均设置有集成的温湿度传感器、光感应器、人体传感器。
优选的,所述智能语音识别单元基于DNN的语音识别。
优选的,所述DNN为前进型神经网络,设短时间音频单元的声学特征量为x,语言l的后验概率直接推定DNN模型,其中,y代表DNN的参数,第j个神经元的入力值为z,出力于以下公式定义
运用softmax函数作为激励函数,出力层各神经元对应各个语言的标签,这时语言l的后验概率可由定义为如下公式
在此,为l对应节点的参数,DNN是通过学习所有层的所有神经元的权重参数决定的。
通过上述技术方案,本发明提供的用于物联网智能控制系统的语音控制系统,可根据客户的需求进行搭配,不仅降低了成本,还提高了语音的识别率,实现高精度的语音识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的结构示意图;
图2为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的结构示意图;
图3为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的示意图;
图4为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的智能语音识别单元的的框架示意图;
图5为本发明实施例所公开的用于物联网智能控制系统的语音控制系统的外部选配设备的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供的用于物联网智能控制系统的语音控制系统,如图1-5所示,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,所述智能语音识别单元基于DNN的语音识别,其将语音转化为文本信息,所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,所述语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块,所述特征提取模块将声音信号转换为频域,常见的方法有MFCC等,并为声学模型模块提取特征向量,所述声学模型模块根据声学特性为输入计算一个声学模型的分数,所述语言模型模块计算一句话对应的词序列,所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息,并将输入的特征详情所对应的词序列进行输出,所述外部选配设备均为通过语音直接控制的设备,所述外部选配设备包括空调、电视、窗帘、安防设备,其上均设置有集成的温湿度传感器、光感应器、人体传感器。
特征提取模块是语音识别系统的第一部分,接受最原始的音频信号,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。
声学模型模块以特征提取部分生成的特征为输入,为可变长特征序列生成声学模型分数。
语言模型模块估计通过训练语料学习词与词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数。如果了解领域或任务相关的先验知识,语言模型的分数通常可以估计的更准确。
解码模块搜索综合声学模型分数与语言模型分数的结果,将总体输出分数最高的词序列当做识别结果。
所述DNN为前进型神经网络,设短时间音频单元的声学特征量为x,语言l的后验概率直接推定DNN模型,其中,y代表DNN的参数,第j个神经元的入力值为z,出力于以下公式定义
运用softmax函数作为激励函数,出力层各神经元对应各个语言的标签,这时语言l的后验概率可由定义为如下公式
在此,为l对应节点的参数,DNN是通过学习所有层的所有神经元的权重参数决定的。
将用已有方法得出的DNN后验概率离散,对于每种语言的离散系列进行建模,从而实现高精度的语言识别。
为第k帧的后验概率分布,DNN后验概率系列P=变换为离散系列S= ,用k-means聚类进行离散系列。
取向量集合中指定数量的centroid(代表向量)进行训练,设所求T个centroid为,则利用centroid的DNN后验概率的离散化遵循以下公式
在此,D表示2向量间的Euclid距离。即此处理为各后验概率centroid的序号离散。
为检测上述的有效性,使用了多语言声音数据库Globalphone进行评价。Globalphone数据库为各国语言的native speakers的录音。本发明相对于现有方法的语音识别的精准度,有了大幅度的改善,并且通过对各种语言建模的方法,提高了多语言的识别度。
本发明公开的用于物联网智能控制系统的语音控制系统,可根据客户的需求进行搭配,不仅降低了成本,还提高了语音的识别率,实现高精度的语音识别。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.用于物联网智能控制系统的语音控制系统,其特征在于,包括依次通讯连接的智能语音识别单元、语音合成单元、语音播放单元和外部选配设备,所述智能语音识别单元将语音转化为文本信息,所述语音合成单元提取用户语音的语义信息及文字信息再转化为语音信息,所述语音播放单元将语音合成单元转化的语音信息进行播放,进而完成对外部选配设备进行动作的控制,所述智能语音识别单元包括特征提取模块、声学模型模块、语言模型模块和解码模块,所述特征提取模块将声音信号转换为频域,并为声学模型模块提取特征向量,所述声学模型模块根据声学特性为输入计算一个声学模型的分数,所述语言模型模块计算一句话对应的词序列,所述解码模块组合了声学模型模块、语言模型模块和词序列表的信息,并将输入的特征详情所对应的词序列进行输出,所述外部选配设备均为通过语音直接控制的设备。
2.根据权利要求1所述的用于物联网智能控制系统的语音控制系统,其特征在于,所述外部选配设备包括空调、电视、窗帘、安防设备,其上均设置有集成的温湿度传感器、光感应器、人体传感器。
3.根据权利要求1所述的用于物联网智能控制系统的语音控制系统,其特征在于,所述智能语音识别单元基于DNN的语音识别。
4.根据权利要求3所述的用于物联网智能控制系统的语音控制系统,其特征在于,所述DNN为前进型神经网络,设短时间音频单元的声学特征量为x,语言l的后验概率直接推定DNN模型,其中,y代表DNN的参数,第j个神经元的入力值为z,出力于以下公式定义
运用softmax函数作为激励函数,出力层各神经元对应各个语言的标签,这时语言l的后验概率可由定义为如下公式
在此,为l对应节点的参数,DNN是通过学习所有层的所有神经元的权重参数决定的。
CN201711428162.5A 2017-12-26 2017-12-26 用于物联网智能控制系统的语音控制系统 Pending CN107993660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711428162.5A CN107993660A (zh) 2017-12-26 2017-12-26 用于物联网智能控制系统的语音控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711428162.5A CN107993660A (zh) 2017-12-26 2017-12-26 用于物联网智能控制系统的语音控制系统

Publications (1)

Publication Number Publication Date
CN107993660A true CN107993660A (zh) 2018-05-04

Family

ID=62042736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711428162.5A Pending CN107993660A (zh) 2017-12-26 2017-12-26 用于物联网智能控制系统的语音控制系统

Country Status (1)

Country Link
CN (1) CN107993660A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410911A (zh) * 2018-09-13 2019-03-01 何艳玲 基于语音识别的人工智能学习方法
CN110501918A (zh) * 2019-09-10 2019-11-26 百度在线网络技术(北京)有限公司 智能家电控制方法、装置、电子设备和存储介质
CN111443613A (zh) * 2020-03-27 2020-07-24 珠海格力电器股份有限公司 一种电器设备的控制方法、装置、存储介质及电器设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN105137828A (zh) * 2015-07-31 2015-12-09 佛山市父母通智能机器人有限公司 一种基于物联网的老人智能生活自助系统
CN105185378A (zh) * 2015-10-20 2015-12-23 珠海格力电器股份有限公司 声控方法、声控系统及能够进行声控的空调
CN105847099A (zh) * 2016-05-30 2016-08-10 北京百度网讯科技有限公司 基于人工智能的物联网实现系统和方法
US20170070478A1 (en) * 2015-09-09 2017-03-09 Samsung Electronics Co., Ltd. Nickname management method and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN105137828A (zh) * 2015-07-31 2015-12-09 佛山市父母通智能机器人有限公司 一种基于物联网的老人智能生活自助系统
US20170070478A1 (en) * 2015-09-09 2017-03-09 Samsung Electronics Co., Ltd. Nickname management method and apparatus
CN105185378A (zh) * 2015-10-20 2015-12-23 珠海格力电器股份有限公司 声控方法、声控系统及能够进行声控的空调
CN105847099A (zh) * 2016-05-30 2016-08-10 北京百度网讯科技有限公司 基于人工智能的物联网实现系统和方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410911A (zh) * 2018-09-13 2019-03-01 何艳玲 基于语音识别的人工智能学习方法
CN110501918A (zh) * 2019-09-10 2019-11-26 百度在线网络技术(北京)有限公司 智能家电控制方法、装置、电子设备和存储介质
CN110501918B (zh) * 2019-09-10 2022-10-11 百度在线网络技术(北京)有限公司 智能家电控制方法、装置、电子设备和存储介质
CN111443613A (zh) * 2020-03-27 2020-07-24 珠海格力电器股份有限公司 一种电器设备的控制方法、装置、存储介质及电器设备

Similar Documents

Publication Publication Date Title
Zhang et al. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM
CN109196495B (zh) 用于细粒度自然语言理解的系统和方法
CN107329996B (zh) 一种基于模糊神经网络的聊天机器人系统与聊天方法
US9911413B1 (en) Neural latent variable model for spoken language understanding
CN109155132A (zh) 说话者验证方法和系统
CN106463113A (zh) 在语音辨识中预测发音
Caranica et al. Speech recognition results for voice-controlled assistive applications
Tao et al. An ensemble framework of voice-based emotion recognition system for films and TV programs
Kadyan et al. A heterogeneous speech feature vectors generation approach with hybrid hmm classifiers
Lee et al. Personalizing recurrent-neural-network-based language model by social network
CN107993660A (zh) 用于物联网智能控制系统的语音控制系统
Baljekar Speech synthesis from found data
Deekshitha et al. Multilingual spoken term detection: a review
Huang et al. Novel sub-band spectral centroid weighted wavelet packet features with importance-weighted support vector machines for robust speech emotion recognition
WO2023154427A1 (en) Voice adaptation using synthetic speech processing
JP5723711B2 (ja) 音声認識装置および音声認識プログラム
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
Hou et al. Domain adversarial training for improving keyword spotting performance of esl speech
CN107507627B (zh) 语音数据热度分析方法及系统
Chen et al. Integrated expression prediction and speech synthesis from text
Katuri et al. Conversion of Acoustic Signal (Speech) Into Text By Digital Filter using Natural Language Processing
CN116564330A (zh) 弱监督语音预训练方法、电子设备和存储介质
Desot et al. Corpus generation for voice command in smart home and the effect of speech synthesis on End-to-End SLU
Rabiee et al. Persian accents identification using an adaptive neural network
Song et al. Multimodal Sentiment Analysis Based on Pre-LN Transformer Interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190116

Address after: 215500 No. 98 Huangpujiang Road, Changshu High-tech Industrial Development Zone, Suzhou City, Jiangsu Province

Applicant after: Jiangsu Dalen Electronic Co., Ltd.

Address before: 215500 No. 8, Jindu Road, Changshu High-tech Industrial Development Zone, Suzhou City, Jiangsu Province

Applicant before: Jiangsu smart Polytron Technologies Inc

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180504