CN105788596A

CN105788596A - 一种语音识别电视控制方法及系统

Info

Publication number: CN105788596A
Application number: CN201410782641.7A
Authority: CN
Inventors: 崔红艳
Original assignee: SHANGHAI TVMINING CULTURE MEDIA Co Ltd
Current assignee: SHANGHAI TVMINING CULTURE MEDIA Co Ltd
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2016-07-20

Abstract

本发明公开了一种语音识别电视控制方法及系统，所述方法包括：语音识别模块接收用户语音指令，并解析得到控制信息；根据所述控制信息生成针对性控制指令；根据所述控制指令完成电视控制。本发明实施例中，通过语音识别来控制电视，完成智能电视的语音控制和操作，结合语音识别与智能电视遥控技术，极大的提高智能电视的用户体验。

Description

一种语音识别电视控制方法及系统

技术领域

本发明涉及互联网技术领域，特别涉及一种语音识别电视控制方法及系统。

背景技术

随着网络技术的发展，智能家居(英文：smarthome,homeautomation)是以住宅为平台，利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成，构建高效的住宅设施与家庭日程事务的管理系统，提升家居安全性、便利性、舒适性、艺术性，并实现环保节能的居住环境。

智能家居是在互联网的影响之下物联化体现。智能家居通过物联网技术将家中的各种设备(如音视频设备、照明系统、窗帘控制、空调控制、安防系统、数字影院系统、影音服务器、影柜系统、网络家电等)连接到一起，提供家电控制、照明控制、电话远程控制、室内外遥控、防盗报警、环境监测、暖通控制、红外转发以及可编程定时控制等多种功能和手段。与普通家居相比，智能家居不仅具有传统的居住功能，兼备建筑、网络通信、信息家电、设备自动化，集系统、结构、服务、管理为一体的高效、舒适、安全、便利、环保的居住环境，提供全方位的信息交互功能。帮助家庭与外部保持信息交流畅通，优化人们的生活方式，帮助人们有效安排时间，增强家居生活的安全性，甚至为各种能源费用节约资金。

智能家居中很重要的一部分就是电视，目前的电视可以实现智能控制和远程、近程的遥控。

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。

现有技术中，随着智能电视的发展，现有对智能电视的控制都是通过手动或者遥控的方式进行，或者由电视自行根据预先设定的程序自行启动。这远不能满足人们对于智能家电的需求。亟需要一种安全方便的可以对电视进行控制的方案，以解决现有技术电视控制不方便的问题。

发明内容

本发明提供一种语音识别电视控制方法及系统，用以解决现有技术中语音识别电视控制用户体验差的问题。

一种语音识别电视控制方法，包括如下步骤：

语音识别模块接收用户语音指令，并解析得到控制信息；

根据所述控制信息生成针对性控制指令；

根据所述控制指令完成电视控制。

所述方法还包括：

预先存储用户的语音信息；

将接收到的用户语音指令与所述语音信息比对，得到对应的语音信息；

根据所述对应的语音信息得到控制信息。

所述方法还包括：

所述语音识别模块将控制信息转换为串口控制命令，并通过串口控制器将串口控制命令发送控制主机；

控制主机根据所述串口控制命令得到所述控制信息。

所述方法还包括：

所述控制主机发送控制命令给路由器或交换机；

所述路由器或交换机转发所述控制命令给电视。

所述方法还包括：

用户通过网络终端登录所述电视提供的控制界面，通过所述控制界面发送用户语音指令给所述语音识别模块，所述语音识别模块将解析得到的控制指令发送给电视；

所述电视接收所述控制指令并根据所述控制指令进行控制。

所述方法还包括：

所述路由器或交换机为无线路由器或交换机。

一种语音识别电视控制系统，包括：

语音识别模块，用于接收用户语音指令，并解析得到控制信息；

控制主机，用于根据所述控制信息生成针对性控制指令；

电视，用于根据所述控制指令执行相应操作。

所述系统还包括串口控制器，用于接收所述语音识别模块发送的串口控制命令并转发给所述控制主机；

所述语音识别模块还用于将控制信息转换为串口控制命令并发送所述串口控制器。

所述系统还包括路由交换模块，用于接收所述控制主机发送的控制命令并转发给所述电视；

所述控制主机还用于发送控制命令给所述路由交换模块。

所述语音识别模块还用于预先存储用户的语音信息；

根据所述对应的语音信息得到控制信息。

本发明实施例中，语音识别模块接收用户语音指令，并解析得到控制信息；根据所述控制信息生成针对性控制指令；根据所述控制指令完成电视控制。本发明实施例中，通过语音识别来控制电视，完成智能电视的语音控制和操作，结合语音识别与智能电视遥控技术，极大的提高智能电视的用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1提供的一种语音识别电视控制方法原理流程图；

图2为本发明实施例2提供的一种语音识别电视控制系统结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，为本发明实施例1提供的一种语音识别电视控制方法原理流程图，其中，

步骤11，语音识别模块接收用户语音指令，并解析得到控制信息。

语音识别模块主要的功用在于接受用户发出的语音指令，将该语音指令发送控制主机。语音识别模块与现有的语音识别技术相关，主要是获取并解析用户的语音指令，经过解码降噪等处理后，得到准确的语音指令，然后转发控制主机。

语音识别技术，也被称为自动语音识别AutomaticSpeechRecognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

一个完整的基于统计的语音识别系统可大致分为三部分：

语音信号预处理与特征提取。选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息；而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性(Robustness)。

声学模型与模式匹配。声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较，得到最佳的识别结果。

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

以汉语为例：汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种，按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时，将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词，最后再由词构成句子。汉语声母共有22个，其中包括零声母，韵母共有38个。按音素分类，汉语辅音共有22个，单元音13个，复元音13个，复鼻尾音16个。

目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。

基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B)，涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

语言模型与语言处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

基于语音学和声学的方法。该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：

第一步，分段和标号。把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号

第二步，得到词序列。根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

模板匹配的方法。模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

动态时间规整(DTW)。语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

隐马尔可夫法(HMM)。隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

矢量量化(VQ)。矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

神经网络的方法。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。

由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

由于语音识别的技术在不断的发展完善中，本实施例中，仅能够通过语音识别模块准确识别用户语音指令即可，对具体的语音识别的技术选择不做限定。

实际上，语音识别模块可以预先存储用户的语音信息；将接收到的用户语音指令与所述语音信息比对，得到对应的语音信息；根据所述对应的语音信息得到控制信息。

步骤12，根据控制信息生成针对性控制指令。

这一步骤可以通过控制主机完成。控制主机是系统比较重要的控制部分，主要作用在于对整个系统的实际控制。因而，控制主机在接收到语音指令后，需要对语音指令进行解析，得到准确的语音指令的内容。或者，可以理解为将用户的语音指令解析为实际的电子指令消息，生成控制命令，将控制命令发送给电视。

实际上，对于语音指令的解析，可以是控制主机完成，也可以是语音识别模块完成。语音识别模块完成时，由语音识别模块解析用户语音指令并得到控制信息，将控制信息发送给控制主机，控制主机针对性的生成控制指令。

实际上，语音识别模块可以将控制信息转换为串口控制命令，并通过串口控制器将串口控制命令发送控制主机；控制主机根据所述串口控制命令得到所述控制信息。

步骤13，根据控制指令完成电视控制。

电视接收到控制命令后，根据控制命令执行相应的操作。

实际上，为了更好的连接控制主机和语音识别模块，还需要一个串口控制器，语音识别模块将用户语音指令解析得到的控制信息转换为串口控制命令，并通过串口控制器将串口控制命令发送控制主机；控制主机根据所述串口控制命令得到所述语音指令对应的控制信息，并生成针对性控制指令。

进一步的，控制主机和继电器之间需要通过路由器或交换机连接。控制主机发送控制命令给路由器或交换机；路由器或交换机转发所述控制命令给电视。

控制主机通常需要提供一个控制界面，供用户进行控制选择。用户通过网络终端登录所述控制主机提供的控制界面，通过所述控制界面发送控制指令给控制主机；控制主机接收所述控制指令并解析得到控制命令。

这里的控制主机通常为linux控制主机，也就是linux系统的服务器或者计算机作为控制主机。而为了系统连接方便，通常路由器或交换机为无线路由器或交换机。

实际上，本实施例提供的方案需要一个整体的系统，完整的系统包括语音识别模块、控制主机、串口控制器、交换机/路由器、电视，各个装置之间通过无线连接。语音识别模块接收用户语音指令并解析得到控制信息，通过串口控制器发送给控制主机，控制主机将所述控制信息转换为相应的控制命令，通过交换机/路由器发送给电视，进行相应的控制。

如图2所示，为本发明实施例2提供的语音识别电视控制系统，包括：

语音识别模块31，用于接收用户语音指令，并解析得到控制信息。

语音识别模块31还用于预先存储用户的语音信息；将接收到的用户语音指令与所述语音信息比对，得到对应的语音信息；根据所述对应的语音信息得到控制信息。

控制主机32，用于根据所述控制信息生成针对性控制指令。

控制主机32还用于提供的控制界面，用户通过网络终端登录控制界面并发送控制指令；

控制主机32接收控制指令并解析得到控制命令。

电视33，用于根据所述控制指令执行相应操作。

系统还包括串口控制器34，用于接收语音识别模块31发送的串口控制命令并转发给控制主机32；

语音识别模块31还用于将用户指令转换为串口控制命令并发送串口控制器34。

系统还包括路由交换模块35，用于接收控制主机32发送的控制命令并转发给电视33；

控制主机32还用于发送控制命令给路由交换模块35。

综上所述，本发明实施例中，语音识别模块接收用户语音指令，并解析得到控制信息；根据所述控制信息生成针对性控制指令；根据所述控制指令完成电视控制。本发明实施例中，通过语音识别来控制电视，完成智能电视的语音控制和操作，结合语音识别与智能电视遥控技术，极大的提高智能电视的用户体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别电视控制方法，其特征在于，包括如下步骤：

语音识别模块接收用户语音指令，并解析得到控制信息；

根据所述控制信息生成针对性控制指令；

根据所述控制指令完成电视控制。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

预先存储用户的语音信息；

根据所述对应的语音信息得到控制信息。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

控制主机根据所述串口控制命令得到所述控制信息。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述控制主机发送控制命令给路由器或交换机；

所述路由器或交换机转发所述控制命令给电视。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

用户通过网络终端登录所述控制主机提供的控制界面，通过所述控制界面发送用户语音指令给所述语音识别模块，所述语音识别模块将解析得到的控制指令发送给控制主机；

所述控制主机接收所述控制指令并根据所述控制指令进行控制。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述路由器或交换机为无线路由器或交换机。

7.一种语音识别电视控制系统，其特征在于，包括：

控制主机，用于根据所述控制信息生成针对性控制指令；

电视，用于根据所述控制指令执行相应操作。

8.如权利要求7所述的系统，其特征在于，所述系统还包括串口控制器，用于接收所述语音识别模块发送的串口控制命令并转发给所述控制主机；

9.如权利要求7所述的系统，其特征在于，所述系统还包括路由交换模块，用于接收所述控制主机发送的控制命令并转发给所述电视；

所述控制主机还用于发送控制命令给所述路由交换模块。

10.如权利要求7所述的系统，其特征在于，所述语音识别模块还用于预先存储用户的语音信息；

根据所述对应的语音信息得到控制信息。