CN110060677A - 语音遥控器控制方法、装置及计算机可读存储介质 - Google Patents

语音遥控器控制方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110060677A
CN110060677A CN201910269154.3A CN201910269154A CN110060677A CN 110060677 A CN110060677 A CN 110060677A CN 201910269154 A CN201910269154 A CN 201910269154A CN 110060677 A CN110060677 A CN 110060677A
Authority
CN
China
Prior art keywords
voice
target
user
remote controller
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910269154.3A
Other languages
English (en)
Inventor
苏曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910269154.3A priority Critical patent/CN110060677A/zh
Publication of CN110060677A publication Critical patent/CN110060677A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本发明公开了一种语音遥控器控制方法,该方法包括:获取多个家居设备的语音控制指令样本;基于所述语音控制指令样本,训练语义指令识别模型;获取用户的目标语音信息;利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。本发明还提出一种语音遥控器控制装置以及一种计算机可读存储介质。本发明能实现语音指令控制取代了传统的按键形式的指令,提高了用户的便利性。

Description

语音遥控器控制方法、装置及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音遥控器控制方法、装置及计算机可读存储介质。
背景技术
目前市面上的万能遥控器,都是按键操作。不管是手机APP还是硬件万能遥控器。现有的智能语音遥控器,都对原有家电有要求,如固定品牌或者型号,采用统一标准接入。而且随着智能家居设备中使用各种复杂的功能,以及用户语音命令的数量增加,易于输入用户语音的万能遥控器处于高需求。
发明内容
本发明提供一种语音遥控器控制方法、装置及计算机可读存储介质,其主要目的在于实现遥控器能使用户输入语音指令控制家居设备,而且一个遥控器能控制多个家居设备,提高了用户的便利性。
为实现上述目的,本发明还提供一种语音遥控器控制方法,所述方法包括:
获取多个家居设备的语音控制指令样本;
基于所述语音控制指令样本,训练语义指令识别模型;
获取用户的目标语音信息;
利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;
根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;
利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
优选地,所述语音控制指令样本包括不同口音、不同年龄的用户发出的对不同的家居设备的多种语音控制指令的样本。
优选地,所述基于所述语音控制指令样本,训练语义指令识别模型包括:
提取语音控制指令样本中的每帧的语音的特征向量;
将每帧的语音的特征向量按时间的先后顺序首尾相连,构成一个一维向量;
基于一维卷积神经网络的卷积核在所述一维向量上的滑动,提取出语音控制指令样本的时间序列的短时特征;
再将短时特征经过池化处理,并通过迭代训练,会自动调节卷积神经网络的系数矩阵,直至达到训练停止条件,并得到训练好的语义指令识别模型。
优选地,所述获取用户的目标语音信息包括:
获取用户的原始语音信号;
对所述原始语音信号预处理,将预处理后的语音作为所述目标语音信息,所述预处理包括以下至少一种:对原始语音信号的预加重、对原始语音信号的分帧和对原始语音信号的加窗。
优选地,所述存储器还存储有等待识别的语音和等待执行的命令,并以二维数组来存储等待识别的语音和等待执行的命令。
优选地,所述方法还包括:
在接收到语音识别失败的指令时,提示用户通过所述遥控器的按键控制所述目标家居设备;
接收用户按压所述按键所触发的目标信号;
根据所述目标信号发送至所述目标家居设备以控制所述目标家居设备。
为实现上述目的,本发明还提供一种语音遥控器控制装置,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的语音遥控器控制程序,所述语音遥控器控制程序被所述处理器执行时实现如下步骤:
获取多个家居设备的语音控制指令样本;
基于所述语音控制指令样本,训练语义指令识别模型;
获取用户的目标语音信息;
利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;
根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;
利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
优选地,所述语音控制指令样本包括不同口音、不同年龄的用户发出的对不同的家居设备的多种语音控制指令的样本。
优选地,所述基于所述语音控制指令样本,训练语义指令识别模型包括:
提取语音控制指令样本中的每帧的语音的特征向量;
将每帧的语音的特征向量按时间的先后顺序首尾相连,构成一个一维向量;
基于一维卷积神经网络的卷积核在所述一维向量上的滑动,提取出语音控制指令样本的时间序列的短时特征;
再将短时特征经过池化处理,并通过迭代训练,会自动调节卷积神经网络的系数矩阵,直至达到训练停止条件,并得到训练好的语义指令识别模型。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音遥控器控制程序,所述语音遥控器控制程序可被一个或者多个处理器执行,以实现如上所述的语音遥控器控制方法的步骤。
本发明获取多个家居设备的语音控制指令样本;基于所述语音控制指令样本,训练语义指令识别模型;获取用户的目标语音信息;利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。本发明能实现语音指令控制取代了传统的按键形式的指令,方便了用户在不同场景的使用,而且一个遥控器能控制多个家居设备,提高了用户的便利性。
附图说明
图1为本发明一实施例提供的语音遥控器控制方法的流程示意图;
图2为本发明一实施例提供的语音遥控器控制装置的内部结构示意图;
图3为本发明一实施例提供的语音遥控器控制装置中语音遥控器控制程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种语音遥控器控制方法。参照图1所示,为本发明一实施例提供的语音遥控器控制方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,语音遥控器控制方法包括:
S10、获取多个家居设备的语音控制指令样本。
在本实施例中,所述语音控制指令样本包括不同口音、不同年龄的用户发出的对不同的家居设备的多种语音控制指令的样本。其中多种语音控制指令包括但不限于:打开冰箱,调换频道、关闭冰箱、关闭灯等等。
因为神经网络模型训练需要大量语音样本,采集不同口音、不同年龄的用户群体发出的对不同的家居设备的多种语音控制指令的样本,能提高模型训练的准确性。
S11、基于所述语音控制指令样本,训练语义指令识别模型。
在本实施例中,所述基于所述语音控制指令样本,训练语义指令识别模型包括:
提取语音控制指令样本中的每帧的语音的特征向量;
将每帧的语音的特征向量按时间的先后顺序首尾相连,构成一个一维向量;
基于一维卷积神经网络的卷积核在所述一维向量上的滑动,提取出语音控制指令样本的时间序列的短时特征;
再将短时特征经过池化处理,并通过迭代训练,会自动调节卷积神经网络的系数矩阵,直至达到训练停止条件,并得到训练好的语义指令识别模型。
其中为了准确的描述一段语音信息,使用特征向量来描述语音信息。在一具体实现中选用了梅尔频率倒谱系数MFCC作为描述语音的特征向量,在噪声环境下,其抗干扰能为强,可以很好的描绘语音特征。
在本实施例中,所述语义指令识别模型的训练过程主要包括:
(1)获取第一预设数量(例如,50万组)的训练数据。
(2)将所述第一预设数量的训练数据依次输入所述语义指令识别模型,利用预设的训练算法训练所述语义指令识别模型,并利用第二预设数量的训练数据校验训练后的语义指令识别模型。
在本实施例中,利用第二预设数量的训练数据校验训练后的语义指令识别模型,若训练后的语义指令识别模型的识别准确率大于或等于预设阈值(例如,95%),则训练完成,后续利用训练后的语义指令识别模型能从输入的用户语音中识别出用户的语义。
若训练后的语义指令识别模型的识别准确率小于预设阈值(例如,95%),则发出提醒信息,提醒用户增加样本数量重新按照上述步骤(1)-(2)训练所述语义指令识别模型。整个训练过程中,不需要任何人工的标注,分类等监督,完全由模型自主监督完成,省去和很多人力和时间。
S12、获取用户的目标语音信息。
在一实施例中,遥控器包括麦克风,利用麦克风收集语音所述目标语音信息为用户发出的语音用于控制智能家居的,例如打开冰箱等等。
在本实施例中,所述获取用户的目标语音信息包括:
获取用户的原始语音信号;
对所述原始语音信号预处理,将预处理后的语音作为所述目标语音信息,所述预处理包括以下至少一种:对原始语音信号的预加重、对原始语音信号的分帧和对原始语音信号的加窗。
为了降低语音中音调、噪音对识别的干扰,先得将收集的语音信号样本进行预处理。预处理分为三个小步骤:语音信号的预加重、语音信号的分帧和语音信号的加窗。
预加重处理能够提升语音的高频成分,使得语音信号的频谱更加平坦,所以在预处理中将预加重作为第一步。同时,预加重也是为了补偿语音信号受到发音系统所抑制的高频部分和突出高频的共振峰。
在对语音信号进行预计加重处理之后,为了保持每段语音内的平稳性,需要将语音信号进行分帧处理,此时语音信号会被拆分成若干段。(统一规定本方案中语音信号上连续的256个点为一帧,帧与帧之间有交叉重叠的区域。)
因为只能处理有限长度的语音信号,还需要将语音信号进行加窗处理。语音信号以时间长度T做截断得到分段的语音信号,这个过程就是加窗处理。
S13、利用所述语义指令识别模型,识别所述目标语音信息中的用户语义。其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义。
在本实施例中,将所述目标语音信息作为所述语义指令识别模型,并能得到所述目标语音信息中的用户语义,从而能准备识别用户的意图。
S14、根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令。
在本实施例中,存储器存储有每个家居设备的标识,及对应的多个红外指令。
在一实施例中,所述存储器还存储有等待识别的语音和等待执行的命令,并以二维数组来存储等待识别的语音和等待执行的命令。为了使遥控器更好的调控语音指令和红外指令。
S15、利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
在一实施例,所述方法还包括:
在接收到语音识别失败的指令时,提示用户通过所述遥控器的按键控制所述目标家居设备;
接收用户按压所述按键所触发的目标信号;
根据所述目标信号发送至所述目标家居设备以控制所述目标家居设备。
本发明获取多个家居设备的语音控制指令样本;基于所述语音控制指令样本,训练语义指令识别模型;获取用户的目标语音信息;利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。本发明能实现语音指令控制取代了传统的按键形式的指令,方便了用户在不同场景的使用,而且一个遥控器能控制多个家居设备,提高了用户的便利性。
本发明还提供一种语音遥控器控制装置。参照图2所示,为本发明一实施例提供的语音遥控器控制装置的内部结构示意图。
在本实施例中,语音遥控器控制装置1可以是个人电脑(Personal Computer,PC),也可以是智能手机、平板电脑、便携计算机等终端设备。该语音遥控器控制装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是语音遥控器控制装置1的内部存储单元,例如该语音遥控器控制装置1的硬盘。存储器11在另一些实施例中也可以是语音遥控器控制装置1的外部存储设备,例如语音遥控器控制装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括语音遥控器控制装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于语音遥控器控制装置1的应用软件及各类数据,例如语音遥控器控制程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行语音遥控器控制程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在语音遥控器控制装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及语音遥控器控制程序01的语音遥控器控制装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对语音遥控器控制装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有语音遥控器控制程序01;处理器12执行存储器11中存储的语音遥控器控制程序01时实现如下步骤:
获取多个家居设备的语音控制指令样本。
在本实施例中,所述语音控制指令样本包括不同口音、不同年龄的用户发出的对不同的家居设备的多种语音控制指令的样本。其中多种语音控制指令包括但不限于:打开冰箱,调换频道、关闭冰箱、关闭灯等等。
因为神经网络模型训练需要大量语音样本,采集不同口音、不同年龄的用户群体发出的对不同的家居设备的多种语音控制指令的样本,能提高模型训练的准确性。
基于所述语音控制指令样本,训练语义指令识别模型。
在本实施例中,所述基于所述语音控制指令样本,训练语义指令识别模型包括:
提取语音控制指令样本中的每帧的语音的特征向量;
将每帧的语音的特征向量按时间的先后顺序首尾相连,构成一个一维向量;
基于一维卷积神经网络的卷积核在所述一维向量上的滑动,提取出语音控制指令样本的时间序列的短时特征;
再将短时特征经过池化处理,并通过迭代训练,会自动调节卷积神经网络的系数矩阵,直至达到训练停止条件,并得到训练好的语义指令识别模型。
其中为了准确的描述一段语音信息,使用特征向量来描述语音信息。在一具体实现中选用了梅尔频率倒谱系数MFCC作为描述语音的特征向量,在噪声环境下,其抗干扰能为强,可以很好的描绘语音特征。
在本实施例中,所述语义指令识别模型的训练过程主要包括:
(1)获取第一预设数量(例如,50万组)的训练数据。
(2)将所述第一预设数量的训练数据依次输入所述语义指令识别模型,利用预设的训练算法训练所述语义指令识别模型,并利用第二预设数量的训练数据校验训练后的语义指令识别模型。
在本实施例中,利用第二预设数量的训练数据校验训练后的语义指令识别模型,若训练后的语义指令识别模型的识别准确率大于或等于预设阈值(例如,95%),则训练完成,后续利用训练后的语义指令识别模型能从输入的用户语音中识别出用户的语义。
若训练后的语义指令识别模型的识别准确率小于预设阈值(例如,95%),则发出提醒信息,提醒用户增加样本数量重新按照上述步骤(1)-(2)训练所述语义指令识别模型。整个训练过程中,不需要任何人工的标注,分类等监督,完全由模型自主监督完成,省去和很多人力和时间。
获取用户的目标语音信息。
在一实施例中,遥控器包括麦克风,利用麦克风收集语音所述目标语音信息为用户发出的语音用于控制智能家居的,例如打开冰箱等等。
在本实施例中,所述获取用户的目标语音信息包括:
获取用户的原始语音信号;
对所述原始语音信号预处理,将预处理后的语音作为所述目标语音信息,所述预处理包括以下至少一种:对原始语音信号的预加重、对原始语音信号的分帧和对原始语音信号的加窗。
为了降低语音中音调、噪音对识别的干扰,先得将收集的语音信号样本进行预处理。预处理分为三个小步骤:语音信号的预加重、语音信号的分帧和语音信号的加窗。
预加重处理能够提升语音的高频成分,使得语音信号的频谱更加平坦,所以在预处理中将预加重作为第一步。同时,预加重也是为了补偿语音信号受到发音系统所抑制的高频部分和突出高频的共振峰。
在对语音信号进行预计加重处理之后,为了保持每段语音内的平稳性,需要将语音信号进行分帧处理,此时语音信号会被拆分成若干段。(统一规定本方案中语音信号上连续的256个点为一帧,帧与帧之间有交叉重叠的区域。)
因为只能处理有限长度的语音信号,还需要将语音信号进行加窗处理。语音信号以时间长度T做截断得到分段的语音信号,这个过程就是加窗处理。
利用所述语义指令识别模型,识别所述目标语音信息中的用户语义。其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义。
在本实施例中,将所述目标语音信息作为所述语义指令识别模型,并能得到所述目标语音信息中的用户语义,从而能准备识别用户的意图。
根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令。
在本实施例中,存储器存储有每个家居设备的标识,及对应的多个红外指令。
在一实施例中,所述存储器还存储有等待识别的语音和等待执行的命令,并以二维数组来存储等待识别的语音和等待执行的命令。为了使遥控器更好的调控语音指令和红外指令。
利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
在一实施例,所述方法还包括:
在接收到语音识别失败的指令时,提示用户通过所述遥控器的按键控制所述目标家居设备;
接收用户按压所述按键所触发的目标信号;
根据所述目标信号发送至所述目标家居设备以控制所述目标家居设备。
本发明获取多个家居设备的语音控制指令样本;基于所述语音控制指令样本,训练语义指令识别模型;获取用户的目标语音信息;利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。本发明能实现语音指令控制取代了传统的按键形式的指令,方便了用户在不同场景的使用,而且一个遥控器能控制多个家居设备,提高了用户的便利性。
可选地,在其他实施例中,语音遥控器控制程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述语音遥控器控制程序在语音遥控器控制装置中的执行过程。
例如,参照图3所示,为本发明语音遥控器控制装置一实施例中的语音遥控器控制程序的程序模块示意图,该实施例中,语音遥控器控制程序可以被分割为获取模块10、训练模块20、识别模块30、读取模块40及发送模块50,示例性地:
获取模块10、获取多个家居设备的语音控制指令样本;
训练模块20、基于所述语音控制指令样本,训练语义指令识别模型;
所述获取模块10获取用户的目标语音信息;
识别模块30利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;
读取模块40根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;
发送模块50利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
上述获取模块10、训练模块20、识别模块30、读取模块40及发送模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音遥控器控制程序,所述语音遥控器控制程序可被一个或多个处理器执行,以实现如下操作:
获取多个家居设备的语音控制指令样本;
基于所述语音控制指令样本,训练语义指令识别模型;
获取用户的目标语音信息;
利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;
根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;
利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
本发明计算机可读存储介质具体实施方式与上述语音遥控器控制装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语音遥控器控制方法,其特征在于,所述方法包括:
获取多个家居设备的语音控制指令样本;
基于所述语音控制指令样本,训练语义指令识别模型;
获取用户的目标语音信息;
利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;
根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;
利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
2.如权利要求1所述的语音遥控器控制方法,其特征在于,所述语音控制指令样本包括不同口音、不同年龄的用户发出的对不同的家居设备的多种语音控制指令的样本。
3.如权利要求1所述的语音遥控器控制方法,其特征在于,所述基于所述语音控制指令样本,训练语义指令识别模型包括:
提取语音控制指令样本中的每帧的语音的特征向量;
将每帧的语音的特征向量按时间的先后顺序首尾相连,构成一个一维向量;
基于一维卷积神经网络的卷积核在所述一维向量上的滑动,提取出语音控制指令样本的时间序列的短时特征;
再将短时特征经过池化处理,并通过迭代训练,会自动调节卷积神经网络的系数矩阵,直至达到训练停止条件,并得到训练好的语义指令识别模型。
4.如权利要求1所述的语音遥控器控制方法,其特征在于,所述获取用户的目标语音信息包括:
获取用户的原始语音信号;
对所述原始语音信号预处理,将预处理后的语音作为所述目标语音信息,所述预处理包括以下至少一种:对原始语音信号的预加重、对原始语音信号的分帧和对原始语音信号的加窗。
5.如权利要求1所述的语音遥控器控制方法,其特征在于,所述存储器还存储有等待识别的语音和等待执行的命令,并以二维数组来存储等待识别的语音和等待执行的命令。
6.如权利要求1至5中任一项所述的语音遥控器控制方法,其特征在于,所述方法还包括:
在接收到语音识别失败的指令时,提示用户通过所述遥控器的按键控制所述目标家居设备;
接收用户按压所述按键所触发的目标信号;
根据所述目标信号发送至所述目标家居设备以控制所述目标家居设备。
7.一种语音遥控器控制装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的语音遥控器控制程序,所述语音遥控器控制程序被所述处理器执行时实现如下步骤:
获取多个家居设备的语音控制指令样本;
基于所述语音控制指令样本,训练语义指令识别模型;
获取用户的目标语音信息;
利用所述语义指令识别模型,识别所述目标语音信息中的用户语义,其中所述用户语义包括目标家居设备的标识及对目标家居设备的控制语义;
根据所述目标家居设备的标识,从遥控器的存储器中读取与所述目标家居设备的控制语义匹配的目标红外信号指令;
利用所述遥控器的红外发射装置,将所述目标红外信号指令发送至所述目标家居设备。
8.如权利要求7所述的语音遥控器控制装置,其特征在于,所述语音控制指令样本包括不同口音、不同年龄的用户发出的对不同的家居设备的多种语音控制指令的样本。
9.如权利要求8所述的语音遥控器控制装置,其特征在于,所述基于所述语音控制指令样本,训练语义指令识别模型包括:
提取语音控制指令样本中的每帧的语音的特征向量;
将每帧的语音的特征向量按时间的先后顺序首尾相连,构成一个一维向量;
基于一维卷积神经网络的卷积核在所述一维向量上的滑动,提取出语音控制指令样本的时间序列的短时特征;
再将短时特征经过池化处理,并通过迭代训练,会自动调节卷积神经网络的系数矩阵,直至达到训练停止条件,并得到训练好的语义指令识别模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音遥控器控制程序,所述语音遥控器控制程序可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的语音遥控器控制方法。
CN201910269154.3A 2019-04-04 2019-04-04 语音遥控器控制方法、装置及计算机可读存储介质 Pending CN110060677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910269154.3A CN110060677A (zh) 2019-04-04 2019-04-04 语音遥控器控制方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910269154.3A CN110060677A (zh) 2019-04-04 2019-04-04 语音遥控器控制方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110060677A true CN110060677A (zh) 2019-07-26

Family

ID=67318220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910269154.3A Pending CN110060677A (zh) 2019-04-04 2019-04-04 语音遥控器控制方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110060677A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246499A (zh) * 2019-08-06 2019-09-17 苏州思必驰信息科技有限公司 家居设备的语音控制方法及装置
CN110503952A (zh) * 2019-07-29 2019-11-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110597082A (zh) * 2019-10-23 2019-12-20 北京声智科技有限公司 智能家居设备控制方法、装置、计算机设备及存储介质
CN111192572A (zh) * 2019-12-31 2020-05-22 斑马网络技术有限公司 语义识别的方法、装置及系统
CN111462471A (zh) * 2020-04-20 2020-07-28 江苏群达智能科技有限公司 一种万能空调遥控器及其遥控编码匹配方法
CN111599353A (zh) * 2020-06-04 2020-08-28 北京如影智能科技有限公司 基于语音的设备控制方法及装置
CN112116910A (zh) * 2020-10-30 2020-12-22 珠海格力电器股份有限公司 语音指令的识别方法和装置、存储介质、电子装置
CN112233665A (zh) * 2020-10-16 2021-01-15 珠海格力电器股份有限公司 模型训练的方法和装置、电子设备和存储介质
CN112489413A (zh) * 2020-11-27 2021-03-12 京东方科技集团股份有限公司 遥控器的控制方法及系统、存储介质、电子设备
CN112908326A (zh) * 2021-01-29 2021-06-04 思必驰科技股份有限公司 家居语音控制学习和应用方法及装置
CN113012699A (zh) * 2021-05-07 2021-06-22 宇博科创(深圳)科技有限公司 基于离线语音的红外线遥控开关方法及系统
CN113643701A (zh) * 2021-07-27 2021-11-12 广州市威士丹利智能科技有限公司 一种智能识别语音控制家居的方法及统
CN115424615A (zh) * 2022-09-01 2022-12-02 深圳市人马互动科技有限公司 智能设备语音控制方法、装置、设备及存储介质
CN117008493A (zh) * 2023-09-26 2023-11-07 广州科宗智能科技有限公司 基于智慧声控的无网关家居控制调节系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108302697A (zh) * 2018-01-15 2018-07-20 珠海格力电器股份有限公司 语音控制处理方法及装置
CN109561003A (zh) * 2018-12-20 2019-04-02 深圳市朗强科技有限公司 一种基于声控的红外遥控器及电器控制系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108302697A (zh) * 2018-01-15 2018-07-20 珠海格力电器股份有限公司 语音控制处理方法及装置
CN109561003A (zh) * 2018-12-20 2019-04-02 深圳市朗强科技有限公司 一种基于声控的红外遥控器及电器控制系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503952B (zh) * 2019-07-29 2022-02-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110503952A (zh) * 2019-07-29 2019-11-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110246499A (zh) * 2019-08-06 2019-09-17 苏州思必驰信息科技有限公司 家居设备的语音控制方法及装置
CN110246499B (zh) * 2019-08-06 2021-05-25 思必驰科技股份有限公司 家居设备的语音控制方法及装置
CN110597082A (zh) * 2019-10-23 2019-12-20 北京声智科技有限公司 智能家居设备控制方法、装置、计算机设备及存储介质
CN111192572A (zh) * 2019-12-31 2020-05-22 斑马网络技术有限公司 语义识别的方法、装置及系统
CN111462471A (zh) * 2020-04-20 2020-07-28 江苏群达智能科技有限公司 一种万能空调遥控器及其遥控编码匹配方法
CN111599353A (zh) * 2020-06-04 2020-08-28 北京如影智能科技有限公司 基于语音的设备控制方法及装置
CN112233665A (zh) * 2020-10-16 2021-01-15 珠海格力电器股份有限公司 模型训练的方法和装置、电子设备和存储介质
CN112116910A (zh) * 2020-10-30 2020-12-22 珠海格力电器股份有限公司 语音指令的识别方法和装置、存储介质、电子装置
CN112489413A (zh) * 2020-11-27 2021-03-12 京东方科技集团股份有限公司 遥控器的控制方法及系统、存储介质、电子设备
CN112908326A (zh) * 2021-01-29 2021-06-04 思必驰科技股份有限公司 家居语音控制学习和应用方法及装置
CN113012699A (zh) * 2021-05-07 2021-06-22 宇博科创(深圳)科技有限公司 基于离线语音的红外线遥控开关方法及系统
CN113012699B (zh) * 2021-05-07 2024-01-23 宇博科创(深圳)科技有限公司 基于离线语音的红外线遥控开关方法及系统
CN113643701A (zh) * 2021-07-27 2021-11-12 广州市威士丹利智能科技有限公司 一种智能识别语音控制家居的方法及统
CN113643701B (zh) * 2021-07-27 2024-04-12 广州市威士丹利智能科技有限公司 一种智能识别语音控制家居的方法及统
CN115424615A (zh) * 2022-09-01 2022-12-02 深圳市人马互动科技有限公司 智能设备语音控制方法、装置、设备及存储介质
CN117008493A (zh) * 2023-09-26 2023-11-07 广州科宗智能科技有限公司 基于智慧声控的无网关家居控制调节系统

Similar Documents

Publication Publication Date Title
CN110060677A (zh) 语音遥控器控制方法、装置及计算机可读存储介质
US10515627B2 (en) Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus
CN107481720B (zh) 一种显式声纹识别方法及装置
CN110706690A (zh) 语音识别方法及其装置
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
CN108564940A (zh) 语音识别方法、服务器及计算机可读存储介质
CN107623614A (zh) 用于推送信息的方法和装置
CN110570873B (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
US10783884B2 (en) Electronic device-awakening method and apparatus, device and computer-readable storage medium
CN112687263A (zh) 语音识别神经网络模型及其训练方法、语音识别方法
CN110415701A (zh) 唇语的识别方法及其装置
CN112634897B (zh) 设备唤醒方法、装置和存储介质及电子装置
CN110992940B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN110047484A (zh) 一种语音识别交互方法、系统、设备和存储介质
CN110136689A (zh) 基于迁移学习的歌声合成方法、装置及存储介质
CN110223687A (zh) 指令执行方法、装置、存储介质及电子设备
CN109712623A (zh) 语音控制方法、装置及计算机可读存储介质
CN109429415A (zh) 照明控制方法、装置及系统
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN115688937A (zh) 一种模型训练方法及其装置
CN108320740A (zh) 一种语音识别方法、装置、电子设备及存储介质
CN113436633B (zh) 说话人识别方法、装置、计算机设备及存储介质
CN115035887A (zh) 语音信号的处理方法、装置、设备及介质
CN113421573B (zh) 身份识别模型训练方法、身份识别方法及装置
WO2020073839A1 (zh) 语音唤醒方法、装置、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination