CN116758914A - 一种智能家居语音交互控制方法及系统 - Google Patents
一种智能家居语音交互控制方法及系统 Download PDFInfo
- Publication number
- CN116758914A CN116758914A CN202310789881.9A CN202310789881A CN116758914A CN 116758914 A CN116758914 A CN 116758914A CN 202310789881 A CN202310789881 A CN 202310789881A CN 116758914 A CN116758914 A CN 116758914A
- Authority
- CN
- China
- Prior art keywords
- voice
- intelligent home
- text information
- intelligent
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003993 interaction Effects 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims 7
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000011664 signaling Effects 0.000 claims 1
- 230000011218 segmentation Effects 0.000 description 7
- 241000252794 Sphinx Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种智能家居语音交互控制方法,应用于中控网关,其特征在于,包括:接收语音面板发送的文本信息,所述文本信息由语音面板采集语音信息后转换得到;针对接收的文本信息进行语义解析,确定语义内容;根据语义内容控制智能家居设备执行相应操作,并且回复对应文本信息到语音面板,通过语音面板播放对应语音内容。本申请的优点在于采用中控网关与语音面板的搭配代替了多个带屏网关,节省了成本。
Description
技术领域
本申请涉及语音交互技术领域,具体提供一种智能家居语音交互控制方法及系统。
背景技术
当前的智慧家庭中,用户如需要多个空间实现在线语音交互,往往需要多个带屏网关。然而,带屏网关成本较高,对于入门级套装用户难以承受。
而且语音交互除了成本过高还存在智能家居设备的权限管理问题。
权限管理,一般指的是根据系统设置的安全规则或者安全策略,对访问系统的用户进行功能划分的一种办法,不同的用户根据自身的权限可以在系统中进行不能的操作。
因而,需要相应的方案解决以上问题。
发明内容
针对现有技术的缺陷,本申请的目的在于提供一种低成本的智能家居语音交互控制方法。
本申请解决其技术问题所采用的技术方案是:
一种智能家居语音交互控制方法,应用于中控网关,包括:接收语音面板发送的文本信息,文本信息由语音面板采集语音信息后转换得到;针对接收的文本信息进行语义解析,确定语义内容;根据语义内容控制智能家居设备执行相应操作,并且回复对应文本信息到语音面板,通过语音面板播放对应语音内容。
该方案采用的是使用一个中控网关接收一个或多个语音面板的信息,然后进行语音控制一个或多个的智能家居设备,避免使用多个带屏网关,实现低成本。
可选的,针对接收的文本信息进行语义解析,确定语义内容,包括:对接收的文本信息去除文本中无意义的词语;对处理后的文本,根据预设关键词词库进行匹配关键词;若匹配到关键词,则确定语义内容;若匹配不到关键词,则进行关键词词库的更新;其中,关键词词库包括汉语发音规则库和用户常用词词库。
该方案基于汉语发音和用户习惯来更准确的进行关键词提取,从而提高语音识别的准确率。
可选地,接收语音面板发送的文本信息还包括同时接收多个语音面板发送的文本信息,其处理方法:同时接收多个语音面板的文本信息包括语音音量信息;根据语音音量大小比较,从大到小排队处理;根据语音语义,若相同,只执行第一条;若不同,依次执行。
该方案使用排队方式处理语音面板同时的请求,使其有秩序。
可选地,还包括,创建声纹特征库;根据语音信息识别用户对象,从语音信息中提取出声纹特征,将提取出的声纹特征与声纹特征库进行匹配,以识别出用户对象。
该方案基于声纹特征的特征值来确认用户,使得用户的识别更为准确。
可选地,还包括,创建用户权限库,针对用户对象匹配相应智能家居设备的操作权限;当匹配到用户对象后,针对语义内容中指示要控制的智能家居设备,判定上述确定的用户对象是否有操作权限;若是,根据语义内容控制智能家居设备执行相应操作;若否,拒绝控制智能家居设备执行相应操作。
该方案是用户权限对应智能家居设备的操作权限,从而更好控制智能家居设备。
可选地,还包括用户权限库权限进行如下配置:对增加的智能家居设备新增权限;对不需要的智能家居设备删除权限;对权限变化的智能家居设备更新权限。
该方案对用户权限对应的智能家居设备权限进行增加、删除或更正,也就是可按用户需求实时更新用户权限。
可选地,智能家居设备的操作权限的获取方式:获取智能家居设备的标识信息;根据智能家居设备的标识信息,将智能家居设备接入预设无线网络。
该方案基于标识信息来获取智能家居设备的操作权限,使用户操作更为便捷。
可选地,根据语义内容和预存场景数据库进行场景匹配,获得对应的场景事件并执行,场景对应智能家居设备联动;若控制的全部智能家居设备具有操作权限,则控制智能家居设备执行操作并反馈已操作完成;若控制的全部或部分智能家居设备不具有操作权限,则拒绝控制智能家居设备执行操作并反馈无权限。
该方案设置不同场景,避免用户一个个对智能家居设备的控制,更贴切用户的需求。
本申请还提供一种智能家居语音交互系统,包括中控网关、语音面板和智能家居设备;语音面板和智能家居设备加入到中控网关组建的本地网络中;语音面板连接到中控网关,用于采集语音信息,将采集到的语音信息转变成文本信息并且发送至中控网关;用于接收中控网关发送的文本信息,并且将接收的文本信息转换成语音信息;中控网关,用执行上述中的任一项上述的语音交互控制方法;智能家居设备,用于接收中控网关发送的控制信号,根据控制信号执行相应的操作。
本申请还提供一种计算机可读存储介质,计算机可读存储介质包括一个或多个程序指令,一个或多个程序指令被执行时,实现如上述任一项的方法。
与现有技术相比,本申请的有益效果是:
本申请使用的智能家居语音交互控制方法为一个中控网关接收一个或多个语音面板的信息,然后进行语音交互的控制,避免使用多个带屏网关,实现低成本;且还具有提升语音识别的准确率,实时调整用户权限、智能设备操作权限,方便用户。
下面结合附图对本申请的具体实施方式作进一步详细的描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请一实施例中智能家居语音交互控制方法的步骤流程图示意图;
图2为本申请一实施例中智能家居语音交互控制方法的系统示意图;
图3为本申请另一实施例中智能家居语音交互控制方法的步骤流程图示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
自动语音识别(Automatic Speech Recognition,简称ASR)技术因其与用户良好的交互性,被广泛应用于日常的各种电子产品,例如带屏网关、智能客服等。但带屏网关成本较高,对于入门级套装用户难以承受,且大多接收到语音容易受到用户的口音、语速以环境影响,导致语音识别结果不稳定,所以难以大范围使用。然而随着数字化时代发展,语音识别在生活中的应用势在必行。
如图1-3所示,图1代表一实施例中智能家居语音交互控制方法的步骤流程示意图,本申请提供的是一种智能家居语音交互控制方法,应用于中控网关2,主要是采用的是使用一个中控网关2接收一个或多个语音面板1的信息,然后进行语音控制一个或多个的智能家居设备3,避免使用多个带屏网关,实现低成本。本方案包括:
S101接收语音面板1发送的文本信息,文本信息由语音面板1采集语音信息后转换得到;
S102针对接收的文本信息进行语义解析,确定语义内容;
S103根据语义内容控制智能家居设备3进行相应的操作,
S104回复对应文本信息到语音面板1,通过语音面板1播放对应的语音内容。
另外,图3是另一实施例中智能家居语音交互控制方法的步骤流程图示意图。在语音面板1上依次执行S201获取语音信息和S202识别唤醒词;在中控网关2里依次执行S203语音识别和S204确认权限;智能家居设备3根据相应的指令执行S205设备执行操作;然后再由语音面板1进行S206结果反馈。其中,在S204确认权限,会针对用户权限、智能家居设备3权限等方面进行确认。而在S205设备执行操作与S206结果反馈之间是S205设备执行操作完成后反馈至中控网关2,然后再从中控网关2反馈至语音面板1,由语音面板1来语音播报完成情况。
针对接收的文本信息进行语义解析可以包括接下来的内容。对文本进行去除虚词处理。虚词管理是指对用户一些常用的虚词(如“嗯”、“啊”等)做设置,在识别后文本会将这些虚词直接删掉。虚词的依据为虚词库,虚词词库是由先验知识和用户使用中系统统计生成。
本申请的控制方法还包括对接收的文本进行关键词提取;关键词提取为根据关键词词库进行匹配;关键词词库包括汉语发音规则库和用户常用词词库;汉语发音规则库根据字的音节进行拼音的声母和韵母切分,声母和韵母分别与汉语发音规则库中的规则进行匹配。
其中,针对汉语发音规则库根据字的音节进行拼音的声母和韵母切分,声母和韵母分别与汉语发音规则库中的规则进行匹配。实施例中,这是基于虽普及普通话,但大多都具有口音。对于普通话的拼音“l”和“n”不能很好区分,如将“刘”、“牛”就很容易混;还有针对前后鼻音,如“in”和“ing”,“en”与“eng”,会对“津”和“京”、“陈”和“程”。不可否认,发音规则库对于普通话发音纯正的人没啥作用或作用很小,而对于发音不规范作用就会很明显,一般而言混淆的发音是比较通用的,当然不排除还有个性化的内容,因而,发音规则库会涉及查询、更新等操作。
所以,本申请采用的是选择了逆向最大匹配算法(Reversion Maximum Matching,简称RMM),采用RMM对音节进行声母与韵母的分离,第一步,设定一个最大分割长度MaxLength,范围一般为1-5,然后从左到右截取,然后在库中找对应的声母或韵母,若找不到,则进行第二步,找得到则跳至第四步;第二步,在第一步分割的基础上出的较长的那节,使用MaxLength-1,将对应的两节词,在库中找对应的声母或韵母;第四步,确认分割后得到的声母和韵母。
使用RMM对字的音节进行拼音的声母和韵母切分,然后声母和韵母分别与发音规则库中的规则进行匹配,将词切分后,两方正好匹配,提高了查询的正确率。规则库中规则需要根据用户动态的进行更新。针对发音规则库新旧规则会存在重叠,导致不均衡的情况,可以将不满足于阈值就会对该规则关闭,也就是在下次查询不会被访问。采用由小到大进行排列,然后对新产生的声母、韵母反查音节知识库,最终将新确定的规则记录到规则库,合并成一条规则。
针对接收的文本信息进行语义解析,确定语义内容,包括:对接收的文本信息去除文本中无意义的词语;对处理后的文本,根据预设关键词词库进行匹配关键词;若匹配到关键词,则确定语义内容;若匹配不到关键词,则进行关键词词库的更新;其中,所述关键词词库包括汉语发音规则库和用户常用词词库。
也就是对接收的文本信息进行去虚词、关键词提取,还可以进一步对语义内容进行合理度的检测,词向量是指计算机在处理词语时会将词语用一种数字化的形式表示,可实现方式用分布式表示,分布式表示主要针对离散表示向量化的稀疏化问题,提出将词表示成定长连续的稠密向量,考虑了词与词之间的关系,包含了更多的词信息关系。比如word2vec它的核心是通过词的上下文进行向量化。
因而涉及深度语言模型、语义相似度模型等。深度语言模型是基于前馈神经网络模型(Feed-forward Neural Network Model),采用单词向量化,模型中将每个词用one-hot representation的形式表达,采用的前n-1个词(历史单词)的索引,这个n-1个词在Projection layer层经过N*P(其中N表示模型训练时采用的词典大少,P表示特征的维度)的表映射到连续空间中,然后进行连接、映射操作。该接口可以使用百度开发的依托海量数据和技术训练的DNNLM。
语义相似度模型是基于word2vec的Skip-Gram模型进行语义特征提取,word2vec属于分布式向量化的一种方式,word2vec模型的训练语料可以选用了网上获取的一些新闻语料。分词采用NLPIR汉语分词系统作为分词工具。
公式(1)采用的是夹角余弦计算词语语义间的度量,W1、W2为词向量,W1i、W2i分别表示W1、W2的各分量,两个词的语义越相似,它们的夹角余弦值也久越接近于1。
语音识别采用声学模型DNN-HMM,其中DNN为深度学习算法,HMM为隐马尔科夫模型;语音交互基于transformer结构的GPT-2预训练模型。
而且本申请的正确率可由性能的指标词用召回率(Recall)、准确率(Precision)和F1值作为评价标准,其中公式(2)-(4)就是相应计算公式,F1值是同时考虑召回率和准确率,让两者同时达到最高,取得平衡。
由于本申请应用在家中,因而大多对话都是指令性、语境相对也比较单一,因而F1值比较高。
另外,本申请可在接收语音面板1发送的文本信息前,可进行唤醒词设置。基于Python语言的Sphinx语音识别系统来实现唤醒词功能,Sphinx(CMU Sphinx)语音识别已经比较成熟,语音唤醒在Pycharm工具中调用PocketSphinx包进行唤醒词设置,而且为了使系统支持中文唤醒词,可在SourceForge开放源代码软件开发平台和仓库中下载CMU Sphinx语音系统对应的中文语言模型、中文声学模型和拼音字典三个文件。
编辑一个txt文本,然后生成词汇和语言建模文件集lm和dic文件,然后对照拼音字典,修改dic文件代替原来的dic,然后更改保存文件路径,至此,系统中文唤醒词设置完成。
语音面板1上设置唤醒词的做法:语音面板1设有是否开启唤醒词唤醒功能,若开启,则说出唤醒词即可唤醒,若不开启,则语音面板1不支持唤醒操作,需用户手动唤醒。开启时,语音面板1采集环境内的语音信号,语音唤醒操作,用户使用唤醒词唤醒,也即是用户说出唤醒词,本申请的语音面板1就被唤醒。
在一个实施例中,接收语音面板1发送的文本信息还包括同时接收多个语音面板1发送的文本信息,其处理方法:同时接收多个语音面板1的文本信息包括语音音量信息;根据语音音量大小比较,从大到小排队处理;根据语音语义,若相同,只执行第一条;若不同,依次执行。
在不同的房间设有语音面板1,因而可能同一时间段,不同语音面板1接收不同用户的语音请求,还接收一个同时接收多个语音面板1的文本信息包括语音音量信息;然后,针对音量大小排队,优先处理音量大的,然后对正在排队未能及时处理的统一回复“不好意思,已有请求在处理,麻烦稍等一下”。若为同一个语音面板1接收不同用户的语音请求,若能清晰分辨不同声音,也就是按不同的语音特征的特征值分辨,并接收相对应的音量信息,也是按音量大小排队,优先处理音量大;但若分析不出来,可回复“不好意思,刚刚没听清,麻烦再说一次”。以上回复均为出厂设置,亦可根据用户习惯设置。
但对于“报警”、“拨打120”等敏感的关键词,不进行音量大小的排队,分析出语义后优先处理,还可以根据用户习惯进行设置其他优先级的关键词。
对接收到的语音进行语义分析,若分析过后对智能家居设备3的操作相同,只执行第一条,但对所有接收到语音的语音面板1均回复“已处理”。
在一些实施例中,还包括创建声纹特征库;根据语音信息识别用户对象,从语音信息中提取出声纹特征,将提取出的声纹特征与声纹特征库进行匹配,以识别出用户对象。
可根据语音特征的特征值,比如音质、音长、音强和音高,现主要是为声纹特征。语音在声纹图谱上呈现不同的声纹特征,根据这些声纹特征参数,不但可以区分语声,而且可以认定同一用户的语声。基于特征值从而确定用户。
在实施例中,用户可基于语音面板1或终端设备APP上完成语音录入,也就是完成声纹的录入,通过对语音信号进行分类,并基于相同分类所包含的帧声纹生成声纹识别模型,而对于待识别的语音,也是将待识别语音信号分类,并基于相同分类中所包含的帧声纹特征训练生成待识别模型,与已生成的声纹识别模型进行相似度的比较,从而确定待识别语音信号的用户信息。
其中,还包括创建用户权限库,针对用户对象配置相应智能家居设备3操作的权限;当匹配到用户对象后,针对语义内容中指示要控制的智能家居设备3,判定上述确定的用户对象是否有操作权限;若是,根据语义内容控制智能家居设备3执行相应操作;若否,拒绝控制智能家居设备3执行相应操作。其中,智能家居设备3的操作权限包括允许用户控制的智能家居设备3,和/或允许用户对智能家居设备3进行控制的控制时间。
例如对家庭成员配置,比如某位家庭成员是学生,可以控制玩电脑和看电视的时间段,若在具有操作权限时间段开电脑或电视,都能正常,并反馈已完成;若在非操作权限时间段开电脑或电视,就无法开启,且反馈暂无操作权限,还可以补上请确认等词语。
又比如对亲朋好友的探访,对操作权限临时分配,可以包括大门的智能锁、空调、电视之类的操作权限,在一段时间内可具有部分智能家居设备3的操作权限。
还包括用户权限库权限进行如下配置:对增加的智能家居设备3新增权限;对不需要的智能家居设备3删除权限;对权限变化的智能家居设备3更新权限。
例如:新买的电视、空调等家电作为多出的智能家居设备3,就可以在预设的用户权限库中新增权限;而对于不需要的智能家居设备3,则可以在预设的用户权限库中删除权限;而可作为奖励或惩罚,家长可调整儿女的游戏设备的开放时间段之类的,这就是变更权限。以上只是举例说明,并不能代指所有的情况。
智能家居设备3的操作权限的获取方式:获取智能家居设备3的标识信息;根据智能家居设备3的标识信息,将智能家居设备3接入预设无线网络。该标识信息可以是智能家居设备3的物理MAC地址。智能家居设备3的用户可以打开智能终端设备,将语音面板1、智能家居设备3通过WIFI或者蓝牙等无线配网方式加入到中控网关2中,实现通过智能家居设备3的MAC地址来搜寻到对应的智能家居设备3,保证可以通过语音面板1控制智能家居设备3,用户在智能终端设备上进行创建相关智能家居设备3标准名称如“客厅电视”。
用户权限不仅包括智能家居设备操作权限,还包括是否能增加、删除、变更用户。
在实施例中,智能家居设备3的唤醒调整,是用户可以在语音面板1上对接入系统的智能家居设备3进行属性的控制,智能家居设备3种类可包括:灯具设备、空调设备、新风设备、地暖设备、电视设备、电动窗帘设备和电动推窗器设备等,以空调设备为例,可以在语音面板1上利用语音打开或关闭空调,调节空调的温度,选择空调的冷暖等。不同智能家居设备3有不同的通讯协议,通常以蓝牙、红外、WIFI、485协议等,比如弱电设备以485协议为主,而且每种智能家居设备3可以针对不同的人设定控制权限不同。
根据语义内容和预存场景数据库进行场景匹配,获得对应的场景事件并执行,场景对应智能家居设备3联动;若控制的全部智能家居设备3具有操作权限,则控制智能家居设备3执行操作并反馈已操作完成;若控制的全部或部分智能家居设备3不具有操作权限,则拒绝控制智能家居设备3执行操作并反馈无权限。
场景功能可以包括回家场景、离家场景、安防场景、睡眠场景、运动场景、观影场景、度假场景和聚会场景等,用户可个性化添加或调整,然后利用语音对语音面板1发出语音控制指令,另还可以进行智能化控制的设定,根据环境传感器给中控网关2的反馈,通过相应的环境算法,由中控网关2控制新风,空调,使环境中的温度、湿度、PM2.5、甲醛数值达到用户的预设的要求,并保持环境处于舒适、稳定的状态。
比如观影场景的打开,“呀哈哈”作为换唤醒词,语音面板1接收“呀哈哈,打开客厅观影模式”,然后传到中控网关2,再是对智能家居设备3的操作,客厅灯光关闭,窗帘关闭,电视打开等一系列操作,操作完毕后,最后在语音面板1上反馈“已打开客厅观影模式”。其中会对语义、权限等方面进行检测,若无权限,则反馈无操作权限。
如图2所示,本申请还提供了一种智能家居语音交互系统,其包括中控网关2、语音面板1和智能家居设备3;语音面板1和智能家居设备3加入到中控网关2组建的本地网络中;语音面板1连接到中控网关2,用于采集语音信息,将采集到的语音信息转变成文本信息并且发送至中控网关2;用于接收中控网关2发送的文本信息,并且将接收的文本信息转换成语音信息;中控网关2,用执行上述任一项语音交互控制方法;智能家居设备3,用于接收中控网关2发送的控制信号,根据控制信号执行相应的操作。
在实施例中,基于智能家居语音交互方法的中控网关2,再加上语音面板1、智能家居设备3,组成一个交互系统。图2中的箭头代表信息的传输,其工作流程为,语音面板1接收语音信息,转换成文本信息传输给中控网关2,中控网关2进行识别文本,并发送相应指令给相应的智能家居设备3,智能家居设备3根据指令操作,完成后反馈至中控网关2,中控网关2接收后,再反馈至语音面板1,语音面板1通过语音方式播报给用户知悉。
其中,在语音面板1上可设置唤醒词,在中控网关2可设有语音识别规则、词库、用户权限、场景设置等,此外,还可以利用终端设备APP连入本地网络,亦可在终端设备APP设置唤醒词,语音识别规则、词库、用户权限、场景设置等。
基于同一申请的构思,与上述任意实施例方法相对应的,本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行如上任一实施例的智能家居语音交互控制方法。本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请提供一种智能家居语音交互控制方法,应用在中控网关2,采用的是一个中控网关2与一个或多个语音面板1,代替了多个带屏网关,节省了成本,而且还设有汉语发音规则和用户常用词词库,提升了语音识别的准确率,另还有对应用户权限,智能家居设备3权限的设置,更贴合用户的需求。基于此,还设有系统和存储介质。
综上所述,并非本申请的全部内涵:此后,凡有在被申请主体精神之内所作的任何修改、替换直至完善升级等项目,均包括在本申请的保护范围之内。
Claims (10)
1.一种智能家居语音交互控制方法,应用于中控网关,其特征在于,包括:
接收语音面板发送的文本信息,所述文本信息由语音面板采集语音信息后转换得到;
针对接收的文本信息进行语义解析,确定语义内容;
根据语义内容控制智能家居设备执行相应操作,并且回复对应文本信息到语音面板,通过语音面板播放对应语音内容。
2.根据权利要求1所述的智能家居语音交互控制方法,其特征在于,
所述针对接收的文本信息进行语义解析,确定语义内容,包括:
对所述接收的文本信息去除文本中无意义的词语;
对处理后的文本,根据预设关键词词库进行匹配关键词;
若匹配到关键词,则确定语义内容;
若匹配不到关键词,则进行关键词词库的更新;
其中,所述关键词词库包括汉语发音规则库和用户常用词词库。
3.根据权利要求1所述的智能家居语音交互控制方法,其特征在于,
所述接收语音面板发送的文本信息包括:同时接收多个语音面板发送的文本信息;
针对同时接收的多个文本信息,分别确定对应语音信号的音量信息;
确定各文本信息所对应的语义内容是否相同;
若是,则确定对应语音信号音量最大的文本信息,根据该文本信息控制智能家居设备执行相应操作;
若否,则根据对应语音信号音量从大到小的顺序,对各文本信息进行排序;根据排序的各文本信息,依次控制智能家居设备执行相应操作。
4.根据权利要求1所述的智能家居语音交互控制方法,其特征在于,
还包括,创建声纹特征库;
根据语音信息识别用户对象,从语音信息中提取出声纹特征,将提取出的声纹特征与声纹特征库进行匹配,以识别出用户对象。
5.根据权利要求4所述的智能家居语音交互控制方法,其特征在于,
还包括,创建用户权限库,针对用户对象匹配相应智能家居设备的操作权限;
当匹配到用户对象后,针对语义内容中指示要控制的智能家居设备,判定上述确定的用户对象是否有操作权限;
若是,根据语义内容控制智能家居设备执行相应操作;
若否,拒绝控制智能家居设备执行相应操作。
6.根据权利要求5所述的智能家居语音交互控制方法,其特征在于,
还包括对所述用户权限库权限进行如下配置:
对增加的智能家居设备新增权限;
对不需要的智能家居设备删除权限;
对权限变化的智能家居设备更新权限。
7.根据权利要求5所述的智能家居语音交互控制方法,其特征在于,
智能家居设备的操作权限的获取方式:
获取智能家居设备的标识信息;
根据所述智能家居设备的标识信息,将所述智能家居设备接入预设无线网络。
8.根据权利要求5所述的智能家居语音交互控制方法,其特征在于,
根据所述语义内容和预存场景数据库进行场景匹配,获得对应的场景事件并执行,所述场景对应智能家居设备联动;
若控制的全部智能家居设备具有操作权限,则控制所述智能家居设备执行操作并反馈已操作完成;
若控制的全部或部分智能家居设备不具有操作权限,则拒绝控制所述智能家居设备执行操作并反馈无权限。
9.一种智能家居语音交互系统,其特征在于,
包括中控网关、语音面板和智能家居设备;所述语音面板和智能家居设备加入到中控网关组建的本地网络中;
所述语音面板连接到中控网关,用于采集语音信息,将采集到的语音信息转变成文本信息并且发送至中控网关;用于接收中控网关发送的文本信息,并且将接收的文本信息转换成语音信息;
所述中控网关,用执行权利要求1-8中的任一项所述的语音交互控制方法;
所述智能家居设备,用于接收中控网关发送的控制信号,根据控制信号执行相应的操作。
10.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令被执行时,实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310789881.9A CN116758914A (zh) | 2023-06-29 | 2023-06-29 | 一种智能家居语音交互控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310789881.9A CN116758914A (zh) | 2023-06-29 | 2023-06-29 | 一种智能家居语音交互控制方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116758914A true CN116758914A (zh) | 2023-09-15 |
Family
ID=87953090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310789881.9A Pending CN116758914A (zh) | 2023-06-29 | 2023-06-29 | 一种智能家居语音交互控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758914A (zh) |
-
2023
- 2023-06-29 CN CN202310789881.9A patent/CN116758914A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
JP7234926B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US7603276B2 (en) | Standard-model generation for speech recognition using a reference model | |
US9626959B2 (en) | System and method of supporting adaptive misrecognition in conversational speech | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
CN114547329A (zh) | 建立预训练语言模型的方法、语义解析方法和装置 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
US11069351B1 (en) | Vehicle voice user interface | |
CN109724215A (zh) | 空调控制方法、空调控制装置、空调设备及存储介质 | |
JP2005227794A (ja) | 標準モデル作成装置及び標準モデル作成方法 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
KR100723404B1 (ko) | 음성 인식 및 반응을 위한 음성 처리 장치와 방법 | |
CN116153311A (zh) | 一种音频处理方法、装置、车辆及计算机可读存储介质 | |
US11626107B1 (en) | Natural language processing | |
CN116758914A (zh) | 一种智能家居语音交互控制方法及系统 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
EP4318464A1 (en) | Speech interaction method and apparatus | |
CN113822506A (zh) | 一种用于电力调控的多轮次语音交互智能检索系统及方法 | |
US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
US11756550B1 (en) | Integration of speech processing functionality with organization systems | |
US11908463B1 (en) | Multi-session context | |
US11893984B1 (en) | Speech processing system | |
US20240185846A1 (en) | Multi-session context | |
US20230267934A1 (en) | Display apparatus and operating method thereof | |
CN115938368A (zh) | 语音识别管理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |