CN113593582A - 智能设备的控制方法和装置、存储介质及电子设备 - Google Patents
智能设备的控制方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113593582A CN113593582A CN202110706136.4A CN202110706136A CN113593582A CN 113593582 A CN113593582 A CN 113593582A CN 202110706136 A CN202110706136 A CN 202110706136A CN 113593582 A CN113593582 A CN 113593582A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- voice
- data
- domain data
- voiceprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000002372 labelling Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种智能设备的控制方法和装置、存储介质及电子设备。其中,该方法包括:在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;对语音数据进行声纹识别,得到目标对象的声纹特征;在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。本发明解决了智能设备运行模式的切换方式单一的技术问题。
Description
技术领域
本发明涉及智能设备控制技术领域,具体而言,涉及一种智能设备的控制方法和装置、存储介质及电子设备。
背景技术
现今市面上很多智能设备针对不同的目标用户群体设置了不同的运行模式。比如智能电视,针对儿童用户群体和成人用户群体配置有儿童模式和成人模式。在这两种不同模式下,智能电视可以提供不一样的操作方式,还可以针对不同用户群体推送不同的内容;又比如智能汽车,可以设置为男士模式和女士模式,在这两种不同的模式下,智能汽车可以设置不同的车内环境,比如针对不同的用户群体播放不同风格的音乐,针对不同的用户群体调整车内显示屏的显示风格。
因此,在不同类型的用户使用同一智能设备的场景下,智能设备的需要提供运行模式的切换功能。目前,对智能设备进行运行模式切换的方式比较单一,比如只能通过触控操作的方式在操作界面进行设置,从而切换智能设备的运行模式。但是在有些场景下,不宜采用触控操作的方式对智能设备的运行模式进行切换。比如在驾驶智能汽车时,如果采用触控操作切换运行模式,会存在安全隐患。可见,目前市面上对智能设备的运行模式进行切换的方式比较单一的技术问题亟待解决。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种智能设备的控制方法和装置、存储介质及电子设备,以至少解决智能设备运行模式的切换方式单一的技术问题。
根据本发明的一个实施例,提供了一种智能设备的控制方法,包括:在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;对语音数据进行声纹识别,得到目标对象的声纹特征;在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
根据本发明实施例的另一方面,还提供了一种智能设备的控制装置,包括:采集模块,用于在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;识别模块,用于对语音数据进行声纹识别,得到目标对象的声纹特征;切换模块,用于在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述智能设备的控制方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的智能设备的控制方法。
在本发明实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的智能设备的控制方法的示意图;
图2是根据本发明实施例的另一种可选的智能设备的控制方法的示意图;
图3是根据本发明实施例的一种可选的语音识别模型的训练方法的示意图;
图4是根据本发明实施例的一种可选的对语音数据进行预处理的方法的示意图;
图5是根据本发明实施例的又一种可选的智能设备的控制方法的示意图;
图6是根据本发明实施例的一种可选的智能设备的控制装置的结构示意图;
图7是根据本发明实施例的另一种可选的智能设备的控制装置的结构示意图;
图8是根据本发明实施例的又一种可选的智能设备的控制装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,根据本发明实施例的一个方面,提供了一种智能设备的控制方法,包括:
步骤S102,在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
步骤S104,对语音数据进行声纹识别,得到目标对象的声纹特征;
步骤S106,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
可选地,这里的智能设备被唤醒的方式可以但不限于是采用语音指令唤醒的方式,也可以是采用遥控唤醒的方式,还可以是触控唤醒的方式,在此不作限定。这里的已被唤醒的情况,可以但不限于是指智能设备已经处于某一运行模式,可以接收语音指令的情况,也可以指该智能设备已经启动,可以接收语音指令,但不处于某种运行模式的情况,在此不作限定。在上述智能设备已经处于某一运行模式的情况下,该运行模式是一种默认的初始状态运行模式,也可以是从该智能设备中存储的模式中随机确认的一种运行模式,在此不作限定。
可选地,采集到的目标对象的语音数据,可以但不限于是是预先存储在智能设备中的目标对象的语音数据,即获取存储在智能设备中的上一次运行记录的语音数据,也可以是在唤醒之后,再获取得到的当前目标对象的语音数据。在唤醒之后,再获取得到当前目标对象的语音数据的情况下,可以是获取被唤醒时采集的目标对象的唤醒语音指令对应的语音数据,也可是在被唤醒之后,指示目标对象输入语音指令,再获取得到的语音指令中记录的语音数据,在此不作限定。
需要说明的是,声纹特征可以但不限于指与人类的发声机制的解剖学结构相关的声学特征,比如频谱、倒频谱、共振峰、基音、发射系数等。
可以理解的是,目标对象的身份角色类型可以但不限于是是根据年龄划分:老人、中年人、儿童,也可以是根据性别划分:男性、女性,也可以同时根据年龄和性别划分不同的身份角色类型:中年男性、中年女性、老年男性、老年女性、男童、女童等,具体划分的方法在此不作限定。对应于根据不同标准划分的目标对象的身份角色类型,智能设备可以内置有匹配于不同目标角色类型的运行模式,比如老年模式、中年模式、儿童模式,男性模式、女性模式、男童模式、女童模式等,在此不作限定。可以理解的是,正是由于上述角色类型的声纹特征存在显著区别,所以可以通过声纹指示目标对象的身份角色类型。
可选地,智能设备匹配于不同目标角色的运行模式的区别,可以是展示内容的区别,也可以是操作方式的区别,也可以是在展示内容和操作方式上均有区别,在此不作限定。比如,在一台智能电视上,针对成人和儿童可以但不限于是提供与其类型相匹配的成人模式和儿童模式,其中,成人模式和儿童模式下提供给目标对象的展示内容不同,在成人模式下不对影视资源进行主动过滤,而在儿童模式下主动过滤不适宜儿童观看的影视资源,并主要提供动画类型的影视资源。还可以是根据成人和儿童的不同操作习惯设置不同的操作方式,比如在成人模式下,提供以触控操作为主的操作方式;在儿童模式下,提供以语音操作为主的操作方式,在此不作限定。
可选地,智能设备的运行模式可以是预先内置于智能设备的运行模式集合,也可以是存储于云服务器的运行模式集合,在此不作限定;在智能设备的运行模式可以是人为通过预先设置得到的运行模式,也可以是根据用户使用习惯训练得到的运行模式,在此不作限定。
可选地,在本实施例中,上述设备可以是具备收发数据和控制指令能力的设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、智能音箱、智能空调等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
在本发明实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
在本发明可选实施例中,上述步骤S104,对语音数据进行声纹识别,得到目标对象的声纹特征,上述方法还可以包括:
步骤S202,对语音数据进行预处理,得到语音频域数据;
步骤S204,将语音频域数据输入语音识别模型,得到目标对象的声纹特征,其中,语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
可以理解的是,上述对语音数据进行预处理,可以是对语音数据进行过滤处理,也可以是对语音数据进行降噪处理,还可以是对语音数据进行时频变换,还可以是上述处理操作的组合,在此不作限定,通过对语音数据进行预处理,减少用于语音识别的数据中的噪声部分,从而实现提高识别准确率的技术效果。
在该实施例中,通过将语音数据进行预处理后得到的语音音频域输入语音识别模型,可以实现提高识别准确率的技术效果。
可选地,上述步骤S202中的语音识别模型的训练方法可以是以下步骤:
步骤S302,获取多个样本标注数据,其中,多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
步骤S304,对多个样本标注数据进行时频变换,得到多个样本标注频域数据,其中,多个样本标注频域数据包括:与第一语音数据对应的儿童频域数据,和与第二语音数据对应的成人频域数据;
依次将每个样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
步骤S306,将当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
步骤S308,判断声纹识别结果与当前样本标注频域数据的标注标签是否一致,在声纹识别结果与当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据,并根据声纹识别结果调整初始化的语音识别模型中的模型参数,然后执行步骤S306;在声纹识别结果与当前样本标注频域数据的标注标签一致的情况下,执行步骤S310,更新成功识别计数结果;
步骤S312,判断成功识别计数结果是否达到第一阈值,在成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据,然后执行步骤S306;在成功识别计数结果达到第一阈值的情况下,执行步骤S314,确定达到收敛条件。
可选地,上述识别模型可以设置为对样本标注数据进行二分识别,从而提高识别效率。
可选地,上述样本标注数据可以但不限于是来自于公开的数据库。由于公开的数据库中样本标注数据量大,从而利用公开的语音数据库训练得到用于识别语音数据的识别模型,可以提高识别模型的训练效率,实现提升识别模型的识别准确度的技术效果。
可选地,上述计数结果可以是成功识别的样本个数,也可以是当前成功识别率,在此不作限定。可选地,上述第一阈值可以是根据需要人为设置的一个固定值,也可以是根据需要训练得到的一个固定值,还可以是根据需求设置的一个变化值,在此不作限定。
通过本实施例,可以训练得到一个用于声纹识别的识别模型,该模型是基于现有的语音样本标注数据训练得到,识别准确度高。同时基于该训练得到的识别模型进行语音识别,不需要预先获取目标对象的语音数据,从而实现对语音数据中目标对象的私密信息进行脱敏,避免了目标对象语音数据泄露造成的隐私问题。
在本发明可选实施例中,如图4所示,上述步骤S202还可以包括:
步骤S402,对语音数据进行人声过滤处理,得到过滤后的语音数据;
步骤S404,对过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
步骤S406,对降噪后的语音数据进行时频变换,得到语音频域数据。
可选地,进行人声过滤处理的处理方法可以是,根据语音数据的响度进行过滤处理,比如对高于一定响度阈值或者低于一定响度阈值的语音数据进行过滤处理。也可以是根据语音数据的频率进行过滤处理,比如对高于一定频率阈值或者低于一定频率阈值的语音数据进行过滤处理。还可以是根据语音数据的响度和频率进行过滤处理。对语音数据进行过滤处理的方法在此不作限制。
可选地,对过滤后的语音数据进行降噪处理的方法可以是利用音频滤波对语音数据进行处理,该音频滤波可以根据实际需要进行选择,在此不作限制。
在本实施例中,通过对语音数据进行预处理,减少用于语音识别的数据中的噪声部分,从而实现提高识别准确率的技术效果。
在本发明可选实施例中,上述步骤S106,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式,还可以包括:
步骤S1,在声纹特征指示目标对象为儿童的情况下,确定目标对象的身份角色类型为目标角色类型。
步骤S2,在声纹特征指示目标对象为成人的情况下,确定目标对象的身份角色类型并非目标角色类型;控制智能设备将运行模式切换为与成人类型相匹配的模式。
在本实施例中,基于不同的语音识别结果,控制智能设备将运行模式切换为与语音识别结果相匹配的模式,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
下面结合图5,对本发明的具体实施例进行举例说明。
步骤S502,智能设备被用户唤醒,并采集唤醒语音数据;
步骤S504,对语音数据进行预处理,得到语音频域数据;
步骤S506,使用训练阶段得到的语音识别模型,对频域数据进行分类识别;
步骤S508,使用训练阶段得到的语音识别模型对频域数据进行分类识别,在识别结果指示目标对象的角色类型为儿童的情况下,执行步骤S510,智能设备将运行模式切换为儿童模式,在识别结果指示目标对象的角色类型为成人的情况下,执行步骤S512,智能设备将运行模式切换为成人模式。
可以理解的是,在本实施例中,上述步骤S502可以是基于用户的唤醒语音数据进行目标角色的类型识别。由于不需要预先存储用户语音数据,而是基于用户当前唤醒语音数据进行目标角色的类型识别,从而避免了用户隐私数据的泄露,实现了增强用户隐私保护的技术效果。
可以理解的是,上述步骤S504中,对语音数据进行预处理的方式包括,对语音数据进行人声过滤处理,得到过滤后的语音数据;然后对过滤后的语音数据进行降噪处理,得到降噪后的语音数据;最后对降噪后的语音数据进行时频变换,得到语音频域数据。通过对语音数据进行预处理,减少用于语音识别的数据中的噪声部分,从而实现提高识别准确率的技术效果。
可以理解的是,上述步骤S506中,训练阶段得到的语音识别模型可以是使用公开语音数据库利用机器学习训练得到的语音二分类模型,可以用于识别成人和儿童。通过采用公开语音数据库对分类模型进行训练,提高了识别模型的识别准确度。同时,训练得到的是二分类模型,提高了识别模型的识别速度。
在上述实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种智能设备的控制装置。如图6所示,该装置包括:
采集模块601,用于在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
识别模块602,用于对语音数据进行声纹识别,得到目标对象的声纹特征;
切换模块603,用于在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
在本发明实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
可选地,如图7所示,上述识别模块602还可以包括:
处理单元702,用于对语音数据进行预处理,得到语音频域数据;
识别单元704,用于将语音频域数据输入语音识别模型,得到目标对象的声纹特征,其中,语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
可选地,上述识别单元704还可以包括训练单元,可以用于:
获取多个样本标注数据,其中,多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
对多个样本标注数据进行时频变换,得到多个样本标注频域数据,其中,多个样本标注频域数据包括:与第一语音数据对应的儿童频域数据,和与第二语音数据对应的成人频域数据;
依次将每个样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
将当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
在声纹识别结果与当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据,并根据声纹识别结果调整初始化的语音识别模型中的模型参数;
在声纹识别结果与当前样本标注频域数据的标注标签一致的情况下,更新成功识别计数结果;
在成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据;
在成功识别计数结果达到第一阈值的情况下,确定达到收敛条件。
可选地,如图8所示,上述处理单元702还可以包括:
第一处理子单元802,用于对语音数据进行人声过滤处理,得到过滤后的语音数据;
第二处理子单元804,用于对过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
第三处理子单元806,用于对降噪后的语音数据进行时频变换,得到语音频域数据。
可选地,上述识别模块602还包括:
第一确定单元,用于在声纹特征指示目标对象为儿童的情况下,确定目标对象的身份角色类型为目标角色类型。
可选地,上述识别模块602还包括:
第二确定单元,用于在声纹特征指示目标对象为成人的情况下,确定目标对象的身份角色类型并非目标角色类型;
第一切换单元,控制智能设备将运行模式切换为与成人类型相匹配的模式。
可以理解的是,本发明实施例的装置具有与上述智能设备的控制方法相应的有益效果,这里不再赘述。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,该程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
S2,对语音数据进行声纹识别,得到目标对象的声纹特征;
S3,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述智能设备的控制方法的电子装置,该电子装置包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
S2,对语音数据进行声纹识别,得到目标对象的声纹特征;
S3,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种智能设备的控制方法,其特征在于,包括:
在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
对所述语音数据进行声纹识别,得到所述目标对象的声纹特征;
在所述声纹特征指示所述目标对象的身份角色类型为目标角色类型的情况下,控制所述智能设备将运行模式切换为与所述目标角色类型相匹配的模式。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音数据进行声纹识别,得到所述目标对象的声纹特征包括:
对所述语音数据进行预处理,得到语音频域数据;
将所述语音频域数据输入语音识别模型,得到所述目标对象的声纹特征,其中,所述语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
3.根据权利要求2所述的方法,其特征在于,在所述对所述语音数据进行预处理,得到语音频域数据之前,还包括:
获取多个样本标注数据,其中,所述多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
对所述多个样本标注数据进行时频变换,得到所述多个样本标注频域数据,其中,所述多个样本标注频域数据包括:与所述第一语音数据对应的儿童频域数据,和与所述第二语音数据对应的成人频域数据;
依次将每个所述样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
将所述当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据,并根据所述声纹识别结果调整所述初始化的语音识别模型中的模型参数;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签一致的情况下,更新成功识别计数结果;
在所述成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据;
在所述成功识别计数结果达到所述第一阈值的情况下,确定达到所述收敛条件。
4.根据权利要求2所述的方法,其特征在于,所述对所述语音数据进行预处理,得到语音频域数据包括:
对所述语音数据进行人声过滤处理,得到过滤后的语音数据;
对所述过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
对所述降噪后的语音数据进行时频变换,得到所述语音频域数据。
5.根据权利要求1所述的方法,其特征在于,在所述对所述语音数据进行声纹识别,得到所述目标对象的声纹特征之后,还包括:
在所述声纹特征指示所述目标对象为儿童的情况下,确定所述目标对象的身份角色类型为所述目标角色类型。
6.根据权利要求1所述的方法,其特征在于,在所述对所述语音数据进行声纹识别,得到所述目标对象的声纹特征之后,还包括:
在所述声纹特征指示所述目标对象为成人的情况下,确定所述目标对象的身份角色类型并非所述目标角色类型;
控制所述智能设备将运行模式切换为与成人类型相匹配的模式。
7.一种智能设备的控制装置,其特征在于,包括:
采集模块,用于在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
识别模块,用于对所述语音数据进行声纹识别,得到所述目标对象的声纹特征;
切换模块,用于在所述声纹特征指示所述目标对象的身份角色类型为目标角色类型的情况下,控制所述智能设备将运行模式切换为与所述目标角色类型相匹配的模式。
8.根据权利要求7所述的装置,其特征在于,所述识别模块,还包括:
处理单元,用于对所述语音数据进行预处理,得到语音频域数据;
识别单元,用于将所述语音频域数据输入语音识别模型,得到所述目标对象的声纹特征,其中,所述语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
9.根据权利要求8所述的装置,其特征在于,所述识别单元,还包括:
第一训练单元,用于获取多个样本标注数据,其中,所述多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
对所述多个样本标注数据进行时频变换,得到所述多个样本标注频域数据,其中,所述多个样本标注频域数据包括:与所述第一语音数据对应的儿童频域数据,和与所述第二语音数据对应的成人频域数据;
依次将每个所述样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
将所述当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据,并根据所述声纹识别结果调整所述初始化的语音识别模型中的模型参数;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签一致的情况下,更新成功识别计数结果;
在所述成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据;
在所述成功识别计数结果达到所述第一阈值的情况下,确定达到所述收敛条件。
10.根据权利要求8所述的装置,其特征在于,所述处理单元,还包括:
第一处理子单元,用于对所述语音数据进行人声过滤处理,得到过滤后的语音数据;
第二处理子单元,用于对所述过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
第三处理子单元,用于对所述降噪后的语音数据进行时频变换,得到所述语音频域数据。
11.根据权利要求7所述的装置,其特征在于,所述识别模块,还包括:
第一确定单元,用于在所述声纹特征指示所述目标对象为儿童的情况下,确定所述目标对象的身份角色类型为所述目标角色类型。
12.根据权利要求7所述的装置,其特征在于,所述识别模块,还包括:
第二确定单元,用于在所述声纹特征指示所述目标对象为成人的情况下,确定所述目标对象的身份角色类型并非所述目标角色类型;
第一切换单元,用于控制所述智能设备将运行模式切换为与成人类型相匹配的模式。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706136.4A CN113593582B (zh) | 2021-06-24 | 2021-06-24 | 智能设备的控制方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706136.4A CN113593582B (zh) | 2021-06-24 | 2021-06-24 | 智能设备的控制方法和装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593582A true CN113593582A (zh) | 2021-11-02 |
CN113593582B CN113593582B (zh) | 2024-05-24 |
Family
ID=78244596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110706136.4A Active CN113593582B (zh) | 2021-06-24 | 2021-06-24 | 智能设备的控制方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593582B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114885218A (zh) * | 2022-06-16 | 2022-08-09 | 深圳创维-Rgb电子有限公司 | 自动选择观看模式的方法、电视机、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711427A (zh) * | 2018-05-18 | 2018-10-26 | 出门问问信息科技有限公司 | 语音信息的采集方法及装置 |
CN109992237A (zh) * | 2018-01-03 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 智能语音设备控制方法、装置、计算机设备和存储介质 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110970036A (zh) * | 2019-12-24 | 2020-04-07 | 网易(杭州)网络有限公司 | 声纹识别方法及装置、计算机存储介质、电子设备 |
CN111223490A (zh) * | 2020-03-12 | 2020-06-02 | Oppo广东移动通信有限公司 | 声纹唤醒方法及装置、设备、存储介质 |
WO2020228280A1 (zh) * | 2019-05-10 | 2020-11-19 | 平安科技(深圳)有限公司 | 智能家居设备的声音控制方法、装置、及电子装置 |
CN112116910A (zh) * | 2020-10-30 | 2020-12-22 | 珠海格力电器股份有限公司 | 语音指令的识别方法和装置、存储介质、电子装置 |
US20210110832A1 (en) * | 2017-04-10 | 2021-04-15 | Beijing Orion Star Technology Co., Ltd. | Method and device for user registration, and electronic device |
CN112786040A (zh) * | 2020-10-22 | 2021-05-11 | 青岛经济技术开发区海尔热水器有限公司 | 应用于智能家电设备的语音控制方法、装置及设备 |
-
2021
- 2021-06-24 CN CN202110706136.4A patent/CN113593582B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210110832A1 (en) * | 2017-04-10 | 2021-04-15 | Beijing Orion Star Technology Co., Ltd. | Method and device for user registration, and electronic device |
CN109992237A (zh) * | 2018-01-03 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 智能语音设备控制方法、装置、计算机设备和存储介质 |
CN108711427A (zh) * | 2018-05-18 | 2018-10-26 | 出门问问信息科技有限公司 | 语音信息的采集方法及装置 |
WO2020228280A1 (zh) * | 2019-05-10 | 2020-11-19 | 平安科技(深圳)有限公司 | 智能家居设备的声音控制方法、装置、及电子装置 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110970036A (zh) * | 2019-12-24 | 2020-04-07 | 网易(杭州)网络有限公司 | 声纹识别方法及装置、计算机存储介质、电子设备 |
CN111223490A (zh) * | 2020-03-12 | 2020-06-02 | Oppo广东移动通信有限公司 | 声纹唤醒方法及装置、设备、存储介质 |
CN112786040A (zh) * | 2020-10-22 | 2021-05-11 | 青岛经济技术开发区海尔热水器有限公司 | 应用于智能家电设备的语音控制方法、装置及设备 |
CN112116910A (zh) * | 2020-10-30 | 2020-12-22 | 珠海格力电器股份有限公司 | 语音指令的识别方法和装置、存储介质、电子装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114885218A (zh) * | 2022-06-16 | 2022-08-09 | 深圳创维-Rgb电子有限公司 | 自动选择观看模式的方法、电视机、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113593582B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107340991B (zh) | 语音角色的切换方法、装置、设备以及存储介质 | |
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
CN106098063B (zh) | 一种语音控制方法、终端设备和服务器 | |
CN109145123A (zh) | 知识图谱模型的构建方法、智能交互方法、系统及电子设备 | |
CN109473104B (zh) | 语音识别网络延时优化方法及装置 | |
CN107864410B (zh) | 一种多媒体数据处理方法、装置、电子设备以及存储介质 | |
CN109240786B (zh) | 一种主题更换方法及电子设备 | |
CN105141587A (zh) | 一种虚拟玩偶互动方法及装置 | |
CN112840313B (zh) | 电子设备及其控制方法 | |
CN112230838A (zh) | 一种文章处理方法、装置、设备及计算机可读存储介质 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN110442867A (zh) | 图像处理方法、装置、终端及计算机存储介质 | |
CN112233665A (zh) | 模型训练的方法和装置、电子设备和存储介质 | |
CN110781327B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN108710516A (zh) | 预测样本的采集方法、装置、存储介质及智能终端 | |
CN106471493A (zh) | 用于管理数据的方法和装置 | |
CN113593582B (zh) | 智能设备的控制方法和装置、存储介质及电子设备 | |
CN114296853A (zh) | 动态桌面的控制方法及装置、存储介质、电子装置 | |
CN114078472A (zh) | 一种低误唤醒率的关键词计算模型的训练方法及装置 | |
CN113056066B (zh) | 基于电视节目的灯光调节方法、设备、系统及存储介质 | |
CN114760274B (zh) | 在线课堂的语音交互方法、装置、设备及存储介质 | |
CN110992930A (zh) | 声纹特征提取方法、装置、终端及可读存储介质 | |
CN114391165A (zh) | 语音信息处理方法、装置、设备及存储介质 | |
CN112114770A (zh) | 基于语音交互的界面引导方法、装置及设备 | |
CN110162710A (zh) | 输入场景下信息推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |