CN113593582B - 智能设备的控制方法和装置、存储介质及电子设备 - Google Patents

智能设备的控制方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113593582B
CN113593582B CN202110706136.4A CN202110706136A CN113593582B CN 113593582 B CN113593582 B CN 113593582B CN 202110706136 A CN202110706136 A CN 202110706136A CN 113593582 B CN113593582 B CN 113593582B
Authority
CN
China
Prior art keywords
voice
frequency domain
data
target object
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110706136.4A
Other languages
English (en)
Other versions
CN113593582A (zh
Inventor
郭凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202110706136.4A priority Critical patent/CN113593582B/zh
Publication of CN113593582A publication Critical patent/CN113593582A/zh
Application granted granted Critical
Publication of CN113593582B publication Critical patent/CN113593582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种智能设备的控制方法和装置、存储介质及电子设备。其中,该方法包括:在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;对语音数据进行声纹识别,得到目标对象的声纹特征;在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。本发明解决了智能设备运行模式的切换方式单一的技术问题。

Description

智能设备的控制方法和装置、存储介质及电子设备
技术领域
本发明涉及智能设备控制技术领域,具体而言,涉及一种智能设备的控制方法和装置、存储介质及电子设备。
背景技术
现今市面上很多智能设备针对不同的目标用户群体设置了不同的运行模式。比如智能电视,针对儿童用户群体和成人用户群体配置有儿童模式和成人模式。在这两种不同模式下,智能电视可以提供不一样的操作方式,还可以针对不同用户群体推送不同的内容;又比如智能汽车,可以设置为男士模式和女士模式,在这两种不同的模式下,智能汽车可以设置不同的车内环境,比如针对不同的用户群体播放不同风格的音乐,针对不同的用户群体调整车内显示屏的显示风格。
因此,在不同类型的用户使用同一智能设备的场景下,智能设备的需要提供运行模式的切换功能。目前,对智能设备进行运行模式切换的方式比较单一,比如只能通过触控操作的方式在操作界面进行设置,从而切换智能设备的运行模式。但是在有些场景下,不宜采用触控操作的方式对智能设备的运行模式进行切换。比如在驾驶智能汽车时,如果采用触控操作切换运行模式,会存在安全隐患。可见,目前市面上对智能设备的运行模式进行切换的方式比较单一的技术问题亟待解决。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种智能设备的控制方法和装置、存储介质及电子设备,以至少解决智能设备运行模式的切换方式单一的技术问题。
根据本发明的一个实施例,提供了一种智能设备的控制方法,包括:在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;对语音数据进行声纹识别,得到目标对象的声纹特征;在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
根据本发明实施例的另一方面,还提供了一种智能设备的控制装置,包括:采集模块,用于在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;识别模块,用于对语音数据进行声纹识别,得到目标对象的声纹特征;切换模块,用于在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述智能设备的控制方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的智能设备的控制方法。
在本发明实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的智能设备的控制方法的示意图;
图2是根据本发明实施例的另一种可选的智能设备的控制方法的示意图;
图3是根据本发明实施例的一种可选的语音识别模型的训练方法的示意图;
图4是根据本发明实施例的一种可选的对语音数据进行预处理的方法的示意图;
图5是根据本发明实施例的又一种可选的智能设备的控制方法的示意图;
图6是根据本发明实施例的一种可选的智能设备的控制装置的结构示意图;
图7是根据本发明实施例的另一种可选的智能设备的控制装置的结构示意图;
图8是根据本发明实施例的又一种可选的智能设备的控制装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,根据本发明实施例的一个方面,提供了一种智能设备的控制方法,包括:
步骤S102,在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
步骤S104,对语音数据进行声纹识别,得到目标对象的声纹特征;
步骤S106,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
可选地,这里的智能设备被唤醒的方式可以但不限于是采用语音指令唤醒的方式,也可以是采用遥控唤醒的方式,还可以是触控唤醒的方式,在此不作限定。这里的已被唤醒的情况,可以但不限于是指智能设备已经处于某一运行模式,可以接收语音指令的情况,也可以指该智能设备已经启动,可以接收语音指令,但不处于某种运行模式的情况,在此不作限定。在上述智能设备已经处于某一运行模式的情况下,该运行模式是一种默认的初始状态运行模式,也可以是从该智能设备中存储的模式中随机确认的一种运行模式,在此不作限定。
可选地,采集到的目标对象的语音数据,可以但不限于是是预先存储在智能设备中的目标对象的语音数据,即获取存储在智能设备中的上一次运行记录的语音数据,也可以是在唤醒之后,再获取得到的当前目标对象的语音数据。在唤醒之后,再获取得到当前目标对象的语音数据的情况下,可以是获取被唤醒时采集的目标对象的唤醒语音指令对应的语音数据,也可是在被唤醒之后,指示目标对象输入语音指令,再获取得到的语音指令中记录的语音数据,在此不作限定。
需要说明的是,声纹特征可以但不限于指与人类的发声机制的解剖学结构相关的声学特征,比如频谱、倒频谱、共振峰、基音、发射系数等。
可以理解的是,目标对象的身份角色类型可以但不限于是是根据年龄划分:老人、中年人、儿童,也可以是根据性别划分:男性、女性,也可以同时根据年龄和性别划分不同的身份角色类型:中年男性、中年女性、老年男性、老年女性、男童、女童等,具体划分的方法在此不作限定。对应于根据不同标准划分的目标对象的身份角色类型,智能设备可以内置有匹配于不同目标角色类型的运行模式,比如老年模式、中年模式、儿童模式,男性模式、女性模式、男童模式、女童模式等,在此不作限定。可以理解的是,正是由于上述角色类型的声纹特征存在显著区别,所以可以通过声纹指示目标对象的身份角色类型。
可选地,智能设备匹配于不同目标角色的运行模式的区别,可以是展示内容的区别,也可以是操作方式的区别,也可以是在展示内容和操作方式上均有区别,在此不作限定。比如,在一台智能电视上,针对成人和儿童可以但不限于是提供与其类型相匹配的成人模式和儿童模式,其中,成人模式和儿童模式下提供给目标对象的展示内容不同,在成人模式下不对影视资源进行主动过滤,而在儿童模式下主动过滤不适宜儿童观看的影视资源,并主要提供动画类型的影视资源。还可以是根据成人和儿童的不同操作习惯设置不同的操作方式,比如在成人模式下,提供以触控操作为主的操作方式;在儿童模式下,提供以语音操作为主的操作方式,在此不作限定。
可选地,智能设备的运行模式可以是预先内置于智能设备的运行模式集合,也可以是存储于云服务器的运行模式集合,在此不作限定;在智能设备的运行模式可以是人为通过预先设置得到的运行模式,也可以是根据用户使用习惯训练得到的运行模式,在此不作限定。
可选地,在本实施例中,上述设备可以是具备收发数据和控制指令能力的设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、智能音箱、智能空调等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
在本发明实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
在本发明可选实施例中,上述步骤S104,对语音数据进行声纹识别,得到目标对象的声纹特征,上述方法还可以包括:
步骤S202,对语音数据进行预处理,得到语音频域数据;
步骤S204,将语音频域数据输入语音识别模型,得到目标对象的声纹特征,其中,语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
可以理解的是,上述对语音数据进行预处理,可以是对语音数据进行过滤处理,也可以是对语音数据进行降噪处理,还可以是对语音数据进行时频变换,还可以是上述处理操作的组合,在此不作限定,通过对语音数据进行预处理,减少用于语音识别的数据中的噪声部分,从而实现提高识别准确率的技术效果。
在该实施例中,通过将语音数据进行预处理后得到的语音音频域输入语音识别模型,可以实现提高识别准确率的技术效果。
可选地,上述步骤S202中的语音识别模型的训练方法可以是以下步骤:
步骤S302,获取多个样本标注数据,其中,多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
步骤S304,对多个样本标注数据进行时频变换,得到多个样本标注频域数据,其中,多个样本标注频域数据包括:与第一语音数据对应的儿童频域数据,和与第二语音数据对应的成人频域数据;
依次将每个样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
步骤S306,将当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
步骤S308,判断声纹识别结果与当前样本标注频域数据的标注标签是否一致,在声纹识别结果与当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据,并根据声纹识别结果调整初始化的语音识别模型中的模型参数,然后执行步骤S306;在声纹识别结果与当前样本标注频域数据的标注标签一致的情况下,执行步骤S310,更新成功识别计数结果;
步骤S312,判断成功识别计数结果是否达到第一阈值,在成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据,然后执行步骤S306;在成功识别计数结果达到第一阈值的情况下,执行步骤S314,确定达到收敛条件。
可选地,上述识别模型可以设置为对样本标注数据进行二分识别,从而提高识别效率。
可选地,上述样本标注数据可以但不限于是来自于公开的数据库。由于公开的数据库中样本标注数据量大,从而利用公开的语音数据库训练得到用于识别语音数据的识别模型,可以提高识别模型的训练效率,实现提升识别模型的识别准确度的技术效果。
可选地,上述计数结果可以是成功识别的样本个数,也可以是当前成功识别率,在此不作限定。可选地,上述第一阈值可以是根据需要人为设置的一个固定值,也可以是根据需要训练得到的一个固定值,还可以是根据需求设置的一个变化值,在此不作限定。
通过本实施例,可以训练得到一个用于声纹识别的识别模型,该模型是基于现有的语音样本标注数据训练得到,识别准确度高。同时基于该训练得到的识别模型进行语音识别,不需要预先获取目标对象的语音数据,从而实现对语音数据中目标对象的私密信息进行脱敏,避免了目标对象语音数据泄露造成的隐私问题。
在本发明可选实施例中,如图4所示,上述步骤S202还可以包括:
步骤S402,对语音数据进行人声过滤处理,得到过滤后的语音数据;
步骤S404,对过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
步骤S406,对降噪后的语音数据进行时频变换,得到语音频域数据。
可选地,进行人声过滤处理的处理方法可以是,根据语音数据的响度进行过滤处理,比如对高于一定响度阈值或者低于一定响度阈值的语音数据进行过滤处理。也可以是根据语音数据的频率进行过滤处理,比如对高于一定频率阈值或者低于一定频率阈值的语音数据进行过滤处理。还可以是根据语音数据的响度和频率进行过滤处理。对语音数据进行过滤处理的方法在此不作限制。
可选地,对过滤后的语音数据进行降噪处理的方法可以是利用音频滤波对语音数据进行处理,该音频滤波可以根据实际需要进行选择,在此不作限制。
在本实施例中,通过对语音数据进行预处理,减少用于语音识别的数据中的噪声部分,从而实现提高识别准确率的技术效果。
在本发明可选实施例中,上述步骤S106,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式,还可以包括:
步骤S1,在声纹特征指示目标对象为儿童的情况下,确定目标对象的身份角色类型为目标角色类型。
步骤S2,在声纹特征指示目标对象为成人的情况下,确定目标对象的身份角色类型并非目标角色类型;控制智能设备将运行模式切换为与成人类型相匹配的模式。
在本实施例中,基于不同的语音识别结果,控制智能设备将运行模式切换为与语音识别结果相匹配的模式,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
下面结合图5,对本发明的具体实施例进行举例说明。
步骤S502,智能设备被用户唤醒,并采集唤醒语音数据;
步骤S504,对语音数据进行预处理,得到语音频域数据;
步骤S506,使用训练阶段得到的语音识别模型,对频域数据进行分类识别;
步骤S508,使用训练阶段得到的语音识别模型对频域数据进行分类识别,在识别结果指示目标对象的角色类型为儿童的情况下,执行步骤S510,智能设备将运行模式切换为儿童模式,在识别结果指示目标对象的角色类型为成人的情况下,执行步骤S512,智能设备将运行模式切换为成人模式。
可以理解的是,在本实施例中,上述步骤S502可以是基于用户的唤醒语音数据进行目标角色的类型识别。由于不需要预先存储用户语音数据,而是基于用户当前唤醒语音数据进行目标角色的类型识别,从而避免了用户隐私数据的泄露,实现了增强用户隐私保护的技术效果。
可以理解的是,上述步骤S504中,对语音数据进行预处理的方式包括,对语音数据进行人声过滤处理,得到过滤后的语音数据;然后对过滤后的语音数据进行降噪处理,得到降噪后的语音数据;最后对降噪后的语音数据进行时频变换,得到语音频域数据。通过对语音数据进行预处理,减少用于语音识别的数据中的噪声部分,从而实现提高识别准确率的技术效果。
可以理解的是,上述步骤S506中,训练阶段得到的语音识别模型可以是使用公开语音数据库利用机器学习训练得到的语音二分类模型,可以用于识别成人和儿童。通过采用公开语音数据库对分类模型进行训练,提高了识别模型的识别准确度。同时,训练得到的是二分类模型,提高了识别模型的识别速度。
在上述实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种智能设备的控制装置。如图6所示,该装置包括:
采集模块601,用于在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
识别模块602,用于对语音数据进行声纹识别,得到目标对象的声纹特征;
切换模块603,用于在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
在本发明实施例中,采用对目标对象的语音数据进行识别,然后通过根据识别结果所指示的目标对象的身份角色类型,将智能设备的运行模式切换至与目标角色类型相匹配的运行模式的方式,达到了通过声纹特征识别目标对象类型的目的,从而实现了丰富智能设备的运行模式的切换方式的技术效果,进而解决了智能设备运行模式的切换方式单一的技术问题。
可选地,如图7所示,上述识别模块602还可以包括:
处理单元702,用于对语音数据进行预处理,得到语音频域数据;
识别单元704,用于将语音频域数据输入语音识别模型,得到目标对象的声纹特征,其中,语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
可选地,上述识别单元704还可以包括训练单元,可以用于:
获取多个样本标注数据,其中,多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
对多个样本标注数据进行时频变换,得到多个样本标注频域数据,其中,多个样本标注频域数据包括:与第一语音数据对应的儿童频域数据,和与第二语音数据对应的成人频域数据;
依次将每个样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
将当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
在声纹识别结果与当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据,并根据声纹识别结果调整初始化的语音识别模型中的模型参数;
在声纹识别结果与当前样本标注频域数据的标注标签一致的情况下,更新成功识别计数结果;
在成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为当前样本标注频域数据;
在成功识别计数结果达到第一阈值的情况下,确定达到收敛条件。
可选地,如图8所示,上述处理单元702还可以包括:
第一处理子单元802,用于对语音数据进行人声过滤处理,得到过滤后的语音数据;
第二处理子单元804,用于对过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
第三处理子单元806,用于对降噪后的语音数据进行时频变换,得到语音频域数据。
可选地,上述识别模块602还包括:
第一确定单元,用于在声纹特征指示目标对象为儿童的情况下,确定目标对象的身份角色类型为目标角色类型。
可选地,上述识别模块602还包括:
第二确定单元,用于在声纹特征指示目标对象为成人的情况下,确定目标对象的身份角色类型并非目标角色类型;
第一切换单元,控制智能设备将运行模式切换为与成人类型相匹配的模式。
可以理解的是,本发明实施例的装置具有与上述智能设备的控制方法相应的有益效果,这里不再赘述。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,该程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
S2,对语音数据进行声纹识别,得到目标对象的声纹特征;
S3,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述智能设备的控制方法的电子装置,该电子装置包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
S2,对语音数据进行声纹识别,得到目标对象的声纹特征;
S3,在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种智能设备的控制方法,其特征在于,包括:
在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
所述已被唤醒的情况至少包括:所述智能设备已经处于运行模式下接收语音指令唤醒,所述智能设备已经启动,不处于运行模式下接收语音指令唤醒;
所述采集到的目标对象的语音数据至少包括:预先存储在所述智能设备中的目标对象的语音数据,在唤醒之后,再获取得到的当前目标对象的语音数据;则所述获取采集到的目标对象的语音数据,至少包括:获取存储在所述智能设备中的上一次运行记录的语音数据;获取被唤醒时采集的目标对象的唤醒语音指令对应的语音数据;在被唤醒之后,指示目标对象输入语音指令,再获取得到的语音指令中记录的语音数据;
对所述语音数据进行声纹识别,得到所述目标对象的声纹特征;
在所述声纹特征指示所述目标对象的身份角色类型为目标角色类型的情况下,控制所述智能设备将运行模式切换为与所述目标角色类型相匹配的模式;
所述运行模式至少包括默认的初始状态运行模式;所述运行模式匹配不同目标角色的区别至少包括:展示内容,操作方式;则所述控制所述智能设备将运行模式切换为与所述目标角色类型相匹配的模式包括:控制所述智能设备将默认的初始状态运行模式切换为与所述目标角色类型相匹配的模式。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音数据进行声纹识别,得到所述目标对象的声纹特征包括:
对所述语音数据进行预处理,得到语音频域数据;
将所述语音频域数据输入语音识别模型,得到所述目标对象的声纹特征,其中,所述语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
3.根据权利要求2所述的方法,其特征在于,在所述对所述语音数据进行预处理,得到语音频域数据之前,还包括:
获取多个样本标注数据,其中,所述多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
对所述多个样本标注数据进行时频变换,得到所述多个样本标注频域数据,其中,所述多个样本标注频域数据包括:与所述第一语音数据对应的儿童频域数据,和与所述第二语音数据对应的成人频域数据;
依次将每个所述样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
将所述当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据,并根据所述声纹识别结果调整所述初始化的语音识别模型中的模型参数;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签一致的情况下,更新成功识别计数结果;
在所述成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据;
在所述成功识别计数结果达到所述第一阈值的情况下,确定达到所述收敛条件。
4.根据权利要求2所述的方法,其特征在于,所述对所述语音数据进行预处理,得到语音频域数据包括:
对所述语音数据进行人声过滤处理,得到过滤后的语音数据;
对所述过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
对所述降噪后的语音数据进行时频变换,得到所述语音频域数据。
5.根据权利要求1所述的方法,其特征在于,在所述对所述语音数据进行声纹识别,得到所述目标对象的声纹特征之后,还包括:
在所述声纹特征指示所述目标对象为儿童的情况下,确定所述目标对象的身份角色类型为所述目标角色类型。
6.根据权利要求1所述的方法,其特征在于,在所述对所述语音数据进行声纹识别,得到所述目标对象的声纹特征之后,还包括:
在所述声纹特征指示所述目标对象为成人的情况下,确定所述目标对象的身份角色类型并非所述目标角色类型;
控制所述智能设备将运行模式切换为与成人类型相匹配的模式。
7.一种智能设备的控制装置,其特征在于,包括:
采集模块,用于在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;
所述已被唤醒的情况至少包括:所述智能设备已经处于运行模式下接收语音指令唤醒,所述智能设备已经启动,不处于运行模式下接收语音指令唤醒;
所述采集到的目标对象的语音数据至少包括:预先存储在所述智能设备中的目标对象的语音数据,在唤醒之后,再获取得到的当前目标对象的语音数据;则所述获取采集到的目标对象的语音数据,至少包括:获取存储在所述智能设备中的上一次运行记录的语音数据;获取被唤醒时采集的目标对象的唤醒语音指令对应的语音数据;在被唤醒之后,指示目标对象输入语音指令,再获取得到的语音指令中记录的语音数据;
识别模块,用于对所述语音数据进行声纹识别,得到所述目标对象的声纹特征;
切换模块,用于在所述声纹特征指示所述目标对象的身份角色类型为目标角色类型的情况下,控制所述智能设备将运行模式切换为与所述目标角色类型相匹配的模式;
所述运行模式至少包括默认的初始状态运行模式;所述运行模式匹配不同目标角色的区别至少包括:展示内容,操作方式;所述切换模块,还用于控制所述智能设备将默认的初始状态运行模式切换为与所述目标角色类型相匹配的模式。
8.根据权利要求7所述的装置,其特征在于,所述识别模块,还包括:
处理单元,用于对所述语音数据进行预处理,得到语音频域数据;
识别单元,用于将所述语音频域数据输入语音识别模型,得到所述目标对象的声纹特征,其中,所述语音识别模型为对多个样本标注频域数据进行训练后得到的声纹分类模型。
9.根据权利要求8所述的装置,其特征在于,所述识别单元,还包括:
第一训练单元,用于获取多个样本标注数据,其中,所述多个样本标注数据包括:标注有儿童类标签的第一语音数据和标注有成人类标签的第二语音数据;
对所述多个样本标注数据进行时频变换,得到所述多个样本标注频域数据,其中,所述多个样本标注频域数据包括:与所述第一语音数据对应的儿童频域数据,和与所述第二语音数据对应的成人频域数据;
依次将每个所述样本标注频域数据作为当前样本标注频域数据,并执行以下操作,直至达到收敛条件;
将所述当前样本标注频域数据输入初始化的语音识别模型,得到声纹识别结果;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签不一致的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据,并根据所述声纹识别结果调整所述初始化的语音识别模型中的模型参数;
在所述声纹识别结果与所述当前样本标注频域数据的标注标签一致的情况下,更新成功识别计数结果;
在所述成功识别计数结果并未达到第一阈值的情况下,获取下一个样本标注频域数据作为所述当前样本标注频域数据;
在所述成功识别计数结果达到所述第一阈值的情况下,确定达到所述收敛条件。
10.根据权利要求8所述的装置,其特征在于,所述处理单元,还包括:
第一处理子单元,用于对所述语音数据进行人声过滤处理,得到过滤后的语音数据;
第二处理子单元,用于对所述过滤后的语音数据进行降噪处理,得到降噪后的语音数据;
第三处理子单元,用于对所述降噪后的语音数据进行时频变换,得到所述语音频域数据。
11.根据权利要求7所述的装置,其特征在于,所述识别模块,还包括:
第一确定单元,用于在所述声纹特征指示所述目标对象为儿童的情况下,确定所述目标对象的身份角色类型为所述目标角色类型。
12.根据权利要求7所述的装置,其特征在于,所述识别模块,还包括:
第二确定单元,用于在所述声纹特征指示所述目标对象为成人的情况下,确定所述目标对象的身份角色类型并非所述目标角色类型;
第一切换单元,用于控制所述智能设备将运行模式切换为与成人类型相匹配的模式。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
CN202110706136.4A 2021-06-24 2021-06-24 智能设备的控制方法和装置、存储介质及电子设备 Active CN113593582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110706136.4A CN113593582B (zh) 2021-06-24 2021-06-24 智能设备的控制方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110706136.4A CN113593582B (zh) 2021-06-24 2021-06-24 智能设备的控制方法和装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113593582A CN113593582A (zh) 2021-11-02
CN113593582B true CN113593582B (zh) 2024-05-24

Family

ID=78244596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110706136.4A Active CN113593582B (zh) 2021-06-24 2021-06-24 智能设备的控制方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113593582B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114885218A (zh) * 2022-06-16 2022-08-09 深圳创维-Rgb电子有限公司 自动选择观看模式的方法、电视机、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108711427A (zh) * 2018-05-18 2018-10-26 出门问问信息科技有限公司 语音信息的采集方法及装置
CN109992237A (zh) * 2018-01-03 2019-07-09 腾讯科技(深圳)有限公司 智能语音设备控制方法、装置、计算机设备和存储介质
CN110265040A (zh) * 2019-06-20 2019-09-20 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备
CN110970036A (zh) * 2019-12-24 2020-04-07 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111223490A (zh) * 2020-03-12 2020-06-02 Oppo广东移动通信有限公司 声纹唤醒方法及装置、设备、存储介质
WO2020228280A1 (zh) * 2019-05-10 2020-11-19 平安科技(深圳)有限公司 智能家居设备的声音控制方法、装置、及电子装置
CN112116910A (zh) * 2020-10-30 2020-12-22 珠海格力电器股份有限公司 语音指令的识别方法和装置、存储介质、电子装置
CN112786040A (zh) * 2020-10-22 2021-05-11 青岛经济技术开发区海尔热水器有限公司 应用于智能家电设备的语音控制方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992237A (zh) * 2018-01-03 2019-07-09 腾讯科技(深圳)有限公司 智能语音设备控制方法、装置、计算机设备和存储介质
CN108711427A (zh) * 2018-05-18 2018-10-26 出门问问信息科技有限公司 语音信息的采集方法及装置
WO2020228280A1 (zh) * 2019-05-10 2020-11-19 平安科技(深圳)有限公司 智能家居设备的声音控制方法、装置、及电子装置
CN110265040A (zh) * 2019-06-20 2019-09-20 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备
CN110970036A (zh) * 2019-12-24 2020-04-07 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111223490A (zh) * 2020-03-12 2020-06-02 Oppo广东移动通信有限公司 声纹唤醒方法及装置、设备、存储介质
CN112786040A (zh) * 2020-10-22 2021-05-11 青岛经济技术开发区海尔热水器有限公司 应用于智能家电设备的语音控制方法、装置及设备
CN112116910A (zh) * 2020-10-30 2020-12-22 珠海格力电器股份有限公司 语音指令的识别方法和装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN113593582A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
JP6613347B2 (ja) 情報をプッシュする方法及び装置
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
US10852813B2 (en) Information processing system, client terminal, information processing method, and recording medium
CN108847214B (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
US20200126566A1 (en) Method and apparatus for voice interaction
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
JP2020034895A (ja) 応答方法及び装置
CN107864410B (zh) 一种多媒体数据处理方法、装置、电子设备以及存储介质
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
CN109240786B (zh) 一种主题更换方法及电子设备
WO2019153860A1 (zh) 信息交互方法和装置、存储介质及电子装置
CN106921749A (zh) 用于推送信息的方法和装置
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN113593582B (zh) 智能设备的控制方法和装置、存储介质及电子设备
CN113496156A (zh) 一种情感预测方法及其设备
CN113284500B (zh) 音频处理方法、装置、电子设备及存储介质
CN114708869A (zh) 语音交互方法、装置及电器
CN107767862B (zh) 语音数据处理方法、系统及存储介质
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN105551504B (zh) 一种基于哭声触发智能移动终端功能应用的方法及装置
CN114391165A (zh) 语音信息处理方法、装置、设备及存储介质
CN112820265B (zh) 一种语音合成模型训练方法和相关装置
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
CN115866327A (zh) 一种背景音乐添加方法和相关装置
CN114443889A (zh) 音频获取的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant