CN114694651A - 智能终端控制方法、装置、电子设备及存储介质 - Google Patents
智能终端控制方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114694651A CN114694651A CN202210322473.8A CN202210322473A CN114694651A CN 114694651 A CN114694651 A CN 114694651A CN 202210322473 A CN202210322473 A CN 202210322473A CN 114694651 A CN114694651 A CN 114694651A
- Authority
- CN
- China
- Prior art keywords
- intelligent terminal
- voice information
- broadcast
- control method
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004590 computer program Methods 0.000 claims description 20
- 230000003993 interaction Effects 0.000 abstract description 21
- 230000007547 defect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 210000000056 organ Anatomy 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 206010071299 Slow speech Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000003928 nasal cavity Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000002105 tongue Anatomy 0.000 description 2
- 210000000515 tooth Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种智能终端控制方法、装置、电子设备及存储介质,智能终端控制方法,包括:获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。本发明提供的智能终端控制方法、装置、电子设备及存储介质,可以解决现有技术中对老年人等群体交互不友好的缺陷,实现能够满足老年人等特殊群体的使用需求,交互体验更加友好。
Description
技术领域
本发明涉及智能设备技术领域,尤其涉及一种智能终端控制方法、装置、电子设备及存储介质。
背景技术
目前市场上存在一些智能终端设备,例如语音空调,老年人是使用语音空调的高频用户群体,但老年人的听力较成年人有所下降,普通语音空调播报语速快,导致老人很多时候听不清空调播报内容,从而产生很多不便,语音交互对老年人不友好。
因此,需要提供一种方案,对目前市场上智能终端设备的交互模式进行改进,使得其能够满足老年人等特殊群体的使用需求,交互体验更加友好。
发明内容
本发明提供一种智能终端控制方法、装置、电子设备及存储介质,用以解决现有技术中对老年人等群体交互不友好的缺陷,实现能够满足老年人等特殊群体的使用需求,交互体验更加友好。
本发明提供一种智能终端控制方法,包括:
获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
根据本发明提供的智能终端控制方法,所述基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令,包括:
将所述语音信息发送至云端服务器,以通过所述云端服务器对所述语音信息进行识别;
接收所述云端服务器返回的根据所述语音信息识别出的声纹识别结果以及控制指令。
根据本发明提供的智能终端控制方法,所述基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报,包括:
调节所述智能终端的音量和/或语速,以使得所述智能终端的工作模式满足所述目标人群对应的工作模式,并控制所述智能终端执行TTS播报。
根据本发明提供的智能终端控制方法,还包括:
在执行完成TTS播报后,将所述智能终端的音量和/或语速,调节至默认状态。
根据本发明提供的智能终端控制方法,所述控制所述智能终端执行TTS播报,包括:
从播报内容数据库中,选取与所述目标人群匹配的播报数据,进行TTS播报。
根据本发明提供的智能终端控制方法,还包括:
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,调节所述智能终端的显示屏工作模式,以使得所述显示屏的工作模式满足所述目标人群对应的工作模式。
本发明还提供一种智能终端控制装置,包括:
获取模块,用于获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;
执行模块,用于在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述智能终端控制方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述智能终端控制方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述智能终端控制方法。
本发明提供的智能终端控制方法、装置、电子设备及存储介质,通过语音信息,确定声纹识别结果,再基于声纹识别结果,选择控制所述智能终端执行TTS播报对应的工作模式,使得控制所述智能终端执行TTS播报的工作模式可以自动满足目标人群的需求。若目前人群是老年人群,则可以采用慢语速的TTS播报方式,或者调整TTS播报的音量,使得智能终端的语音交互对老年人群更加友好。
自动识别语音信息中的声纹,进行自动切换TTS播报方式,提升用户的语音交互友好度。
因此,本发明提供的智能终端控制方法,可以解决现有技术中对老年人等群体交互不友好的缺陷,实现能够满足老年人等特殊群体的使用需求,交互体验更加友好。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的智能终端控制方法的流程示意图之一;
图2是本发明提供的智能终端控制方法的流程示意图之二;
图3是本发明提供的智能终端控制方法的流程示意图之三;
图4是本发明提供的智能终端控制装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的智能终端控制方法、装置、电子设备及存储介质。
如图1所示,本发明提供一种智能终端控制方法,包括:
步骤110、获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令。
可以理解的是,本实施例提供的智能终端控制方法应用于智能终端上,智能终端可以是具有语音交互功能的空调、电视或者洗衣机等家电设备。
智能终端上设置有语音交互设备,例如麦克风,可以通过语音交互设备,接收用户输入的语音信息,并基于用户输入的语音信息,得到该语音信息的声纹识别结果以及该语音信息中包含的控制指令,例如控制智能终端开启,或者控制智能终端开始工作。
需要说明的是,通过声纹识别结果进一步判断用户的身份特征,例如可以通过声纹识别结果判断用户是否是老年人等目标人群。
声纹,是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,因此,可以通过声纹识别,确定输入语音信息的用户身份特征。
步骤120、在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,执行TTS(TextToSpeech,从文本到语音)播报。
可以理解的是,基于所述控制指令控制智能终端工作,例如可以控制智能电视开始工作,或者控制智能洗衣机开始工作。
基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报,可以是从云端服务器请求目标人群对应的TTS播报数据信息,基于该TTS播报数据信息,执行目标人群对应的工作模式下TTS播报服务。
基于所述控制指令控制智能终端工作,可以基于目标人群,匹配相应的工作模式,例如,目标人群是老年人群,可以控制智能空调在适老模式下工作,空调风速较小,温度不会过低。
若目标人群为老年人群,其对应的工作模式可以是自动放慢播放语速,以便老年人群可以听清楚TTS播报内容。
进一步,可以基于语音信息,确定输入语音信息的对象的属地方言,进而选择以该属地方言控制所述智能终端执行TTS播报内容,也可以选择普通话控制所述智能终端执行TTS播报内容。
在一些实施例中,所述基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令,包括:
将所述语音信息发送至云端服务器,以通过所述云端服务器对所述语音信息进行识别;
接收所述云端服务器返回的根据所述语音信息识别出的声纹识别结果以及控制指令。
可以理解的是,云端服务器设置有训练好的语音识别模型,可以用于识别语音信息,提取语音信息中的声纹识别结果以及控制指令。
由于语音识别模型所占用的存储空间较大,且适合多个不同的智能终端共同使用,因此,可以将语音识别模型设置于云端服务器,对多个不同智能终端发送的语音信息进行识别,避免提升智能终端设备的成本。
进一步,语音识别模型可以是基于模板模型(非参数模型),或者随机模型(参数模型)训练得到。
模板模型将训练特征参数和测试的特征参数进行比较,两者之间的失真(distortion)作为相似度。
模板模型的典型例子有矢量量化模型和动态时间规整法动态时间规整模型。矢量量化方法则是通过聚类、量化的方法生成码本,识别时对测试数据进行量化编码,以失真度的大小作为判决的标准。动态时间规整通过将输入待识别的特征矢量序列与训练时提取的特征矢量进行比较,通过最优路径匹配的方法来进行识别。
随机模型(参数模型)用一个概率密度函数来模拟说话人,训练过程用于预测概率密度函数的参数,匹配过程通过计算相应模型的测试语句的相似度来完成。随机模型采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数作为说话人的模型,例如高斯混合模型和隐马尔科夫模型。云端服务器返回的声纹特征识别结果可以是,输入语音信息的对象是男性还是女性,是年轻人、中年人还是老年人。
进一步,基于声纹特征识别结果,还可以输入语音信息的对象是否是具体的目标用户,目标用户可以是经常使用对应智能终端的用户。
对于目标用户,智能终端可以记录该用户的使用习惯数据,例如喜欢收听的播报内容、喜欢的播报语速等。智能终端将用户的使用习惯数据上传至云端服务器,由云端服务器将该使用习惯数据与该用户对应的声纹识别结果进行绑定存储。
在下一次,云端服务器将对应的声纹识别结果发送至智能终端时,同时将与其绑定的使用习惯数据发送至智能终端,智能终端基于该使用习惯数据,调节自己的工作模式,使得自己的工作模式满足该具体用户的工作模式,并控制所述智能终端执行TTS播报。
在一些实施例中,所述基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报,包括:
调节所述智能终端的音量和/或语速,以使得所述智能终端的工作模式满足所述目标人群对应的工作模式,并控制所述智能终端执行TTS播报。
可以理解的是,若目标人群是老年人群,则可以将智能终端设备的音量调大,以便老年人群可以听清楚智能终端的发出的语音,还可以调低智能终端的语速,以便老年人群可以听清楚智能终端发出的语音。
若目标人群是年轻人群,则可以将智能终端设备的音量调小,将智能终端的播报语速调快。
进一步,在调节智能终端的音量或者语速时,还可以基于声纹特征识别结果,确定输入语音信息的用户身份信息,基于用户身份信息,确定该用户的使用习惯数据,例如该用户使用智能终端的历史音量或者历史语速,直接将智能终端的音量调节至该历史音量,或者直接将智能终端的播报语速调节至该历史语速。
在一些实施例中,控制所述智能终端执行TTS播报,包括:
从播报内容数据库中,选取与所述目标人群匹配的播报数据,进行TTS播报。
可以理解的是,不同人群适用的播报内容会存在差别,例如年轻人群适用的播报内容会紧跟时尚潮流,若目标人群是老年人群,可以播放简化版的老话术内容。
其中,播报内容数据库可以设置于云端服务器内,播放内容数据库的内容可以根据当前网络的实时用语进行即时更新。
需要说明的是,不同人群对应的播报数据不相同,但不同播报数据本身的播报内容可以相同,只是播报的速度存在区别。例如,对于老年人群,在进行内容播报时,对应的语速较慢,对于年轻人群,在进行内容播报时,对应的语速为正常语速。
进一步,通过对语音信息进行识别,提取控制指令,可以从某一类型的播报内容中确定具体的播报内容,该播报内容也即是有声资源。
在一些实施例中,智能终端控制方法,还包括:
在执行完成TTS播报后,将所述智能终端的音量和/或语速,调节至默认状态。
可以理解的是,智能终端的默认状态,也即是初始状态,即调节智能终端的音量和/或语速前的状态。
进一步,若在控制所述智能终端执行TTS播报前,调节了智能终端的音量,执行完成TTS播报后,将智能终端的音量恢复至控制所述智能终端执行TTS播报前的状态;若在控制所述智能终端执行TTS播报前,调节了智能终端的语速,执行完成TTS播报后,将智能终端的语速恢复至控制所述智能终端执行TTS播报前的状态。若在控制所述智能终端执行TTS播报前,调节了智能终端的音量和语速,执行完成TTS播报后,将智能终端的音量和语速均恢复至控制所述智能终端执行TTS播报前的状态。
在一些实施例中,智能终端控制方法,还包括:
接收语音指令,在基于所述语音指令,确定需要重新播报的情况下,重新控制所述智能终端执行TTS播报。
可以理解的是,该语音指令可以是“重播一次”,或者,“没听清”等语音字段,通过设置重播,可以在用户没有听清楚智能终端执行的TTS播报内容的情况下,再次控制所述智能终端执行TTS播报,提高用户体验。
在一些实施例中,智能终端控制方法,还包括:
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,调节所述智能终端的显示屏工作模式,以使得所述显示屏的工作模式满足所述目标人群对应的工作模式。
可以理解的是,目标人群可以是老年人群,在基于所述声纹识别结果,确定输入所述语音信息的对象为老年人群的情况下,可以自动增大显示屏的文字字号,以便老年人群可以看清楚智能终端显示屏上的文字内容。
进一步,智能终端的显示屏除了可以显示文字,还可以显示动画视频,对于智能终端的使用操作过程,可以通过显示屏显示具体的操作动画,像用户进行展示。例如,对于儿童群体,可以通过展示卡通动画进行操作过程展示。
在另一些实施例中,智能终端控制方法的流程如图2所示,由智能终端判断是否开启适老场景,若开启了适老场景,再进一步基于声纹识别结果判断是否为老人声纹,若为老人声纹,则从云端服务器调用老人声纹属性模式下的TTS播报服务,由智能终端执行慢语速TTS播报服务。若基于云端服务器返回的声纹识别结果判定不是老人声纹,则调用无老人声纹属性模式下的TTS播报服务,提供正常语速的TTS播报服务。
在另一些实施例中,智能终端控制方法的流程如图3所示,云端服务器判断智能终端是否开启了适老场景,若开启了适老场景,云端服务器对智能终端上传的语音信息进行解析,得到控制指令以及声纹识别结果,并将控制指令以及声纹识别结果下发至智能终端;若智能终端没有开启适老场景,则只需要对语音信息进行解析,得到其中的控制指令即可,并将控制指令下发至智能终端。
智能终端基于声纹识别结果判断为老人声纹时,进而基于控制指令判断是否需要调节音量,若需要调节音量,在调节音量后,再向云端服务器请求TTS播报服务,若不需要调节音量,则直接向云端服务器请求TTS播报服务。
综上所述,本发明提供的智能终端控制方法,包括:获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
在本发明提供的智能终端控制方法中,可以基于语音信息,确定声纹识别结果,再基于声纹识别结果,选择控制所述智能终端执行TTS播报对应的工作模式,使得控制所述智能终端执行TTS播报的工作模式可以自动满足目标人群的需求。若目前人群是老年人群,则可以采用慢语速的TTS播报方式,或者调整TTS播报的音量,使得智能终端的语音交互对老年人群更加友好。
自动识别语音信息中的声纹,进行自动切换TTS播报方式,提升用户的语音交互友好度。
因此,本发明提供的智能终端控制方法,可以解决现有技术中对老年人等群体交互不友好的缺陷,实现能够满足老年人等特殊群体的使用需求,交互体验更加友好。
下面对本发明提供的智能终端控制装置进行描述,下文描述的智能终端控制装置与上文描述的智能终端控制方法可相互对应参照。
如图4所示,本发明还提供一种智能终端控制装置400,包括:获取模块410和执行模块420。
获取模块410用于获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令。
可以理解的是,本实施例提供的智能终端控制方法应用于智能终端上,智能终端可以是具有语音交互功能的空调、电视或者洗衣机等家电设备。
智能终端上设置有语音交互设备,例如麦克风,可以通过语音交互设备,接收用户输入的语音信息,并基于用户输入的语音信息,得到该语音信息的声纹识别结果以及该语音信息中包含的控制指令,例如控制智能终端开启,或者控制智能终端开始工作。
需要说明的是,通过声纹识别结果进一步判断用户的身份特征,例如可以通过声纹识别结果判断用户是否是老年人等目标人群。
声纹,是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,因此,可以通过声纹识别,确定输入语音信息的用户身份特征。
执行模块420用于在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
可以理解的是,基于所述控制指令控制智能终端工作,例如可以控制智能电视开始工作,或者控制智能洗衣机开始工作。
基于所述控制指令控制智能终端工作,可以基于目标人群,匹配相应的工作模式,例如,目标人群是老年人群,可以控制智能空调在适老模式下工作,空调风速较小,温度不会过低。
若目标人群为老年人群,其对应的工作模式可以是自动放慢播放语速,以便老年人群可以听清楚TTS播报内容。
进一步,可以基于语音信息,确定输入语音信息的对象的属地方言,进而选择以该属地方言控制所述智能终端执行TTS播报内容,也可以选择普通话控制所述智能终端执行TTS播报内容。
在一些实施例中,获取模块410,包括:发送单元和接收单元。
发送单元用于将所述语音信息发送至云端服务器,以通过所述云端服务器对所述语音信息进行识别。
接收单元用于接收所述云端服务器返回的根据所述语音信息识别出的声纹识别结果以及控制指令。
可以理解的是,云端服务器设置有训练好的语音识别模型,可以用于识别语音信息,提取语音信息中的声纹识别结果以及控制指令。
由于语音识别模型所占用的存储空间较大,且适合多个不同的智能终端共同使用,因此,可以将语音识别模型设置于云端服务器,对多个不同智能终端发送的语音信息进行识别,避免提升智能终端设备的成本。
进一步,语音识别模型可以是基于模板模型,或者随机模型训练得到。
模板模型将训练特征参数和测试的特征参数进行比较,两者之间的失真作为相似度。
模板模型的典型例子有矢量量化模型和动态时间规整法动态时间规整模型。矢量量化方法则是通过聚类、量化的方法生成码本,识别时对测试数据进行量化编码,以失真度的大小作为判决的标准。动态时间规整通过将输入待识别的特征矢量序列与训练时提取的特征矢量进行比较,通过最优路径匹配的方法来进行识别。
随机模型用一个概率密度函数来模拟说话人,训练过程用于预测概率密度函数的参数,匹配过程通过计算相应模型的测试语句的相似度来完成。随机模型采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数作为说话人的模型,例如高斯混合模型和隐马尔科夫模型。云端服务器返回的声纹特征识别结果可以是,输入语音信息的对象是男性还是女性,是年轻人、中年人还是老年人。
进一步,基于声纹特征识别结果,还可以输入语音信息的对象是否是具体的目标用户,目标用户可以是经常使用对应智能终端的用户。
对于目标用户,智能终端可以记录该用户的使用习惯数据,例如喜欢收听的播报内容、喜欢的播报语速等。智能终端将用户的使用习惯数据上传至云端服务器,由云端服务器将该使用习惯数据与该用户对应的声纹识别结果进行绑定存储。
在下一次,云端服务器将对应的声纹识别结果发送至智能终端时,同时将与其绑定的使用习惯数据发送至智能终端,智能终端基于该使用习惯数据,调节自己的工作模式,使得自己的工作模式满足该具体用户的工作模式,并控制所述智能终端执行TTS播报。
在一些实施例中,发送单元进一步用于将所述语音信息发送至云端服务器,以通过所述云端服务器的Query对所述语音信息进行识别。
在一些实施例中,执行模块420,包括:调节单元。
调节单元用于调节所述智能终端的音量和/或语速,以使得所述智能终端的工作模式满足所述目标人群对应的工作模式,并控制所述智能终端执行TTS播报。
可以理解的是,若目标人群是老年人群,则可以将智能终端设备的音量调大,以便老年人群可以听清楚智能终端的发出的语音,还可以调低智能终端的语速,以便老年人群可以听清楚智能终端发出的语音。
若目标人群是年轻人群,则可以将智能终端设备的音量调小,将智能终端的播报语速调快。
进一步,在调节智能终端的音量或者语速时,还可以基于声纹特征识别结果,确定输入语音信息的用户身份信息,基于用户身份信息,确定该用户的使用习惯数据,例如该用户使用智能终端的历史音量或者历史语速,直接将智能终端的音量调节至该历史音量,或者直接将智能终端的播报语速调节至该历史语速。
在一些实施例中,执行模块420,包括:执行单元。
执行单元用于从播报内容数据库中,选取与所述目标人群匹配的播报数据,进行TTS播报。
可以理解的是,不同人群适用的播报内容会存在差别,例如年轻人群适用的播报内容会紧跟时尚潮流,若目标人群是老年人群,可以播放简化版的老话术内容。
其中,播报内容数据库可以设置于云端服务器内,播放内容数据库的内容可以根据当前网络的实时用语进行即时更新。
需要说明的是,不同人群对应的播报数据不相同,但不同播报数据本身的播报内容可以相同,只是播报的速度存在区别。例如,对于老年人群,在进行内容播报时,对应的语速较慢,对于年轻人群,在进行内容播报时,对应的语速为正常语速。
进一步,通过对语音信息进行识别,提取控制指令,可以从某一类型的播报内容中确定具体的播报内容,该播报内容也即是有声资源。
在一些实施例中,智能终端控制装置,还包括:恢复模块。
恢复模块用于在执行完成TTS播报后,将所述智能终端的音量和/或语速,调节至默认状态。
可以理解的是,智能终端的默认状态,也即是初始状态,即调节智能终端的音量和/或语速前的状态。
进一步,若在控制所述智能终端执行TTS播报前,调节了智能终端的音量,执行完成TTS播报后,将智能终端的音量恢复至控制所述智能终端执行TTS播报前的状态;若在控制所述智能终端执行TTS播报前,调节了智能终端的语速,执行完成TTS播报后,将智能终端的语速恢复至控制所述智能终端执行TTS播报前的状态。若在控制所述智能终端执行TTS播报前,调节了智能终端的音量和语速,执行完成TTS播报后,将智能终端的音量和语速均恢复至控制所述智能终端执行TTS播报前的状态。
在一些实施例中,智能终端控制装置400,还包括:重播模块。
重播模块用于接收语音指令,在基于所述语音指令,确定需要重新播报的情况下,重新控制所述智能终端执行TTS播报。
可以理解的是,该语音指令可以是“重播一次”,或者,“没听清”等语音字段,通过设置重播,可以在用户没有听清楚智能终端执行的TTS播报内容的情况下,再次控制所述智能终端执行TTS播报,提高用户体验。
在一些实施例中,智能终端控制装置400,还包括:调节模块。
调节模块在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,调节所述智能终端的显示屏工作模式,以使得所述显示屏的工作模式满足所述目标人群对应的工作模式。
可以理解的是,目标人群可以是老年人群,在基于所述声纹识别结果,确定输入所述语音信息的对象为老年人群的情况下,可以自动增大显示屏的文字字号,以便老年人群可以看清楚智能终端显示屏上的文字内容。
进一步,智能终端的显示屏除了可以显示文字,还可以显示动画视频,对于智能终端的使用操作过程,可以通过显示屏显示具体的操作动画,像用户进行展示。例如,对于儿童群体,可以通过展示卡通动画进行操作过程展示。
下面对本发明提供的电子设备、计算机程序产品及存储介质进行描述,下文描述的电子设备、计算机程序产品及存储介质与上文描述的智能终端控制方法可相互对应参照。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行智能终端控制方法,该方法包括:
获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的智能终端控制方法,该方法包括:
获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的智能终端控制方法,该方法包括:
获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种智能终端控制方法,其特征在于,包括:
获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
2.根据权利要求1所述的智能终端控制方法,其特征在于,所述基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令,包括:
将所述语音信息发送至云端服务器,以通过所述云端服务器对所述语音信息进行识别;
接收所述云端服务器返回的根据所述语音信息识别出的声纹识别结果以及控制指令。
3.根据权利要求1所述的智能终端控制方法,其特征在于,所述基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报,包括:
调节所述智能终端的音量和/或语速,以使得所述智能终端的工作模式为所述目标人群对应的工作模式,并控制所述智能终端执行TTS播报。
4.根据权利要求3所述的智能终端控制方法,其特征在于,还包括:
在执行完成TTS播报后,将所述智能终端的音量和/或语速,调节至默认状态。
5.根据权利要求1所述的智能终端控制方法,其特征在于,所述控制所述智能终端执行TTS播报,包括:
从播报内容数据库中,选取与所述目标人群匹配的播报数据,进行TTS播报。
6.根据权利要求1所述的智能终端控制方法,其特征在于,还包括:
在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,调节所述智能终端的显示屏工作模式,以使得所述显示屏的工作模式满足所述目标人群对应的工作模式。
7.一种智能终端控制装置,其特征在于,包括:
获取模块,用于获取语音信息,并基于所述语音信息,得到所述语音信息对应的声纹识别结果以及控制指令;
执行模块,用于在基于所述声纹识别结果,确定输入所述语音信息的对象为目标人群的情况下,基于所述控制指令控制智能终端工作,以及基于所述目标人群对应的工作模式,控制所述智能终端执行TTS播报。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述智能终端控制方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述智能终端控制方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述智能终端控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210322473.8A CN114694651A (zh) | 2022-03-29 | 2022-03-29 | 智能终端控制方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210322473.8A CN114694651A (zh) | 2022-03-29 | 2022-03-29 | 智能终端控制方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694651A true CN114694651A (zh) | 2022-07-01 |
Family
ID=82140690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210322473.8A Pending CN114694651A (zh) | 2022-03-29 | 2022-03-29 | 智能终端控制方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114694651A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240675A (zh) * | 2022-07-25 | 2022-10-25 | 广东职业技术学院 | 一种智能电器的人机交互方法、装置和系统 |
WO2024016757A1 (zh) * | 2022-07-20 | 2024-01-25 | 青岛海尔空调器有限总公司 | 用于空调的控制方法与装置、智能空调 |
-
2022
- 2022-03-29 CN CN202210322473.8A patent/CN114694651A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024016757A1 (zh) * | 2022-07-20 | 2024-01-25 | 青岛海尔空调器有限总公司 | 用于空调的控制方法与装置、智能空调 |
CN115240675A (zh) * | 2022-07-25 | 2022-10-25 | 广东职业技术学院 | 一种智能电器的人机交互方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6876752B2 (ja) | 応答方法及び装置 | |
CN108962255B (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
CN111241357B (zh) | 对话训练方法、装置、系统及存储介质 | |
CN102089804B (zh) | 声音合成模型生成装置、声音合成模型生成系统、通信终端以及声音合成模型生成方法 | |
CN111489424A (zh) | 虚拟角色表情生成方法、控制方法、装置和终端设备 | |
CN112099628A (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
CN111010586A (zh) | 基于人工智能的直播方法、装置、设备及存储介质 | |
CN114694651A (zh) | 智能终端控制方法、装置、电子设备及存储介质 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN112750462B (zh) | 一种音频处理方法、装置及设备 | |
CN111048064A (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
CN111968678B (zh) | 一种音频数据处理方法、装置、设备及可读存储介质 | |
CN108804667A (zh) | 用于呈现信息的方法和装置 | |
CN114067806A (zh) | 一种语音转换方法及相关设备 | |
CN112349266A (zh) | 一种语音编辑方法及相关设备 | |
CN117292022A (zh) | 基于虚拟对象的视频生成方法、装置及电子设备 | |
CN117079501A (zh) | 虚拟人自调节教学云平台、系统、方法及相关设备 | |
CN116403583A (zh) | 语音数据处理方法和装置、非易失性存储介质及车辆 | |
CN115643467A (zh) | 虚拟人物直播方法、装置、电子设备及存储介质 | |
KR102605178B1 (ko) | 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램 | |
CN108717851A (zh) | 一种语音识别方法及装置 | |
CN114792521A (zh) | 基于语音识别的智能答复方法及装置 | |
CN114783410A (zh) | 语音合成方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |