CN114842854A - 一种有声资源播放方法、装置、电器及空调 - Google Patents
一种有声资源播放方法、装置、电器及空调 Download PDFInfo
- Publication number
- CN114842854A CN114842854A CN202210324178.6A CN202210324178A CN114842854A CN 114842854 A CN114842854 A CN 114842854A CN 202210324178 A CN202210324178 A CN 202210324178A CN 114842854 A CN114842854 A CN 114842854A
- Authority
- CN
- China
- Prior art keywords
- user
- playing
- target
- resource
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000004590 computer program Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 abstract description 14
- 230000001755 vocal effect Effects 0.000 description 31
- 230000008569 process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/50—Control or safety arrangements characterised by user interfaces or communication
- F24F11/52—Indication arrangements, e.g. displays
- F24F11/526—Indication arrangements, e.g. displays giving audible indications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Mechanical Engineering (AREA)
- General Health & Medical Sciences (AREA)
- Combustion & Propulsion (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种有声资源播放方法、装置、电器及空调,所述方法包括:接收用户输入的目标语音;根据目标语音,确定用户的年龄信息;加载并播放目标有声资源,目标有声资源是基于年龄信息确定的;年龄信息是指用户属于任一目标人群的置信度。本发明提供的有声资源播放方法、装置、电器及空调,本发明提供的有声资源播放方法、装置、电器及空调,能够自动识别用户的年龄类型,进而根据不同的年龄类型推荐并播放相应的有声资源,能够自动适配不同年龄层次的用户对于有声资源的需求,相较于现有的有声资源播放来说更为智能,交互更为简便,能有效地提高用户的使用体验。
Description
技术领域
本发明涉及智能家居技术领域,尤其涉及一种有声资源播放方法、装置、电器及空调。
背景技术
儿童喜欢听的有声资源与成人是有所区分的,老人如喜欢听的有声资源与年轻人也是有所区分的,但是现有的带语音功能的语音网器等设备无法支持这些特殊群体的自识别,进而完成有声资源的自切换。例如:无法识别语音的输入对象为儿童,并自动推送播放适合儿童的有声资源(如儿歌),所以无法满足儿童的爱好需求;也无法识别语音的输入对象为老人,并自动推送播放适合老人的有声资源(如戏曲),所以无法满足老人的爱好需求。
为解决这一问题,现有技术在为用户推荐有声资源时,往往需要用户精准说出带有语义标签的意图,如除非用户输入了“我要听儿童故事”、“我要听戏曲”等,才为用户进行相对应的有声资源切换。
现有的人机交互方式比较繁琐,需要用户精准的表达出所需要播放有声资源的类型,才能实现有声资源的准确切换,这对于一切特殊群体来说,因表达能力、吐字能力的差异的存在,其实现过程是存在难度的,一定程度上造成人机交互,造成用户使用体验感差。
发明内容
本发明提供一种有声资源播放方法、装置、电器及空调,用以解决现有技术中人机交互方式比较繁琐,无法自识别特殊群体的缺陷,。
第一方面,本发明提供一种有声资源播放方法,包括:
接收用户输入的目标语音;
根据所述目标语音,确定所述用户的年龄信息;
加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的;
所述年龄信息是指所述用户属于任一目标人群的置信度。
根据本发明提供的一种有声资源播放方法,所述根据所述目标语音,确定所述用户的年龄信息,包括:
获取所述目标语音相关的声纹参数;
在确定所述声纹参数为非注册声纹参数的情况下,根据所述声纹参数计算所述用户属于任一年龄类型的置信度;
在确定所述置信度大于第一预设阈值的情况下,确定所述用户的年龄类型为所述任一年龄类型;
所述年龄类型包括老年类型、儿童类型中的至少一种。
根据本发明提供的一种有声资源播放方法,还包括:
在确定所述声纹参数为注册声纹参数的情况下,读取所述声纹参数的注册信息;
基于所述注册信息,调用所述用户的历史播放记录;
根据所述注册信息和/或所述历史播放记录,加载并播放目标有声资源。
根据本发明提供的一种有声资源播放方法,在确定所述声纹参数为非注册声纹参数的情况下之后,还包括:
获取所述目标语音相关的所有语料;
从所有语料中确定出第一目标语料,用以设置第一语义标签;
结合所述用户的年龄类型和所述第一语义标签,确定所述目标有声资源的类型。
根据本发明提供的一种有声资源播放方法,在确定所述用户的年龄类型为儿童类型,且当前运行模式为儿童保护模式或非儿童保护模式下,根据所述用户的年龄类型和所述第一语义标签,加载并播放目标有声资源,所述目标有声资源包括儿歌或者儿童故事。
根据本发明提供的一种有声资源播放方法,还包括:
在确定所述置信度不大于第一预设阈值,但大于第二预设阈值的情况下,播放第一提示音;
接收所述用户的答复语音,所述答复语音是所述用户对所述第一提示音进行答复时生成的语音;
获取所述答复语音相关的所有语料;
从所有语料中确定出第二目标语料,用以设置第二语义标签;
在确定所述第二语义标签满足预设条件的情况下,确定所述用户的年龄类型为所述任一年龄类型。
根据本发明提供的一种有声资源播放方法,在所述目标有声资源是从第三方有声资源库中加载的情况下,在加载并播放目标有声资源之前,还包括:
获取在第三方有声资源库的账号信息;
若所述账号信息为空,则播放第二提示音;
若所述账号信息为账号失效,则播放第三提示音。
根据本发明提供的一种有声资源播放方法,在播放第二提示音或播放第三提示音之后,还包括:
从预设有声资源库中加载并播放备用有声资源。
第二方面,本发明还提供一种有声资源播放装置,包括:
语音接收单元,用于接收用户输入的目标语音;
语音识别单元,用于根据所述目标语音,确定所述用户的年龄信息;
资源播放单元,用于加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的;
所述年龄信息是指所述用户属于任一目标人群的置信度。
第三方面,本发明提供一种电器,包括如第二方面所述的有声资源播放装置。
根据本发明提供的一种电器,所述电器为空调。
第四方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述有声资源播放方法的步骤。
第五方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述有声资源播放方法的步骤。
本发明提供的有声资源播放方法、装置、电器及空调,能够自动识别用户的年龄类型,进而根据不同的年龄类型推荐并播放相应的有声资源,能够自动适配不同年龄层次的用户对于有声资源的需求,相较于现有的有声资源播放来说更为智能,交互更为简便,能有效地提高用户的使用体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的有声资源播放方法的流程示意图之一;
图2是本发明提供的有声资源播放方法的流程示意图之二;
图3是本发明提供的有声资源播放方法的流程示意图之三;
图4是本发明提供的有声资源播放装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
图1是本发明提供的有声资源播放方法的流程示意图,如图1所示,包括但不限于以下步骤:
步骤101:接收用户输入的目标语音。
首先,需要说明的是,用于执行本发明所提供的有声资源播放方法的执行主体可以一种带语音功能的语音网络播放器、装置、系统等,在本实施例中不作具体限定。
以语音网络播放器(以下简称:语音网器)为例,在其上设置有采集语音信息的单元,用于接收用户输入的目标语音。
其中,目标语音是指在人机交互的过程中,由用户发出的用于指示语音网器进行相关有声资源播放的语音信息,例如“播放歌曲”、“我想听段小品”等。
步骤102,根据所述目标语音,确定所述用户的年龄信息。
其中,所述年龄信息可以是指用户属于任一目标人群的置信度。
在语音网器接收到用户输入的目标语音之后,可以通过提取出目标语音对对应的声纹,进而基于声纹识别技术,确定出该用户的年龄信息,即划分出该用于是属于哪一个目标人群的置信度。
其中,目标人群可以是儿童、老人、青年、成年人等按照年龄阶段进行分类后的人群。
需要说明的是,本发明并不对如何基于声纹识别技术,确定出该用户的年龄信息作具体的限定,例如可以基于以下步骤来实现:
首先,收集历史语音数据,并对每段历史语音进行语音特征提取,构建声纹模型库;
然后,提取出目标语音相关的语音特征并进行特征分析,如采用MFCC特征提取分析法、i-vector矢量提取分析法、线性鉴别分析法(Linear Discriminant Analysis,LDA)和概率线性判别分析法(Probabilistic Linear Discriminant Analysis,PLDA)等方法中的任一种。
进一步地,根据特征分析结果,确定该用户的目标语音特征与声纹模型库中的置信度最高的一段历史语音,并将该置信度作为该用户的年龄信息。
假设上述与用户的目标语音特征置信度最高的一段历史语音是儿童发出的语音,则可以确定出目标用户属于儿童这一目标人群的置信度。
步骤103,加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的。
可选地,在确定目标用户属于任一目标人群(如儿童)的置信度之后,就可以根据这个置信度判断该目标用户是不是儿童。即在该置信度大于置信度阈值时,认为该目标用户是儿童。
需要说明的是,在该置信度不大于置信度阈值时,则认为该目标用户不是儿童(此时可以认为该目标用户不属于任何一种预先划分的目标人群)。
例如,在语音网器发生设备故障,或者目标用户距离较远,导致所语音网器接收到的目标语音严重失真,此时假设对其分析匹配后所获取到的年龄信息为该用户属于儿童的置信度为40%(设置信度阈值为75%),则认为该用户不是儿童。由于该用户属于儿童的置信度大于该用户属于其他人群的置信度,故语音网器判断不能根据该目标语音准确划分出用户的年龄层次。
此时,可以由语音网器播放语音,以提醒用户重新输入语音,例如:“对不起,我没有听清楚您的指示,请重新输入”。
进一步地,在确定出该用户是儿童的情况下,则由语音网器调用第三方有声资源库接口,并根据该用户是儿童这一身份,从第三方有声资源库中加载适合儿童收听的目标有声资源,例如儿歌、儿童故事等。
再例如:在确定出该用户是老人的情况下,则由语音网器调用第三方有声资源库接口,并根据该用户是老人这一身份,从第三方有声资源库中加载适合老人收听的目标有声资源,例如戏曲、相声等。
再例如:在确定出该用户是少年的情况下,则由语音网器调用第三方有声资源库接口,并根据该用户是少年这一身份,从第三方有声资源库中加载适合少年收听的目标有声资源,例如网络歌曲、脱口秀等。
本发明提供的有声资源播放方法,能够自动识别用户的年龄类型,进而根据不同的年龄类型推荐并播放相应的有声资源,能够自动适配不同年龄层次的用户对于有声资源的需求,相较于现有的有声资源播放来说更为智能,交互更为简便,能有效地提高用户的使用体验。
基于上述实施例的内容,作为一种可选实施例,步骤102所提及的根据目标语音,确定用户的年龄信息,主要包括:
获取目标语音相关的声纹参数;在确定声纹参数为非注册声纹参数的情况下,根据声纹参数计算用户属于任一年龄类型的置信度;在确定置信度大于第一预设阈值的情况下,确定用户的年龄类型为任一年龄类型;年龄类型包括老年类型、儿童类型中的至少一种。
由于儿童和老人的声纹参数的差异性与其他年龄段的人的声纹参数所存在的差异性较大,且各自的声纹参数也具有特性,故本发明所提供的有声资源播放方法,可以基于自动语音识别技术(Automatic Speech Recognition,ASR)提取出目标语音所附带的声纹参数。
由于每个用户的声纹均具有唯一性,用户可以预先通过输入一段语音至语音网器,并通过语音网器将用户的这一段语音上传至云端。可以将这一段语音相关的声纹参数作为该用户的注册声纹参数存储在云端,完成对该用户的注册。
在本实施例中,语音网器获取到目标用户的声纹参数之后,可以将声纹参数发送至云端,以判断该声纹参数是否与云端所存储的任一注册声纹参数相匹配。若云端存在与之匹配的注册声纹参数,则可以确定该用户是已注册的用户;若云端不存在与之匹配的注册声纹参数,则可以确定该用户是未注册的用户。上述匹配结果会由云端服务器反馈给语音网器。
其中,判断两个声纹参数是否匹配可以通过计算两个声纹参数的相似度来确定。
进一步地,在确定该目标语音相关的声纹参数为非注册声纹参数,以确定该用户是属于非注册用户的情况下,就需要基于上述实施例的记载,根据声纹参数判断出该用户的年龄信息(即属于任一年龄类型的置信度)。
假设,最终获取到该用户的属于儿童的置信度在85%,而第一预设阈值为75%,则语音网器判定该用户是的年龄类型是:儿童类型。
这样就可以从第三方有声资源库中加载适合儿童收听的目标有声资源,例如儿歌、儿童故事等。
本发明提供的有声资源播放方法,利用语音所携带的声纹参数,能够准确的划分出当前用户的年龄类型,进而为其加载播放与之年龄类型相匹配的有声资源,无需用户进行复杂的人机交互,操作简便,有效地提升的用户的使用体验感。
基于上述实施例的内容,作为一种可选实施例,在确定声纹参数为注册声纹参数的情况下,读取声纹参数的注册信息;基于注册信息,调用用户的历史播放记录;根据注册信息和/或历史播放记录,加载并播放目标有声资源。
在上述实施例的基础上,若语音网器确定该目标语音相关的声纹参数为注册声纹参数,就可以确定该用户是属于注册用户,此时可以从云端调取该用户的注册信息,例如:年龄、对有声资源的喜好。
需要说明的是,上述注册信息可以是由用户在进行注册时填写并上传至云端的。用户也可以通过账号登录的方式,对之前填写的注册信息进行删除、修改、增加等操作。
进一步地,还可以根据用户的注册信息,调取用户的历史播放记录,通过该用户记录就可以获取到用户对有声资源的喜好。
最后,可以根据注册信息、历史播放记录等信息生成用户画像,由于语音网器根据用户画像,获知到用户的对有声资源的喜好和/或年龄等信息,就可以为其加载并播放受其喜爱的目标有声资源。
例如,根据用户的注册信息获取到用户的年龄为10岁,其对有声资源的喜好为儿童故事,则可以加载并播放儿童故事;或者,仅根据用户的历史播放记录确定用户对有声资源的喜好为相声,则可以加载并播放相声。
本发明提供的有声资源播放方法,通过用户输入的语音信息能够判断该用户是否是注册用户,进而根据判断结果加载不同的目标有声资源,即在判断该用户是否是注册用户时,可以通过其注册信息以及历史播放记录进行目标有声资源的选择;而在判断该用户是否是非注册用户时,可以判断出该用户的年龄类型,进而为其记载播放受其喜爱的目标有声资源,这样能够满足所有用户的使用需求,提升用户的满意度和交互时长。
基于上述实施例的内容,作为一种可选实施例,在确定声纹参数为非注册声纹参数的情况下之后,本发明提供的有声资源播放方法,还包括:获取目标语音相关的所有语料;从所有语料中确定出第一目标语料,用以设置第一语义标签;结合用户的年龄类型和第一语义标签,确定目标有声资源的类型。
图2是本发明提供的有声资源播放方法的流程示意图之二,如图2所示,在用户与语音网器进行语音交互的过程中,语音网器采用用户的目标语音,进而根据由目标语音所提取出的声纹参数,判断出用户属于任一目标人群的置信度。
判断该置信度大于第一预设阈值(设为75%),在该置信度不大于第一预设阈值时,则说明该用户属于与当前设定的任一目标人群,则执行正常逻辑,例如:与用户开展语音交互,提示用户重新输入语音,以重新获取目标语音,直至新获取到的目标语音相关的置信度大于第一预设阈值。
在上述实施例中,可以根据用户输入的目标语音确定出用户的年龄层次,但是适用于该年龄层次的有声资源的类型很多,为了更准确的为用户筛选出使得用户更满意的有声资源,还可以执行以下操作:
将目标语音转换成语音文本,并对语音文本进行分词处理,获取其相关的所有语料;例如:通过对目标语音进行文本转换获取到的语音文本为“今天能否为我播放一个有意思的童话故事”;对其进行分词,所获取到的所有语料包括“今天”、“能否”“为我”、“播放”、“一个”、“有意思的”、“童话”、“故事”。
从所有语料中筛选确定,有助于进行有声资源筛选的第一目标语料,假设第一目标语料为:“播放故事”,则可以根据第一目标语料确定出目标语音的第一语义标签为“故事”。
这样,在确定了用户是儿童的情况下,就可以根据第一语义标签进一步确定需要为该用户加载播放的目标有声资源的类型为:儿童故事。
本发明提供的有声资源播放方法,通过提取用户输入的目标语音的声纹参数,确定出用户的年龄类型;再结合由目标语音分析处理获取到的第一语义标签,就能够更为精准的为用户加载更符合其要求的有声资源,进一步提升了用户的满意度和交互时长。
基于上述实施例的内容,作为一种可选实施例,在确定所述用户的年龄类型为儿童类型,且当前运行模式为儿童保护模式或非儿童保护模式下,根据所述用户的年龄类型和所述第一语义标签,加载并播放目标有声资源,所述目标有声资源包括儿歌或者儿童故事。
本实施例提供了一种有声资源播放方法的实际应用,例如将其运用于常用的家用电器,如电视、空调、音箱等。
由于现有的家用电器一般可以设置儿童模式,以防止儿童误操作,或者误设置。例如,在空调上设置有儿童模式,以防止家里的儿童误开关或者进行错误运行模式的设置。
以空调为例,无论其是否被设置为儿童保护模式,即无论其是处于儿童保护模式或非儿童保护模式下,均可以在根据用户输入的目标语音识别出该用户的年龄类型为儿童类型时,结合获取到的用户的年龄类型和第一语义标签,自动为其加载并播放目标有声资源,而不会受到儿童保护模式的限制。
基于上述实施例的内容,作为一种可选实施例,本发明提供的有声资源播放方法,还可以包括:
在确定所述置信度不大于第一预设阈值,但大于第二预设阈值的情况下,播放第一提示音;接收用户的答复语音,答复语音是用户对第一提示音进行答复时生成的语音;获取答复语音相关的所有语料;从所有语料中确定出第二目标语料,用以设置第二语义标签;在确定第二语义标签满足预设条件的情况下,确定用户的年龄类型为任一年龄类型。
假设第一预设阈值为75%,第二预设阈值为60%,根据目标语音确定用户为儿童类型的置信度为70%。由于置信度小于第一预设阈值,即不能根据目标语音的置信度直接判断出该用户是儿童。但由于置信度大于第二预设阈值,即该用户是儿童的概率还是较大的。
此时,由语音网器向用户播放第一提示音,如“请问你是不是小朋友?”。
用户在收听到第一提示音后,做出对应的答复,即向语音网器输入答复语音,如“嗯,我是的!”
语音网器将答复语音转换成对应的语音文本,并进行分词,以获取所有语料,包括“嗯”“我”“是的”。
进一步地,可以从所有语料中筛选出第二目标语料“我”“是的”,进而可以设置出第二语义标签“是”。
这样,语音网器就可以判断第二语义标签是否满足预设条件,即判断第二语义标签是肯定的含义词还是否定的含义词。若确定是肯定的含义词,则判断出该用户的年龄类型为:儿童类型。
相应地,若该用户是老人或者少年等其它年龄类型的,也可以采用上述方法确定,在此不作一一赘述。
本发明提供的有声资源播放方法,通过将不大于第一预设阈值的置信度与第二预设阈值进行比较,同时结合人机交互过程中所获取到的第二语义标签,综合判断出用户的年龄类型,而无需再由用户重新输入新的目标语音,这样的设置更加人性化,进一步提升了用户使用过程中的体验感。
基于上述实施例的内容,作为一种可选实施例,在目标有声资源是从第三方有声资源库中加载的情况下,在加载并播放目标有声资源之前,还包括:获取在第三方有声资源库的账号信息;若账号信息为空,则播放第二提示音;若账号信息为账号失效,则播放第三提示音。
图3是本发明提供的有声资源播放方法的流程示意图之三,如图3所示,本实施例提供了一种具体地运用场景。
本发明可以通过从第三方有声资源库中进行有声资源的加载,例如:在确定用户是儿童时,通过从第三方有声资源库中下载儿童故事或者儿歌进行播放。
在语音网器接收到用户输入的目标语音并判断出该用户的年龄类型后,检测语音网器的登录账号在第三方有声资源库的账号信息。
在确定该账号信息为空的情况下,即登录账号未注册或者未绑定,则播报第二提示音,例如:“小朋友,请让家长在海尔智家APP绑定QQ音乐”。
另外,在确定该账号信息为账号失效的情况下,如登录账号过期,此时可以播报第二提示音,例如:“小朋友,QQ音乐授权已过期,请让家长在海尔智家APP重新授权”。
作为一种可选实施例,在出现上述两种情况下,语音网器将不再向用户推荐音乐,原因是:语音网器无单独儿童有声资源接口(或者其它年龄类型相关音乐的接口),以避免推荐的有声资源并不适合儿童,影响用户体验。
作为一种可选实施例,在语音网器播放第二提示音或播放第三提示音之后,还包括:从预设有声资源库中加载并播放备用有声资源。
本发明提供的有声资源播放方法,可以预设有声资源库存储在云端,该预设有声资源库中所存储的内容相较于第三方有声资源库来说,在更新频率以及所包含的内容上略有欠缺。
这样在检测到无法从第三方有声资源库上加载相关的目标有声资源,可以自动调用预设有声资源库接口,以从预设有声资源库中为用户筛选出有声资源,一定程度上也可以满足用户的使用需求。
图4是本发明提供的有声资源播放装置的结构示意图,如图4所示,主要包括语音接收单元11、语音识别单元12和资源播放单元13,其中:
语音接收单元11,主要用于接收用户输入的目标语音;
语音识别单元12,主要用于根据所述目标语音,确定所述用户的年龄信息;
资源播放单元13,主要用于加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的。
其中,年龄信息是指所述用户属于任一目标人群的置信度。
需要说明的是,本发明实施例提供的有声资源播放装置,在具体运行时,可以执行上述任一实施例所述的有声资源播放方法,对此本实施例不作赘述。
本发明提供的声资源播放装置,能够自动识别用户的年龄类型,进而根据不同的年龄类型推荐并播放相应的有声资源,能够自动适配不同年龄层次的用户对于有声资源的需求,相较于现有的有声资源播放来说更为智能,交互更为简便,能有效地提高用户的使用体验。
需要提出的是,本发明还提供一种电器,该电器至少包括了上述声资源播放装置,能够自动适配不同年龄层次的用户对于有声资源的需求,相较于现有的有声资源播放来说更为智能,交互更为简便,能有效地提高用户的使用体验。
作为一种可选实施例,上述电器可以是空调,也可以是其它家用电器,例如冰箱、抽油烟机、音响等。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行有声资源播放方法,该方法包括:接收用户输入的目标语音;根据所述目标语音,确定所述用户的年龄信息;加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的;所述年龄信息是指所述用户属于任一目标人群的置信度。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的有声资源播放方法,该方法包括:接收用户输入的目标语音;根据所述目标语音,确定所述用户的年龄信息;加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的;所述年龄信息是指所述用户属于任一目标人群的置信度。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的有声资源播放方法,该方法包括:接收用户输入的目标语音;根据所述目标语音,确定所述用户的年龄信息;加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的;所述年龄信息是指所述用户属于任一目标人群的置信度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种有声资源播放方法,其特征在于,包括:
接收用户输入的目标语音;
根据所述目标语音,确定所述用户的年龄信息;
加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的;
所述年龄信息是指所述用户属于任一目标人群的置信度。
2.根据权利要求1所述的有声资源播放方法,其特征在于,所述根据所述目标语音,确定所述用户的年龄信息,包括:
获取所述目标语音相关的声纹参数;
在确定所述声纹参数为非注册声纹参数的情况下,根据所述声纹参数计算所述用户属于任一年龄类型的置信度;
在确定所述置信度大于第一预设阈值的情况下,确定所述用户的年龄类型为所述任一年龄类型;
所述年龄类型包括老年类型、儿童类型中的至少一种。
3.根据权利要求2所述的有声资源播放方法,其特征在于,还包括:
在确定所述声纹参数为注册声纹参数的情况下,读取所述声纹参数的注册信息;
基于所述注册信息,调用所述用户的历史播放记录;
根据所述注册信息和/或所述历史播放记录,加载并播放目标有声资源。
4.根据权利要求2所述的有声资源播放方法,其特征在于,在确定所述声纹参数为非注册声纹参数的情况下之后,还包括:
获取所述目标语音相关的所有语料;
从所有语料中确定出第一目标语料,用以设置第一语义标签;
结合所述用户的年龄类型和所述第一语义标签,确定所述目标有声资源的类型。
5.根据权利要求4所述的有声资源播放方法,其特征在于,在确定所述用户的年龄类型为儿童类型,且当前运行模式为儿童保护模式或非儿童保护模式下,根据所述用户的年龄类型和所述第一语义标签,加载并播放目标有声资源,所述目标有声资源包括儿歌或者儿童故事。
6.根据权利要求2所述的有声资源播放方法,其特征在于,还包括:
在确定所述置信度不大于第一预设阈值,但大于第二预设阈值的情况下,播放第一提示音;
接收所述用户的答复语音,所述答复语音是所述用户对所述第一提示音进行答复时生成的语音;
获取所述答复语音相关的所有语料;
从所有语料中确定出第二目标语料,用以设置第二语义标签;
在确定所述第二语义标签满足预设条件的情况下,确定所述用户的年龄类型为所述任一年龄类型。
7.根据权利要求1-6任一项所述的有声资源播放方法,其特征在于,在所述目标有声资源是从第三方有声资源库中加载的情况下,在加载并播放目标有声资源之前,还包括:
获取在第三方有声资源库的账号信息;
若所述账号信息为空,则播放第二提示音;
若所述账号信息为账号失效,则播放第三提示音。
8.根据权利要求7所述的有声资源播放方法,其特征在于,在播放第二提示音或播放第三提示音之后,还包括:
从预设有声资源库中加载并播放备用有声资源。
9.一种有声资源播放装置,其特征在于,包括:
语音接收单元,用于接收用户输入的目标语音;
语音识别单元,用于根据所述目标语音,确定所述用户的年龄信息;
资源播放单元,用于加载并播放目标有声资源,所述目标有声资源是基于所述年龄信息确定的;
所述年龄信息是指所述用户属于任一目标人群的置信度。
10.一种电器,其特征在于,包括:如权利要求9所述的有声资源播放装置。
11.根据权利要求10所述的电器,其特征在于,所述电器为空调。
12.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述有声资源播放方法的步骤。
13.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述有声资源播放方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210324178.6A CN114842854A (zh) | 2022-03-29 | 2022-03-29 | 一种有声资源播放方法、装置、电器及空调 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210324178.6A CN114842854A (zh) | 2022-03-29 | 2022-03-29 | 一种有声资源播放方法、装置、电器及空调 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842854A true CN114842854A (zh) | 2022-08-02 |
Family
ID=82563139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210324178.6A Pending CN114842854A (zh) | 2022-03-29 | 2022-03-29 | 一种有声资源播放方法、装置、电器及空调 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842854A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115610349A (zh) * | 2022-10-21 | 2023-01-17 | 阿维塔科技(重庆)有限公司 | 一种基于多模融合的智能交互方法及装置 |
-
2022
- 2022-03-29 CN CN202210324178.6A patent/CN114842854A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115610349A (zh) * | 2022-10-21 | 2023-01-17 | 阿维塔科技(重庆)有限公司 | 一种基于多模融合的智能交互方法及装置 |
CN115610349B (zh) * | 2022-10-21 | 2024-05-17 | 阿维塔科技(重庆)有限公司 | 一种基于多模融合的智能交互方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3611895B1 (en) | Method and device for user registration, and electronic device | |
CN108962233B (zh) | 用于语音对话平台的语音对话处理方法及系统 | |
CN108958810A (zh) | 一种基于声纹的用户识别方法、装置及设备 | |
US11727939B2 (en) | Voice-controlled management of user profiles | |
US11430449B2 (en) | Voice-controlled management of user profiles | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
CN109979474B (zh) | 语音设备及其用户语速修正方法、装置和存储介质 | |
US10984801B2 (en) | ASR training and adaptation | |
JP7212718B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
CN111354357A (zh) | 一种音频资源播放的方法、装置、电子设备及存储介质 | |
CN111508491A (zh) | 一种基于深度学习的智能语音交互设备 | |
CN114842854A (zh) | 一种有声资源播放方法、装置、电器及空调 | |
CN114155854B (zh) | 语音数据的处理方法及装置 | |
US10424292B1 (en) | System for recognizing and responding to environmental noises | |
CN110047473B (zh) | 一种人机协作交互方法及系统 | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
CN111292749A (zh) | 智能语音平台的会话控制方法及装置 | |
CN112071306A (zh) | 语音控制方法、系统、可读存储介质及网关设备 | |
CN109658924B (zh) | 会话消息处理方法、装置及智能设备 | |
WO2022143349A1 (zh) | 一种确定用户意图的方法及装置 | |
CN113920996A (zh) | 语音交互的处理方法、装置、电子设备与存储介质 | |
CN114360533A (zh) | 一种基于机器学习的交互方法、系统、电梯设备及介质 | |
CN111862947A (zh) | 用于控制智能设备的方法、装置、电子设备和计算机存储介质 | |
US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
CN117594062A (zh) | 应用于实时会话的语音响应方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |