CN116959436A - 一种语音交互方法及电子设备 - Google Patents
一种语音交互方法及电子设备 Download PDFInfo
- Publication number
- CN116959436A CN116959436A CN202210385175.3A CN202210385175A CN116959436A CN 116959436 A CN116959436 A CN 116959436A CN 202210385175 A CN202210385175 A CN 202210385175A CN 116959436 A CN116959436 A CN 116959436A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice content
- electronic device
- score
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000003993 interaction Effects 0.000 title claims abstract description 29
- 238000003745 diagnosis Methods 0.000 claims abstract description 122
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002618 waking effect Effects 0.000 abstract description 10
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 51
- 230000005236 sound signal Effects 0.000 description 29
- 238000013461 design Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 22
- 239000012634 fragment Substances 0.000 description 20
- 238000004891 communication Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 208000033748 Device issues Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种语音交互方法及电子设备,涉及终端技术领域,能提高用户唤醒电子设备的成功率。该方法中,当用户输入的语音内容无法唤醒电子设备时,可以认为语音内容在音素排序和音素发音等方面与唤醒词不相同也不相似,即语音内容的第一分值小于第一分数阈值。这种情况下,如果语音内容在语音特征等方面的第二分值大于或者等于第二分数阈值,并且电子设备连续采集到多个相同的语音内容,那么可以认为用户反复多次采用相同的语音内容唤醒电子设备,此时,电子设备可以对语音内容进行语音诊断,并根据诊断结果对应的预设操作,获得更加准确的语音内容,提高了电子设备被用户唤醒的成功率。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种语音交互方法及电子设备。
背景技术
人工智能物联网(artificial intelligence&internet of things,AIoT)时代下各种智能语音设备等逐渐增多。用户与智能语音设备之间进行人机交互,可以通过向智能语音设备输入语音内容,进而控制智能语音设备实现相应的功能,例如,播放音乐、播放视频、查看天气等。为了使智能语音设备能够被用户唤醒并实现用户所指定的功能,智能语音设备需要准确地识别出用户的语音内容。相关技术中,智能语音设备通常利用语音唤醒技术、语音识别技术等识别用户的语音内容,从而实现与用户之间的人机交互。
然而,目前受到声学环境和用户发音问题的影响,智能语音设备难以准确地识别出用户的语音内容,进而造成智能语音设备被用户唤醒的成功率较低的问题。这样,很大程度上会影响用户使用智能语音设备的体验效果。
发明内容
本申请实施例提供一种语音交互方法及电子设备,当用户输入的语音内容无法唤醒电子设备时,可以对语音内容进行语音诊断,并根据诊断结果对应的预设操作,获得更加准确的语音内容,提高电子设备被用户唤醒的成功率。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了语音交互方法,该方法应用于电子设备,可以首先接收用户输入的第一语音内容;如果第一语音内容的第一分值小于第一分数阈值,第一语音内容的第二分值大于或者等于第二分数阈值,并且电子设备连续接收到多个相同的第一语音内容,对第一语音内容进行语音诊断,并执行诊断结果对应的预设操作;预设操作用于获取第一语音内容改善发音后的第二语音内容。
本申请实施例提供的方法,当用户输入的语音内容无法唤醒电子设备时,可以认为语音内容在音素排序和音素发音等方面与唤醒词不相同也不相似,即语音内容的第一分值小于第一分数阈值。这种情况下,如果语音内容在语音特征等方面的第二分值大于或者等于第二分数阈值,并且电子设备连续采集到多个相同的语音内容,那么可以认为用户反复多次采用相同的语音内容唤醒电子设备,此时,电子设备可以对语音内容进行语音诊断,并根据诊断结果对应的预设操作,获得更加准确的语音内容,提高了电子设备被用户唤醒的成功率。
在第一方面的一种可能的设计方式中,上述方法还包括:根据第一语音内容的音素排序和音素发音对第一语音内容进行打分,获得第一语音内容的第一分值;在第一分值小于第一分数阈值时,获取第一语音内容的第二分值。
该设计方式中,电子设备在第一语音内容的第一分值小于第一分数阈值时,可以确定第一语音内容无法唤醒电子设备,此时进一步获取第一语音内容的第二分值,将其与第二分数阈值进行比较,从而进一步确定第一语音内容是否需要被进行语音诊断。这样,可以免仅利用第一分数阈值绝对性地排除与唤醒词相似或者相近的一些语音内容,而影响用户使用电子设备。
在第一方面的一种可能的设计方式中,上述方法还包括:在第二分值大于或者等于第二分数阈值时,在第一预设时间长内接收多个第一语音内容;在第一预设时长内的多个第一语音内容相同并且连续时,对第一语音内容进行语音诊断,并执行诊断结果对应的预设操作。
该设计方式中,在第一语音内容第一分值小于第一分数阈值,但是第二分值大于或者等于第二分数阈值时,确定在第一预设时长内是否连续采集到多个相同的第一语音内容。如果连续采集到,说明用户通过相同的语音内容多次唤醒电子设备,此时为了提高电子设备被唤醒的成功率,可以对语音内容进行语音诊断并获得诊断结果,从而提示用户更加准确的发音。
具体的,多个相同的第一语音内容中,每个第一语音内容的音素序列都相同,以及,每个音素序列中对应位置上的音素发音都相同。也就是说,多个第一语音内容在各自的音素序列和对应的音素发音都相同的情况下,才被认为是相同的第一语音内容,也会被认为是用户用于唤醒电子设备多次使用的语音内容,这样也能避免电子设备采集到的其他语音内容对第一语音内容的确定产生干扰。
在第一方面的一种可能的设计方式中,第二分值为第一分值,以及,第二分数阈值小于第一分数阈值。
该设计方式中,仍沿用第一分值继续与第二分数阈值进行比较,通过降低分数阈值的方式进一步确定第一语音内容是否能被继续使用。这样,可以免仅利用第一分数阈值绝对性地排除与唤醒词相似或者相近的一些语音内容,而影响用户使用电子设备。
在第一方面的一种可能的设计方式中,第二分值为电子设备对第一语音内容进行音素置信度打分后的音素置信度分值,第二分数阈值为预设置信度分值。
该设计方式中,可以将第二分值设置为音素置信度分值,并通过将第一语音内容的音素置信度分值与预设置信度分值的对比,来确定第一语音内容是否可以被继续进行处理。当用户因为口音等问题造成说出的语音内容与唤醒词有一定的差异时,该方法可以从音素置信度的角度进一步确定不能唤醒电子设备的第一语音内容是否还可以继续被使用,避免仅利用第一预设条件绝对性地排除与唤醒词相似或者相近的一些语音内容,而影响用户使用电子设备。
在第一方面的一种可能的设计方式中,上述方法在对第一语音内容进行语音诊断时,还可以利用诊断知识库对第一语音内容进行语音诊断;诊断知识库用于诊断第一语音内容在语速、语调和质量方面存在的问题。
该设计方式中,通过预设的诊断知识库,可以为电子设备提供更加全面地语音诊断的方式,当电子设备连续采集到多个相同的第一语音内容,并且第一语音内容的第一分值小于第一分数阈值,第二分值大于或者等于第二分数阈值时,电子设备利用诊断知识库能更准确地确定出第一语音内容存在的问题,从而更有针对性地向用户发出提示。用户根据提示可以了解到需要从哪一方面入手改善输入的语音内容,进而提高语音内容输入的准确性。
在第一方面的一种可能的设计方式中,上述方法在执行诊断结果对应的预设操作时,可以向用户发出提示,用于提示用户根据第一语音内容存在的问题对应改善第一语音内容的发音。其中,向用户发出的提示可以包括向用户发出的语音提示和向用户显示的提示信息。
在第一方面的一种可能的设计方式中,上述方法在执行诊断结果对应的预设操作时,还可以针对第一语音内容存在的问题对应调整第一语音内容的发音。
该设计方式中,电子设备在对第一语音内容诊断后,可以根据诊断结果自行对语音内容进行处理,而无需提示用户进行改善。避免因为用户的发音习惯很难改变,而造成的电子设备根据用户重新输入的语音内容仍然无法唤醒电子设备的问题。
在第一方面的一种可能的设计方式中,上述方法还包括:如果第一语音内容的第一分值小于第一分数阈值,第一语音内容的第二分值大于或者等于第二分数阈值,并且电子设备连续接收到多个相同的第一语音内容,获取多个相同的第一语音内容中每个第一语音内容的声纹信息;在多个相同的第一语音内容的声纹信息都相同时,对第一语音内容进行语音诊断。
该设计方式中,可以在第一预设时长内连续采集到的多个相同的第一语音内容对应的声纹信息是否全部相同时,确定第一预设时长内连续采集到的多个相同的第一语音内容来自于同一个用户,从而排除任何来自其他声源的语音内容的干扰,使得确定的语音内容更加准确。
在第一方面的一种可能的设计方式中,上述方法还包括:在第二语音内容的第一分值大于或者等于第一分数阈值时,利用第一语音内容优化诊断知识库。
该设计方式中,优化后的诊断知识库中的诊断标准也能更加符合用户的发音习惯或者发音规则,当用户再次以相同或者相似的发音习惯输入的语音内容时,诊断知识库更容易将语音内容确定为在各方面都不存在问题。这种情况下,电子设备可以直接将当前状态切换为唤醒状态。可见,这样优化诊断知识库的方式也可以提高用户唤醒电子设备的成功率。
在第一方面的一种可能的设计方式中,上述方法还包括:针对多个类型的用户中目标类型的用户的第一语音内容进行语音诊断;根据目标类型的用户在语速、语调和质量方面存在的问题,针对于目标类型的用户设置对应的预设操作。
该设计方式中,电子设备可以针对不同类型的用户存在的问题采用不同的预设操作,更有针对性的提示每个类型用户如何改善发音。当用户的发音问题改善之后,用户输入的语音内容就会越来越多地满足第一预设条件,从而提高用户唤醒电子设备的成功率。
在第一方面的一种可能的设计方式中,上述方法还包括:如果第一语音内容的第一分值大于或者等于第一分数阈值,将当前状态切换为唤醒状态。
该设计方式中,在第一语音内容的第一分值大于或者等于第一分数阈值时,可以认为第一语音内容在音素的排序、相关性和发音等方面与电子设备的唤醒词相同或者相似,电子设备可以直接将当前的状态切换为唤醒状态,即控制电子设备内各个器件或者模块处于工作状态,及时向用户发送应答消息,以提示用户继续输入语音指令等。
在第一方面的一种可能的设计方式中,上述方法还包括:如果第一语音内容在语速、语调和质量方面都不存在问题,将当前状态切换为唤醒状态。
该设计方式中,第一语音内容在语速、语调和质量等方面都不存在问题时,可以认为第一语音内容虽然不满足第一预设条件,但是其发音的准确性和质量都比较高,因此,为了避免用户多次唤醒电子设备失败的问题,在此情况下,电子设备可以直接将当前状态切换为唤醒状态。
第二方面,提供了一种电子设备,包括:存储器、一个或多个处理器;存储器和处理器耦合;其中,存储器中存储有计算机程序代码,计算机程序代码包括计算机指令,当计算机指令被处理器执行时,使得电子设备执行上述第一方面任一项所述的语音交互方法。
第三方面,提供了一种计算机可读存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述第一方面任一项所述的语音交互方法。
第四方面,提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述第一方面任一项所述的语音交互方法。
可以理解地,上述提供的第二方面所述的电子设备,第三方面所述的计算机可读存储介质,第四方面所述的计算机程序产品所能达到的有益效果,可参考第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1示出了本申请实施例提供的一种电子设备唤醒场景的示意图;
图2示出了本申请实施例提供的一种电子设备的硬件结构示意图;
图3示出了本申请实施例提供的一种电子设备的软件系统示意图;
图4示出了本申请实施例提供的一种语音交互方法的流程示意图;
图5示出了本申请实施例提供的一种电子设备采集声音信号的示意图;
图6示出了本申请实施例提供的一种电子设备识别语音内容的示意图;
图7示出了本申请实施例提供的又一种语音交互方法的流程示意图;
图8示出了本申请实施例提供的一种打分系统的示意图;
图9示出了本申请实施例提供的又一种语音交互方法的流程示意图;
图10示出了本申请实施例提供的电子设备与用户之间交互的示意图;
图11示出了本申请实施例提供的又一种语音交互方法的流程示意图;
图12示出了本申请实施例提供的一种电子设备的结构示意图;
图13示出了本申请实施例提供的一种电子设备的处理流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。同时,在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
人工智能物联网(artificial intelligence&internet of things,AIoT)时代下各种智能语音设备等逐渐增多。例如,智能音箱、智能手机、智能机器人、具有智能语音功能的电视、平板电脑和个人计算机(personalcomputer,PC)等电子设备。
用户与智能语音设备之间进行人机交互,可以通过向智能语音设备输入语音内容,进而控制智能语音设备实现相应的功能,例如,播放音乐、打开空调、查看天气等。为了使智能语音设备能够被用户唤醒并实现用户所指定的功能,智能语音设备需要准确地识别出用户的语音内容。相关技术中,智能语音设备通常利用语音唤醒技术、语音识别技术等识别用户的语音内容,从而实现与用户之间的人机交互。
示例性的,在如图1所示的语音唤醒场景中,用户可以向智能语音设备输入语音内容“小艺小艺”,智能语音设备会被唤醒。
然而,目前受到声学环境和用户发音问题的影响,智能语音设备与用户之间的人机交互还面临着很多的挑战。例如,远场、噪声、回声、混响等复杂声学环境下的声音会对用户的声音产生干扰,智能语音设备很难在这样的环境中准确地识别出用户所说的语音内容;或者,同一个用户使用不同的声音、语调、语速等说出的语音内容具有不同的特征,智能语音设备很难在多变特征的情况下,准确地识别出用户的语音内容;或者,一些用户说方言、带有口音等,智能语音设备很难准确地根据方言或者带口音的话识别出用户的语音内容;再或者,老人、儿童等不同年龄段的用户存在发音不清楚、拖长音等问题,智能语音设备也很难根据不清楚的发音准确地识别出用户的语音内容。
基于以上内容可知,目前的智能语音设备容易受到很多因素的影响从而出现语音内容识别不准确的情况。这种情况下,识别出的语音内容与智能语音设备能被唤醒的特定内容并不相同,进而容易造成智能语音设备被用户唤醒的成功率较低的问题。这样,很大程度上会影响用户使用智能语音设备的体验效果。
本申请实施例提供了一种语音交互方法,当用户对电子设备进行唤醒时,连续多次输入的语音内容不满足第一预设条件,但满足第二预设条件,则利用预设的诊断知识库对语音内容进行语音诊断,并获得诊断结果。根据诊断结果,提示用户更加准确地发音。其中,第一预设条件可以确定用户连续多次输入的语音内容的第一分值是否大于或者等于第一分数阈值,第二预设条件可以确定用户连续多次输入的语音内容的第一分值在小于第一分数阈值时,该语音内容的第二分值是否大于或者等于第二分数阈值。当用户的发音更准确时,电子设备更容易被唤醒,从而提高电子设备被用户唤醒的成功率。
本申请实施例提供的一种语音交互方法,可以应用于电子设备中。示例性的,本申请实施例中的电子设备可以是智能音箱、便携式计算机(如手机)、智能机器人、可穿戴电子设备(如智能手表)、具有智能语音功能的电视、平板电脑、笔记本电脑、车载电脑、个人计算机和服务器等电子设备,本申请实施例对该电子设备的具体形式不做特殊限制。
以上述电子设备是智能音箱为例。图2示出了电子设备100的结构示意图。如图2所示,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
可以理解的是,本实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。ISP用于处理摄像头193反馈的数据。摄像头193用于捕获静态图像或视频。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。耳机接口170D用于连接有线耳机。
在一些实施例中,电子设备100可以利用上述麦克风170C采集电子设备100外界环境中的声音信号,例如用户的声音和一些环境音等。其中,环境音包括电子设备100所处环境中除了用户以外的其他人或事物发出的声音,例如,其他人的交谈声、电视的声音、汽车的鸣笛声等。由麦克风170C采集声音信号后,电子设备100可以从声音信号中识别出用户向电子设备输入的语音内容等。
在一些实施例中,电子设备100还可以利用上述扬声器170A或者受话器170B播放提示音,用来提示用户更加标准地发音,例如发出“请说慢一点”、“请说普通话”等提示。当用户采用更加标准的方式输入声音后,电子设备100能够更加准确地识别出用户输入的语音内容等。
电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。马达191可以产生振动提示。指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。
仍以上述电子设备是智能音箱为例。图3示出了电子设备100中软件系统的示意图。如图3所示,电子设备100中包括语音识别模块201、条件判断模块202、唤醒模块203、语音诊断模块204和语音提示模块205。
其中,语音识别模块201用于从电子设备100采集到的声音信号中识别出与电子设备唤醒词相同或者相似的语音内容。条件判断模块202用于确定语音识别模块201中识别出的语音内容是否满足第一预设条件,如果满足第一预设条件,则将判断结果发送到唤醒模块203;如果不满足第一预设条件,则继续判断语音内容是否满足第二预设条件,如果连续多次采集到不满足第一预设条件但是满足第二预设条件的相同的语音内容,则将当前的判断结果发送到语音诊断模块204。语音诊断模块204用于利用预设的诊断知识库对连续多次采集到的相同的语音内容进行语速、语调、质量等方面的诊断,并获得诊断结果;如果诊断结果表明语音内容在各方面都没有问题,则语音诊断模块204将诊断结果发送唤醒模块203,如果诊断结果表明语音内容在某一方面或者某几方面存在问题,则语音诊断模块204根据诊断结果获取对应的预设处理规则,根据预设处理规则确定用户需执行的动作,并将用户需要执行的动作发送到语音提示模块205。唤醒模块203用于根据前述判断结果和诊断结果将电子设备100的当前状态切换为唤醒状态。语音提示模块205用于根据前述用户需要执行的动作向用户发出相应的语音提示,从而使用户更加标准的输入语音内容。
本申请实施例提供的一种语音交互方法,该方法可以应用于上述电子设备中。以电子设备是智能音箱为例,如图4所示,该方法可以包括如下步骤S301-S306。
S301、电子设备采集所处环境中的声音信号。
电子设备所处的环境中可能存在多个可以发声的人或者事物,那么电子设备采集到的声音信号就可能来源于不同的人或者事物,外界环境中的各种声音都会以声音信号的形式被电子设备采集。当用户需要唤醒电子设备时,用户可以通过向电子设备说出特定内容的方式向电子设备输入语音内容,进而唤醒电子设备。因此,环境中的声音信号可以包括用户用于唤醒电子设备进而向电子设备输入的语音内容,还可以包括环境中除了用户以外的其他人或事物发出的声音或者语音内容,例如其他人的说话声、电视播放的音频等。
示例性的,参见图5,电子设备100(比如智能音箱)放置在用户家里的客厅中,客厅中包括一台正在播放电视剧的电视101。当用户想要唤醒电子设备100时,可以对着电子设备100说出指定的唤醒词,例如“小艺小艺”。而由于此时电视101也在播放着电视剧的音频,所以,电子设备100当前可以同时采集到包括用户输入的语音唤醒词和电视剧的音频在内的声音信号。
用户可以在任何时刻唤醒电子设备,因此,在本申请实施例中,电子设备可以实时地采集周围环境中的声音信号,以便及时地从声音信号中获取到用于唤醒电子设备的语音内容,例如指定的唤醒词等。
S302、电子设备从声音信号中识别出与唤醒词相关的第一语音内容。
参见图6,声音信号中包括具体的音频数据,电子设备可以先获得音频数据对应的音素序列,再从音频数据对应的音素序列中识别出与唤醒词的音素序列相同或者相似的目标音素片段。电子设备可以将目标音素片段对应的音频数据确定为识别出的与电子设备的唤醒词相关的第一语音内容。
在一些实施例中,目标音素片段中,每个位置上的音素分别与唤醒词的音素序列中对应位置上的音素相同。示例性的,电子设备的唤醒词“小艺小艺”对应的音素序列表示为“x-iao-ii-i-x-iao-ii-i”,如果某一个音素片段也表示为“x-iao-ii-i-x-iao-ii-i”,那么可以将该音素片段确定为目标音素片段。那么该目标音素片段对应的音频数据即为与唤醒词相关的第一语音内容。
在另一些实施例中,目标音素片段中,也可以存在与唤醒词音素序列对应位置的音素不相同的音素,但此时目标音素片段与唤醒词音素序列的相似度大于或者等于预设相似度阈值。其中,目标音素片段与唤醒词音素序列的相似度可以表示为目标音素片段与唤醒词音素序列中相同音素的数量,与唤醒词音素序列总音素数量的比值。
预设相似度阈值可以根据唤醒词的音素序列长度和组成等预先设置,本申请实施例不对其进行具体限制。
示例性的,电子设备的唤醒词“小艺小艺”对应的音素序列表示为“x-iao-ii-i-x-iao-ii-i”,某一个音素片段表示为“x-iao-ii-i-x-iao-x-ia”,预设相似度阈值为70%,可见该音素片段中与唤醒词音素序列相同的音素为“x-iao-ii-i-x-iao”,这6个音素与唤醒词音素序列全部8个音素的比值为75%,即该音素片段与唤醒词音素序列的相似度为75%。相似度大于预设相似度阈值,该音素片段即为目标音素片段。
在一些实施例中,电子设备在采集到声音信号之后,还可以将声音信号进行解析,从而获得音频数据,再从音频数据对应的音素序列中识别出目标音素片段,并确定对应的第一语音内容。
值得说明的是,本申请实施例中,电子设备至少具有一个唤醒词,唤醒词至少包括一个字。并且,电子设备的唤醒词可以是预先配置的,也可以是由用户自定义设置的。本申请实施例中对此不做具体限制。
S303、电子设备确定是否连续采集到不满足第一预设条件,但是满足第二预设条件的多个相同的第一语音内容。
其中,多个第一语音内容均为与唤醒词相关的语音内容,并且多个第一语音内容之间具有相同或者相似的音素序列和音素发音。
电子设备可能同时采集到多种来源的声音信号,S302中从音素组成的方面识别出了与唤醒词相关的语音内容,没有考虑语音内容在音素的排序、相关性和发音方面与唤醒词的是否相同或者相似。
在一些情况下,即使语音内容的音素组成与唤醒词完全相同,也可能会出现语音内容的实际意义与唤醒词不相同的情况,例如,唤醒词音素序列表示为“x-iao-ii-i-x-iao-ii-i”,但是语音内容的音素序列表示为“x-i-ii-iao-x-i-ii-iao”,从音素组成的方面看,二者完全相同,但是二者在音素的排序、相关性和发音等方面并不相同或者相似,因此该语音内容并不是与真正意义上与唤醒词相同或者相似的语音内容,并不能将电子设备唤醒。
电子设备可以确定上述实施例中识别出的与唤醒相关的第一语音内容是否满足第一预设条件,从而进一步确定出与唤醒词多方面相同或者相似的语音内容,这些语音内容在满足第一预设条件时可以将电子设备唤醒。电子设备还可以确定不满足第一预设条件的第一语音内容是否满足第二预设条件,从而进一步确定第一语音内容是否需要被进行语音诊断等。
在一些实施例中,如图7所示,上述步骤S303可以包括如下步骤S3031-S3033。
S3031、电子设备先确定与第一语音内容是否满足第一预设条件。
其中,第一预设条件用来确定上述第一语音内容的打分分值(即第一分值)是否大于或者等于第一分数阈值。或者说,第一预设条件从音素的排序、相关性和发音等方面确定上述第一语音内容是否能够唤醒电子设备。
在一些实施例中,电子设备可以根据第一语音内容的音素序列中的音素排序、前后音素的相关性和音素发音等情况确定出第一语音内容的第一分值。并且,第一分数阈值可以与电子设备唤醒词的分值相同,也可以比唤醒词的分值稍低一些。当电子设备对第一语音内容打分的第一分值大于或者等于第一分数阈值时,可以确定第一语音内容满足第一预设条件。
值得说明的是,本申请实施例的电子设备中可以预置为语音内容打分的打分系统或者打分规则等。电子设备将识别出的上述第一语音内容输入到打分系统中,经过打分系统的分析和打分,最后输出该语音内容对应的第一分值。或者,电子设备利用打分规则等对上述第一语音内容进行分析和打分,最后获得对应的第一分值。
在一些实施例中,上述打分系统和打分规则可以基于唤醒词、与唤醒词发音相同或者相似的其他词语来建立。具体的,打分系统和打分规则中,可以保存唤醒词和其他词语对应的分值。
示例性的,电子设备的唤醒词为“小艺小艺”,可以将唤醒词“小艺小艺”以及发音与“小艺小艺”相同的词语对应的分值设置为最高分值,例如700分等。而将发音与“小艺小艺”相似的其他词语,例如“小姨小姨”、“小一小一”等,设置为低分值,例如670分、650分等。打分系统和打分规则中可以保存“小艺小艺”、“小姨小姨”、“小一小一”等词语对应的分值。
在对其他词语设置分数时,可以根据其他词语的音素序列中的音素排序与唤醒词音素序列中的音素排序的差异程度、音素组成的差异程度、音素发音的差异程度等分别为其他词语设置对应的分值。
示例性的,唤醒词“小艺小艺”的音素序列为“x-iao-ii-i-x-iao-ii-i”,第四个和第八个音素“i”的发音都为是第四声。其他词语“小姨小姨”的音素序列与“小艺小艺”的音素序列完全相同,差异在于第四个和第八个音素“i”发音都是第二声;而其他词语“小一小一”的音素序列也与“小艺小艺”的音素序列完全相同,差异在于第四个和第八个音素“i”的发音都是第一声。可以看出,音素“i”发音第一声与第四声的差异较大,而发音第二声与第四声的差异会更小一些。基于此,可以将具有较大发音差异的词语“小一小一”设置为625分,而将具有较小发音差异的词语“小姨小姨”设置为650。
参见图8,打分系统中可以保存唤醒词“小艺小艺”的分值,以及其他词语“小姨小姨”和“小一小一”的分值。
值得说明的是,本申请实施例中在建立打分系统和打分规则时,选取的与唤醒词发音相同或者相似的其他词语,可以由技术人员依据唤醒词的发音和音素组成等自行选取。并且,本申请实施例中与唤醒词发音相同或者相似的其他词语的分值,也是由技术人员依据选取的其他词语与唤醒词之间的音素发音差异和音素组成差异等自行设置的。上述选取的与唤醒词相同或者相似的其他词语以及其他词语的分值都是示例性列举的,在其他一些实施例中,还可以选择更多的词语,也可以设置其他的分值。
在电子设备识别出上述第一语音内容后,打分系统可以分析该第一语音内容的音素序列和音素的发音,参照打分系统中预存的唤醒词和其他词语的分值,自动为该第一语音内容打分。如果该第一语音内容的第一分值大于或者等于第一分数阈值,则确定该语音内容可以唤醒电子设备。
本申请实施例中,第一分数阈值可以设置为唤醒词的分值,这种情况可以理解为只有与唤醒词发音完全相同的语音内容才能唤醒电子。但是在实际情况下,也存在用户无法完全正确发音的情况,例如,一些用户说话带有口音等。为了能使电子设备适用的用户范围更广,不仅仅局限于被发音标准的用户使用,在一些实施例中,可以将第一分数阈值设置得比唤醒词的分值低一些,例如650分、670分等。
示例性的,当电子设备识别出的上述第一语音内容发音为“笑一下”时,打分系统可以结合图8中所示的唤醒词和其他词语的音素序列和音素发音情况,分析“笑一下”的音素序列“x-iao-ii-i-x-ia”与唤醒词和其他词语的音素序列、音素发音的差异程度,并根据差异程度对第一语音内容“笑一下”打分。
其中,“小艺小艺”、“小姨小姨”和“小一小一”的音素序列中,前五个音素排序与“x-iao-ii-i-x-ia”中的前五个音素排序相同,因此可以确定“笑一下”的音素序列分别与打分系统中唤醒词音素序列、其他词语的音素序列差异程度相同。基于此,再确定“x-iao-ii-i-x-ia”音素序列中第四个音素“i”的发音为第二声,与词语“小姨小姨”音素序列中第四个音素“i”的发音相同。这种情况下,可以确定该第一语音内容“笑一下”与词语“小姨小姨”在音素序列和音素发音两方面总体的差异程度最小,打分系统可以参照词语“小姨小姨”的分值,对应给词语“笑一下”打分,并且打分的第一分值可以较低于“小姨小姨”的分值,例如第一分值为640等。
如果此时的第一分数阈值为650分,那么该“笑一下”的语音内容的第一分值大于第一分数阈值,电子设备可以确定该语音内容满足第一预设条件。而如果此时的第一分数阈值为670分,那么该“笑一下”的语音内容的第一分值小于第一分数阈值,电子设备可以确定该语音内容不满足第一预设条件。
在上述第一语音内容满足第一预设条件时,可以认为第一语音内容在音素的排序、相关性和发音等方面与电子设备的唤醒词相同或者相似。电子设备可以直接将当前的状态切换为唤醒状态,即控制电子设备内各个器件或者模块处于工作状态,及时向用户发送应答消息,以提示用户继续输入语音指令等。然后,电子设备再根据用户输入的语音指令,执行相应的操作。
在上述第一语音内容不满足第一预设条件时,电子设备不会被唤醒,继续执行如下所述的各个步骤。
S3032、电子设备在第一语音内容不满足第一预设条件时,继续确定第一语音内容是否满足第二预设条件。
第二预设条件用来进一步确定上述第一语音内容的第二分值是否大于或者等于第二分数值。
在一些实施例中,在确定第一语音内容是否满足第二预设条件时,可以仍沿用打分系统或者打分规则对第一语音内容的打分分值继续进行判断,此时,第二分值即为前述实施例中的第一分值,但是第二分数阈值要低于第一分数阈值。当第二分值大于或者等于第二分数阈值时,可以确定该第一语音内容满足第二预设条件。而当第一语音内容的第二分值小于第二分数阈值时,可以确定该第一语音内容不满足第二预设条件。
示例性的,第一分数阈值为700,第二分数阈值为500。电子设备识别出的第一语音内容通过打分后,如果得分为650,那么该第一语音内容的分值小于第一分数阈值但是大于第二分数阈值,电子设备可以确定第一语音内容满足第二预设条件。
可见,本申请实施例上述方法中,可以仍沿用第一分值继续与第二分数阈值进行比较,通过降低分数阈值的方式进一步确定第一语音内容是否能被继续使用。这样,可以免仅利用第一分数阈值绝对性地排除与唤醒词相似或者相近的一些语音内容,而影响用户使用电子设备。
当想要唤醒电子设备的用户带有口音或者用户有特定的发音习惯时,用户向电子设备输入的语音内容通常与电子设备的唤醒词是有差别的,这种差别可以体现在音素发音等方面。为了减少用户方言或发音习惯等干扰,在一些实施例中,可以利用第一语音内容的音素置信度来确定第一语音内容是否满足第二预设条件,此时,第一语音内容的第二分值为第一语音内容的音素置信度分值。
基于此,在一些实施例中,当第二分值为音素置信度分值时,电子设备在第一语音内容不满足第一预设条件时,获取第一语音内容的音素序列,即前述实施例中的目标音素片段;然后,电子设备对目标音素片段对应的第一语音内容的音素置信度进行打分,获得第一语音内容的音素置信度分值;最后,电子设备确定第一语音内容的音素置信度分值是否大于或者等于预设置信度分值。并且,电子设备在第一语音内容的音素置信度分值大于或者等于预设置信度分值时,确定第一语音内容满足第二预设条件。而电子设备在第一语音内容的音素置信度分值小于预设置信度分值时,确定第一语音内容不满足第二预设条件。
音素是音色的角度划分出来的最小的语音单位。示例性的,语音内容“小姨”对应的音素序列为“x-iao-ii-i”,其中“x”、“iao”、“ii”和“i”为“小姨”的四个音素。语音内容“印象”对应的音素序列为“ii-in-x-iang”,其中“ii”、“in”、“x”和”iang”为“印象”的四个音素。
在一些实施例中,电子设备可以利用预先训练好的置信度模型等来对第一语音内容的音素置信度打分。置信度模型在训练时,通常是基于大量的、发音习惯各异、用户类型各异的语音内容进行学习,学习语音内容的音素结构、语速、发音等等。
在确定第一语音内容的音素置信度分值时,电子设备可以将目标音素片段输入到置信度模型中,置信度模型对目标音素片段的音素结构、语速和发音等进行综合的概率计算,最终输入目标音素片段的音素置信度分值。
本申请实施例中的预设置信度分值可以根据电子设备的实际使用情况而预先设置,本申请实施例中不对其进行具体限制。
示例性的,预设置信度分值为80分,当第一语音内容的音素置信度分值为90分时,电子设备确定该语音内容满足第二预设条件。而第一语音内容的音素置信度分值为75分时,电子设备则确定该语音内容不满足第二预设条件。
可见,本申请实施例上述方法中,可以将第二分值设置为音素置信度分值,并在识别到的第一语音内容的音素置信度分值大于或者等于预设置信度分值时,确定第一语音内容满足第二预设条件。当用户因为口音等问题造成说出的语音内容与唤醒词有一定的差异时,该方法可以从音素置信度的角度进一步确定不满足第一预设条件的第一语音内容是否还可以继续被使用,避免仅利用第一预设条件绝对性地排除与唤醒词相似或者相近的一些语音内容,而影响用户使用电子设备。
S3033、电子设备在第一语音内容满足第二预设条件时,确定在第一预设时长内是否连续采集到多个相同的第一语音内容。
当用户想要唤醒电子设备时,如果第一次未唤醒成功,很可能会第二次、第三次甚至更多次地向电子设备输入相同的上述第一语音内容。这种情况下,为了避免用户反复地唤醒失败而影响用户的使用体验,电子设备在上述第一语音内容不满足第一预设条件但满足第二预设条件时,可以继续确定是否在一定时间内连续识别到了多个相同的第一语音内容,从而确定是否是用户多次向电子设备输入了语音内容,以唤醒电子设备。其中,多个相同的第一语音内容可以是多个音素序列相同以及音素序列中对应位置上音素发音相同的语音内容。
具体的,电子设备可以确定在第一语音内容不满足第一预设条件但满足第二预设条件时,是否在第一预设时长内连续获取到大于或者等于第一预设数量相同的第一语音内容,如果是,则可以认为是用户在第一预设时长内多次向电子设备输入相同的语音内容,以唤醒电子设备。这种情况下,电子设备可以继续对第一语音内容进行下一步的语音诊断操作。
示例性的,第一预设时长可以是1分钟,第一预设数量可以是3次。即电子设备需要在一个第一语音内容不满足第一预设条件但是满足第二预设条件时,继续确定在接下来的1分钟内,是否连续接收到大于或者等于3次相同的第一语音内容。其中,第一预设时长和第一预设数量可以根据电子设备在实际使用时的情况而设置。本申请实施例中并不会对第一预设时长和第一预设数量做具体的限定。
如果在第一预设时长内,电子设备获取到了连续相同的第一语音内容,但是这些语音内容的数量小于第一预设数量,可以认为用户并没有反复地向电子设备输入相同的语音内容以唤醒电子设备,或者认为用户向电子设备输入相同的语音内容的次数不满足数量要求等。这种情况下,电子设备不会对语音内容进行下一步的语音诊断操作。并且,电子设备会继续实时采集外界环境的声音信号,以便及时获取到新的语音内容。
如果在第一预设时长内,电子设备获取到大于或者等于第一预设数量的相同的第一语音内容,但是这些语音内容并不是连续的,也可以认为用户并没有反复地向电子设备输入相同的语音内容以唤醒电子设备,或者认为用户向电子设备输入相同的语音内容的次数不满足数量要求等。这种情况下,电子设备也不会对语音内容进行下一步的语音诊断操作。并且,电子设备会继续实时采集外界环境的声音信号,以便及时获取到新的语音内容。
如果在第一预设时长内,电子设备获取到大于或者等于第一预设数量的,并且连续相同的第一语音内容,才会认为用户反复地向电子设备输入相同的语音内容以唤醒电子设备,那么电子设备才会继续对该语音内容进行后续诊断的操作。
可见,本申请实施例上述方法中,在第一语音内容不满足第一预设条件但是满足第二预设条件时,确定在第一预设时长内是否连续采集到多个相同的第一语音内容。如果连续采集到,说明用户通过相同的语音内容多次唤醒电子设备,此时为了提高电子设备被唤醒的成功率,可以对语音内容进行语音诊断并获得诊断结果,从而提示用户更加准确的发音。
在一些情况下,电子设备可能处于复杂的声音环境中,此时电子设备采集到的声音信号中的音频数据会比较多。进而,在第一预设时长内,电子设备根据比较多的音频数据可能也会获得连续相同的第一语音内容。但事实上,这些连续相同的第一语音内容可能并不是来源于同一个用户,即用户并没有想要唤醒电子设备。这种情况下,如果电子设备仍然继续使用这些第一语音内容,会引入用户声音以外的其他声音的影响,从而导致电子设备的误唤醒的情况。
基于此,在一些实施例中,为了避免除了用户声音以外的其他声音的影响,电子设备可以利用语音内容的声纹信息来确定连续采集到的多个第一语音内容是否是多个相同的第一语音内容。如果通过声纹信息确定多个相同的第一语音内容来自于同一个用户,那么可以认为是用户在第一预设时长内多次向电子设备输入相同的语音内容,以唤醒电子设备。这种情况下,电子设备可以继续对第一语音内容进行下一步的语音诊断操作。
具体的,电子设备在连续采集到多个相同的第一语音内容之后,可以获取多个相同的第一语音内容中,每一个第一语音内容的声纹信息。而后,电子设备确定每个第一语音内容对应的声纹信息是否全部相同,如果声纹信息全部相同,那么电子设备可以确定第一预设时长内连续采集到多个相同的第一语音内容。反之,如果声纹信息并不是全部相同,那么电子设备可以确定第一预设时长内未连续采集到多个相同的第一语音内容。
示例性的,电子设备在第一预设时长内获得5个连续相同的语音内容A,并且各个语音内容A对应的声纹信息分别为A1、A2、A3、A4和A5。如果声纹信息A1、A2、A3、A4和A5均相同,那么电子设备可以确定这5个连续相同的语音内容A来是来自于同一个用户。这种情况下,电子设备可以继续对语音内容A进行下一步的语音诊断操作。
而如果声纹信息中的任意一个、几个都是全部都不相同,那么电子设备可以确定这5个连续相同的语音内容不是来自于同一个用户。这种情况下,电子设备不会继续对语音内容A进行下一步的语音诊断操作。
可见,本申请实施例上述方法中,可以在第一预设时长内连续采集到的多个相同的第一语音内容对应的声纹信息是否全部相同时,确定第一预设时长内连续采集到的多个相同的第一语音内容来自于同一个用户,从而排除任何来自其他声源的语音内容的干扰,使得确定的语音内容更加准确。
在一些实施例中,电子设备还可以利用第二预设数量等来对第一预设时长内连续采集到的多个相同的第一语音内容是否来自于同一个用户进行确定。具体的,电子设备确定第一预设时长内连续采集到的多个相同的第一语音内容对应的声纹信息中相同的声纹信息数量是否大于或者等于第二预设数量。如果大于或者等于第二预设数量,那么电子设备可以确定第一预设时长内连续采集到的多个相同的第一语音内容来自于同一个用户。反之,如果小于第二预设数量,那么电子设备可以确定第一预设时长内连续采集到的多个相同的第一语音内容不是来自于同一个用户。
示例性的,第二预设数量为3,电子设备在第一预设时长内采集到5个连续相同的语音内容A,并且各个语音内容A对应的声纹信息分别为A1、A2、A3、A4和A5。如果声纹信息中A1、A2、A3和A4是相同的,而A5与这些声纹信息不同,那么相同声纹信息的数量大于第二预设数量,电子设备可以确定包含A1、A2、A3和A4的这5个连续相同的语音内容A来自于同一个用户。
而如果声纹信息中只有A1和A2是相同的,那么相同声纹信息的数量小于第二预设数量,电子设备可以确定第一预设时长内获得的5个连续相同的语音内容并不是来自于同一个用户。
可见,本申请实施例上述方法中,可以在第一预设时长内连续采集到的多个相同的第一语音内容对应的声纹信息中,相同的声纹信息数量大于或者等于第二预设数量时,确定第一预设时长内连续采集到的多个相同的第一语音内容来自于同一个用户。这种方法,可以兼容一些环境中其他声源的语音内容,使得在复杂声音环境下,电子设备也能采集到用户的语音内容。
值得说明的是,在一些实施例中,并不限定步骤S3032和步骤S3033的先后顺序,即也可以先在第一语音内容不满足第一预设条件时,确定在第一预设时长内是否连续采集到多个相同的第一语音内容,而后,在第一预设时长内连续采集到多个相同的第一语音内容时,继续确定第一语音内容是否满足第二预设条件。并且确定在第一预设时长内是否连续采集到多个相同的第一语音内容以及确定第一语音内容是否满足第二预设条件的具体内容与前述实施例中相同。
S304、电子设备在连续采集到不满足第一预设条件,但是满足第二预设条件的多个相同的第一语音内容时,对第一语音内容进行语音诊断并获得诊断结果。
本申请实施例中的诊断知识库是预先根据唤醒过程中遇到的实际问题建立的。诊断知识库用于对第一语音内容在语速、发音和质量等方面进行诊断,也可以看作是指出第一语音内容在语速、发音和质量等方面存在的问题。
在一些实施例中,诊断知识库可以包括预设语速范围、预设语调和预设音量范围中的一项或者多项诊断标准,还包括不同诊断标准对应的诊断结果。电子设备可以根据诊断知识库中的预设语速范围来确定第一语音内容的语速是否满足语速标准;也可以通过预设语调来确定第一语音内容的语调是否满足发音标准;还可以通过预设音量范围来确定第一语音内容的质量是否满足质量标准。
在一些实施例中,预设语速范围可以由用户自行设置,也可以由技术人员根据经验进行设置,例如3字/秒-5字/秒等,本申请实施例中对此不做具体限制。
示例性的,当第一语音内容的语速大于预设语速范围的上限时,可以确定这个第一语音内容的语速不满足语速标准,即语速过快;此时,针对于第一语音内容的诊断结果可以是语速大于预设语速范围。当第一语音内容的语速小于预设语速范围的下限时,可以确定这个第一语音内容的语速也不满足语速标准,即语速过慢;此时,针对于第一语音内容的诊断结果可以是语速小于预设语速范围。而当第一语音内容的语速处于预设语速范围之间时,可以确定这个第一语音内容的语速满足语音标准;此时,针对于第一语音内容的诊断结果可以是语速处于预设语速范围内。
预设语调为诊断知识库中预存的方言或口音中的一种或多种,例如粤语、重庆话、上海话等。在一些实施例中,预设语调也可以是用户自行设置的。
电子设备可以识别第一语音内容的整体发音情况,根据第一语音内容的发音确定第一语音内容的语调。而后,电子设备在确定第一语音内容的语调是否是电子设备中的预设语调。
示例性的,当第一语音内容的语调并不是预设语调时,可以确定这个第一语音内容的语调不满足语调标准;此时,针对于第一语音内容的诊断结果可以是发音有误。而当第一语音内容的语调是预设语调时,可以确定这个第一语音内容的语调满足语调标准;此时,针对于第一语音内容的诊断结果可以是发音无误。
在一些实施例中,预设音量范围是预设值,也可以由用户自行设置,例如60-70分贝等,本申请实施例中对此不做具体限制。
示例性的,当第一语音内容的音量大于预设音量范围的上限时,可以确定这个第一语音内容的音量不满足语速标准;此时,针对于第一语音内容的诊断结果可以是音量大于预设音量范围。当第一语音内容的音量小于预设音量范围的下限时,可以确定这个第一语音内容的音量也不满足语速标准,即音量过小;此时,针对于第一语音内容的诊断结果可以是音量小于预设音量范围。而当第一语音内容的音量处于预设音量范围之间时,可以确定这个第一语音内容的音量满足语音标准;此时,针对于第一语音内容的诊断结果可以是音量处于预设音量范围内。
可见,通过预设的诊断知识库,可以为电子设备提供更加全面地语音诊断的方式,当第一语音内容不足第一预设条件,但是满足第二预设条件,并且电子设备采集到连续的多个相同的第一语音内容时,电子设备利用诊断知识库能更准确地确定出第一语音内容存在的问题,从而更有针对性地向用户发出提示。用户根据提示可以了解到需要从哪一方面入手改善输入的语音内容,进而提高语音内容输入的准确性。
在一些实施例中,电子设备可以在识别出第一语音内容之后,确定出语音内容的语速、语调和音量等,从而在步骤S304中,利用预设的诊断知识库对第一语音内容进行语音诊断,获得第一语音内容的诊断结果。
前述实施例中,如果电子设备确定出第一语音内容不满足第二预设条件,那么电子设备不会对第一语音内容进行下一步的语音诊断操作。并且,电子设备会继续实时采集外界环境的声音信号,以便及时获取到新的语音内容。
而电子设备如果没有连续采集到不满足第一预设条件但是满足第二预设条件的多个相同的第一语音内容,那么电子设备也不会对第一语音内容进行下一步的语音诊断操作。并且,电子设备会继续实时采集外界环境的声音信号,以便及时获取到新的语音内容。
S305、电子设备根据第一语音内容的诊断结果获取相应的预设处理规则。
诊断结果表示第一语音内容在语速、语调和/或质量等方面存在问题时,电子设备可以获取到诊断结果对应预设处理规则。其中,预设处理规则是预先设置的向用户发出提示内容的规则。
示例性的,针对于上述诊断结果“语速大于预设语速范围”,对应的预设处理规则可以是提示用户放慢语音输入速度等;针对于上述诊断结果“语速小于预设语速范围”,对应的预设处理规则可以是提示用户加快语音输入速度等。
示例性的,针对于上述诊断结果“发音有误”,对应的预设处理规则可以是提示用户更正发音等。
示例性的,针对于上述诊断结果“音量大于预设音量范围”,对应的预设处理规则可以是提示用户在输入语音内容时降低输入的音量等;针对于上述诊断结果“音量小于预设音量范围”,对应的预设处理规则可以是提示用户在输入语音内容时提高输入的音量等。
S306、电子设备根据预设处理规则,执行预设操作。
其中,预设操作可以是电子设备向用户发出提示的操作,进而提示用户向电子设备输入更加准确的语音内容。
其中,电子设备向用户发出的提示可以是通过播放语音内容而发出的语音提示,也可以是通过显示提示信息而发出的文字提示等。
示例性的,根据上述预设处理规则“提示用户放慢语音输入速度”,电子设备可以向用户发出放慢语音输入速度的语音提示,例如“请说慢一点”等;根据上述预设处理规则“提示用户加快语音输入速度”,电子设备可以向用户发出加快语音输入速度语音提示,例如“请说快一点”等。
示例性的,根据上述预设处理规则“提示用户更正发音”,电子设备可以向用户发出改善发音的语音提示,例如“请说粤语”、“请说普通话”、“请说上海话”等。
示例性的,根据上述预设处理规则“提示用户在输入语音内容时降低输入的音量”,电子设备可以向用户发出降低音量的语音提示,例如“请小声一点说话”等;根据上述预设处理规则“提示用户在输入语音内容时提高输入的音量”,电子设备可以向用户发出提高音量的语音提示,例如“请大声一点说话”等。
用户在接收到电子设备发出的语音提示后,可以按照提示的要求重新向电子设备输入更加准确地新的语音内容,即第二语音内容。电子设备采集到用户输入的第二语音内容后,再次确定第二语音内容是否满足第一预设条件,并在满足第一预设条件时,将当前状态切换为唤醒状态。
而当诊断结果表示上述第一语音内容在语速、语调和质量等方面都不存在问题时,例如当上述诊断结果为“语速处于预设语速范围内”、“发音无误”、“音量处于预设音量范围内”时,电子设备可以认为第一语音内容虽然不满足第一预设条件,但是其发音的准确性和质量都比较高,因此,为了避免用户多次唤醒电子设备失败的问题,电子设备可以在第一语音内容在在语速、语调和质量等方面都不存在问题时,直接将当前状态切换为唤醒状态。
结合前述内容可知,本申请上述实施例的方法,当用户反复多次采用相同的语音内容无法唤醒电子设备时,电子设备可以对满足第二预设条件的语音内容进行语音诊断,确定出用户输入的语音内容存在的问题以及改善的方法,并向用户发出提示,进而使用户能更准确地输入语音内容,也能提高用户唤醒电子设备的成功率。
在一些实施例中,电子设备还可以实时检测外界环境中的噪声,当环境中的噪声音量大于预设音量阈值时,电子设备可以向用户发出背景噪声过大的提示。用户收到提示后,可以降低背景噪声的音量,或者将电子设备转移到相对安静的位置处,这样,当用户再次向电子设备输入语音内容以唤醒电子设备时,电子设备可以准确地采集到声音信号,而减少背景噪声对语音内容的干扰。
由前述实施例可知,电子设备获取预设处理规则的目的是,提示用户改善语速、语调和质量等方面的问题。在一些情况下,可能用户的发音习惯很难改变,所以对于语音内容在语速、语调和质量等方面的改善效果并不明显,这样一来,电子设备仍然无法准确地识别出可以唤醒电子设备的语音内容,仍然会存在用户多次唤醒电子设备而无法唤醒成功的问题。为了避免这种问题,在一些实施例中,电子设备在获取到第一语音内容的诊断结果相应的预设处理规则后,还可以根据预设处理规则自行对语音内容进行处理。这种情况下,上述实施例中的预设操作也可以是电子设备自行对语音内容进行处理的操作。
具体的,电子设备中可以预设模拟用户发音的语速模型、语调模型和质量模型等。根据预设处理规则,更改语速模型、语调模型和/或和质量模型的参数,从而利用语速模型改善语音内容的发音速度,利用语调模型改善语音内容的发音准确性,和/或,利用质量模型改善语音内容的音量等。
示例性的,针对上述预设处理规则“提示用户放慢语音输入速度”,电子设备可以自行利用语速模型对语音内容进行慢放处理,然后重新识别慢放后的语音内容;针对上述预设处理规则“提示用户更正发音”,电子设备可以自动利用语调模型纠正语音内容的发音,然后重新识别更正后的语音内容;针对上述预设处理规则“提示用户在输入语音内容时降低输入的音量”,电子设备可以自行利用质量模型对语音内容进行降低音量的处理,然后重新识别降低音量后的语音内容。
可见,本申请实施例上述方法中,电子设备在对第一语音内容诊断后,可以根据诊断结果自行对语音内容进行处理,而无需提示用户进行改善。避免因为用户的发音习惯很难改变,而造成的电子设备根据用户重新输入的语音内容仍然无法唤醒电子设备的问题。
在一些实施例中,用户先向电子设备输入了一个满足第二预设条件并且重复的第一语音内容(即连续多个相同的第一语音内容),并且电子设备根据这个语音内容的诊断结果对应的预设处理规则向用户发出了语音提示。用户在接收到语音提示后,如果通过改善发音习惯等重新向电子设备输入了改善后的第二语音内容,进而使得电子设备成功被唤醒,那么,如图9所示,电子设备可以利用用户之前输入的满足第二预设条件的第一语音内容优化诊断知识库。这种情况下,用户之前输入的满足第二预设条件的第一语音内容,与用户接收到语音提示后输入的改善后的第二语音内容可看作是前后关联的一组语音内容。
示例性的,参见图10,用户先向电子设备输入了一个满足第二预设条件并且重复的语音内容A,并且电子设备根据这个语音内容A的诊断结果对应的预设处理规则向用户发出了语音提示。用户在接收到语音提示后,如果通过改善发音习惯等重新向电子设备输入了改善后的语音内容B,进而使得电子设备成功被唤醒。此时语音内容A和语音内容B可以看作是前后关联的一组语音内容,其差别在于二者在语速、语调或者质量等方面存在差异。此时,电子设备可以利用这组语音内容中的语音内容A优化诊断知识库。
具体的,电子设备可以控制诊断知识库学习与用户之前输入的满足第二预设条件的第一语音内容,根据该语音内容的语速、语调和质量等优化诊断知识库中各方面的诊断标准。例如更改预设语速范围、更加预设语调或者和更改预设音量范围等。由于该语音内容的语速、语调和质量更加符合用户的发音习惯或者发音规则,进而优化后的诊断知识库中的诊断标准也能更加符合用户的发音习惯或者发音规则,当用户再次以相同或者相似的发音习惯输入的语音内容时,诊断知识库更容易将语音内容确定为在各方面都不存在问题。这种情况下,电子设备可以直接将当前状态切换为唤醒状态。可见,这样优化诊断知识库的方式也可以提高用户唤醒电子设备的成功率。
在一些实施例中,如果电子设备对第一语音内容自行处理后获得的第二语音内容,可以成功唤醒电子设备,那么电子设备也可以利用第一语音内容优化诊断知识库。
为了使电子设备能够针对不同类型的用户给出发音提示等,在一些实施例中,如图11所示,电子设备还可以根据第一语音内容的发音习惯或者发音特点,确定出第一语音内容对应的用户类型,比如老年人、儿童、青年或者说方言的用户等。并且在获得多个第一语音内容对应的诊断结果之后,电子设备再结合多个第一语音内容的诊断结果和对应的用户类型,针对每种类型的用户设置对应的预设处理规则。之后,当电子设备再次获取到满足第二预设条件并且重复的第一语音内容时,可以根据第一语音内容对应的用户类型,直接获取到预设处理规则。电子设备可以根据预设处理规则向该类型的用户发出提示。
具体的,电子设备可以收集每一个类型的用户对应的第一语音内容和对应的诊断结果。当属于同一个用户类型以及诊断结果相同的第一语音内容的数量大于或者等于第三预设数量时,电子设备可以将该诊断结果确定为这一个类型的用户对应的诊断结果。进而,电子设备根据诊断结果获取到的预设处理规则也是这一个类型的用户对应的预设处理规则。
其中,第三预设数量是根据使用电子设备的用户类型、电子设备的使用频率等实际情况进行设置的,本申请实施例中不对其进行具体限制。
示例性的,电子设备收集用户类型为“老人”的多个第一语音内容和对应的诊断结果,如果诊断结果为“发音有误”的语音内容的数量大于或者等于第三预设数量,则电子设备可以将“发音有误”的诊断结果确定为“老人”类型的用户对应的诊断结果,即认为老人在使用电子设备时大概率会出现发音错误的问题。而后,电子设备再将“发音有误”的诊断结果对应的“提示用户更正发音”的预设处理规则设置为“老人”类型的用户对应的预设处理规则。
当电子设备获取到满足第二预设条件的第一语音内容时,如果电子设备确定出该语音内容的用户类型为“老人”,则电子设备可以直接向用户发出“请发音标准一点”、“请说普通话”等语音提示。从而提示用户改善发音。
在一些实施例中,在确定出第一语音内容对应的用户类型,并获取到该用户类型对应的预设处理规则之后,电子设备还可以根据处理规则自行对第一语音内容进行处理,从而改善第一语音内容的发音。
可见,本申请实施例上述方法中,电子设备可以针对不同类型的用户设置对应的预设处理规则,每个类型的用户对应的预设处理规则能够更加贴近该类型用户所遇到的问题,因此,电子设备可以根据每个类型用户对应的预设处理规则更有针对性的提示每个类型用户如何改善发音。当用户的发音问题改善之后,用户输入的语音内容就会越来越多地满足第一预设条件,从而提高用户唤醒电子设备的成功率。
可以理解的是,为了实现上述功能,电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请实施例还提供一种电子设备,如图12所示,该电子设备可以包括一个或者多个处理器1001、存储器1002和通信接口1003。
其中,存储器1002、通信接口1003与处理器1001耦合。例如,存储器1002、通信接口1003与处理器1001可以通过总线1004耦合在一起。
其中,通信接口1003用于与其他设备进行数据传输。存储器1002中存储有计算机程序代码。计算机程序代码包括计算机指令,当计算机指令被处理器1001执行时,使得电子设备执行本申请实施例中的语音交互方法。示例性的,如图13所示,该电子设备执行上述语音交互方法时,对应的处理流程可以包括:采集用户唤醒电子设备的语音内容,记录不满足第一预设条件,但是满足第二预设条件的多次重复的第一语音内容,诊断第一语音内容,获取预设处理规则和发出提示等。
上述存储器1002还可以用于保存语音交互方法中获得的语音内容、语音内容对应的诊断结果、诊断知识库、预设处理规则等。
其中,处理器1001可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。
其中,总线1004可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。上述总线1004可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
示例性的,服务器可以包括一个或多个处理器1001,即服务器可以包括多核处理器。
本申请实施例还提供一种计算机可读存储介质,该计算机存储介质中存储有计算机程序代码,当上述处理器执行该计算机程序代码时,电子设备执行上述方法实施例中的相关方法步骤。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述方法实施例中的相关方法步骤。
其中,本申请提供的电子设备、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种语音交互方法,其特征在于,应用于电子设备,所述方法包括:
接收用户输入的第一语音内容;
如果所述第一语音内容的第一分值小于第一分数阈值,所述第一语音内容的第二分值大于或者等于第二分数阈值,并且所述电子设备连续接收到多个相同的所述第一语音内容,对所述第一语音内容进行语音诊断,并执行诊断结果对应的预设操作;所述预设操作用于获取第一语音内容改善发音后的第二语音内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一语音内容的音素排序和音素发音对所述第一语音内容进行打分,获得所述第一语音内容的所述第一分值;
在所述第一分值小于所述第一分数阈值时,获取所述第一语音内容的所述第二分值。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
在所述第二分值大于或者等于所述第二分数阈值时,在第一预设时间长内接收多个所述第一语音内容;
在所述第一预设时长内的多个所述第一语音内容相同并且连续时,对所述第一语音内容进行语音诊断,并执行诊断结果对应的预设操作。
4.根据权利要求2-3任一项所述的方法,其特征在于,所述第二分值为所述第一分值,以及,所述第二分数阈值小于所述第一分数阈值。
5.根据权利要求2-3任一项所述的方法,其特征在于,所述第二分值为所述电子设备对所述第一语音内容进行音素置信度打分后的音素置信度分值,所述第二分数阈值为预设置信度分值。
6.根据权利要求2-5任一项所述的方法,其特征在于,多个相同的所述第一语音内容中,每个第一语音内容的音素序列都相同,以及,每个音素序列中对应位置上的音素发音都相同。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述第一语音内容进行语音诊断,还包括:
利用诊断知识库对所述第一语音内容进行语音诊断;所述诊断知识库用于诊断所述第一语音内容在语速、语调和质量方面存在的问题。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述执行诊断结果对应的预设操作,包括:
向用户发出提示,用于提示用户根据所述第一语音内容存在的问题对应改善所述第一语音内容的发音。
9.根据权利要求8所述的方法,其特征在于,所述提示包括向用户发出的语音提示和向用户显示的提示信息。
10.根据权利要求1-7任一项所述的方法,其特征在于,所述执行诊断结果对应的预设操作,还包括:
针对所述第一语音内容存在的问题对应调整所述第一语音内容的发音。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述方法还包括:
如果所述第一语音内容的所述第一分值小于所述第一分数阈值,所述第一语音内容的所述第二分值大于或者等于所述第二分数阈值,并且所述电子设备连续接收到多个相同的所述第一语音内容,获取多个相同的所述第一语音内容中每个所述第一语音内容的声纹信息;
在多个相同的所述第一语音内容的声纹信息都相同时,对所述第一语音内容进行语音诊断。
12.根据权利要求7-11任一项所述的方法,其特征在于,所述方法还包括:
在所述第二语音内容的第一分值大于或者等于所述第一分数阈值时,利用所述第一语音内容优化所述诊断知识库。
13.根据权利要求1-12任一项所述的方法,其特征在于,所述方法还包括:
针对多个类型的用户中目标类型的用户的所述第一语音内容进行语音诊断;
根据目标类型的用户在所述语速、所述语调和所述质量方面存在的问题,针对于目标类型的用户设置对应的预设操作。
14.根据权利要求1-13任一项所述的方法,其特征在于,所述方法还包括:
如果所述第一语音内容的所述第一分值大于或者等于所述第一分数阈值,将当前状态切换为唤醒状态。
15.根据权利要求1-14任一项所述的方法,其特征在于,所述方法还包括:
如果所述第一语音内容在语速、语调和质量方面都不存在问题,将当前状态切换为唤醒状态。
16.一种电子设备,其特征在于,包括:存储器、一个或多个处理器;所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-15任一项所述的语音交互方法。
17.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-15任一项所述的语音交互方法。
18.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-15任一项所述的语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210385175.3A CN116959436A (zh) | 2022-04-13 | 2022-04-13 | 一种语音交互方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210385175.3A CN116959436A (zh) | 2022-04-13 | 2022-04-13 | 一种语音交互方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959436A true CN116959436A (zh) | 2023-10-27 |
Family
ID=88441279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210385175.3A Pending CN116959436A (zh) | 2022-04-13 | 2022-04-13 | 一种语音交互方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959436A (zh) |
-
2022
- 2022-04-13 CN CN202210385175.3A patent/CN116959436A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN110634507A (zh) | 用于语音唤醒的音频的语音分类 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN108711429B (zh) | 电子设备及设备控制方法 | |
CN111583944A (zh) | 变声方法及装置 | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
CN110070863A (zh) | 一种语音控制方法及装置 | |
US11626104B2 (en) | User speech profile management | |
EP4002363A1 (en) | Method and apparatus for detecting an audio signal, and storage medium | |
CN114141230A (zh) | 电子设备及其语音识别方法和介质 | |
US20170364516A1 (en) | Linguistic model selection for adaptive automatic speech recognition | |
CN114360527A (zh) | 车载语音交互方法、装置、设备及存储介质 | |
CN114120979A (zh) | 语音识别模型的优化方法、训练方法、设备及介质 | |
CN113299309A (zh) | 语音翻译方法及装置、计算机可读介质和电子设备 | |
WO2023040658A1 (zh) | 语音交互方法及电子设备 | |
CN108922523B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
WO2023006033A1 (zh) | 语音交互方法、电子设备及介质 | |
CN116959436A (zh) | 一种语音交互方法及电子设备 | |
CN111667829B (zh) | 信息处理方法及装置、存储介质 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
CN115331672B (zh) | 设备控制方法、装置、电子设备及存储介质 | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
CN115424628B (zh) | 一种语音处理方法及电子设备 | |
WO2024055831A1 (zh) | 一种语音交互方法、装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |