CN112151064A - 话术播报方法、装置、计算机可读存储介质和处理器 - Google Patents
话术播报方法、装置、计算机可读存储介质和处理器 Download PDFInfo
- Publication number
- CN112151064A CN112151064A CN202011025094.XA CN202011025094A CN112151064A CN 112151064 A CN112151064 A CN 112151064A CN 202011025094 A CN202011025094 A CN 202011025094A CN 112151064 A CN112151064 A CN 112151064A
- Authority
- CN
- China
- Prior art keywords
- voice
- range
- speaker
- age
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 230000008451 emotion Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 23
- 230000003993 interaction Effects 0.000 abstract description 5
- 230000033764 rhythmic process Effects 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请提供了一种话术播报方法、装置、计算机可读存储介质和处理器,该话术播报方法包括:获取说话人的语音数据;根据语音数据确定说话人的声音特征,声音特征包括语速、音量以及语调;根据说话人的声音特征,确定话术的声音特征;根据语音数据的语义以及确定的话术的声音特征,播报话术。该话术播报方法可以针对不同的说话人的声音特征动态调整话术的声音特征,实现了同一场景下针对不同的用户播报不同的话术内容,达到了个性化的服务,同时使得话术播报更加拟人化,提升了用户在话术播报过程中的交互体验,进而提升用户使用满意度。
Description
技术领域
本申请涉及人工智能领域,具体而言,涉及一种话术播报方法、装置、计算机可读存储介质、处理器和电子设备。
背景技术
随着人工智能技术的发展,机器人智能语音外呼已得到广泛的应用,客户对于机器人的拟人程度要求也越来越高。但是目前市面上的智能语音机器人,在话术播报上,要么采用纯录音的方式,要么使用语音合成的方式。机器人选择哪条话术语音,也是依靠预设的话术模板根据语义理解的结果或者是特定的一些用户信息来匹配固定话术。同时,在实际交互过程中,经常是机器人无法捕捉交流对象的语调情绪的变化,只根据说话内容流程化的进行播报。
播报固定话术的方式,首先在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容,不能提供个性化的服务。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种话术播报方法、装置、计算机可读存储介质、处理器和电子设备,以解决现有技术中在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容,不能提供个性化的服务的问题。
根据本发明实施例的一个方面,提供了一种话术播报方法,包括:获取说话人的语音数据;根据所述语音数据确定说话人的声音特征,所述声音特征包括语速、音量以及语调;根据所述说话人的声音特征,确定话术的声音特征;根据所述语音数据的语义以及确定的所述话术的声音特征,播报话术。
可选地,根据所述说话人的声音特征,确定话术的声音特征,包括根据确定的所述话术的声音特征,确定说话人的特征信息,所述特征信息包括以下至少之一:年龄、性别和姓名;根据所述说话人的特征信息,确定所述话术的声音特征。
可选地,根据所述说话人的特征信息,确定所述话术的声音特征,包括在所述说话人的特征信息包括年龄且所述年龄处于第一预定年龄范围或者第三预定年龄范围内的情况下,确定所述话术的声音特征中的音量在第一音量范围内,所述语速在第一语速范围内,其中,所述第一预定年龄范围的最大值小于所述第三预定年龄范围的最小值;在所述说话人的特征信息包括年龄且所述年龄处于第二预定年龄范围内的情况下,确定所述话术的声音特征中的音量在第二音量范围内,所述语速在第二语速范围内,其中,所述第二预定年龄范围的最小值大于所述第一预定年龄范围的最大值,所述第二预定年龄范围的最大值小于所述第三预定年龄范围的最小值,所述第二音量范围的最小值大于所述第一音量范围的最大值,所述第二语速范围的最小值大于所述第一语速范围的最大值。
可选地,所述声音特征还包括情绪。
可选地,所述第一音量范围包括第一子音量范围和第二子音量范围,在所述说话人的特征信息包括年龄,所述年龄处于第一预定年龄范围的情况下,确定所述话术的声音特征中的音量在第一子音量范围内,所述年龄处于第三预定年龄范围的情况下,确定所述话术的声音特征中的音量在第二子音量范围内,其中,所述第二子音量范围的最小值大于所述第一子音量范围的最大值。
根据本发明实施例的另一方面,提供了一种话术播报装置,包括获取单元、第一确定单元、第二确定单元以及播报单元,获取单元用于获取说话人的语音数据;第一确定单元用于根据所述语音数据确定说话人的声音特征,所述声音特征包括语速、音量以及语调;第二确定单元用于根据所述说话人的声音特征,确定话术的声音特征;播报单元用于根据所述语音数据的语义以及确定的所述话术的声音特征,播报话术。
可选地,所述第二确定单元包括第一确定模块和第二确定模块,第一确定模块用于根据确定的所述话术的声音特征,确定说话人的特征信息,所述特征信息包括以下至少之一:年龄、性别和姓名;第二确定模块用于根据所述说话人的特征信息,确定所述话术的声音特征。
根据本发明实施例的再一方面,提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序执行任一种所述的方法。
根据本发明实施例的又一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一种所述的方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任一种所述的方法。
在本申请实施例中,所述话术播报方法根据所述语音数据确定说话人的语速、音量以及语调这些所述声音特征,确定所述话术的声音特征,再结合所述语音数据的语义以及所述话术的声音特征进行播报话术。所述话术播报方法可以针对不同的说话人的所述声音特征动态调整所述话术的声音特征,实现了同一场景下针对不同的用户播报不同的话术内容,达到了个性化的服务,同时使得所述话术播报更加拟人化,提升了用户在所述话术播报过程中的交互体验,进而提升了用户使用满意度。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请实施例的话术播报方法生成的流程示意图;以及
图2示出了根据本申请实施例的话术播报装置的组成示意图。
附图标记:
10、获取单元;20、第一确定单元;30、第二确定单元;40、播报单元。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
正如背景技术中所说的,现有技术中在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容,不能提供个性化的服务,为了解决上述问题,本申请的一种典型的实施方式中,提供了一种话术播报方法、装置、计算机可读存储介质、处理器和电子设备。
根据本申请的一种典型的实施例,提供了一种话术播报方法。
图1是根据本申请实施例的话术播报方法生成的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取说话人的语音数据;
步骤S102,根据上述语音数据确定说话人的声音特征,上述声音特征包括语速、音量以及语调;
步骤S103,根据上述说话人的声音特征,确定话术的声音特征;
步骤S104,根据上述语音数据的语义以及确定的上述话术的声音特征,播报话术。
上述话术播报方法根据上述语音数据确定说话人的语速、音量以及语调这些上述声音特征,确定上述话术的声音特征,再结合上述语音数据的语义以及上述话术的声音特征进行播报话术。上述话术播报方法可以针对不同的说话人的上述声音特征动态调整上述话术的声音特征,实现了同一场景下针对不同的用户播报不同的话术内容,达到了个性化的服务,同时使得上述话术播报更加拟人化,提升了用户在上述话术播报过程中的交互体验,进而提升了用户使用满意度。
当然,上述声音特征还可以包括说话节奏、吐字清晰度等,具体地,上述话术播报方法通过确定说话人的说话节奏,来确定上述话术的声音特征并播报话术,使得话术播报过程中的说话节奏贴合说话人的上述说话节奏,实现个性化服务的同时,提升了用户使用过程的交互体验,避免了流程化、机械化的播报。
本申请的一种具体的实施例中,根据上述说话人的声音特征,确定话术的声音特征,包括:根据确定的上述话术的声音特征,确定说话人的特征信息,上述特征信息包括以下至少之一:年龄、性别和姓名;根据上述说话人的特征信息,确定上述话术的声音特征。上述话术播报方法通过年龄、性别和姓名等上述特征信息来调整上述话术的声音特征并进行播报话术,实现了根据用户的个人信息来确定话术播报内容,进一步保证了播报内容贴合用户自身情况,实现差异化沟通。
本申请的另一种具体的实施例中,根据上述说话人的特征信息,确定上述话术的声音特征还包括:在上述说话人的特征信息包括年龄且上述年龄处于第一预定年龄范围或者第三预定年龄范围内的情况下,确定上述话术的声音特征中的音量在第一音量范围内,上述语速在第一语速范围内,其中,上述第一预定年龄范围的最大值小于上述第三预定年龄范围的最小值;在上述说话人的特征信息包括年龄且上述年龄处于第二预定年龄范围内的情况下,确定上述话术的声音特征中的音量在第二音量范围内,上述语速在第二语速范围内,其中,上述第二预定年龄范围的最小值大于上述第一预定年龄范围的最大值,上述第二预定年龄范围的最大值小于上述第三预定年龄范围的最小值,上述第二音量范围的最小值大于上述第一音量范围的最大值,上述第二语速范围的最小值大于上述第一语速范围的最大值。上述话术播报方法根据上述说话人的年龄信息调整上述话术的声音特征中的音量与语速,各种年龄阶段的用户有对应年龄的话术播报音量与语速,保证了不同年龄阶段的用户能够清楚、准确的接收话术播报内容,进一步提升了用户体验。
具体地,上述第一预定年龄范围可以为2-15岁,上述第二预定年龄范围可以为16-60岁,上述第三预定年龄范围可以为61-80岁,上述第一音量范围可以为40-80dB,上述第二音量范围可以为81-110dB,上述第一语速范围可以为80-120字/min,上述第二语速范围可以为180-220字/min。上述话术播报方法确定上述说话人的年龄在上述第一预定年龄范围或者上述第三预定年龄范围,即2-15岁或者61-80岁之间时,保证上述话术播报的音量在上述第一音量范围内,即40-dB,保证上述话术播报的语速在上述第一语速范围内,即80-120字/min,这样保证了老人和小孩用户能清晰、完整的听到播报内容,同时对老人和小孩用户的听力不造成损伤;在上述话术播报方法确定上述说话人的年龄在上述第二预定年龄范围,即16-60岁之间时,保证上述话术播报的音量在上述第二音量范围内,即81-110dB,保证上述话术播报的语速在上述第二语速范围内,即180-220字/min,以这样的音量和语速播报内容符合青年及中年用户的听觉习惯,保证了青年及中年用户有较好的体验感。当然,上述的第一预定年龄范围、第二预定年龄范围、第三预定年龄范围、第一音量范围、第二音量范围、第一语速范围以及第二语速范围还可以调整为其他的数值范围,从而满足不同年龄用户对话术播报的需求,进一步提升了用户使用过程中的体验感。
当然,在上述话术播报方法没有获取到说话人的年龄信息时,还可以通过结合说话人的上述的语音、语速、语调、音量、说话节奏以及吐字清晰度等声音特征判断说话人的年龄范围,并确定上述年龄范围对应的播报音量范围和语速范围,进行话术播报。
根据本申请的又一种具体的实施例,上述声音特征还包括情绪。上述话术播报方法根据说话人的上述情绪声音特征确定话术播报内容,能够保证播报内容更加适应用户的情绪,进一步地保证了用户在话术播报过程中的体验感较好。
本申请的一种具体的实施例中,上述第一音量范围包括第一子音量范围和第二子音量范围,在上述说话人的特征信息包括年龄,上述年龄处于第一预定年龄范围的情况下,确定上述话术的声音特征中的音量在第一子音量范围内,上述年龄处于第三预定年龄范围的情况下,确定上述话术的声音特征中的音量在第二子音量范围内,其中,上述第二子音量范围的最小值大于上述第一子音量范围的最大值。通过上述第一子音量范围和上述第二子音量范围,避免了较大年龄阶段的用户因听力下降导致无法清楚地获取话术播报内容的问题,同时进一步保证了较小年龄阶段的用户的听力在获取话术播报过程中不受损,进一步保证了上述两个年龄阶段的用户具有较好的体验感和满意度。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种话术播报装置,需要说明的是,本申请实施例的话术播报装置可以用于执行本申请实施例所提供的用于话术播报方法。以下对本申请实施例提供的话术播报装置进行介绍。
图2是本申请实施例的话术播报装置的示意图。如图2所示,上述装置包括:获取单元10、第一确定单元20、第二确定单元30和播报单元40。获取单元10用于获取说话人的语音数据;第一确定单元20用于根据上述语音数据确定说话人的声音特征,上述声音特征包括语速、音量以及语调;第二确定单元30用于根据上述说话人的声音特征,确定话术的声音特征;播报单元40用于根据上述语音数据的语义以及确定的上述话术的声音特征,播报话术。
上述话术播报装置首先通过获取单元获取说话人的语音数据,然后通过上述第一确定单元确定说话人的上述声音特征,根据上述声音特征再由上述第二确定单元确定上述话术的声音特征,最后通过上述播报单元进行话术播报,达到了根据每个用户实时的语音来动态调整话术及话术播放方式的目的,实现了个性化的服务,同时避免了应对的机械性,使得交互过程中话术播报更加灵活,进一步提升了交互过程体验感。
当然,上述声音特征还可以包括说话节奏、吐字清晰度等,具体地,上述话术播报装置通过确定说话人的说话节奏,来确定上述话术的声音特征并播报话术,使得话术播报过程中的说话节奏贴合说话人的上述说话节奏,实现个性化服务的同时,提升了用户使用过程的交互体验,避免了流程化、机械化的播报。
根据本申请的一种具体的实施例,上述第二确定单元包括第一确定模块和第二确定模块,第一确定模块用于根据确定的上述话术的声音特征,确定说话人的特征信息,上述特征信息包括以下至少之一:年龄、性别和姓名;第二确定模块用于根据上述说话人的特征信息,确定上述话术的声音特征。上述话术播报装置通过年龄、性别和姓名等上述特征信息来调整上述话术的声音特征并进行播报话术,实现了根据用户的个人信息来确定话术播报内容,进一步保证了播报内容贴合用户自身情况,实现差异化沟通。
根据本申请的另一种具体的实施例,上述第二确定模块包括第一确定子模块和第二确定子模块,其中,第一确定子模块用于在上述说话人的特征信息包括年龄且上述年龄处于第一预定年龄范围或者第三预定年龄范围内的情况下,确定上述话术的声音特征中的音量在第一音量范围内,上述语速在第一语速范围内,其中,上述第一预定年龄范围的最大值小于上述第三预定年龄范围的最小值;第二确定子模块用于在上述说话人的特征信息包括年龄且上述年龄处于第二预定年龄范围内的情况下,确定上述话术的声音特征中的音量在第二音量范围内,上述语速在第二语速范围内,其中,上述第二预定年龄范围的最小值大于上述第一预定年龄范围的最大值,上述第二预定年龄范围的最大值小于上述第三预定年龄范围的最小值,上述第二音量范围的最小值大于上述第一音量范围的最大值,上述第二语速范围的最小值大于上述第一语速范围的最大值。上述话术播报装置根据上述说话人的年龄信息调整上述话术的声音特征中的音量与语速,各种年龄阶段的用户有对应年龄的话术播报音量与语速,保证了不同年龄阶段的用户能够清楚、准确的接收话术播报内容,提升了用户使用感。
具体地,上述第一预定年龄范围可以为2-15岁,上述第二预定年龄范围可以为16-60岁,上述第三预定年龄范围可以为61-80岁,上述第一音量范围可以为40-80dB,上述第二音量范围可以为81-110dB,上述第一语速范围可以为80-120字/min,上述第二语速范围可以为180-220字/min。上述话术播报装置确定上述说话人的年龄在上述第一预定年龄范围或者上述第三预定年龄范围,即2-15岁或者61-80岁之间时,保证上述话术播报的音量在上述第一音量范围内,即40-dB,保证上述话术播报的语速在上述第一语速范围内,即80-120字/min,这样保证了老人和小孩用户能清晰、完整的听到播报内容,同时对老人和小孩用户的听力不造成损伤;在上述话术播报装置确定上述说话人的年龄在上述第二预定年龄范围,即16-60岁之间时,保证上述话术播报的音量在上述第二音量范围内,即81-110dB,保证上述话术播报的语速在上述第二语速范围内,即180-220字/min,以这样的音量和语速播报内容符合青年及中年用户的听觉习惯,保证了青年及中年用户有较好的体验感。当然,上述的第一预定年龄范围、第二预定年龄范围、第三预定年龄范围、第一音量范围、第二音量范围、第一语速范围以及第二语速范围还可以调整为其他的数值范围,从而满足不同年龄用户对话术播报的需求,进一步提升了用户使用过程中的体验感。
当然,在上述话术播报装置没有获取到说话人的年龄信息时,还可以通过结合说话人的上述的语音、语速、语调、音量、说话节奏以及吐字清晰度等声音特征判断说话人的年龄范围,并确定上述年龄范围对应的播报音量范围和语速范围,进行话术播报。
根据本申请的又一种具体的实施例,上述声音特征还包括情绪。上述话术播报装置根据说话人的上述情绪声音特征确定话术播报内容,能够保证播报内容更加贴合用户的情绪,进一步地保证了用户在话术播报过程中的体验感较好。
本申请的一种具体的实施例中,上述第一音量范围包括第一子音量范围和第二子音量范围,在上述说话人的特征信息包括年龄,上述年龄处于第一预定年龄范围的情况下,确定上述话术的声音特征中的音量在第一子音量范围内,上述年龄处于第三预定年龄范围的情况下,确定上述话术的声音特征中的音量在第二子音量范围内,其中,上述第二子音量范围的最小值大于上述第一子音量范围的最大值。通过上述第一子音量范围和上述第二子音量范围,避免了较大年龄阶段的用户因听力下降导致无法清楚地获取话术播报内容的问题,同时进一步保证了较小年龄阶段的用户的听力在获取话术播报过程中不受损,进一步保证了上述两个年龄阶段的用户体验感和满意度。
上述话术播报装置包括处理器和存储器,上述获取单元、第一确定单元、第二确定单元和播报单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决在同一个场景对话流程下机器人无法针对不同的客户播报不同的话术内容,不能提供个性化的服务的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述话术播报方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述话术播报方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
步骤S101,获取说话人的语音数据;
步骤S102,根据上述语音数据确定说话人的声音特征,上述声音特征包括语速、音量以及语调;
步骤S103,根据上述说话人的声音特征,确定话术的声音特征;
步骤S104,根据上述语音数据的语义以及确定的上述话术的声音特征,播报话术。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
步骤S101,获取说话人的语音数据;
步骤S102,根据上述语音数据确定说话人的声音特征,上述声音特征包括语速、音量以及语调;
步骤S103,根据上述说话人的声音特征,确定话术的声音特征;
步骤S104,根据上述语音数据的语义以及确定的上述话术的声音特征,播报话术。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请提供的话术播报方法,根据上述语音数据确定说话人的语速、音量以及语调这些上述声音特征,确定上述话术的声音特征,再结合上述语音数据的语义以及上述话术的声音特征进行播报话术。上述话术播报方法可以针对不同的说话人的上述声音特征动态调整上述话术的声音特征,实现了同一场景下针对不同的用户播报不同的话术内容,达到了个性化的服务,同时使得上述话术播报更加拟人化,提升了用户在上述话术播报过程中的交互体验,进而提升了用户使用满意度。
2)本申请提供的话术播报装置,首先通过获取单元获取说话人的语音数据,然后通过上述第一确定单元确定说话人的上述声音特征,根据上述声音特征再由上述第二确定单元确定上述话术的声音特征,最后通过上述播报单元进行话术播报,达到了根据每个用户实时的语音来动态调整话术及话术播放方式的目的,实现了个性化的服务,同时避免了应对的机械性,使得交互过程中话术播报更加灵活,进一步提升了交互过程体验感。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种话术播报方法,其特征在于,包括:
获取说话人的语音数据;
根据所述语音数据确定说话人的声音特征,所述声音特征包括语速、音量以及语调;
根据所述说话人的声音特征,确定话术的声音特征;
根据所述语音数据的语义以及确定的所述话术的声音特征,播报话术。
2.根据权利要求1所述的方法,其特征在于,根据所述说话人的声音特征,确定话术的声音特征,包括:
根据确定的所述话术的声音特征,确定说话人的特征信息,所述特征信息包括以下至少之一:年龄、性别和姓名;
根据所述说话人的特征信息,确定所述话术的声音特征。
3.根据权利要求1所述的方法,其特征在于,根据所述说话人的特征信息,确定所述话术的声音特征,包括:
在所述说话人的特征信息包括年龄且所述年龄处于第一预定年龄范围或者第三预定年龄范围内的情况下,确定所述话术的声音特征中的音量在第一音量范围内,所述语速在第一语速范围内,其中,所述第一预定年龄范围的最大值小于所述第三预定年龄范围的最小值;
在所述说话人的特征信息包括年龄且所述年龄处于第二预定年龄范围内的情况下,确定所述话术的声音特征中的音量在第二音量范围内,所述语速在第二语速范围内,其中,所述第二预定年龄范围的最小值大于所述第一预定年龄范围的最大值,所述第二预定年龄范围的最大值小于所述第三预定年龄范围的最小值,所述第二音量范围的最小值大于所述第一音量范围的最大值,所述第二语速范围的最小值大于所述第一语速范围的最大值。
4.根据权利要求1所述的方法,其特征在于,所述声音特征还包括情绪。
5.根据权利要求3所述的方法,其特征在于,所述第一音量范围包括第一子音量范围和第二子音量范围,在所述说话人的特征信息包括年龄,所述年龄处于第一预定年龄范围的情况下,确定所述话术的声音特征中的音量在第一子音量范围内,所述年龄处于第三预定年龄范围的情况下,确定所述话术的声音特征中的音量在第二子音量范围内,其中,所述第二子音量范围的最小值大于所述第一子音量范围的最大值。
6.一种话术播报装置,其特征在于,包括:
获取单元,用于获取说话人的语音数据;
第一确定单元,用于根据所述语音数据确定说话人的声音特征,所述声音特征包括语速、音量以及语调;
第二确定单元,用于根据所述说话人的声音特征,确定话术的声音特征;
播报单元,用于根据所述语音数据的语义以及确定的所述话术的声音特征,播报话术。
7.根据权利要求6所述的装置,其特征在于,所述第二确定单元包括:
第一确定模块,用于根据确定的所述话术的声音特征,确定说话人的特征信息,所述特征信息包括以下至少之一:年龄、性别和姓名;
第二确定模块,用于根据所述说话人的特征信息,确定所述话术的声音特征。
8.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的方法。
10.一种电子设备,其特征在于,包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至5中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011025094.XA CN112151064A (zh) | 2020-09-25 | 2020-09-25 | 话术播报方法、装置、计算机可读存储介质和处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011025094.XA CN112151064A (zh) | 2020-09-25 | 2020-09-25 | 话术播报方法、装置、计算机可读存储介质和处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151064A true CN112151064A (zh) | 2020-12-29 |
Family
ID=73897169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011025094.XA Pending CN112151064A (zh) | 2020-09-25 | 2020-09-25 | 话术播报方法、装置、计算机可读存储介质和处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151064A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150206537A1 (en) * | 2013-07-10 | 2015-07-23 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, and speaker identification system |
CN107656461A (zh) * | 2016-07-26 | 2018-02-02 | 青岛海尔洗衣机有限公司 | 一种基于用户年龄调节语音的方法及洗衣机 |
CN108831436A (zh) * | 2018-06-12 | 2018-11-16 | 深圳市合言信息科技有限公司 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
CN109087671A (zh) * | 2018-09-20 | 2018-12-25 | 重庆先特服务外包产业有限公司 | 政府综合热线服务平台 |
CN109712646A (zh) * | 2019-02-20 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音播报方法、装置和终端 |
CN109979457A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种应用于智能对话机器人的千人千面的方法 |
CN110085225A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语音交互方法、装置、智能机器人及计算机可读存储介质 |
US20200034110A1 (en) * | 2018-07-27 | 2020-01-30 | Lenovo (Beijing) Co., Ltd. | Method and system for processing audio signals |
CN111089581A (zh) * | 2018-10-24 | 2020-05-01 | 上海博泰悦臻网络技术服务有限公司 | 交通引导方法、终端及机器人 |
-
2020
- 2020-09-25 CN CN202011025094.XA patent/CN112151064A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150206537A1 (en) * | 2013-07-10 | 2015-07-23 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, and speaker identification system |
CN107656461A (zh) * | 2016-07-26 | 2018-02-02 | 青岛海尔洗衣机有限公司 | 一种基于用户年龄调节语音的方法及洗衣机 |
CN108831436A (zh) * | 2018-06-12 | 2018-11-16 | 深圳市合言信息科技有限公司 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
US20200034110A1 (en) * | 2018-07-27 | 2020-01-30 | Lenovo (Beijing) Co., Ltd. | Method and system for processing audio signals |
CN109087671A (zh) * | 2018-09-20 | 2018-12-25 | 重庆先特服务外包产业有限公司 | 政府综合热线服务平台 |
CN111089581A (zh) * | 2018-10-24 | 2020-05-01 | 上海博泰悦臻网络技术服务有限公司 | 交通引导方法、终端及机器人 |
CN109712646A (zh) * | 2019-02-20 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音播报方法、装置和终端 |
CN110085225A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语音交互方法、装置、智能机器人及计算机可读存储介质 |
CN109979457A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种应用于智能对话机器人的千人千面的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN113643684B (zh) * | 2021-07-21 | 2024-02-27 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105869626B (zh) | 一种语速自动调节的方法及终端 | |
US8655659B2 (en) | Personalized text-to-speech synthesis and personalized speech feature extraction | |
KR102284973B1 (ko) | 음성 정보를 처리하기 위한 방법 및 장치 | |
CN110661927B (zh) | 语音交互方法、装置、计算机设备及存储介质 | |
CN111294463B (zh) | 一种智能应答方法及系统 | |
US11068235B2 (en) | Volume adjustment method, terminal device, storage medium and electronic device | |
CN111294471B (zh) | 一种智能电话应答方法和系统 | |
US20150149169A1 (en) | Method and apparatus for providing mobile multimodal speech hearing aid | |
CN111739549B (zh) | 声音优化方法及声音优化系统 | |
CN109104616A (zh) | 一种直播间的语音连麦方法及客户端 | |
CN112185344A (zh) | 语音交互方法、装置、计算机可读存储介质和处理器 | |
CN108965904A (zh) | 一种直播间的音量调节方法及客户端 | |
CN112151064A (zh) | 话术播报方法、装置、计算机可读存储介质和处理器 | |
Westhausen et al. | Reduction of subjective listening effort for TV broadcast signals with recurrent neural networks | |
Jokinen et al. | The Use of Read versus Conversational Lombard Speech in Spectral Tilt Modeling for Intelligibility Enhancement in Near-End Noise Conditions. | |
CN113643684A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
EP3113175A1 (en) | Method for converting text to individual speech, and apparatus for converting text to individual speech | |
US20100235169A1 (en) | Speech differentiation | |
CN112233649A (zh) | 机器同声传译输出音频动态合成方法、装置以及设备 | |
CN114724569A (zh) | 客服语音优化方法、装置、电子设备 | |
CN114514576A (zh) | 数据处理方法、装置和存储介质 | |
Lukkarila | Developing a conversation assistant for the hearing impaired using automatic speech recognition | |
WO2023245715A1 (zh) | 一种调节通话音量的方法、装置、通话设备及介质 | |
CN114420127A (zh) | 语音应答方法、装置及智能问答系统 | |
CN114283853A (zh) | 一种确定语音机器人播报策略的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |