CN111508474B - 一种语音打断方法、电子设备及存储装置 - Google Patents
一种语音打断方法、电子设备及存储装置 Download PDFInfo
- Publication number
- CN111508474B CN111508474B CN201910730855.2A CN201910730855A CN111508474B CN 111508474 B CN111508474 B CN 111508474B CN 201910730855 A CN201910730855 A CN 201910730855A CN 111508474 B CN111508474 B CN 111508474B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice data
- data
- playing
- interruptible
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 11
- 230000006854 communication Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000012907 honey Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
- Manipulator (AREA)
Abstract
本申请公开了一种语音打断方法、电子设备及存储装置,该方法包括:在语音播放时,获取当前检测到的第一语音数据;过滤第一语音数据中的噪音数据;基于对过滤后的第一语音数据的分析结果,打断或不打断语音播放。上述技术方案,能够提高了语音打断的准确性。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种语音打断方法、电子设备及存储装置。
背景技术
随着人工智能的高速发展,聊天机器人是近年来重点研究的方向,且被应用于较多的行业以及领域,如苹果的Siri如今已经变得家喻户晓,微软的小冰2014年进入中国以来已经成为百万中国用户的数字伙伴,阿里的店小蜜如今已经为千万卖家服务,为其充当智能客服。聊天机器人中的语音打断则是一种可增强语音对话交互的技术,但是现有的语音打断仅仅是基于过滤白噪音杂音进行语音打断的判断,而实际的生产中噪音的种类有各式各样的,进而会导致语音打断的准确性下降,经常会出现误打断,故需要一种可以解决上述技术问题的技术方案。
发明内容
本申请主要解决的技术问题是提供一种可实现提高语音打断准确性的语音打断方法、电子设备及存储介质。
为了解决上述问题,本申请第一方面提供了一种语音打断方法,包括:在语音播放时,获取当前检测到的第一语音数据;
过滤所述第一语音数据中的噪音数据;
基于对过滤后的所述第一语音数据的分析结果,打断或不打断所述语音播放。
其中,所述基于对过滤后的所述第一语音数据的分析结果,打断或不打断所述语音播放,包括:
获取过滤后的所述第一语音数据的属性信息,其中,所述属性信息包括以下至少一个:第一语音数据的声音特征、语义及所处时刻;
判断所述属性信息是否符合可打断条件;
若是,则打断所述语音播放;
若否,则不打断所述语音播放。
进一步地,所述判断所述属性信息是否符合可打断条件,包括:
若所述属性信息包括声音特征,则判断所述第一语音数据的声音特征是否属于预设用户;
若所述属性信息包括语义,则判断所述第一语音数据的语义是否属于允许打断所述语音播放的内容;
若所述属性信息包括所处时刻,则判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间。
再进一步地,所述判断所述第一语音数据的声音特征是否属于预设用户,包括:
判断第一语音数据的声纹是否为所述预设用户的声纹;若是,则确定所述第一语音数据的声音特征属于所述预设用户;否则确定第一语音数据的声音特征不属于所述预设用户;
或者,判断第一语音数据的声纹是否为所述预设用户的声纹且所述第一语音数据的音量是否大于预设阈值;若第一语音数据的声纹为所述预设用户的声纹且所述第一语音数据的音量大于所述预设阈值,则确定所述第一语音数据的声音特征属于所述预设用户;否则确定所述第一语音数据的声音特征不属于所述预设用户;
所述判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间,包括:
确定所述所处时刻对应的语音播放内容或语音播放阶段,并判断所述语音播放内容或所述语音播放阶段是否允许打断;
若是,则确定所述第一语音数据的所处时刻属于所述语音播放的可打断区间;否则确定所述第一语音数据的所处时刻不属于所述语音播放的可打断区间。
再进一步地,所述判断所述第一语音数据的语义是否属于允许打断所述语音播放的内容,包括:
根据当前业务需求,判断所述第一语音数据的语义是否属于允许打断所述语音播放的内容;
所述判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间,包括:
根据当前业务需求,判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间。
其中,所述过滤所述第一语音数据中的噪音数据,包括:
利用预设噪音模型,过滤所述第一语音数据中的噪音数据,其中,所述预设噪音模型是基于多种噪音样本进行训练得到的。
其中,在基于对过滤后的所述第一语音数据的分析结果,打断所述语音播放之后,还包括:
继续获取检测到的第二语音数据;
结合所述第一语音数据和第二语音数据进行语义分析,得到综合语义结果。
为了解决上述问题,本申请第二方面提供了一种语音打断方法,包括:在语音播放时,获取当前检测到的语音数据;
获取所述语音数据的属性信息,其中,所述属性信息包括以下至少一个:声音特征、语义及所处时刻;
判断所述属性信息是否符合可打断条件;
若是,则打断所述语音播放;
若否,则不打断所述语音播放。
为了解决上述问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器;
所述处理器用于执行所述存储器存储的程序数据,以实现如上任一项所述的语音打断方法。
为了解决上述问题,本申请第四方面提供了一种存储装置,存储有能够被处理器运行的程序数据,所述程序数据用于实现如上任一项所述的语音打断方法。
上述方案中,通过在语音播放过程中获取所检测到的语音数据,然后过滤语音数据中的噪音数据,并对过滤的噪音数据后的语音数据进行分析,基于分析结果可得到更为准确的判断结果,进而基于分析结果打断当前语音播放或不打断当前语音播放,实现提高了语音打断的准确性,进而提高了用户与语音机器人的语音沟通体验。
另外,通过在语音播放过程中获取所检测到的语音数据,然后利用检测到的语音数据的声音特征、语义和所处时刻等属性信息智能判断是否可打断,以更为准确地根据当前语音场景进行语音打断,同样实现提高了语音打断的准确性,进而提高了用户与语音机器人的语音沟通体验。
附图说明
图1是本申请一种语音打断方法一实施例中的流程示意图;
图2是本申请一种语音打断方法另一实施例中的流程示意图;
图3是本申请一种语音打断方法又一实施例中的流程示意图;
图4是本申请一种语音打断方法又一实施例中的流程示意图;
图5是本申请一种语音打断方法一实施例中的流程示意图;
图6是本申请一种电子设备一实施例中的结构示意图;
图7是本申请一种存储装置一实施例中的结构示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
本申请提出一种语音打断方法可用于语音机器人或语音播报系统与人交互的过程中,允许在语音机器人或语音播报系统在播报语音的时候,根据所采集到的语音数据的分析进行中断或者不中断当前的语音播放,进而实现更为准确的进行语音打断。另外在其他实施例中,本申请所提供的语音打断方法还可以通过在语音打断之后继续获取检测得到的第二语音数据,进而结合第一语音数据和第二语音数据进行语义分析,让用户的信息在语音播报或者是语音打断的时候也能被收集,从而达到双工通信的目的,具体可以详见下文图4所对应的实施例。应用本申请所提供的语音打断方法可以使得语音机器人或语音播报系统和用户的交流更加自然,特别是在一些长语句的交流过程中,提升语音机器人的图灵测试性能,进而使得语音机器人或语音播报系统可以解决更多场景的交互。
首先,对本文所出现的词语进行说明:
VAD:Voice activity detection,语音活动检测是一项用于语音处理的技术,目的是检测语音信号是否存在。
NLP:Natural Language Processing,自然语音处理技术。
语义:用户的意图或者是用户所说内容所表达的意思。
请参阅图1,图1为本申请一种语音打断方法一实施例的流程示意图。本实施例中,该方法由具有处理能力的电子设备或系统执行,例如语音机器人、语音播报系统、电脑、手机、服务器等,需要说明的是,下文是以语音机器人为例进行阐述本申请所提供的技术方案。本实施例中,该方法包括以下步骤:
S110:在语音播放时,获取当前检测到的第一语音数据。
在语音机器人按照设定的流程对外进行语音播放的同时,会同时获取在语音播放的过程中的外部产生的语音数据。具体地,在当前实施例中,将语音机器人在进行语音播放过程中外部环境所产生的声音、或者是信道中回传的声音定义为第一语音数据,其中,第一语音数据可以是语音机器人本身直接获取得到,也可以是通过外接的获取设备间接获取得到的,在此不做特别的限定。
其中,第一语音数据可以是实时反馈至语音机器人处,也可以是间隔设定的时间长度周期性反馈至语音机器人处,又或者是在获取到有效的第一语音数据后再反馈至语音机器人处。其中,所设定的间隔时间的长度是基于经验值设定,有效的第一语音数据是指不是完全安静的一段语音数据,对应的,无效的第一语音数据是指完全安静没有声音的一段语音数据,也可以理解为在无效的第一语音数据中无法获取到用户和外部噪音的语音数据。此外,在当前实施例中对于第一语音数据的时间长度在此不做特别限定,具体可以是按照经验值进行设定第一经验数据的时间长度。
S120:过滤第一语音数据中的噪音数据。
在获取当前所检测到的第一语音数据之后,过滤掉当前第一语音数据中的噪音数据。第一语音数据中可包括用户声音、环境中各种各样的的噪音以及其他非用户本人的人员的说话声等。本实施例中,通过在进行语音打断分析之前首先过滤掉的噪音数据,可较好地提高对第一语音数据的分析结果的准确性,进而提高后续语音打断的准确性。
进一步地,利用预设噪音模型,并采用多声音的降噪算法过滤第一语音数据中的噪音数据。其中,预设噪音模型是根据海量的语音机器人应用场景中可能会遇到的噪音类型确定,具体至少包括环境中的物品掉落、车辆、动物、设备发出的声音等等噪音的模型,为了使得多声音的降噪算法对第一语音数据中的噪音数据的过滤更为准确,会尽可能获得不同种类的噪音进行训练以获得准确度更高覆盖面更广的噪音模型,具体地对于同种类型的噪音尽可能涵盖不同音量、音色以及音调的噪音等。相比于现有技术中仅仅过滤白噪音等杂音,且不能对环境的突出噪音进行降低的技术方案,本申请所提供的技术方案中利用多声音的降噪算法,可实现更为准确的除噪。
S130:基于对过滤后的第一语音数据的分析结果,打断或不打断语音播放。
在过滤第一语音数据中的噪音数据之后,会进一步对第一语音数据进行分析以获得分析结果,然后基于对过滤后的第一语音数据的分析结果,判断是否打断或不打断当前的语音播放。其中,打断语音播放的内容是指打断语音机器人当下正在播放的语音内容,然后语音机器人可基于所检测到的第一语音数据中所包括的用户反馈的内容做出最新的答复。而不打断语音播放,则是指不会中断当前正在播放的语音内容并且会继续播放当前的语音内容,直至播放完该语音内容或者是检测到可以可打断当前播放的第一语音数据为止。
进一步地,对于第一语音数据的分析至少包括:对第一语音数据的属性信息进行分析。具体地,对第一语音数据的属性信息进行分析至少包括判断第一语音数据的语义是否属于允许打断语音播放的内容;判断第一语音数据的所处时刻是否属于语音播放的可打断区间;根据当前业务需求,判断第一语音数据的语义是否属于允许打断的语音播放的内容等中的至少一种,详细内容具体可参见下文相关部分的阐述。当对第一语音数据的属性信息进行分析包括多项分析内容时,则会对多项分析内容的分析结果对应的判断结果取与运算,并根据与运算的结果判断是否打断当前的语音播放。
本申请图1所对应的实施例中所提供的技术方案,通过在语音播放过程中获取所检测到的第一语音数据,然后过滤第一语音数据中的噪音数据,并对过滤的噪音数据后的第一语音数据进行分析,基于分析结果可得到更为准确的判断结果,进而更准确地得到打断当前语音播放或不打断当前语音播放,从而提高用户与语音机器人的语音沟通体验。
请参阅图2,图2为本申请一种语音打断方法另一实施例的流程示意图。
S210:在语音播放时,获取当前检测到的第一语音数据。
在当前实施例中,步骤S210与图1所示意的步骤S110相同,具体可参见上文图1中对应的阐述,在此不再赘述。
在当前实施例中,图1中所示意的步骤S120过滤第一语音数据中的噪音数据包括下述步骤S220。
S220:利用预设噪音模型,过滤第一语音数据中的噪音数据。其中,预设噪音模型是基于多种噪音样本进行训练得到的,并预存至语音机器人中的。
其中,在当前实施例中,本申请技术方案中所指的噪音指的是的声音。如上所述,预设噪音模型是根据海量的语音机器人应用场景中可能会遇到的噪音的类型训练获得的,具体至少包括环境中的物品掉落、车辆、动物发出的声音等等的模型。
进一步地,为了使得多声音的降噪算法对第一语音数据中的噪音数据的过滤更为准确,预设噪音模型会涵盖多角度的噪音特征,如音量、音色以及音调等。
再进一步地,由于语音机器人所应用的环境会出现多种不同种类的噪音,而多种不同类型的噪音同时发出并交织在一起时,会使得有些噪音的典型特征被掩藏了,所以在设定预设噪音模型时则会考虑多种不同类型噪音复合在一起的情况,即会设定只包括一种噪音的单一的噪音模型,也会设定多种噪音复合在一起的复合型噪音模型,以更准确更大幅度过滤掉第一语音数据中的噪音数据。如,可考虑咖啡机工作时发出的声音与播放的音乐的声音交织在一起情况,并训练得到对应的噪音模型进而获得两种噪音复合的模型。
更进一步地,在另一实施例中,可以将一些经典名人的声音保存为预设噪音模型,以对一些经典人声(如导航声音、电视节目中声音、朗诵或歌声等)也可以进行过滤。如当执行本方案的是语音播报系统,当用户(用户指的是接收语音播报内容的人)是在开着导航驾车行驶过程中,则本申请所提供的技术方案可以通过预存导航人声(如郭德纲或林志玲的导航声音)或内容对应的噪音模型,进而实现过滤掉导航的声音,避免导航的声音对于是否打断语音播放造成干扰。
在当前实施例中,图1中所示意的步骤S130基于对过滤后的第一语音数据的分析结果,打断或不打断语音播放包括下述步骤S230至步骤S260。
S230:获取过滤后的第一语音数据的属性信息。
其中,属性信息包括以下至少一个:第一语音数据的声音特征、语义及所处时刻。第一语音数据的声音特征指的是其中所包括人的声音特征,具体至少包括音色、声纹特征、音调等。其中,声纹特征是利用声纹识别算法获得,语义指的是利用NLP技术对第一语音数据进行识别获得的、第一语音数据中所包括的话语的意思。
S240:判断属性信息是否符合可打断条件。
根据所获取的过滤后的第一语音数据的属性信息判断当前的语音播放是否可被打断,其中,可打断条件为根据语音机器人的应用场景预先设定并保存的。
在第一实施例中,步骤S240包括:若属性信息包括声音特征,则判断第一语音数据的声音特征是否属于预设用户。其中,在本申请所提供的技术方案中,声音特征指的是人声的声音特征。
当第一语音数据中包括人声的声音特征时,则会进一步判断第一语音数据中所包括的人声的声音特征是否为预设用户的。进一步地,当前实施例中,可以根据语音机器人的应用场景预设至少一个用户的声音特征,用以将第一语音数据中所包括的人声的声音特征与预存的用户的声音特征进行比对,以判断第一语音数据中的人声是否是预存用户的声音。
再进一步地,在一实施例中,判断第一语音数据的声音特征是否属于预设用户,包括:判断第一语音数据的声纹是否为预设用户的声纹。在当前实施例中,若判断得到第一语音数据的声纹是预设用户的声纹时,则确定第一语音数据中所包括的声音特征属于预设用户的,反之,当判断得到第一语音数据的声纹不是预设用户的声纹时,则确定第一语音数据的声音特征不属于预设用户。
再进一步地,在另一实施例中,步骤判断第一语音数据的声音特征是否属于预设用户包括:判断第一语音数据的声纹是否为预设用户的声纹且第一语音数据的音量是否大于预设阈值。当判断得到第一语音数据的声纹为预设用户的声纹且第一语音数据的音量大于预设阈值,则确定第一语音数据的声音特征属于预设用户;反之,当判断得到第一语音数据的声纹不是预设用户的声纹,和/或判断得到第一语音数据的音量不大于预设阈值时,则确定第一语音数据的声音特征不属于预设用户。其中,预设阈值是根据用户的说话习惯预存的用于表示声音音量的值,在当前实施例中,进一步判断第一语音数据的音量是否大于预设阈值进一步提高了判断的准确性,避免因为声音的音量较小造成误判。
在第二实施例中,步骤S240包括:若属性信息包括语义,则判断第一语音数据的语义是否属于允许打断语音播放内容。其中,第一语音数据的语义是指第一语音数据中所包括的人声所表达的意思,当第一语音数据中所包括的人声是预存用户时,则可通过判断第一语音数据的语义了解到用户所想表达的意思,进而可以根据用户所表达的意思进一步作出对应的答复。
进一步地,步骤判断第一语音数据的语义是否属于允许打断语音播放内容,包括:根据当前业务需求,判断第一语音数据的语义是否允许打断语音播放的内容。其中,业务需求指的是当下语音播放对应的业务的需求。如当语音播放为金融公司提醒还款的语音时,业务需求必须会向用户播报催款的中心主题,当所检测到的第一语音数据中的语义对应于催款的中心主题时,则可以允许打断语音播放的内容,而当第一语音数据中的语义与中心主题不对应时,则此时不允许被打断。而当语音机器人是用于银行或者一些公共场合的服务型的语音机器人,在进行如安全提示或导向提示的等服务提醒类的语音播报时,则对应的该语音播放内容则是允许被打断的。
在第三实施例中,步骤S240包括:若属性信息包括所处时刻,则判断第一语音数据的所处时刻是否属于语音播放的可打断区间。
其中,属性信息包括所处时刻是指所获取到的第一语音数据在语音播放的阶段中所处的时刻。在本申请所提供的实施例中,会预先对各类的语音播放内容进行划分可打断区间以及不可打断区间并保存。
进一步地,判断第一语音数据的所处时刻是否属于语音播放的可打断区间,包括:根据当前业务需求,判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间。
需要说明的是,根据实际的应用场景以及需要,可以设定步骤S240包括如上第一实施例、第二实施例及第三实施例所述的多个内容时,则会对应其输出的结果取与运算,并根据与运算的结果判断是否打断语音播放。
如判断当步骤S240包括第一实施例、第二实施例及第三实施例所述的全部内容时,而只要上述三个判断结构有一个是“否”,则会不打断语音播放,在上述三个判断的结果全部为“是”时,才会打断语音播放,即只有在判断得到第一语音数据的声音特征属于预设用户,第一语音数据的语义属于允许打断语音播放的内容,且第一语音数据所处时刻是允许打断语音播放的可打断区间时,方会打断语音播放。
进一步地,请参见图3,图3为本申请一种语音打断方法另一实施例中的流程示意图。在当前实施例中,对步骤判断第一语音数据的所处时刻是否属于语音播放的可打断区间做进一步阐述。在当前实施例中,判断第一语音数据的所处时刻是否属于语音播放的可打断区间包括:S310至S330。
S310:确定所处时刻对应的语音播放内容或语音播放阶段,并判断语音播放内容或语音播放阶段是否允许打断。
其中,当预先将语音播放内容划分为可打断内容和不可打断内容时,则可通过语音播放软件或者语音播放数据获得当下语音播放内容,然后根据语音播放的内容判断是否允许打断,当所播放的语音内容为可打断内容时,则是可打断区间,反之则是不可打断区间。在另一实施例中,当是预先将语音播放阶段划分为可打断阶段和不可打断阶段时,可以直接通过确定第一语音数据所处时刻对应的语音播放阶段是哪一阶段,进而得到当前是否允许打断。
S320:确定第一语音数据的所处时刻属于语音播放的可打断区间。
若判断得到语音播放内容或语音播放阶段是允许打断的,则输出确定第一语音数据的所处时刻属于语音播放的可打断区间,然后执行打断语音播放的步骤。
S330:确定第一语音数据的所处时刻不属于语音播放的可打断区间。
若判断得到语音播放内容或语音播放阶段是不允许打断的,则判断得到第一语音数据的所处时刻为不可打断区间,然后执行不打断语音播放的步骤,并继续检测周围的声音,以获取第二语音数据或第一语音数据。
如,某个金融类的语音播放内容包括“您好,这里是某某公司,您某年某月某日在本公司申请的资金即将到期,请尽快还款,您可以通过以下方式进行还款,如......”,其中,可以预设“您好,这里是某某公司,您某年某月某日在本公司申请的资金即将到期,请尽快还款”为不可打断区间(也可以定义为不可打断内容),“您可以通过以下方式进行还款,如......”为可打断阶段(也可以定义为可打断内容),当第一语音数据是处在不可打断阶段时,则不会打断语音播放,反之,则可以进行打断语音播放。
进一步地,当第一语音数据处于不可打断区间时,进一步根据第一语音数据中所包括的语义选择等待语音播放内容到达可打断区间时,进行语音打断。以上述金融类语音播放内容为例,当语音播放内容处于“您好,这里是某某公司,您某年某月某日在本公司申请的资金即将到期,请尽快还款”不可打断区间,且第一语音数据中语义表达的是“线下还款地点有哪些”时,则会等待语音播放内容处于“您可以通过以下方式进行还款,如......”时打断原来的语音播放内容,并根据第一语音数据中所表达的语义做出答复,告诉用户线下还款地点具体有哪些,对应地址是什么。
其中,可打断区间以及不可打断区间是可以根据业务需求以及所播放的语音意群或语义进行设置或修改,在此不一一详述。
再进一步地,还可以通过语音文字对齐算法对播报的内容进行处理,进而获得了该时刻的语音是出于文字的哪一个播报阶段,并根据业务需求,判断是否可以打断语音播放。
S250:打断语音播放。
当判断得到第一语音数据的属性信息符合可打断条件时,则会打断语音播放,并根据第一语音数据中的关键信息给出最新答复。
S260:不打断语音播放。
若判断得到第一语音数据的属性信息不符合可打断条件时,则不打断当前的语音播放,保持语音播放直至语音播放结束或者是出现复合打断条件的第一语音数据为止。
请参阅图4,图4为本申请一种语音打断方法再一实施例的流程示意图。在当前实施例中,该方法包括以下步骤:
S410:在语音播放时,获取当前检测到的第一语音数据。
S420:过滤第一语音数据中的噪音数据。
S430:基于对过滤后的第一语音数据的分析结果,打断语音播放。
其中,步骤S410至步骤S430与图1所示意的步骤S110至步骤S130相同,具体可以参见图1对应部分的阐述,在此不再详述。
基于过滤后的第一语音数据的分析结果,打断或不打断语音播放之后,本申请所提供的方法还包括步骤S540和S550。
S440:继续获取检测到的第二语音数据。
其中,第二语音数据是停止播放语音之后,检测所得的用户的语音。
S450:结合第一语音数据和第二语音数据进行语义分析,得到综合语义结果。
在获得第二语音数据之后,结合第一语音数据和第二语音数据进行语义分析,以得到综合的语义结果。具体地是根据人声的语音流,通过语音识别及意图识别等算法获得该用户意图,进而得到综合语义结果并输出,用做答复用户的判断依据。
本申请所提供的技术方案,可以使得用户任意时刻的语音都能够被感知,能够把结合打断语音播放前后的语音判断用户意图,实现更为准确判断用户的意图,进而可以提升整个语音播放系统的交互体验能力,使得现有技术中的单工通信变成双工通信,不再丢失用户在机器人播报时刻说的话语中所包含的信息。
请参阅图5,图5为本申请一种语音打断方法一实施例中的流程示意图。在当前实施例中,本申请所提供的语音打断方法的执行主体为语音机器人或语音播放系统。
S510:在语音播放时,获取当前检测到的语音数据。
在语音机器人按照设定的流程对外进行语音播放的同时,会同时获取在语音播放的过程中的外部产生的语音数据。具体地,在当前实施例中,将语音机器人在进行语音播放过程中外部环境所产生的声音、或者是信道中回传的声音定义为语音数据,其中,在当前实施例中所阐述的语音数据与前面实施例所检测到的第一语音数据一致,在此不做赘述。
其中,语音数据可以是实时反馈至语音机器人处,也可以是间隔设定的时间长度周期性反馈至语音机器人处,又或者是在获取到有效的语音数据后再反馈至语音机器人处。其中,所设定的间隔时间的长度是基于经验值设定,有效的语音数据是指不是完全安静的一段语音数据,对应的,无效的语音数据是指完全安静没有声音的一段语音数据,也可以理解为在无效的语音数据中无法获取到用户和外部噪音的语音数据。此外,在当前实施例中对于语音数据的时间长度在此不做特别限定,具体可以是按照经验值进行设定的时间长度。
可选地,在检测到语音数据之后可先过滤的噪音数据,再利用过滤后的语音数据执行后续步骤。
S520:获取语音数据的属性信息。
在获取检测到的语音数据之后,进一步获取语音数据的属性信息。其中,属性信息包括以下至少一个:声音特征、语义及所处时刻。
S530:判断属性信息是否符合可打断条件。
其中,一实施例中,可打断条件至少包括在判断得到语音数据的声音特征属于预设用户,语音数据的语义属于允许打断语音播放的内容,且语音数据所处时刻是允许打断语音播放的可打断区间,只有同时满足上述所有条件时方会打断语音播放。
具体地,本实施例所述的属性信息以及判断属性信息是否符合可打断条件,可参阅上述实施例中的属性信息及其相关判断,在此不做赘述。
进一步地,在另一实施例中,当属性信息包括语义,则判断语音数据的语义是否属于允许打断语音播放的内容。再进一步地,还可以根据当前业务需求,判断第一语音数据的语义是否属于允许打断语音播放的内容,具体内容可参见上文相关内容的阐述。
当属性信息包括所处时刻,则判断语音数据的所处时刻是否属于语音播放的可打折区间,具体内容可参见上文相关内容的阐述。
S540:打断语音播放。
若判断得到语音数据的属性信息符合可打断条件时,则打断当前的语音播放。在打断语音播放之后,继续检测周围声音以获得后续语音数据。进一步地,可结合步骤S510检测到的语音数据以及打断之后检测到的后续语音数据进行语义分析,以得到综合语义结果。
S550:不打断语音播放。
若判断得到语音数据的属性信息不符合可打断条件时,则不打断语音播放。具体地,不打断语音播放是指保持语音继续播放直至结束,或者是检测到符合打断语音播放条件的语音数据时。
本实施例,通过在语音播放过程中获取所检测到的语音数据,然后利用检测到的语音数据的声音特征、语义和所处时刻等属性信息智能判断是否可打断,以更为准确的根据地当前语音场景进行语音打断,实现提高了语音打断的准确性,进而提高了用户与语音机器人的语音沟通体验。
请参阅图6,图6为本申请一种电子设备一实施例中的结构示意图。本申请所提供的电子设备60包括相互耦接的存储器61和处理器62。具体地,该电子设备60可以为具有处理能力的任意设备,例如服务器、电脑、手机等。
其中,存储器61用于存储处理器62执行的程序数据以及处理器62在处理过程中的数据,其中,该存储器61包括非易失性存储部分,用于存储上述程序数据。在一实施例中,存储器61中还存储有数据库,用以存储各个噪音模型。可以理解的是,在其他的实施例中,存储器61也可不存储有该数据库,电子设备60可通过与外接的数据库进行通信获取噪音模型,以减少电子设备60中内存的占用比例,同时可提高计算分析速度。
处理器62还可以称为CPU(Central Processing Unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本实施例中,处理器62通过调用存储器61存储的程序数据,用于执行如上各个实施例中所阐述的语音打断方法。
请参阅图7,图7为本申请一种存储装置一实施例中的结构示意图。
本实施例中,该存储装置70存储有处理器可运行的程序数据71,该程序数据71用于执行上述任一实施例中所述的语音打断方法。
该存储装置70具体可以为U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序数据71的装置,或者也可以为存储有该程序数据71的服务器,该服务器可将存储的程序数据71发送给其他设备运行,或者也可以自运行该存储的程序数据71。
此外,以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音打断方法,应用于人机交互场景中,其特征在于,包括:
在语音播放时,获取当前检测到的第一语音数据,其中,所述语音播放的内容为已划分可打断区间以及不可打断区间的语音;
过滤所述第一语音数据中的噪音数据;
获取过滤后的所述第一语音数据的属性信息,其中,所述属性信息包括:第一语音数据的所处时刻;
判断所述属性信息是否符合可打断条件,包括:判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间,若是,则确定所述属性信息符合可打断条件;
若是,则打断所述语音播放;
若否,则不打断所述语音播放。
2.根据权利要求1所述的方法,其特征在于,所述属性信息还包括:第一语音数据的声音特征和/或语义;所述判断所述属性信息是否符合可打断条件,还包括:
若所述属性信息包括声音特征,则判断所述第一语音数据的声音特征是否属于预设用户;
若所述属性信息包括语义,则判断所述第一语音数据的语义是否属于允许打断所述语音播放的内容。
3.根据权利要求2所述的方法,其特征在于,所述判断所述第一语音数据的声音特征是否属于预设用户,包括:
判断第一语音数据的声纹是否为所述预设用户的声纹;若是,则确定所述第一语音数据的声音特征属于所述预设用户;否则确定所述第一语音数据的声音特征不属于所述预设用户;
或者,判断第一语音数据的声纹是否为所述预设用户的声纹且所述第一语音数据的音量是否大于预设阈值;若第一语音数据的声纹为所述预设用户的声纹且所述第一语音数据的音量大于所述预设阈值,则确定所述第一语音数据的声音特征属于所述预设用户;否则确定所述第一语音数据的声音特征不属于所述预设用户。
4.根据权利要求1所述的方法,其特征在于,所述判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间,包括:
确定所述所处时刻对应的语音播放内容或语音播放阶段,并判断所述语音播放内容或所述语音播放阶段是否允许打断;
若是,则确定所述第一语音数据的所处时刻属于所述语音播放的可打断区间;否则确定所述第一语音数据的所处时刻不属于所述语音播放的可打断区间。
5.根据权利要求2所述的方法,其特征在于,所述判断所述第一语音数据的语义是否属于允许打断所述语音播放的内容,包括:
根据当前业务需求,判断所述第一语音数据的语义是否属于允许打断所述语音播放的内容;
所述判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间,包括:
根据当前业务需求,判断所述第一语音数据的所处时刻是否属于所述语音播放的可打断区间。
6.根据权利要求1所述的方法,其特征在于,所述过滤所述第一语音数据中的噪音数据,包括:
利用预设噪音模型,过滤所述第一语音数据中的噪音数据,其中,所述预设噪音模型是基于多种噪音样本进行训练得到的。
7.根据权利要求1所述的方法,其特征在于,在基于对过滤后的所述第一语音数据的分析结果,打断所述语音播放之后,还包括:
继续获取检测到的第二语音数据;
结合所述第一语音数据和第二语音数据进行语义分析,得到综合语义结果。
8.一种语音打断方法,应用于人机交互场景中,其特征在于,包括:
在语音播放时,获取当前检测到的语音数据,其中,所述语音播放的内容为已划分可打断区间以及不可打断区间的语音;
获取所述语音数据的属性信息,其中,所述属性信息包括所述语音数据的所处时刻;
判断所述属性信息是否符合可打断条件,包括:判断所述语音数据的所处时刻是否属于所述语音播放的可打断区间,若是,则确定所述属性信息符合可打断条件;
若是,则打断所述语音播放;
若否,则不打断所述语音播放。
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器;
所述处理器用于执行所述存储器存储的程序数据,以实现权利要求1至8任一项所述的语音打断方法。
10.一种存储装置,其特征在于,存储有能够被处理器运行的程序数据,所述程序数据用于实现权利要求1至8任一项所述的语音打断方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910730855.2A CN111508474B (zh) | 2019-08-08 | 2019-08-08 | 一种语音打断方法、电子设备及存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910730855.2A CN111508474B (zh) | 2019-08-08 | 2019-08-08 | 一种语音打断方法、电子设备及存储装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508474A CN111508474A (zh) | 2020-08-07 |
CN111508474B true CN111508474B (zh) | 2021-04-06 |
Family
ID=71868895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910730855.2A Active CN111508474B (zh) | 2019-08-08 | 2019-08-08 | 一种语音打断方法、电子设备及存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508474B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112714058B (zh) * | 2020-12-21 | 2023-05-12 | 浙江百应科技有限公司 | 一种即时打断ai语音的方法、系统及电子设备 |
CN113779208A (zh) * | 2020-12-24 | 2021-12-10 | 北京汇钧科技有限公司 | 用于人机对话的方法和装置 |
CN112820290A (zh) * | 2020-12-31 | 2021-05-18 | 广东美的制冷设备有限公司 | 家电设备及其语音控制方法、语音装置、计算机存储介质 |
CN112799632B (zh) * | 2021-01-26 | 2023-12-19 | 深圳市普渡科技有限公司 | 机器人语音播放方法及机器人 |
CN113257242A (zh) * | 2021-04-06 | 2021-08-13 | 杭州远传新业科技有限公司 | 自助语音服务中的语音播报中止方法、装置、设备及介质 |
CN113488047A (zh) * | 2021-07-06 | 2021-10-08 | 思必驰科技股份有限公司 | 人机对话打断方法、电子设备及计算机可读存储介质 |
CN113535925B (zh) * | 2021-07-27 | 2023-09-05 | 平安科技(深圳)有限公司 | 语音播报方法、装置、设备及存储介质 |
US11605384B1 (en) | 2021-07-30 | 2023-03-14 | Nvidia Corporation | Duplex communications for conversational AI by dynamically responsive interrupting content |
CN114267345B (zh) * | 2022-02-25 | 2022-05-17 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练方法、语音处理方法及其装置 |
CN114842849B (zh) * | 2022-04-24 | 2023-08-08 | 马上消费金融股份有限公司 | 语音对话检测方法及装置 |
CN114863929B (zh) * | 2022-07-11 | 2022-10-21 | 深圳市人马互动科技有限公司 | 语音交互方法、装置、系统、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101616358A (zh) * | 2009-07-24 | 2009-12-30 | 深圳市凯立德计算机系统技术有限公司 | 一种兴趣点语音播报方法和兴趣点语音播报设备 |
CN103177728A (zh) * | 2011-12-21 | 2013-06-26 | 中国移动通信集团广西有限公司 | 语音信号降噪处理方法及装置 |
CN103297613A (zh) * | 2013-04-27 | 2013-09-11 | 华为终端有限公司 | 语音合成tts打断信号处理方法及装置 |
CN104380378A (zh) * | 2012-05-31 | 2015-02-25 | 丰田自动车株式会社 | 声源检测装置、噪声模型生成装置、噪声抑制装置、声源方位推定装置、接近车辆检测装置以及噪声抑制方法 |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN107799117A (zh) * | 2017-10-18 | 2018-03-13 | 倬韵科技(深圳)有限公司 | 识别关键信息以控制音频输出的方法、装置及音频设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026446B2 (en) * | 2011-06-10 | 2015-05-05 | Morgan Fiumi | System for generating captions for live video broadcasts |
CN103632691B (zh) * | 2012-08-21 | 2017-07-25 | 联想(北京)有限公司 | 一种媒体文件播放方法及电子设备 |
-
2019
- 2019-08-08 CN CN201910730855.2A patent/CN111508474B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101616358A (zh) * | 2009-07-24 | 2009-12-30 | 深圳市凯立德计算机系统技术有限公司 | 一种兴趣点语音播报方法和兴趣点语音播报设备 |
CN103177728A (zh) * | 2011-12-21 | 2013-06-26 | 中国移动通信集团广西有限公司 | 语音信号降噪处理方法及装置 |
CN104380378A (zh) * | 2012-05-31 | 2015-02-25 | 丰田自动车株式会社 | 声源检测装置、噪声模型生成装置、噪声抑制装置、声源方位推定装置、接近车辆检测装置以及噪声抑制方法 |
CN103297613A (zh) * | 2013-04-27 | 2013-09-11 | 华为终端有限公司 | 语音合成tts打断信号处理方法及装置 |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN107799117A (zh) * | 2017-10-18 | 2018-03-13 | 倬韵科技(深圳)有限公司 | 识别关键信息以控制音频输出的方法、装置及音频设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111508474A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111508474B (zh) | 一种语音打断方法、电子设备及存储装置 | |
US11875820B1 (en) | Context driven device arbitration | |
CN109326289B (zh) | 免唤醒语音交互方法、装置、设备及存储介质 | |
CN108536802B (zh) | 基于儿童情绪的交互方法及装置 | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
JP6755304B2 (ja) | 情報処理装置 | |
JP4166153B2 (ja) | 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法 | |
CN105390136B (zh) | 用于用户适配型服务的车辆设备控制装置及方法 | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
DE112021001064T5 (de) | Vorrichtungsgerichtete Äußerungserkennung | |
CN109994106B (zh) | 一种语音处理方法及设备 | |
CN109036393A (zh) | 家电设备的唤醒词训练方法、装置及家电设备 | |
CN112669822B (zh) | 音频处理方法、装置、电子设备和存储介质 | |
CN101867742A (zh) | 一种基于声控控制下的电视系统 | |
CN110349579A (zh) | 语音唤醒处理方法及装置、电子设备及存储介质 | |
CN114360527A (zh) | 车载语音交互方法、装置、设备及存储介质 | |
JP2020160425A (ja) | 評価システム、評価方法、及びコンピュータプログラム。 | |
CN113643684B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
WO2022222045A1 (zh) | 语音信息处理方法及设备 | |
CN111862943A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN110197663B (zh) | 一种控制方法、装置及电子设备 | |
EP3793275B1 (en) | Location reminder method and apparatus, storage medium, and electronic device | |
CN109922397B (zh) | 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机 | |
CN110602334A (zh) | 一种基于人机协同的智能外呼方法及系统 | |
WO2020196743A1 (ja) | 評価システム及び評価方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |