CN110661927A

CN110661927A - 语音交互方法、装置、计算机设备及存储介质

Info

Publication number: CN110661927A
Application number: CN201910883213.6A
Authority: CN
Inventors: 周定军; 王健宗; 彭俊清
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-01-07
Anticipated expiration: 2039-09-18
Also published as: CN110661927B; WO2021051506A1

Abstract

本发明涉及自然语言处理领域，公开了一种语音交互方法、装置、计算机设备及存储介质，其方法包括：在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值；若所述音频信号的指定参数大于第一预设阈值，则中止播放所述对话语音；对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句；当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户。本发明提供的语音交互方法，可提高智能语音的应变性，增强与客户的交互性，提升与客户交流的流畅度。

Description

语音交互方法、装置、计算机设备及存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种语音交互方法、装置、计算机设备及存储介质。

背景技术

当前，智能语音外呼平台的系统架构，一般基于电话交换平台和多种语音处理引擎，如语音识别引擎(ASR)、语义理解引擎(NLP)、语音合成引擎(TTS)等。这种智能语音外呼平台的基本处理流程包括：通过语音识别引擎将客户的语音识别成文本信息，然后，通过语义理解引擎对文本信息进一步解析，获得解析结果，并根据解析结果挑选应答语句，最后通过语音合成引擎将应答语句合成为应答语音，将该应答语音传送给客户。

然而，这种交互方式十分机械乏味，使得智能语音的应变性差，无法及时针对客户的反馈做出灵活应答，降低了与客户的交互性，影响智能语音与客户交流的流畅度。

发明内容

基于此，有必要针对上述技术问题，提供一种语音交互方法、装置、计算机设备及存储介质，以提高智能语音的应变性，增强与客户的交互性，提升与客户交流的流畅度。

一种语音交互方法，包括：

在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值；

若所述音频信号的指定参数大于第一预设阈值，则中止播放所述对话语音；

对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句；

当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户。

一种语音交互装置，包括：

音频判断模块，用于在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值；

中止播放模块，用于若所述音频信号的指定参数大于第一预设阈值，则中止播放所述对话语音；

确定应答语句模块，用于对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句；

发送应答语音模块，用于当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音交互方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音交互方法。

上述语音交互方法、装置、计算机设备及存储介质，通过在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值，以监听客户通道是否有客户的打断语音或较大的环境噪音。若所述音频信号的指定参数大于第一预设阈值，则中止播放所述对话语音，以暂停语音输出，防止干扰客户的发言。对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句，以结合实际情况产生相应的反馈信息(即应答语句)。当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户，以在适当的时机以适当的应答语音与客户交互。本发明提供的语音交互方法，可提高智能语音的应变性，增强与客户的交互性，提升与客户交流的流畅度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音交互方法的一应用环境示意图；

图2是本发明一实施例中语音交互方法的一流程示意图；

图3是本发明一实施例中语音交互方法的一流程示意图；

图4是本发明一实施例中语音交互方法的一流程示意图；

图5是本发明一实施例中语音交互方法的一流程示意图；

图6是本发明一实施例中语音交互方法的一流程示意图；

图7是本发明一实施例中语音交互装置的一结构示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的语音交互方法，可应用在如图1的应用环境中，其中，终端设备通过网络与服务端进行通信。其中，终端设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音交互方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值；

S20、若所述音频信号的指定参数大于第一预设阈值，则中止播放所述对话语音；

S30、对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句；

S40、当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户。

本实施例中，语音交互方法可应用于智能外呼平台，也可用于智能应答平台，或其他智能交互平台。服务端可设置有多个处理进程，用于处理经客户通道传送过来的音频信号。在一些情况下，客户端可以指客户携带的客户端，服务端通过与客户端建立通信连接(在一些情况下可以是通话连接)，以实现与客户的智能交互。这种情况下，本实施例提供的语音交互方法可应用于客户回访、问卷调查等场景。在另一些情况下，客户端可以指带有语音录入设备的应用终端，如业务自主办理终端等。

在一实例中，语音交互方法还可应用于一对多的交互场景。如服务端同时与多个客户端建立通话连接。此时，服务端可基于电话软交换平台(FreeSwitch)，并使用共享内存技术，实现对特定客户通道的音频数据的存储。在此处，共享内存可实现对同一个语音通道的输入和输出语音，共享同一块内存缓存；当进行输入或者输出语音操作时，对该内存缓存加锁，保证操作的独占性；操作完成后，释放掉锁，供后续的操作再次使用该内存缓存。在具体的实现过程中，可将共享内存与消息队列、状态机、多线程同步等技术有机结合，实现多通道语音识别和语音合成。

具体的，对话语音可以是基于客户最近一次发言数据而生成，也可以是基于预设的应答文本而生成。特别的，播放对话语音可以指向客户端发送经合成后的对话语音。在一些情况下，如在客户端安装有适配的应用程序时，播放对话语音可以指向客户端发送相应的对话文本及语音参数，然后由客户端根据上述对话文本及语音参数合成出对话语音。

服务端还设置有专门的进程，用于监测客户通道的音频信号的指定参数是否大于第一预设阈值。在此处，指定参数可以指音频信号的音量，第一预设阈值可以指音量阈值。在一些情况下，指定参数也可以是其他音频参数。可以根据实际需要设定第一预设阈值的数值，如可以设置为15～25分贝。在另一些情况下，第一预设阈值可以基于客户通道的信噪比进行确定。在此处，客户通道的信噪比中的信号指的是在指定时间段内的音量最高的音频信号，噪音指的是该指定时间段内的背景噪音的平均值(可以根据预设的算法确定指定时间段内的音频信号中属于背景噪音部分)。

当客户通道的音频信号大于第一预设阈值，说明当前服务端播放的对话语音被打断(可能由客户的语音所引起，也可能由客户所处的环境引起，比如较大的噪音)。此时，服务端中止播放上述对话语音。若服务端以实时方式向客户端传送音频数据，则中止播放对话语音的方式为停止向客户端传送音频数据；若服务端以对话文本及语音参数的方式传送给客户端，并由客户端合成出对话语音，则中止播放对话语音的方式为向客户端发送中止播放指令，使客户端停止播放该对话语音。

在中止播放对话语音之后，需要根据客户通道的音频信号的解析结果确定相应的应对策略。解析结果所对应的客户通道的音频信号可以包括判定出指定参数是否大于第一预设阈值时的音频信号以及在后一定时长的音频信号，最长的时间终点可以指判定出客户通道的音频信号小于第二预设阈值的时刻。可能存在多种不同的解析结果，如，音频信号经初步解析，判断其是否含有人声。若音频信号包含人声，则需要对该音频信号进一步解析，解析出的内容包括但不限于文本数据、语气信息。还可以对上一步解析的文本数据进行语义解析，以确定客户的意图。每种解析结果可以与特定的应答语句对应。

例如，最终的解析结果为“拨打的是错误号码”，其对应的应答语句可以是“哦不好意思，电话打错了，那我这边登记一下，避免今后再打扰到您”。最终的解析结果为“客户不需要当前提供的服务”，其对应的应答语句可以是“那先不打扰您了，请您先挂机，祝您幸福平安，再见”。最终的解析结果为“客户意图不清”，其对应的应答语句可以是“不好意思，我刚刚没太听清，您能再重复下刚才的问题吗”。最终的解析结果为“客户怀疑客服是机器人”，其对应的应答语句可以是“呀～～您可真厉害，这都被您听出来了，我是智能客服，很荣幸为您服务”。最终的解析结果为“客户所在环境很嘈杂”，其对应的应答语句可以是“您那边的环境比较吵，不知道您能否听清刚才讲的内容”。

在确定应答语句之后，需要选择合适的时机发出相应的应答语音。可以选择在音频信号小于第二预设阈值时，生成并发出该应答语音。第二预设阈值可以根据解析结果的不同而做出调整。例如，解析结果判断出音频信号不是人声，则第二预设阈值可以是55～75分贝；解析结果判断出音频信号是人声，则第二预设阈值可以与第一预设阈值相同。在确定可以发出应答语音后，则可以根据应答语句生成应答语音，并将该应答语音发送给客户，使客户听到该应答语音。

据调查数据显示，采用本发明实施例提供的语音交互方法后，客户的满意度从原有的50％提高至80％，业务达标率也从原来的40％提高到70％。原因在于，本发明实施例由于具有良好的应变性(监听客户通道的音频信号)，可以及时针对客户的反馈做出灵活应答，提高了与客户的交互性，提升了智能语音与客户交流的流畅度，使得客户的满意度及业务达标率也随着大幅提高。

步骤S10-S40中，在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值，以监听客户通道是否有客户的打断语音或较大的环境噪音。若所述音频信号的指定参数大于第一预设阈值，则中止播放所述对话语音，以暂停语音输出，防止干扰客户的发言。对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句，以结合实际情况产生相应的反馈信息(即应答语句)。当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户，以在适当的时机以适当的应答语音与客户交互。

可选的，如图3所示，步骤S10之前，还包括：

S101、获取客户资料；

S102、根据所述客户资料建立与所述客户的通话连接；

S103、根据所述客户资料和预设的交互任务确定初始语音参数及初始对话文本；

S104、根据所述初始语音参数和所述初始对话文本生成初始对话语音；

S105、将所述初始对话语音发送给所述客户。

本实施例中，客户资料包括但不限于客户的姓名、年龄、职业、联系方式、历史沟通记录。在此处，联系方式可以指手机号码或固定电话。可以通过呼叫客户的手机号码或固定电话与客户建立通话连接。

预设的交互任务可以指本次交流所要实现的目的，如用户回访、用户调查、业务推荐等。初始语音参数可以包括发音性别、语速、语调、音量等。初始对话文本可以是服务端与客户建立通话连接后最开始的一句或多句对话文本。例如，通过客户资料获取到客户的姓为“李”，则在呼叫该客户时，采取以下初始对话文本——“你好，请问是李先生吗”。而当客户确认身份后，则可以采取以下初始对话文本——“李先生，您好，我这边现在有个问卷调查，大概需要占用您3分钟的时间，请问您现在方便吗”。

在确定初始语音参数和初始对话文本后，可通过语音合成引擎合成出相应的初始对话语音。在此处，可以选用拟真程度更高的语音合成引擎，以生成与真人发声更接近的初始对话语音。

在生成初始对话语音之后，可以通过通话连接将该初始对话语音发送给客户携带的客户端，客户通过该客户端接收初始对话语音。

步骤S101-S102中，获取客户资料，以取得客户的联系方式。根据所述客户资料建立与所述客户的通话连接，以建立与客户的通话。根据所述客户资料和预设的交互任务确定初始语音参数及初始对话文本，为生成初始对话语音准备数据。根据所述初始语音参数和所述初始对话文本生成初始对话语音，以将文本数据转化为音频数据。将所述初始对话语音发送给所述客户，以使客户接收到该初始对话语音。

可选的，如图4所示，步骤S30包括：

S301、解析所述客户通道的音频信号并获取所述音频信号的解析结果，其中，所述解析结果包括所述音频信号包含人声或所述音频信号不包含人声；

S302、若获取的所述解析结果为所述音频信号不包含人声，则选取与不包含人声的所述解析结果对应的连接语句和第一语音调节参数；

S303、根据所述连接语句和所述对话语音生成所述应答语句，并使所述应答语句与所述第一语音调节参数关联。

本实施例中，服务端可设置有人声识别程序，用于判断音频信号是否包含人声。人声识别程序的判断结果有两种，包括人声和非人声。可以预设多个不同的连接语句，与不同的判断结果相关联。例如，在判断音频信号不包含人声，且确定客户所处环境比较嘈杂时，连接语句可以是“X先生，您那边有点嘈杂，我需要提高音量重新讲一遍吗”。可以基于判断结果生成第一语音调节参数，以改变应答语音的音量。在此处，对话语音指的是被噪音打断的对话语音。可以从被噪音打断的对话语音中选取部分或全部内容，连同连接语句生成应答语句。生成的应答语句与调整后的第一语音调节参数关联，这两者可合成出相应的应答语音。

步骤S301-S303中，解析所述客户通道的音频信号并获取所述音频信号的解析结果，其中，所述解析结果包括所述音频信号包含人声或所述音频信号不包含人声，以区分不同的应对场景。若获取的所述解析结果为所述音频信号不包含人声，则选取与不包含人声的所述解析结果对应的连接语句和第一语音调节参数，以在解析结果为环境噪音时，做出相应的响应步骤。根据所述连接语句和所述对话语音生成所述应答语句，并使所述应答语句与所述第一语音调节参数关联，以生成适用于环境噪音时的应答语句。

可选的，如图5所示，步骤S301之后，还包括：

S304、若获取的所述解析结果为所述音频信号包含人声，通过语音识别引擎将所述客户通道的音频信号转化为文本数据，并通过预设的语气识别模型识别所述客户通道的音频信号的语气类型；

S305、通过语义理解引擎识别所述文本数据的语义信息；

S306、从预设的应答语句数据库选取与所述语义信息匹配的所述应答语句，并获取与所述语气类型匹配的第二语音调节参数，所述第二语音调节参数与所述应答语句关联。

本实施例中，若客户通道的音频信号包含人声，则需对音频信号中的人声进行进一步识别，以获知客户的需求。具体的识别步骤包括：先通过语音识别引擎将音频信号转化为文本数据，然后通过语义理解引擎识别所述文本数据的语义信息。在将音频信号转化为文本数据时，可同时识别所述音频信号的语气类型。可使用预设的语气识别模型对音频信号的语气类型进行识别。在一种简化的语气识别模型中，识别出的语气类型包括两种，一种为积极，另一种为消极。而在进阶的语气识别模型中，可识别出多于两种的语气类型。在识别出音频信号的语气类型后，可选取与语气类型匹配的第二语音调节参数，以调节应答语音的语音参数。

预设的应答语句数据库预存有多个应答语句，与特定的语义信息匹配。在识别出音频信息中的语义信息后，可在预设的应答语句数据库查找出匹配度最高的应答语句。同时，将第二语音调节参数与应答语句关联。

步骤S304-S306中，若获取的所述解析结果为所述音频信号包含人声，通过语音识别引擎将所述客户通道的音频信号转化为文本数据，并通过预设的语气识别模型识别所述客户通道的音频信号的语气类型，以识别当前客户的语句内容及语气。通过语义理解引擎识别所述文本数据的语义信息，以进一步确定客户的需求。从预设的应答语句数据库选取与所述语义信息匹配的所述应答语句，并获取与所述语气类型匹配的第二语音调节参数，所述第二语音调节参数与所述应答语句关联，以选取恰当的应答语句，响应客户的话语。

可选的，如图6所示，步骤S40包括：

S401、识别所述客户通道的音频信号的背景噪音类型；

S402、获取与所述背景噪音类型匹配的所述第二预设阈值；

S403、当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句和所述第一语音调节参数生成所述应答语音，并将所述应答语音发送给与所述客户通道对应的客户。

本实施例中，可以预先设置多个背景噪音类型，计算当前音频信号与各个背景噪音类型的特征值的相似度，选取相似度最高的背景噪音类型为该音频信号的背景噪音类型。预设的背景噪音类型可以是马路场景、商业街场景、超市场景等。每个背景噪音类型匹配一个第二预设阈值。如，马路场景匹配的第二预设阈值可以是80分贝，商业街场景匹配的第二预设阈值可以是70分贝。

若音频信号大于第二预设阈值，则说明背景噪音很大，此时即使播放对话语音，客户也很难听清内容，因此需要等待音频信号低于第二预设阈值时，才将应答语音播出。在判断所述音频信号是否小于第二预设阈值时，可按预设的缓存时间间隔缓存一段音频信号，若在缓存时间间隔内的音频信号的最高音量小于第二预设阈值，则判定音频信号小于第二预设阈值；若在缓存时间间隔内的音频信号的最高音量大于或等于第二预设阈值，则判定音频信号大于或等于第二预设阈值。缓存时间间隔可以0.3～0.5秒，可随着背景噪音类型的不同而不同。

步骤S401-S403中，识别所述客户通道的音频信号的背景噪音类型，以判断客户当前所处的场景类型。获取与所述背景噪音类型匹配的所述第二预设阈值，以选取适当的响应阈值(即第二预设阈值)。当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句和所述第一语音调节参数生成所述应答语音，并将所述应答语音发送给与所述客户通道对应的客户，以在较佳的时机与客户进行交互。

本发明实施例提供的语音交互方法，可提高智能语音的应变性，增强与客户的交互性，提升与客户交流的流畅度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音交互装置，该语音交互装置与上述实施例中语音交互方法一一对应。如图7所示，该语音交互装置包括音频判断模块10、中止播放模块20、确定应答语句模块30和发送应答语音模块40。各功能模块详细说明如下：

音频判断模块10，用于在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值；

中止播放模块20，用于若所述音频信号的指定参数大于第一预设阈值，则中止播放所述对话语音；

确定应答语句模块30，用于对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句；

发送应答语音模块40，用于当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户。

可选的，语音交互装置还包括：

获取资料模块，用于获取客户资料；

建立通话连接模块，用于根据所述客户资料建立与所述客户的通话连接；

确定对话文本模块，用于根据所述客户资料和预设的交互任务确定初始语音参数及初始对话文本；

生成初始对话语音模块，用于根据所述初始语音参数和所述初始对话文本生成初始对话语音；

发送初始对话语音模块，用于将所述初始对话语音发送给所述客户。

可选的，确定应答语句模块30包括：

解析单元，用于解析所述客户通道的音频信号并获取所述音频信号的解析结果，其中，所述解析结果包括所述音频信号包含人声或所述音频信号不包含人声；

选取连接语句单元，用于若获取的所述解析结果为所述音频信号不包含人声，则选取与不包含人声的所述解析结果对应的连接语句和第一语音调节参数；

第一生成应答语句单元，用于根据所述连接语句和所述对话语音生成所述应答语句，并使所述应答语句与所述第一语音调节参数关联。

可选的，确定应答语句模块30还包括：

语音识别单元，用于若获取的所述解析结果为所述音频信号包含人声，通过语音识别引擎将所述客户通道的音频信号转化为文本数据，并通过预设的语气识别模型识别所述客户通道的音频信号的语气类型；

语义理解单元，用于通过语义理解引擎识别所述文本数据的语义信息；

第二生成应答语句单元，用于从预设的应答语句数据库选取与所述语义信息匹配的所述应答语句，并获取与所述语气类型匹配的第二语音调节参数，所述第二语音调节参数与所述应答语句关联。

可选的，发送应答语音模块40，包括：

背景噪音识别单元，用于识别所述客户通道的音频信号的背景噪音类型；

获取阈值单元，用于获取与所述背景噪音类型匹配的所述第二预设阈值；

发送应答语音单元，用于当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句和所述第一语音调节参数生成所述应答语音，并将所述应答语音发送给与所述客户通道对应的客户。

关于语音交互装置的具体限定可以参见上文中对于语音交互方法的限定，在此不再赘述。上述语音交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储涉及上述语音交互方法的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音交互方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，包括：

2.如权利要求1所述的语音交互方法，其特征在于，所述在播放对话语音时，获取客户通道的音频信号，并判断所述音频信号的指定参数是否大于第一预设阈值之前，还包括：

获取客户资料；

根据所述客户资料建立与所述客户的通话连接；

根据所述客户资料和预设的交互任务确定初始语音参数及初始对话文本；

根据所述初始语音参数和所述初始对话文本生成初始对话语音；

将所述初始对话语音发送给所述客户。

3.如权利要求1所述的语音交互方法，其特征在于，所述对所述音频信号进行解析并获取所述音频信号的解析结果，根据所述解析结果确定应答语句，包括：

解析所述客户通道的音频信号并获取所述音频信号的解析结果，其中，所述解析结果包括所述音频信号包含人声或所述音频信号不包含人声；

若获取的所述解析结果为所述音频信号不包含人声，则选取与不包含人声的所述解析结果对应的连接语句和第一语音调节参数；

根据所述连接语句和所述对话语音生成所述应答语句，并使所述应答语句与所述第一语音调节参数关联。

4.如权利要求3所述的语音交互方法，其特征在于，所述解析所述客户通道的音频信号并获取所述音频信号的解析结果，其中，所述解析结果包括所述音频信号包含人声或所述音频信号不包含人声之后，还包括：

若获取的所述解析结果为所述音频信号包含人声，通过语音识别引擎将所述客户通道的音频信号转化为文本数据，并通过预设的语气识别模型识别所述客户通道的音频信号的语气类型；

通过语义理解引擎识别所述文本数据的语义信息；

从预设的应答语句数据库选取与所述语义信息匹配的所述应答语句，并获取与所述语气类型匹配的第二语音调节参数，所述第二语音调节参数与所述应答语句关联。

5.如权利要求1所述的语音交互方法，其特征在于，所述当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句生成应答语音，并将所述应答语音发送给与所述客户通道对应的客户，包括：

识别所述客户通道的音频信号的背景噪音类型；

获取与所述背景噪音类型匹配的所述第二预设阈值；

当所述客户通道的音频信号的指定参数小于第二预设阈值时，根据所述应答语句和所述第一语音调节参数生成所述应答语音，并将所述应答语音发送给与所述客户通道对应的客户。

6.一种语音交互装置，其特征在于，包括：

7.如权利要求6所述的语音交互装置，其特征在于，还包括：

获取资料模块，用于获取客户资料；

8.如权利要求6所述的语音交互装置，其特征在于，所述确定应答语句模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音交互方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音交互方法。