CN116030788A

CN116030788A - 一种智能语音交互方法及装置

Info

Publication number: CN116030788A
Application number: CN202310152288.3A
Authority: CN
Inventors: 兰俊毅
Original assignee: Fujian Boshicom Information Co ltd
Current assignee: Fujian Boshicom Information Co ltd
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-04-28
Anticipated expiration: 2043-02-23
Also published as: CN116030788B

Abstract

本发明提供的一种智能语音交互方法及装置，其方法包括：在不同环境音量下采集客服人员的录制语音，训练并得到人声特征数据以及默认的合成环境噪声数据；在进行智能外呼时，获取文本形式的实时外呼内容，根据人声特征语音数据、合成环境噪声数据来合成第一语音数据进行外呼播放；并在发现外呼客户对通话清晰存在质疑倾向时，降低合成环境噪声数据的环境音量来进行后续的语音合成并播放。本发明通过合成更加真实的沟通语音，并对环境音量进行自适应调整，来尽可能的减少因为智能客服或者环境因素所造成的沟通失败情形，以提高智能语音交互的沟通成功率。

Description

一种智能语音交互方法及装置

技术领域

本发明涉及语音合成技术领域，特别涉及一种智能语音交互方法及装置。

背景技术

智能语音交互需要涉及到语音识别和语音合成技术，通过语音识别技术识别到用户的应答内容，根据应答内容检索到相关的外呼内容来进行语音合成，从而将合成后的语音播放给用户。

对于智能语音交互技术来说，目前的发展方向侧重于如何保证交互内容能够符合用户需求，即交互内容的准确性和完整性，避免出现答非所问的问题。比如专利申请号CN202211086105.4的语音交互方法、装置、电子设备和存储介质，通过对用户输入的语音进行语义解析，并基于部分可观察的马尔科夫决策过程根据语义解析结果确定用户意图，并根据知识图谱识别符合用户意图的回复文本，提高了语音交互的准确性和可靠性；以及专利申请号CN202210933451.5的语音交互方法、装置、电子设备及存储介质，基于提问意图信息、语音情绪及文本情绪，获取目标对象的文本答复信息，进而播报该文本答复信息，丰富了语音播报内容，满足了目标对象的个性化需求，提升了目标对象的满意度。

但是，目前的智能语音交互技术应用到外呼系统时，其与客户的沟通成功率依然较低，无法达到服务需求。

发明内容

为了解决现有技术的上述问题，本发明提供一种智能语音交互方法及装置，通过合成更加真实的沟通语音来提高智能语音交互的沟通成功率。

为了达到上述目的，本发明采用的技术方案为：

第一方面，本发明提供一种智能语音交互方法，包括步骤：

S1、在不同环境音量下采集客服人员的录制语音，训练并得到人声特征数据以及不同环境音量的环境噪声数据，并选取其中一个环境噪声数据作为默认的合成环境噪声数据；

S2、在进行智能外呼时，获取文本形式的实时外呼内容，根据所述人声特征语音数据将所述实时外呼内容模拟成实时的第一人声数据，将所述第一人声数据和所述合成环境噪声数据进行合成为第一语音数据，并对外呼客户播放所述第一语音数据；

S3、实时监听与外呼客户的语音交互过程，当发现外呼客户对通话清晰存在质疑倾向时，选取环境音量小于当前环境音量的环境噪声数据来作为新的合成环境噪声数据，以和下一时刻的第一人声数据进行合成并播放，所述当前环境音量为当前的合成环境噪声数据的环境音量。

本发明的有益效果在于：预先采集到客服人员的人声特征数据以及不同环境音量的环境噪声数据，从而在进行智能外呼时，使用客服人员的人声特征数据来合成实时的人声数据，并将实时的人声数据和合成环境噪声数据进行合成为语音数据来对外呼客户进行播放，即通过合成更加真实的沟通语音来减少客户因为认出是智能客服而排斥沟通的情形。同时，在外呼客户觉得当前通话太吵时，能够自动降低环境音量，以提高外呼客户的沟通体验，从而尽可能的减少因为智能客服或者环境因素所造成的沟通失败情形，以提高智能语音交互的沟通成功率。

可选地，所述步骤S1中选取默认的合成环境噪声数据为：

获取文本形式的所有外呼内容，根据所述人声特征语音数据分别将所有外呼内容模拟成对应的第二人声数据，将所有的所述第二人声数据分别与不同环境音量的环境噪声数据进行交叉合成，得到多个第二语音数据；

对于每一个环境音量的环境噪声数据，将其对应的第二语音数据进行语音识别成文字之后和文本形式的对应外呼内容进行对比，得到每一个环境音量的文字识别准确率；

将文字识别准确率超过文字识别阈值的每一个环境音量所对应的第二语音数据依次对测试人员进行播放，并接收测试人员的反馈结果，将其中反馈结果最佳的环境音量的环境噪声数据作为默认的合成环境噪声数据。

根据上述描述可知，通过将所有环境音量的环境噪声数据都进行合成验证，之后先确认不同环境音量下的文字识别准确率，从而在文字识别准确率符合预期的情况下再根据测试人员的反馈结果来决定默认的合成环境噪声环境，由此，本实施例借用机器学习和人工测试之间的配合，既保证了沟通内容的准确性，又保证了沟通环境的真实性，从而提高外呼客户的沟通体验。

可选地，所述步骤S1为：

在不同环境音量下分别采集每一个客服人员的录制语音，训练并得到每一个客服人员的人声特征数据以及其在不同环境音量的环境噪声数据，并从每一个客服人员的所有环境噪声数据中选取其中一个环境噪声数据作为自身默认的合成环境噪声数据；

所述步骤S2和所述步骤S3是针对每一个客服人员分别进行语音合成。

根据上述描述可知，对于每一个客服人员，都会进行分别采集、生成和最后的语音合成，即不同客服人员合成的语音内容在音色、韵律上是不一样的，从而避免同质化的沟通语音影响沟通成功率。

可选地，多个所述客服人员使用同一个默认的合成环境噪声数据。

根据上述描述可知，在选取其中一个客服人员所使用的默认的合成环境噪声数据之后，其他客服人员选用相同的合成环境噪声数据来进行默认合成，由于合成环境噪声数据只是表示语音环境的，并未体现有客服人员的特征，因此不会出现同质化的沟通语音，同时也能够减少前期的工作量。

可选地，所述步骤S3中发现外呼客户对通话清晰存在质疑倾向包括：

实时获取所述外呼客户的应答内容，判断所述应答内容是否包括有对通话清晰存在质疑倾向的预设关键词组，若是，则认为所述外呼客户对通话清晰存在质疑倾向。

根据上述描述可知，预设有关键词组来判断外呼客户的应答内容是否有对通话清晰存在质疑倾向，从而能快速准确的识别外呼客户的实时沟通体验。

可选地，所述步骤S2包括：

获取默认外呼内容，根据所述人声特征语音数据将所述默认外呼内容模拟成默认人声数据，将所述默认人声数据和所述合成环境噪声数据进行合成为默认语音数据；

在进行智能外呼时，获取文本形式的实时外呼内容，判断所述实时外呼内容是否为默认外呼内容，若是，则获取对应的默认语音数据，并对外呼客户播放所述默认语音数据，否则根据所述人声特征语音数据将所述实时外呼内容模拟成实时的第一人声数据，将所述第一人声数据和所述合成环境噪声数据进行合成为第一语音数据，并对外呼客户播放所述第一语音数据。

根据上述描述可知，对于在和客户进行沟通过程中所必然出现的默认外呼内容进行预先合成，以减少在实时语音沟通过程中的语音合成压力。

可选地，所述默认外呼内容包括开场白部分、预设业务部分和结束语部分。

可选地，还包括步骤：

S4、在实时监听与外呼客户的语音交互过程中，识别所述外呼客户的情绪倾向，当发现外呼客户存在沟通倾向时，将所述外呼客户实时转接至人工客服，并将介入之前的外呼内容和所述外呼客户的应答内容以文本形式显示给人工客服。

根据上述描述可知，通过智能客服进行群呼，在确定有意向客服时，由人工客服进行介入沟通，并且将之前的双方沟通内容以文本形式进行显示，使得人工客服在介入沟通时能够了解事情的前因后果，以提高沟通效率。

可选地，所述识别所述外呼客户的情绪倾向包括：

收集所有历史外呼客户的历史应答内容，并将每一个历史应答内容和对应的历史外呼内容进行一一绑定；

根据沟通时长和预设时间内的业务办理情况将历史外呼客户划分成以下三种类型：意向客户、潜在客户和无意向客户，所述意向客户为在智能外呼后的预设时间内办理业务的历史外呼客户，所述潜在客户为在智能外呼时的沟通时长达到预设时间阈值的历史外呼客户，所述无意向客户为除所述意向客户、所述潜在客户之外的其他历史外呼客户；

将绑定完历史外呼内容的历史应答内容按照外呼客户的类型进行自动打标，得到训练语音数据，其中，所述意向客户和所述潜在客户所对应的历史应答内容均打标为沟通倾向，所述无意向客户所对应的历史应答内容打标为无沟通倾向；

基于所述训练语音数据来训练自学习模型，从而得到一语音识别模型；

基于所述语音识别模型来识别所述外呼客户的情绪倾向。

根据上述描述可知，通过对历史数据的自我学习，使得自学习模型能够抓取到意向客户的特征数据，从而在后续的实时沟通过程中，能够实时准确的识别外呼客户的情绪倾向。

第二方面，本发明提供一种智能语音交互装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的一种智能语音交互方法。

其中，第二方面所提供的一种智能语音交互装置所对应的技术效果参照第一方面所提供的一种智能语音交互方法的相关描述。

附图说明

图1为本发明实施例的一种智能语音交互方法的流程示意图；

图2为本发明实施例的一种智能语音交互装置的结构示意图。

【附图标记说明】

1：一种智能语音交互装置；

2：处理器；

3：存储器。

具体实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

目前的智能语音交互技术应用到外呼系统时，其与客户的沟通成功率依然较低。本实施例通过模拟一个更加符合实际的沟通场景来降低外呼客服的直接挂断比例，从而提高智能外呼的沟通成功率。

具体而言，请参照图1，一种智能语音交互方法，包括步骤：

S1、在不同环境音量下采集客服人员的录制语音，训练并得到人声特征数据以及不同环境音量的环境噪声数据，并选取其中一个环境噪声数据作为默认的合成环境噪声数据。

其中，步骤S1为：

即在本实施例中，客服人员有多个，每一个客服人员都进行录制语音的采集，并得到人声特征数据以及其在不同环境音量的环境噪声数据，在其中一个客服人员得到默认的合成环境噪声数据之后，其余的客服人员也使用这个默认的合成环境噪声数据，即多个客服人员使用同一个默认的合成环境噪声数据。

具体而言，本实施例在步骤S1中的选取默认的合成环境噪声数据为：

S11、获取文本形式的所有外呼内容，根据人声特征语音数据分别将所有外呼内容模拟成对应的第二人声数据，将所有的第二人声数据分别与不同环境音量的环境噪声数据进行交叉合成，得到多个第二语音数据；

即在本实施例中，预先进行语音数据的模拟生成，来模拟和外呼客户进行语音沟通时的沟通环境。比如外呼内容有“您好”、“我们这边是某某机构”，此时，每一个外呼内容都会变成一个人声数据，这样再和环境音量的环境噪声数据进行交叉合成，就能得到较多数量的语音数据来进行训练。

S12、对于每一个环境音量的环境噪声数据，将其对应的第二语音数据进行语音识别成文字之后和文本形式的对应外呼内容进行对比，得到每一个环境音量的文字识别准确率；

即在本实施例中，通过现有的语音识别模型来识别模拟环境下的沟通语音，从而判断一下每一个环境音量的文字识别准确率。

S13、将文字识别准确率超过文字识别阈值的每一个环境音量所对应的第二语音数据依次对测试人员进行播放，并接收测试人员的反馈结果，将其中反馈结果最佳的环境音量的环境噪声数据作为默认的合成环境噪声数据。

在本实施例中，文字识别阈值为90%，在其他实施例中，文字识别阈值的取值区间为[88%,96%]，只有先保证了客服人员能够听清楚智能客服在说什么，才能进行有效沟通。之后对测试人员进行播放，其中，测试人员是模拟进行语音沟通的外呼客户，以使得默认的合成环境噪声数据能让外呼客户处于更加真实的沟通环境。

在本实施例中，多个客服人员使用同一个默认的合成环境噪声数据具体为：当步骤S12中得到每一个客服人员在每一个环境音量的文字识别准确率之后，获得所有客服人员中重复率排在前N位的环境音量，并在步骤S13中对前N位的环境音量来合成对应的第二语音数据进行播放，得到其中反馈结果最佳的环境音量的环境噪声数据作为默认的合成环境噪声数据，之后，判断每一个客服人员在文字识别准确率超过文字识别阈值的环境音量中是否包含有默认的合成环境噪声数据的环境音量，若是，则使用默认的合成环境噪声数据，否则选取与默认的合成环境噪声数据的环境音量最接近的一个环境噪声数据作为其默认的合成环境噪声数据。

其中，N为正整数，比如本实施例中的3，在其他实施例中可以为5、8等正整数。

在其他实施例中，也可以根据预设重复率阈值和预设上限数值来综合选定N，即在满足重复率达到预设重复率阈值的前提下，最多为预设上限数值的正整数。比如预设上限数值为5，预设重复率阈值为60%，则若重复率超过60%的有4位，则N为4，若重复率超过60%的有6位，则N为5，以此类推。

比如有三个客服人员，其在文字识别准确率超过文字识别阈值的环境音量分别是ABC、BCD和CEF，此时，N选取2，则所有客服人员中重复率排在前2位的环境音量即为C和B，最终反馈结果最佳的环境音量是B，此时，两个客服人员在文字识别准确率超过文字识别阈值的环境音量中包含有默认的合成环境噪声数据的环境音量，则环境音量B的环境噪声数据即为这两个客服人员的默认的合成环境噪声数据，而另外一个客服人员中C和环境音量B最接近，则环境音量C的环境噪声数据即为这另外一个客服人员的默认的合成环境噪声数据。

S2、在进行智能外呼时，获取文本形式的实时外呼内容，根据人声特征语音数据将实时外呼内容模拟成实时的第一人声数据，将第一人声数据和合成环境噪声数据进行合成为第一语音数据，并对外呼客户播放第一语音数据。

其中，对于外呼客户来说，其听到的第一语音数据是包括有合成环境噪声数据，这样更加接近和人工客服的沟通场景，避免因为认出是智能客服就直接挂断的情形。

其中，步骤S2包括：

S21、获取默认外呼内容，根据人声特征语音数据将默认外呼内容模拟成默认人声数据，将默认人声数据和合成环境噪声数据进行合成为默认语音数据；

在本实施例中，默认外呼内容包括开场白部分、预设业务部分和结束语部分。比如开场白部分的“您好，我们是某某公司的某某人员”，结束语部分的“感谢你的接听，祝你生活愉快”；比如当前要推销的业务为某某流量套餐，则预设业务部分就是某某流量套餐的内容。

S22、在进行智能外呼时，获取文本形式的实时外呼内容，判断实时外呼内容是否为默认外呼内容，若是，则获取对应的默认语音数据，并对外呼客户播放默认语音数据，否则根据人声特征语音数据将实时外呼内容模拟成实时的第一人声数据，将第一人声数据和合成环境噪声数据进行合成为第一语音数据，并对外呼客户播放第一语音数据。

此时，开头部分就能直接使用默认语音数据，而在智能客服的沟通过程中，有很大比例的外呼客户会在开头部分没说完之前就挂掉，此类客户本身也不是服务商的意向客户，因此使用默认语音数据能大幅度减少处理压力和计算成本，使得处理能力能集中在更有潜力的客户上面。

S3、实时监听与外呼客户的语音交互过程，当发现外呼客户对通话清晰存在质疑倾向时，选取环境音量小于当前环境音量的环境噪声数据来作为新的合成环境噪声数据，以和下一时刻的第一人声数据进行合成并播放，当前环境音量为当前的合成环境噪声数据的环境音量。

其中，步骤S3中发现外呼客户对通话清晰存在质疑倾向包括：

实时获取外呼客户的应答内容，判断应答内容是否包括有对通话清晰存在质疑倾向的预设关键词组，若是，则认为外呼客户对通话清晰存在质疑倾向。

其中，预设关键词组包括连续两声喂、不清楚、听得到吗之类的。

其中，当前环境音量较吵时，则降低环境音量来合成后续的语音数据，以保证外呼客户能听清外呼内容。应当说明的是，合成环境噪声数据在实时沟通过程是有自适应调整的，有可能存在一直降低的情况，而当这次语音交互过程结束之后，在下一次新的语音交互过程开始时，无论是新的外呼客户还是原先的外呼客户，都是使用默认的合成环境噪声数据。

当然，在其他实施例中，也可以针对不同的客户，保留这个客户在沟通过程中效果最佳的合成环境噪声数据来作为和这个客户的每一次语音交互过程的初始合成环境噪声数据。至于新的客户，则自然需要使用默认的合成环境噪声数据。

在本实施例中，步骤S2和步骤S3是针对每一个客服人员分别进行语音合成。即每一个客服人员都采用自声的人声特征语音数据来进行语音合成。

通常来说，智能语音有三个重要特征，即信息、音色和韵律，分别用来表示语音内容、区分沟通人员和表示说话的高低快慢。而人声特征语音数据包括这个客服人员的音色和韵律，因此，每一个客服人员的音色和韵律均有所不同，得到的语音数据自然也有所区别，从而能避免同质化的语音带来的问题，也为后续人工客服的实时介入提供了技术保障。

S4、在实时监听与外呼客户的语音交互过程中，识别外呼客户的情绪倾向，当发现外呼客户存在沟通倾向时，将外呼客户实时转接至人工客服，将介入之前的外呼内容和外呼客户的应答内容以文本形式显示给人工客服。

其中，识别外呼客户的情绪倾向包括：

S41、收集所有历史外呼客户的历史应答内容，并将每一个历史应答内容和对应的历史外呼内容进行一一绑定；

S42、根据沟通时长和预设时间内的业务办理情况将历史外呼客户划分成以下三种类型：意向客户、潜在客户和无意向客户，意向客户为在智能外呼后的预设时间内办理业务的历史外呼客户，潜在客户为在智能外呼时的沟通时长达到预设时间阈值的历史外呼客户，无意向客户为除意向客户、潜在客户之外的其他历史外呼客户；

其中，预设时间为1天内，即在与智能客服沟通之后的一天内办理业务都认为此次的智能外呼是成功的，沟通的用户即为意向客户。

其中，沟通时长为20秒，即和智能客服进行实际沟通的时长达到20秒，则认为这个客户是有兴趣了解这项业务的，因此，也认为这次智能外呼是成功的，并将沟通的用户称为潜在客户。

而没有业务办理记录，且很快就挂掉的用户则认为此时智能外呼是失败的。

S43、将绑定完历史外呼内容的历史应答内容按照外呼客户的类型进行自动打标，得到训练语音数据，其中，意向客户和潜在客户所对应的历史应答内容均打标为沟通倾向，无意向客户所对应的历史应答内容打标为无沟通倾向；

S44、基于训练语音数据来训练自学习模型，从而得到一语音识别模型；

由此，对历史数据进行自动打标和模型训练，减少了人工打标的工作量，大大的提高了该系统在全客服人员进行推广的可行性。

S45、基于语音识别模型来识别外呼客户的情绪倾向。

由此，通过对历史数据的自我学习，使得自学习模型能够抓取到意向客户的特征数据，从而在后续的实时沟通过程中，能够实时准确的识别外呼客户的情绪倾向。

可以理解的是，在现有的人工客服系统上，对每一个人工客服人员都进行语音特征的采集，并与所处的环境噪声进行结合之后得到外呼内容进行群呼，在群呼过程中发现客户有沟通意向就及时介入，使得人工客服人员的精力主要花在成功率高的客户身上，也能大幅度减轻人工客服人员的工作量。

由此，本实施例选取了文字识别准确率高且真实性高的合成环境噪声环境进行语音合成，并能够根据外呼客户的实时反馈进行环境音量的自适应调整；之后和每一个客服人员自身的人声特征语音数据以及对应的外呼内容进行合成，以通过合成更加真实的沟通语音来提高智能外呼的沟通成功率，并在确定有意向客服时，由人工客服进行及时的介入沟通，从而大幅度提高的沟通成功率。此外，对于在和客户进行沟通过程中所必然出现的默认外呼内容进行预先合成，以减少在实时语音沟通过程中的语音合成压力。

实施例二

请参照图1，一种智能语音交互方法，在上述实施例一的基础上，本实施例还包括：

实时监听与外呼客户的语音通话质量，判断实时的语音通话质量是否达到预设通话质量阈值，若不是，则获取实时的语音通话质量所处的通话质量区间，根据通话质量区间获取环境音量的待降低数值，并根据待降低数值调整当前环境音量，得到调整后的环境音量，并将调整后的环境音量所对应的环境噪声数据来作为新的合成环境噪声数据，以和下一时刻的第一人声数据进行合成并播放。

其中，根据通话质量区间获取环境音量的待降低数值是采用了阶梯式的音量调整方式，比如默认的合成环境噪声数据的环境音量为40分贝，则通话质量较差的通话质量区间所对应的环境音量的待降低数值范围为10分贝、20分贝、30分贝此类的，这样调整后的环境音量降低为30分贝、20分贝、10分贝，直至为0分贝，即语音通话质量越差，则合成环境噪声数据的环境音量越小。

由此，在本实施例中，当语音通话质量较好时，采用更加真实的模拟语音环境来和外呼客户的沟通，而当语音质量较差时，则降低环境音量，保证外呼内容能够清楚的传达到外呼客户，从而最大程度上保证语音沟通的成功率。

实施例三

请参照图2，一种智能语音交互装置1，包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序，所述处理器2执行所述计算机程序时实现上述实施例一或二中的步骤。

由于本发明上述实施例所描述的系统/装置，为实施本发明上述实施例的方法所采用的系统/装置，故而基于本发明上述实施例所描述的方法，本领域所属技术人员能够了解该系统/装置的具体结构及变形，因而在此不再赘述。凡是本发明上述实施例的方法所采用的系统/装置都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（装置）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种智能语音交互方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种智能语音交互方法，其特征在于，所述步骤S1中选取默认的合成环境噪声数据为：

3.根据权利要求2所述的一种智能语音交互方法，其特征在于，所述步骤S1为：

4.根据权利要求3所述的一种智能语音交互方法，其特征在于，多个所述客服人员使用同一个默认的合成环境噪声数据。

5.根据权利要求1所述的一种智能语音交互方法，其特征在于，所述步骤S3中发现外呼客户对通话清晰存在质疑倾向包括：

6.根据权利要求1至5任一所述的一种智能语音交互方法，其特征在于，所述步骤S2包括：

7.根据权利要求6所述的一种智能语音交互方法，其特征在于，所述默认外呼内容包括开场白部分、预设业务部分和结束语部分。

8.根据权利要求1至5任一所述的一种智能语音交互方法，其特征在于，还包括步骤：

9.根据权利要求8所述的一种智能语音交互方法，其特征在于，所述识别所述外呼客户的情绪倾向包括：

基于所述语音识别模型来识别所述外呼客户的情绪倾向。

10.一种智能语音交互装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一所述的一种智能语音交互方法。