CN117240964A

CN117240964A - 一种通话过程中的语音识别方法

Info

Publication number: CN117240964A
Application number: CN202311529582.8A
Authority: CN
Inventors: 兰俊毅
Original assignee: Fujian Boshicom Information Co ltd
Current assignee: Fujian Boshicom Information Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2023-12-15
Anticipated expiration: 2043-11-16
Also published as: CN117240964B

Abstract

本发明提供的一种通话过程中的语音识别方法，包括：在通话过程中，实时识别外呼客户在当前时刻的当前语音内容中所带有的当前情绪倾向和当前购买意向，判断当前情绪倾向和上一时刻的上一情绪倾向或者是当前购买意向和上一时刻的上一购买意向是否均一致，若一致，则根据当前情绪倾向、当前购买意向以及当前语音内容来生成并播放当前应答内容，否则获取外呼客户在上一时刻的上一语音内容以及智能客服针对上一语音内容的上一应答内容，根据当前语音内容、上一应答内容和上一语音内容确定前后不一致的当前影响因素；根据当前情绪倾向、当前购买意向、当前语音内容以及当前影响因素来生成并播放当前应答内容。本发明能够提高智能语音识别的准确性。

Description

一种通话过程中的语音识别方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种通话过程中的语音识别方法。

背景技术

语音识别技术是让机器通过识别和理解来把语音信号转变为相应的文本或命令的技术。其主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域都得到了充分的应用，比如手机上的语音助手、家电的语音控制等等。

在智能客服系统中，语音识别技术是基础，其通过语音识别技术来了解外呼客户的沟通内容，从而进行有针对性的答复。而现有技术中通常是设置很多话术，根据外呼客户前面的回复来匹配最合适的话术，这种匹配通常是固定的，比如外呼客户提到了“我觉得资费太贵了”，此时所匹配的话术是：说明本次产品的资费情况和对应的优惠情况。但是这种话术匹配方式容易出现偏差，导致有时候的回复会出现词不达意，使得外呼客户没有进一步沟通的意向。

即，现有技术在通话过程中的语音识别准确性还有待进一步提高。

发明内容

为了解决现有技术的上述问题，本发明提供一种通话过程中的语音识别方法，能够提高智能语音识别的准确性。

为了达到上述目的，本发明采用的技术方案为：

第一方面，本发明提供一种通话过程中的语音识别方法，包括：

S1、在通话过程中，实时识别外呼客户在当前时刻的当前语音内容中所带有的当前情绪倾向和当前购买意向，判断所述当前情绪倾向和上一时刻的上一情绪倾向或者是所述当前购买意向和上一时刻的上一购买意向是否均一致，若一致，则根据所述当前情绪倾向、所述当前购买意向以及所述当前语音内容来生成并播放当前应答内容，否则执行步骤S2；

S2、获取外呼客户在上一时刻的上一语音内容以及智能客服针对所述上一语音内容的上一应答内容，根据所述当前语音内容、所述上一应答内容和所述上一语音内容确定前后不一致的当前影响因素；

S3、根据所述当前情绪倾向、所述当前购买意向、所述当前语音内容以及当前影响因素来生成并播放当前应答内容。

本发明的有益效果在于：相较于现有技术，本发明在通话过程中还加入了外呼客户的情绪识别和购买意向识别，并且在情绪和购买意向发生变化时，通过连续的语音对话识别出外呼客户发生变化的影响因素，以更好的理解外呼客户的表述意图，之后根据影响因素来调整应答内容，使得智能客服的应答更加符合客户的需求，因此，本发明能够提高智能语音识别的准确性。

可选地，所述步骤S2中根据所述当前语音内容、所述上一应答内容和所述上一语音内容确定前后不一致的当前影响因素包括以下步骤：

将所述上一语音内容、所述上一应答内容作为一个对话进行语音识别，得到意图理解效果；

判断所述意图理解效果是否为负面的，若是负面的，则将所述上一语音内容和所述当前语音内容分别进行关键词提取，判断所述上一语音内容和所述当前语音内容是否提取出相同的关键词，若相同，则将相同的关键词作为当前关键词，若不相同，则对所述上一应答内容进行关键词提取，将存在于所述上一语音内容中且不存在于所述上一应答内容中的关键词作为当前关键词，若为正面，则判断所述上一应答内容和所述当前语音内容中是否提取出相同的关键词，若相同，则将相同的关键词作为当前关键词，若不相同，则将所述上一应答内容中占比权重最高的关键词作为当前关键词，得到当前关键词；

将所述当前关键词作为前后不一致的当前影响因素。

根据上述描述可知，本发明首先根据上一语音内容和上一应答内容来确定智能客服的回复是否符合外呼客户的表述意图，并在表述意图的理解程度为正面或负面时分别使用不同的关键词确定方式来确定前后不一致的当前影响因素，从而保证影响因素的准确性。

可选地，所述上一时刻和所述当前时刻中的时刻是根据外呼客户和智能客服之间的一次对话来确定。

可选地，还包括步骤：

当外呼客户的购买意向至少连续两次为正面，且情绪倾向在正面之后至少连续两次为负面，则将所述外呼客户实时转接至人工客服，并将人工介入之前外呼客户和智能客服之间的对话以文本形式显示给人工客服。

根据上述描述可知，当外呼客户有意向来购买但沟通时的情绪并不乐观时，需要人工客服介入，以及时调整外呼客户的情绪，达到促单的效果。

可选地，在以文本形式显示给人工客服的同时，对所述外呼客户的情绪倾向和购买意向分别标记在所述外呼客户的对应文本上。

可选地，还包括步骤：

当所述外呼客户在沟通未完成的状态下挂断电话，则获取所述外呼客户在语音通话过程中的全局通话质量、全局情绪倾向和全局购买意向，判断所述全局通话质量是否低于正常通话质量阈值，若是，则判断所述全局情绪倾向和所述全局购买意向是否存在其中之一为正面的，若是，则标记所述外呼客户为待重拨用户并附上待重拨时间。

根据上述描述可知，通过对通话全局的通话质量、情绪倾向和购买意向进行综合判断，以及时挽回因为通话质量不佳而导致潜在客户丢失的情况。

可选地，确定所述待重拨时间包括：

将不同通话场景下的全局通话质量作为数据集，对所述数据集进行通话场景的打标之后分为训练集和测试集，将所述训练集输入到神经网络模型中进行训练，以所述测试集对训练的神经网络模型进行测试，当测试结果符合预期训练效果，则输出训练好的神经网络模型，得到通话场景识别模型；

将所述外呼客户在语音通话过程中的全局通话质量输入到通话场景识别模型中，得到所述外呼客户的当前通话场景；

根据所述外呼客户的当前通话场景确定待重拨时间。

根据上述描述可知，通过对外呼客户的通话场景进行预测，以更好的确定重拨时间，从而提高促单成功率。

可选地，还包括步骤：

在通话过程中，获取外呼客户的实时通话质量，在一预设时间区间内，若所述实时通话质量小于最低通话质量阈值，则在语音提示通话网速问题之后挂断，并发送短信解释挂断原因。

根据上述描述可知，本实施例在通话质量小于最低通话质量阈值，即不认为处于不能沟通的场景，及时挂断并发送短信解释挂断原因，从而提高外呼客户的沟通体验。

可选地，所述若所述实时通话质量小于最低通话质量阈值为：

若在所述预设时间区间内存在多次所述实时通话质量小于最低通话质量阈值的情况。

可选地，所述预设时间区间内存在多次所述实时通话质量小于最低通话质量阈值的情况中的多次与所述预设时间区间内的实时通话质量的次数相关联。

附图说明

图1为本发明实施例的一种通话过程中的语音识别方法的主要流程示意图；

图2为本发明实施例的一种通话过程中的语音识别方法的整体流程示意图；

图3为本发明实施例涉及的步骤S5的具体流程示意图；

具体实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

本实施例应用在推广产品的场景中，其是通过智能客服自动拨打外呼客户，并和外呼客户进行自动语音交流之后，最终确认意向客户名单来进行下一步的产品推广。在此过程中，通过智能客服得到的意向客户名单反馈给卖家时，卖家进行二次推广的反馈并不稳定，因此，本实施例在通话过程中实时监视客户的情绪变化和购买意向变化，从而及时调整话术，提高了对客户语音内容的理解准确性，以提高智能语音识别的准确性，以保证意向客户名单的准确性。

请参照图1至图2，一种通话过程中的语音识别方法，包括步骤：

S1、在通话过程中，实时识别外呼客户在当前时刻的当前语音内容中所带有的当前情绪倾向和当前购买意向，判断当前情绪倾向和上一时刻的上一情绪倾向或者是当前购买意向和上一时刻的上一购买意向是否均一致，若一致，则，否则执行步骤S2；

在本实施例中，上一时刻和当前时刻中的时刻是根据外呼客户和智能客服之间的一次对话来确定，即一次对话所占用的时间为一个时刻，此时，上一时刻为上一次对话，而当前时刻即为当前对话。

在本实施例中，当和外呼客户进行语音沟通时，会对外呼客户的情绪倾向和购买意向进行识别，相较于其他现有技术中单独进行情绪倾向或者单独进行购买意向的识别来说，通过对过往语音沟通案例进行分析，发现有部分外呼客户对产品存在购买意向，但是基于智能客服的答复不满意而产生了负面情绪，也有部分外呼客户的情绪非常开心，但是会礼貌性的拒绝这次商品推销。因此，情绪倾向和购买意向单独都不能真正反应外呼客户的真实需求，且二者并不能等同，其中，情绪倾向和购买意向均用于表示用户的沟通体验和对产品的感兴趣程度，但是，前者更倾向于沟通体验，后者则更倾向于感兴趣程度，故而本实施例对这两方面都进行一并考虑，能够更加准确的确定外呼客户的沟通体验和对产品的感兴趣程度。

应当说明的是，本发明中对于情绪倾向和购买意向的识别采用现有技术即可，本发明主要是在使用现有技术来得到用户的情绪倾向和购买意向之后，通过二者的结合以及二者在上下文的变化来识别出外呼客户发生变化的影响因素，以更好的理解外呼客户的表述意图，即能够更准确的识别出外呼客户在通话过程中的语音内容所要表达的意思。为了理解本发明，对于情绪倾向和购买意向的现有技术也一并说明如下：

对于情绪倾向的识别可以采用情绪特征数据来实现。其中，情绪特征分为局部特征和全局特征。局部特征是从语音数据的一个语音帧或部分语音帧中提取的特征，全局特征是指从语音数据的所有语音帧中提取的特征的统计结果，反映整段语音数据的全局特性。情绪特征可以包括但不限于韵律学特征、基于谱的相关特征、音质特征和i-vetor特征等。因此，可以使用特征提取算法对语音数据的韵律、音质或声谱等中的至少一种特性进行分析，得到语音数据对应的情绪特征数据。例如，使用CNN算法从语音数据的声谱图中抽取特征。而当然，也可以直接将语音数据进行打标后训练一个机器学习模型即可，这样，特征数据的提取由训练后的机器学习模型来实现。

对于购买意向的识别也可以采用类似于情绪倾向的识别，只需要把训练数据进行变化即可。当然，也有更加简便的方法，即通过参数评估方法，其理论上也等同于机器学习模型，因为机器学习模型的训练本身就是对输入数据进行特征提取和权重分配，这和参数评估方法是大同小异的。回到参数评估方法，首先保存有正面词汇数据库和负面词汇数据库。之后对语音数据的对话次数、正面词汇出现频次、负面频率出现频次和询价情况这四个指标进行识别。最后将得到的信息进行标准化之后和各自的权重数值进行相乘之后得到一个意向数值，其中，负面频率出现频次越高其标准化后的数值越低，其他指标频次越高其标准化后的数值越高；其中，上述四个指标的权重数值分别为0.3、0.3、0.3、0.1；其中，意向数值在0至1之内，不同的意向数值区间表示不同的购买意向，在本实施例中，0至0.36为负面，0.64至1为正面，二者中间为中立，当然也可以根据情况细化为四个、五个等数值区间以进行更加细化的识别。比如对话次数、正面词汇出现频次、负面频率出现频次和询价情况分别为3次、2次、0次和0次，则标准化后数值为0.6、0.8、1和0，最终得到的意向数值为0.72，则购买意向为正面层级。

在本实施例中，情绪倾向与购买意向至少有三个层级：正面、中立和负面，其中，正面用1表示，中立用0表示，负面用-1表示，由此，情绪倾向和购买意向的所有可能性如下：1&1、1&0、1&-1、0&1、0&0、0&-1、-1&1、-1&0以及-1&-1。在一种简单的判断方法中，情绪倾向与购买意向中至少一个为1时，则是属于意向客户，反之不属于意向客户。

此时，判断当前情绪倾向和上一时刻的上一情绪倾向或者是当前购买意向和上一时刻的上一购买意向是否均一致，若一致，则说明外呼客户和智能客服在沟通过程中保持前后一致，无论是外呼客户从始至终都是负面，还是外呼客户从始至终都是正面，前者则说明这个外呼客户对于电话推销方式本身就比较厌恶，故而其本身就不属于意向客户，后者则说明其本身就是意向客户，因此，根据当前情绪倾向、当前购买意向以及当前语音内容来生成并播放当前应答内容。

比如，上一语音内容为“这个的费用情况呢”，上一应答内容为“我们这个产品的原价是199，现如今通过我们渠道购买的话是139”和当前语音内容为“好的，我知道，谢谢”。此时，当前情绪倾向、当前购买意向、上一情绪倾向或者是上一购买意向都为中立，则情绪倾向和购买意向前后保持一致，直接根据当前情绪倾向、当前购买意向以及当前语音内容来生成并播放当前应答内容，比如，现有的语音策略是调度用户的兴趣，此时，则生成当前应答内容“先生，你可以了解一下，我们这个产品的功能……”，即说明产品的特色功能。

在另一种场景下，上一语音内容为“这个的费用情况呢”，上一应答内容为“我们这个产品的原价是199，现如今通过我们渠道购买的话是139”和当前语音内容为“好吧，这个有一点贵了，能不能再便宜点”。此时，上一情绪倾向或者是上一购买意向为中立，当前情绪倾向为偏负面，但是当前购买意向为偏正面，因此，情绪倾向和购买意向前后发生变化，则执行步骤S2。

S2、获取外呼客户在上一时刻的上一语音内容以及智能客服针对上一语音内容的上一应答内容，根据当前语音内容、上一应答内容和上一语音内容确定前后不一致的当前影响因素；

在本实施例中，步骤S2中根据当前语音内容、上一应答内容和上一语音内容确定前后不一致的当前影响因素包括以下步骤：

S21、将上一语音内容、上一应答内容作为一个对话进行语音识别，得到意图理解效果；

其中，将上一语音内容、上一应答内容作为一个对话来进行语音识别，来判断上一应答内容和上一语音内容之间的对话流畅性，从而判断智能客服的应答内容是否是基于理解外呼客户的语音内容中所表达的意图来进行应答的。比如，上一语音内容为“这个的费用情况呢”，上一应答内容为“我们这个产品的原价是199，现如今通过我们渠道购买的话是139”，则说明意图理解效果是正面的。而如果上一应答内容为“您好，先生，我们这个价格很优惠的”。此时，上一应答内容虽然也是说明费用问题，但是外呼客户的语音内容是询问具体的费用，则上一应答内容应该是介绍具体的费用，出现上述问题则认为意图理解效果是负面的。

S22、判断意图理解效果是否为负面的，若是负面的，则将上一语音内容和当前语音内容分别进行关键词提取，判断上一语音内容和当前语音内容是否提取出相同的关键词，若相同，则将相同的关键词作为当前关键词，若不相同，则对上一应答内容进行关键词提取，将存在于上一语音内容中且不存在于上一应答内容中的关键词作为当前关键词，若为正面，则判断上一应答内容和当前语音内容中是否提取出相同的关键词，若相同，则将相同的关键词作为当前关键词，若不相同，则将上一应答内容中占比权重最高的关键词作为当前关键词，得到当前关键词；

其中，当为负面，则以上一语音内容为“这个的费用情况呢”，上一应答内容为“您好，先生，我们这个价格很优惠的”，当前语音内容为“我是问你这个产品多少钱”举例，则上一语音内容和当前语音内容提取出同一关键词为“费用”。而如果上一语音内容为“这个的费用情况呢”，上一应答内容为“您好，先生，我们这个产品的功能……”，当前语音内容为“你没听懂我的话吗”，则上一语音内容和当前语音内容提取不出同一关键词，则得到存在于上一语音内容中且不存在于上一应答内容中的关键词“费用”。

当为正面，上一语音内容为“这个的费用情况呢”，上一应答内容为“我们这个产品的原价是199，现如今通过我们渠道购买的话是139”，当前语音内容为“太贵了，算了”，此时，上一应答内容和当前语音内容中提取出同一关键词为“费用”。

其中，将上一应答内容中占比权重最高的关键词作为当前关键词，中是指能够表达句子意思的词语，即为关键词，比如“我们这个产品的原价是199，现如今通过我们渠道购买的话是139”的关键词即为“费用”。

S23、将当前关键词作为前后不一致的当前影响因素。

由此，将“费用”这一当前关键词作为前后不一致的当前影响因素。

S3、根据当前情绪倾向、当前购买意向、当前语音内容以及当前影响因素来生成并播放当前应答内容。

此时，在原先的基础上会增加关于费用的进一步的说明，这取决于预先设置时针对费用的设置，比如为进一步优惠为109，或者是论述其他同功能产品的价格都大于139，诸如此类。

S4、当外呼客户的购买意向至少连续两次为正面，且情绪倾向在正面之后至少连续两次为负面，则将外呼客户实时转接至人工客服，并将人工介入之前外呼客户和智能客服之间的对话以文本形式显示给人工客服。

即当外呼客户有意向来购买但沟通时的情绪并不乐观时，通过人工客服介入，以及时调整外呼客户的情绪，达到促单的效果。

在本实施例中，在以文本形式显示给人工客服的同时，对外呼客户的情绪倾向和购买意向分别标记在外呼客户的对应文本上。这样人工客服就可以第一时间了解到外呼客户的需求，从而快速安抚外呼客户。

在本实施例中，为了提高智能客服的沟通效率，还包括以下步骤：

获取被标记为沟通失败的历史通话过程，对所有被标记为沟通失败的历史通话过程进行分析，得到每一个历史通话过程的沟通失败因素，将其中占比最大的沟通失败因素记为第一因素；

将所述第一因素的产品说明加入到智能客服的初次产品介绍中。

其中，关于第一因素的确定还需要满足以下条件：占比最大的沟通失败因素的占比比占比第二沟通失败因素的占比要大50%以上，说明因为第一因素被拒绝的情况比较明显，比如，沟通失败因素的前三是28.6%、25.4%和19.1%，则占比最大的沟通失败因素的占比比占比第二沟通失败因素的占比要大12.6%，这种情况下不存在第一因素，因此也不需要对初次产品介绍进行修改，而如果沟通失败因素的前三是41.3%、22.5%和17.9%，则占比最大的沟通失败因素的占比比占比第二沟通失败因素的占比要大83.6%，则需要将41.3%这个沟通失败因素的产品说明加入到智能客服的初次产品介绍中，比如大部分是因为“费用”，则在初次产品介绍中要增加产品的费用介绍。

其中，初次产品介绍是指在智能客服和外呼客户的通话过程中，在前面的开场白之后，智能客服第一次介绍产品的说明。此时，若对费用比较敏感的外呼客户则可能会直接挂断电话，这样就节省了中间的沟通过程。

因此，将占比最大的沟通失败因素加入到智能客服的初次产品介绍中，能够将用户比较敏感的信息进行提前说明，从而及时快速的完成一次有效的沟通，节省了中间的无效的沟通，以提高智能客服的沟通效率。

综上，本实施例在通话过程中还加入了外呼客户的情绪识别和购买意向识别，并且在情绪和购买意向发生变化时，通过连续的语音对话识别出外呼客户发生变化的影响因素，以更好的理解外呼客户的表述意图，之后根据影响因素来调整应答内容，使得智能客服的应答更加符合客户的需求，因此，本发明能够提高智能语音识别的准确性。

实施例二

一种通话过程中的语音识别方法，在上述实施例1的基础上结合图3可知，本实施例还包括步骤：

S5、当外呼客户在沟通未完成的状态下挂断电话，则获取外呼客户在语音通话过程中的全局通话质量、全局情绪倾向和全局购买意向，判断全局通话质量是否低于正常通话质量阈值，若是，则判断全局情绪倾向和全局购买意向是否存在其中之一为正面的，若是，则标记外呼客户为待重拨用户并附上待重拨时间。

在本实施例中，参照图3可知，步骤S5具体包括：

S51、当外呼客户在沟通未完成的状态下挂断电话，或者在通话过程中，获取外呼客户的实时通话质量，在一预设时间区间内，若实时通话质量小于最低通话质量阈值，则在语音提示通话网速问题之后挂断，并发送短信解释挂断原因。

其中，包括外呼客户的自行挂断以及智能客服的挂断。其中，当通话质量小于最低通话质量阈值，即不认为处于不能沟通的场景，及时挂断并发送短信解释挂断原因，从而提高外呼客户的沟通体验。需要说明的是，若外呼客户说明情况之后挂断电话，则根据外呼客户的说明来确定应用场景，比如客户说我正在开会，而无需进行后续的判断。

在本实施例中，若能获取到外呼客户的信号强度，则通话质量以外呼客户的信号强度为准，其中，正常通话质量阈值为-100dBm，最低通话质量阈值为-120dBm。而如果不能获取的话，则以接收外呼客户的信号稳定性为准。

在本实施例中，若实时通话质量小于最低通话质量阈值为：

若在预设时间区间内存在多次实时通话质量小于最低通话质量阈值的情况。

其中，预设时间区间内存在多次实时通话质量小于最低通话质量阈值的情况中的多次与预设时间区间内的实时通话质量的次数相关联。比如预设时间区间为5秒，采样频率为1秒，则预设时间区间内的实时通话质量的次数为5次，此时，多次为3次，因此，在本实施例中，多次所代表的次数至少大于预设时间区间内的实时通话质量的次数的一半。

S52、则获取外呼客户在语音通话过程中的全局通话质量、全局情绪倾向和全局购买意向，判断全局通话质量是否低于正常通话质量阈值，若是，则判断全局情绪倾向和全局购买意向是否存在其中之一为正面的，若是，则执行步骤S53。

其中，在步骤S52是判断外呼客户在挂断之前对于此次推广产品的感觉，其中，全局情绪倾向和全局购买意向其中有一个正面的，则表示有机会，因此，需要进行重拨来和外呼客户进行沟通。

S53、将不同通话场景下的全局通话质量作为数据集，对数据集进行通话场景的打标之后分为训练集和测试集，将训练集输入到神经网络模型中进行训练，以测试集对训练的神经网络模型进行测试，当测试结果符合预期训练效果，则输出训练好的神经网络模型，得到通话场景识别模型。

其中，可以通过收集一些信号较差的场所来模拟不同场景下的通话质量，也可以收集过往数据中用户明确了所处场景的通话质量，由此得到包括通信顺畅场景下以及诸如电梯、地下室、隧道等通信不顺畅场景下的全局通话质量，以形成数据集，将这些数据集中的每一个全局通话质量都打上对应场景的标记，然后按照7:3至9:1之间的比例划分成训练集和测试集，比如本实施例中是按照8:2的比例进行划分，这样，80%的数据集作为训练集，20%的数据集作为测试集。

在本实施例中，神经网络模型选用卷积神经网络，其网络模型从输入到输出依次包括有输入层、卷积层、池化层、全连接层、输出层，由卷积层对输入层的输入参数进行局部特征提取，由池化层来减少特征参数，再通过全连接层来得到全局特征，之后通过输出层中的SoftMax来根据特征对输入参数进行分类，得到输入参数的归属类别。

在对卷积神经网络进行训练时，由于训练集中每一个数据包括作为输入参数的全局通话质量以及包括归属类别的通话场景标记，因此，卷积神经网络会对每一个层中的参数进行调整，使输入的全局通话质量经过这些层之后输出的归属类别就是打标后的通话场景，在训练完成之后，原本各个层内的初始参数就变成了调整后的参数，而调整参数后的卷积神经网络就能够对全局通话质量进行通话场景的识别。

此时，利用测试集里面的数据，将测试集里面的每一个数据的全局通话质量作为输入数据输入到单次训练完的卷积神经网络当中，然后得到它输出的通话场景，将其和自身打标的通话场景进行比对是否一致，得到一个测试结果，将测试集中每一个数据的测试结果进行汇总，就得到单次训练完的卷积神经网络的准确率，比如预期训练效果为准确率达到98%，单次训练完的卷积神经网络的准确率为96%，则需要再次训练该卷积神经网络，直至测试准确率达到或者超过98%，则将最后一次训练完的卷积神经网络作为训练好的神经网络模型，以得到通话场景识别模型。

将这些数据集进行训练，以得到能根据通话质量进行识别的模型。

S54、将外呼客户在语音通话过程中的全局通话质量输入到通话场景识别模型中，得到外呼客户的当前通话场景。

S55、根据外呼客户的当前通话场景确定待重拨时间。

在本实施例中，通话场景包括但不限于电梯、地下室、隧道等场景，其中，电梯的待重拨时间较短，一般设置在1-3分钟，地下室和隧道设置在8-15分钟。

S56、标记外呼客户为待重拨用户并附上待重拨时间。

由此，在外呼客户脱离通话质量较差的应用场景之后进行重拨，以及时挽回因为通话质量不佳而导致潜在客户丢失的情况。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（装置）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种通话过程中的语音识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种通话过程中的语音识别方法，其特征在于，所述步骤S2中根据所述当前语音内容、所述上一应答内容和所述上一语音内容确定前后不一致的当前影响因素包括以下步骤：

将所述当前关键词作为前后不一致的当前影响因素。

3.根据权利要求1所述的一种通话过程中的语音识别方法，其特征在于，所述上一时刻和所述当前时刻中的时刻是根据外呼客户和智能客服之间的一次对话来确定。

4.根据权利要求1所述的一种通话过程中的语音识别方法，其特征在于，还包括步骤：

5.根据权利要求4所述的一种通话过程中的语音识别方法，其特征在于，在以文本形式显示给人工客服的同时，对所述外呼客户的情绪倾向和购买意向分别标记在所述外呼客户的对应文本上。

6.根据权利要求1至5任一所述的一种通话过程中的语音识别方法，其特征在于，还包括步骤：

7.根据权利要求6所述的一种通话过程中的语音识别方法，其特征在于，确定所述待重拨时间包括：

根据所述外呼客户的当前通话场景确定待重拨时间。

8.根据权利要求6所述的一种通话过程中的语音识别方法，其特征在于，还包括步骤：

9.根据权利要求8所述的一种通话过程中的语音识别方法，其特征在于，所述若所述实时通话质量小于最低通话质量阈值为：

10.根据权利要求8所述的一种通话过程中的语音识别方法，其特征在于，所述预设时间区间内存在多次所述实时通话质量小于最低通话质量阈值的情况中的多次与所述预设时间区间内的实时通话质量的次数相关联。