CN110853623A

CN110853623A - 一种基于语音问答的自动金融催收方法及装置

Info

Publication number: CN110853623A
Application number: CN201911052266.XA
Authority: CN
Inventors: 陈明; 须成忠; 章杨清; 王耀南; 邬稳; 张鹏; 屈飞鹏
Original assignee: Shenzhen Institute of Advanced Technology of CAS; Merchants Union Consumer Finance Co Ltd
Current assignee: Shenzhen Institute of Advanced Technology of CAS; Merchants Union Consumer Finance Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-28

Abstract

本发明涉及金融催收领域，具体涉及一种基于语音问答的自动金融催收方法及装置。该方法及装置对输入的声音信号进行基于高斯混合模型的端点检测，从声音信号中识别出语音信号，基于关键字的检测方法结合自动语音识别方法对语音信号进行语音识别，根据全局问题状态机，并根据识别后的语音与用户进行会话之间的跳转。本发明结合业务实际场景提出高斯混合模型法，此方法弥补了双门限法与深度学习方法的缺点，但同时较大程度上兼顾了两者的优点。另外，在本发明中，采取了结合关键词的检测方法，检测客户回答语音中的关键字，将识别出的结果与原ASR系统进行组合判断，弥补了原ASR方法的常用语气词、俗语等识别不准确的缺点。

Description

一种基于语音问答的自动金融催收方法及装置

技术领域

本发明涉及金融催收领域，具体而言，涉及一种基于语音问答的自动金融催收方法及装置。

背景技术

当前随着互联网企业的业务增加，对于人工客服已经越来越不能满足需求，难以面对持续增长的业务，特别是对于一些互联网金融信贷企业，不良信贷总数随业务增长而持续增加。为此，用人工智能机器人替代人工催收客服是一种切实可行的方案，人工智能机器人客服使用语音识别加语义逻辑分析可以很好地解决此问题。

传统的金融行业的人工催收客服往往存在如下问题：1、对于人员依赖较强，需要具备一定金融业务知识的人员进行服务，完成沟通，并进行催收逾期欠款；2、重复性劳动频繁，催收的流程一般有一套与具体业务相匹配的话术，但是由人工完成的话，是一项冗余无趣的重复性劳动；3、服务效率低，人工的催收服务，需要考虑到人员的疲劳、工作时间等问题，催收服务无法长时间地、持续进行；4、成本相对较高，对于企业来讲，人工成本往往是最大的成本之一，企业需要为每个催收业务人员提供各项的合理待遇与保障，加大了企业的成本。现有相近的多轮对话方案，大多是采用自动语音识别，翻译成文字，进行判断，根据业务流程，来进行反馈。然而，在具体业务中，这种方法的效果并没有很好。

发明内容

本发明实施例提供了一种基于语音问答的自动金融催收方法及装置，以至少解决现有金融催收系统的语音识别效果差的技术问题。

根据本发明的一实施例，提供了一种基于语音问答的自动金融催收方法，包括以下步骤：

S101:对输入的声音信号进行基于高斯混合模型的端点检测，从声音信号中识别出语音信号；

S102:基于关键字的检测方法结合自动语音识别方法对语音信号进行语音识别；

S103:根据全局问题状态机，并根据识别后的语音与用户进行会话之间的跳转。

进一步地，步骤S101包括：通过假设高斯混合模型中语音信号和非语音信号分布，建立统计模型，设计算法并动态地估算统计模型参数并进行更新，从而区分出语音信号和非语音信号。

进一步地，使用最小均方差估计对高斯混合模型的参数进行估计和更新。

进一步地，使用最小均方差估计对高斯混合模型的参数进行估计和更新包括：

对符合高斯分布的数据进行采样；

对采样到的数据进行划分；

对划分到的样本数据求样本发生的概率；

计算采样的样本数据产生的概率；

使用最大化Q函数来优化高斯混合模型中高斯分布的参数；

确定高斯混合模型的算法是否收敛。

进一步地，基于上下文的信息方法对高斯混合模型的参数进行估计。

进一步地，在高斯混合模型中计算输入的声音信号里每帧信号为语音和噪声的概率，根据所得概率进行聚类分析。

进一步地，步骤S102包括：

预设原始关键字数据，对原始关键字数据进行关键字语音分类并做标签；

使用深度学习方法中的循环神经网络、长短记忆网络对语音信号进行语音预处理、特征提取；

与自动语音识别方法结合对语音信号进行语音识别。

进一步地，步骤S102具体包括：

对语音信号进行关键词声学特征提取；

进行关键词数据深度学习与长短记忆网络训练；

通过关键词检测模型输出识别后的关键词。

进一步地，步骤S103包括：

根据当前的回答确定下一个问题状态；

确认得到下一个问题状态后，向用户提出下一个问题。

根据本发明的另一实施例，提供了一种基于语音问答的自动金融催收装置，包括：

端点检测单元，用于对输入的声音信号进行基于高斯混合模型的端点检测，从声音信号中识别出语音信号；

语音识别单元，用于基于关键字的检测方法结合自动语音识别方法对语音信号进行语音识别；

会话跳转单元，用于根据全局问题状态机，并根据识别后的语音与用户进行会话之间的跳转。

本发明实施例中的基于语音问答的自动金融催收方法及装置中，本发明结合业务实际场景提出高斯混合模型法，此方法弥补了双门限法与深度学习方法的缺点，但同时较大程度上兼顾了两者的优点。另外，在本发明中，采取了结合关键词的检测方法，检测客户回答语音中的关键字，将识别出的结果与原ASR系统进行组合判断，弥补了原ASR方法的常用语气词、俗语等识别不准确的缺点。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于语音问答的自动金融催收方法的流程图；

图2为本发明基于语音问答的自动金融催收方法前端处理部分的流程图；

图3为本发明基于语音问答的自动金融催收方法中模型数据流程图；

图4为本发明基于语音问答的自动金融催收方法后端处理部分的流程图；

图5为本发明基于语音问答的自动金融催收方法的整体结构框架图；

图6为本发明基于语音问答的自动金融催收装置的模块图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决互联网金融领域日益增长的欠款逾期的催收问题，本发明通过设计基于催收场景下的语音对答系统，提出了智能语音催收系统的技术方案，并且实验结果显示良好。

结合当前技术与问题，考虑具体的信贷与催收业务，可以设计自动催收系统的话术逻辑。为简化问题，并结合场景，本发明采取了关键字识别的方案，这样能够提高催收机器人与用户之间的对答效率。为实现本发明的技术方案，主要分为两大步骤：1、采集原始音频，用于机器学习模型的训练，并根据所面向的场景下的问题训练出不同的模型；2、使用带有麦克风的系统所运行的平台，用户可进行语音交互，系统能够对用户语音的活性部分进行检测与提取，并能够预测出相应任务场景下的语音识别及交互。

具体地，本发明主要在两个技术方向对现有技术进行了改进，在催收业务场景下，一个是端点活性检测，另一个是利用了关键字识别的语音识别方案。

在端点活性检测(VAD,Voice Activity Detection)技术方面，典型的代表算法为双门限法与深度学习法。其中，双门限法包含短时能量与过零率的评价指标，但是此种方法只能在信噪比较低的时候有效，环境嘈杂时，准确率很受限制。另一个方法，基于深度学习的方法，虽然这种方法准确率和鲁棒性较高，但是需要采集大量的原始音频，并且需要手工打标签，同时需要很大的计算资源进行海量的参数计算。因此，在本发明中，当前的双门限法和深度学习法对于金融催收业务场景下的语音端点活性检测并不是最优方案，本发明结合业务实际场景提出高斯混合模型法，此方法弥补了双门限法与深度学习方法的缺点，但同时较大程度上兼顾了两者的优点。

在金融催收业务语音识别场景方面，现有技术只能对其进行自动语音识别(ASR，Automatic Speech Recognition)并翻译为文字，然后再由业务流程提取关键信息进行判断。然而，实际的催收业务中，客服与用户之间的对话常包含一些日常语气词、常用俗语等，此方法的准确率并不高。在本发明中，采取了结合关键词的检测方法，就是检测客户回答语音中的关键字，将识别出的结果与原ASR系统进行组合判断，弥补了原ASR方法的常用语气词、俗语等识别不准确的缺点。

当识别出结果后，根据业务所设计的全局问题状态机，在问题之间进行跳转，从而最终自动化完成金融催收业务。

实施例1

根据本发明一实施例，提供了一种基于语音问答的自动金融催收方法，参见图1，包括以下步骤：

本发明实施例中的基于语音问答的自动金融催收方法中，本发明结合业务实际场景提出高斯混合模型法，此方法弥补了双门限法与深度学习方法的缺点，但同时较大程度上兼顾了两者的优点。另外，在本发明中，采取了结合关键词的检测方法，检测客户回答语音中的关键字，将识别出的结果与原ASR系统进行组合判断，弥补了原ASR方法的常用语气词、俗语等识别不准确的缺点。

具体地，本发明技术方案主要分为两大部分，一部分为语音端点活性检测，用于提取有效语音；另一部分，使用基于关键字的检测方法结合当前的ASR方案在实际金融催收场景下的语音识别，根据全局问题状态机，进行会话之间的跳转。

参见图5，本发明技术方案的两大部分分别为：

1、语音端点活性检测部分，使用的是基于高斯混合模型进行训练：

基于高斯混合模型的端点检测用到的其实是聚类的思想，将语音信号分为两个类，一类是语音，一类是噪音。在高斯混合模型中计算每帧信号是语音和噪声的概率，根据所得概率进行聚类分析。

在区分语音和非语音信号时，通过假设其分布，建立统计模型，设计算法动态地估算模型参数并进行更新，从而区分出语音信号和非语音信号。即利用统计学的方法在语音信号的频域上描述能量分布。统计学模型的在线实时更新模型参数的特性，使得基于此类模型的语音端点检测算法能够很好的适应不同的噪声环境。基于统计学的端点检测算法中，本发明使用的是高斯混合模型(Gaussian Mixture Model)，通常使用最小均方差估计(Minimum Mean Square Error Estimation)对GMM模型的参数进行估计和更新。另外，基于上下文的信息(Long-term Contextual Information)方法对于提升参数估计的准确率也十分有效。如图2所示为前端处理部分的流程图。

2、本发明基于关键字的检测方法结合当前的ASR方案对实际金融催收场景下的语音识别，根据全局问题状态机，进行会话之间的跳转。在进行语音中的关键字识别时，需要提前准备好原始关键字数据，并人工对这些关键字语音分类做标签。接着，使用深度学习方法中的循环神经网络(RNN,Recurrent Neuro Network)、长短记忆网络LSTM(Long Short-Term Memory)，进行语音预处理、特征提取、模型训练及匹配等，如图3。再与自动语音识别(ASR)相结合，即可识别出用户的回答。根据用户回答，有当前问题状态时确定下一个问题状态。如图3所示为模型数据流程图，图4所示为后端处理部分流程图。

本发明基于语音问答的自动金融催收方法的技术效果为：

1.语音端点活性检测部分，在区分语音和非语音信号时，通过假设其分布，建立统计模型，使用的是基于高斯混合模型进行训练；

2.基于关键字的检测方法结合当前的ASR方案在实际金融催收场景下进行语音识别，根据全局问题状态机，进行会话之间的跳转。

本发明结合业务实际场景提出高斯混合模型法，此方法弥补了双门限法与深度学习方法的缺点，但同时较大程度上兼顾了两者的优点。另外，在本发明中，采取了结合关键词的检测方法，检测客户回答语音中的关键字，将识别出的结果与原ASR系统进行组合判断，弥补了原ASR方法的常用语气词、俗语等识别不准确的缺点。经过试验、模拟，本发明的技术方案证明可行，其识别结果较之前的技术方案，效果有显著提升，整体识别率从78％提升至86％左右。

实施例2

根据本发明的另一实施例，提供了一种基于语音问答的自动金融催收装置，参见图6，包括：

端点检测单元201，用于对输入的声音信号进行基于高斯混合模型的端点检测，从声音信号中识别出语音信号；

语音识别单元202，用于基于关键字的检测方法结合自动语音识别方法对语音信号进行语音识别；

会话跳转单元203，用于根据全局问题状态机，并根据识别后的语音与用户进行会话之间的跳转。

本发明实施例中的基于语音问答的自动金融催收装置中，本发明结合业务实际场景提出高斯混合模型法，此方法弥补了双门限法与深度学习方法的缺点，但同时较大程度上兼顾了两者的优点。另外，在本发明中，采取了结合关键词的检测方法，检测客户回答语音中的关键字，将识别出的结果与原ASR系统进行组合判断，弥补了原ASR方法的常用语气词、俗语等识别不准确的缺点。

参见图5，本发明技术方案的两大部分分别为：

1、语音端点活性检测部分端点检测单元201，使用的是基于高斯混合模型进行训练：

2、语音识别单元202，本发明基于关键字的检测方法结合当前的ASR方案对实际金融催收场景下的语音识别，根据全局问题状态机，进行会话之间的跳转。在进行语音中的关键字识别时，需要提前准备好原始关键字数据，并人工对这些关键字语音分类做标签。接着，使用深度学习方法中的循环神经网络(RNN,Recurrent Neuro Network)、长短记忆网络LSTM(Long Short-Term Memory)，进行语音预处理、特征提取、模型训练及匹配等，如图3。再与自动语音识别(ASR)相结合，即可识别出用户的回答。会话跳转单元203，根据用户回答，有当前问题状态时确定下一个问题状态。如图3所示为模型数据流程图，图4所示为后端处理部分流程图。

本发明基于语音问答的自动金融催收装置的技术效果为：

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的系统实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于语音问答的自动金融催收方法，其特征在于，包括以下步骤：

S101:对输入的声音信号进行基于高斯混合模型的端点检测，从所述声音信号中识别出语音信号；

S102:基于关键字的检测方法结合自动语音识别方法对所述语音信号进行语音识别；

2.根据权利要求1所述的基于语音问答的自动金融催收方法，其特征在于，步骤S101包括：通过假设所述高斯混合模型中语音信号和非语音信号分布，建立统计模型，设计算法并动态地估算统计模型参数并进行更新，从而区分出语音信号和非语音信号。

3.根据权利要求2所述的基于语音问答的自动金融催收方法，其特征在于，使用最小均方差估计对所述高斯混合模型的参数进行估计和更新。

4.根据权利要求3所述的基于语音问答的自动金融催收方法，其特征在于，所述使用最小均方差估计对所述高斯混合模型的参数进行估计和更新包括：

对符合高斯分布的数据进行采样；

对采样到的数据进行划分；

对划分到的样本数据求样本发生的概率；

计算采样的样本数据产生的概率；

使用最大化Q函数来优化所述高斯混合模型中高斯分布的参数；

确定所述高斯混合模型的算法是否收敛。

5.根据权利要求2所述的基于语音问答的自动金融催收方法，其特征在于，基于上下文的信息方法对所述高斯混合模型的参数进行估计。

6.根据权利要求2所述的基于语音问答的自动金融催收方法，其特征在于，在所述高斯混合模型中计算输入的声音信号里每帧信号为语音和噪声的概率，根据所得概率进行聚类分析。

7.根据权利要求1所述的基于语音问答的自动金融催收方法，其特征在于，步骤S102包括：

预设原始关键字数据，对所述原始关键字数据进行关键字语音分类并做标签；

使用深度学习方法中的循环神经网络、长短记忆网络对所述语音信号进行语音预处理、特征提取；

与所述自动语音识别方法结合对所述语音信号进行语音识别。

8.根据权利要求7所述的基于语音问答的自动金融催收方法，其特征在于，步骤S102具体包括：

对所述语音信号进行关键词声学特征提取；

进行关键词数据深度学习与长短记忆网络训练；

通过关键词检测模型输出识别后的关键词。

9.根据权利要求1所述的基于语音问答的自动金融催收方法，其特征在于，步骤S103包括：

根据当前的回答确定下一个问题状态；

确认得到下一个问题状态后，向用户提出下一个问题。

10.一种基于语音问答的自动金融催收装置，其特征在于，包括：

端点检测单元，用于对输入的声音信号进行基于高斯混合模型的端点检测，从所述声音信号中识别出语音信号；

语音识别单元，用于基于关键字的检测方法结合自动语音识别方法对所述语音信号进行语音识别；