CN109684479A

CN109684479A - 一种基于人工智能来实现业务分析的方法

Info

Publication number: CN109684479A
Application number: CN201811605306.4A
Authority: CN
Inventors: 罗睦军; 李礼红; 朱栩
Original assignee: Guangzhou Yunqu Information Technology Co Ltd
Current assignee: Guangzhou Yunqu Information Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-04-26

Abstract

本发明公开了一种基于人工智能来实现业务分析的方法，所述方法包括步骤：(1)对原始通话录音转写文本进行降噪处理；(2)将转写文本转成布尔向量，再通过杰卡德相似距离度量文本间的相似度，最后根据DBSCAN算法将紧密项相连的文本划为一类，从而得到了一个聚类的类别；(3)通过人工抽样方法，提取类别下的文本进行识别，对类别进行业务判定，从而完成训练语料的制作工序。该基于人工智能来实现业务分析的方法，能够将信息进行自动分析，并且处理，根据采取的算法能够较好的进行处理和分析，实现高效率、自动化，准确性高的目的，通过朴素贝叶斯文本分类器进行文本分类预测，最后得到概率最高的分类结果。

Description

一种基于人工智能来实现业务分析的方法

技术领域

本发明涉及电信通讯领域和人工智能领域，特别是涉及一种基于人工智能来实现业务分析的方法。

背景技术

目前缺乏对客服热线的业务分析数据，而通话录音数据能直接反映客服热线的服务内容，能够及时、准确的发现和掌握客户的关注热点；跟踪分析特定客户群体的行为，完善业务监控客户投诉内容及原因，为客户的服务和维系提供支撑。但是，电信运营商的客服热线每天有上百万的通话录音，如果都通过人工进行复听、业务分类，那会耗费大量的人力和时间。

而人工智能的出现，可以在尽可能降低前期人员标注的前提下，通过自动聚类和人工抽样标注完成训练语料制作；通过机器学习对训练语料进行特征建模，最后对通话录音文本进行非结构化的文本分析、业务分类，以此降低人工复听压力、节省人力。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于人工智能来实现业务分析的方法，解决了背景技术中的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于人工智能来实现业务分析的方法，所述方法包括步骤：

(1)对原始通话录音转写文本进行降噪处理；

(2)将转写文本转成布尔向量，再通过杰卡德相似距离度量文本间的相似度，最后根据DBSCAN算法将紧密项相连的文本划为一类，从而得到了一个聚类的类别；

(3)通过人工抽样方法，提取类别下的文本进行识别，对类别进行业务判定，从而完成训练语料的制作工序；

(4)对训练语料进行词频计算，根据TF-IDF公式计算词的权重，从而进行文本特征提取；然后对文本特征进行归一化处理，抽象成一个向量化的样本集，最后保存成模型文件，提交给分类器继续训练；

(5)最后分类器对测试文本进行分析预测，找出概率最高的业务类别。

优选的，所述降噪处理包括步骤：

(1)XML标记消除，通过正则表达式<[^>]+>去除ASR语音转写引擎转写后保留的<xml>标记；

(2)停用词处理，先将文本进行分词处理，然后将单词与停用词表的词进行匹配，过滤掉停用词。

优选的，所述文本聚类包括步骤：

(1)将文本转化成n维布尔向量，即所有维度的取值为0或1，比如某文本A的布尔向量是(0,1,0,1,0,……1)，某文本B的布尔向量是(0,0,1,0,0,……0).向量的每个维度对应了一个词，1表示集合中包含该词，即向量中1对应位置的词出现在文本中，0表示集合不包含该元素。

(2)对所有文本向量集任意两两计算杰卡德系数，并保存于杰卡德系数矩阵中，用于计算杰卡德距离。再根据基于密度的DBSCAN算法，寻找密度相连的最大文本集合，从而得到一个聚类的集合。

优选的，所述模型生成包括步骤：

(1)将训练语料读入内存，对每个文档进行分词处理；

(2)计算每个单词的在文档中的词频，以及单词出现的文档数，根据TF-IDF公式计算每个单词的权值；

(3)权重对词进行倒排序，按文档的单词数比例从文档选取一定数量。最后对这些特征词进行归一化处理，并保存到模型文件中。

优选的，所述分类器是指基于朴素贝叶斯实现的文本分类器。

(三)有益效果

与现有技术相比，本发明提供了一种基于人工智能来实现业务分析的方法，具备以下有益效果：

1、该基于人工智能来实现业务分析的方法，能够将信息进行自动分析，并且处理，根据采取的算法能够较好的进行处理和分析，实现高效率、自动化，准确性高的目的，通过朴素贝叶斯文本分类器进行文本分类预测，最后得到概率最高的分类结果。

附图说明

图1为本发明处理系统示意图；

图2为本发明工作流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：一种基于人工智能来实现业务分析的方法，所述方法包括步骤：

(1)对原始通话录音转写文本进行降噪处理；

优选的，所述降噪处理包括步骤：

优选的，所述文本聚类包括步骤：

优选的，所述模型生成包括步骤：

(1)将训练语料读入内存，对每个文档进行分词处理；

1、通过杰卡德距离计算文本相似度。对于两个文本向量集合A,B，杰卡德系数定义为A与B交集的大小与A与B并集的大小的比值，定义表达式如下：

与杰卡德系数相关的指标叫做杰卡德距离，用于描述集合间的不相似度，定义表达式如下：

2、根据基于密度的DBSCAN算法进行文本聚类。DBSCAN算法定义从某个选定的核心文本(核心点)出发，不断向密度可达的区域扩张，从而得到一个包含核心文本和边界文本的最大化区域，区域中任意两点密度相连,最终得到一个聚类的集合。

3、根据TF-IDF公式来计算每个单词的特征权值。公式定义如下：

其中tfik表示单词tk在文档di中出现的频率，N为训练文档总数，nk为在训练集中出现词tk的文档数。一批文档中某词出现的频率越高，它的区分度则越小，权值也越低；而在一个文档中，某词出现的频率越高，区分度则越大，权重越大。

4、通过朴素贝叶斯文本分类器进行文本分类预测。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率，属于有监督学习。文本分类预测包括步骤：

(1)计算每个类别的先验概率P(yi)，即对文本x进行预测前，每个类别yi的出现概率；

(2)统计训练集里面每个类别的下面各种特征的条件概率p(ai|yi)，即所有特征词ai在所有类别下的出现概率；

(3)对需要预测的文本x，分别计算相对每个类别的p(x|yi)p(yi)。其中p(x|yi)由如下公式计算得出：

p(x|yi)＝p(a1|yi)*p(a2|yi)...*p(am|yi)

其中a1、a2、am为训练集中的特征词。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面对本发明的实施方式作进一步详细的说明。

1、“文本聚类系统”通过FTP下载通话录音转写文本文件；

2、“文本聚类系统”读取转写文本文件内容，首先对文本内容进行降噪处理，然后根据杰卡德距离计算文本间的相似度，再通过DBSCAN算法进行文件聚类；

3、“文本聚类系统”把相似度高的文本文件保存到同一个文件夹下，最后得到跟业务分类个数的相同文件夹个数。

4、业务人员对每个文件夹的文件进行抽样检查，根据内容对每个文件夹按业务名进行重命名，从而完成训练语料的制作。

5、“文本分类系统”加载训练语料，从语料中提取分类的特征属性后，保存到模型文件中。

6、“文本分类系统”通过FTP下载需要预测分析的通话录音文件，通过朴素贝叶斯文本分类器进行文本分类预测，最后得到概率最高的分类结果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于人工智能来实现业务分析的方法，其特征在于，所述方法包括步骤：

(1)对原始通话录音转写文本进行降噪处理；

2.根据权利要求1所述的方法，其特征在于，所述降噪处理包括步骤：

3.根据权利要求1所述的方法，其特征在于，所述文本聚类包括步骤：

4.根据权利要求1所述的方法，其特征在于，所述模型生成包括步骤：

(1)将训练语料读入内存，对每个文档进行分词处理；

5.根据权利要求1所述的方法，其特征在于，所述分类器是指基于朴素贝叶斯实现的文本分类器。