CN109684479A - 一种基于人工智能来实现业务分析的方法 - Google Patents
一种基于人工智能来实现业务分析的方法 Download PDFInfo
- Publication number
- CN109684479A CN109684479A CN201811605306.4A CN201811605306A CN109684479A CN 109684479 A CN109684479 A CN 109684479A CN 201811605306 A CN201811605306 A CN 201811605306A CN 109684479 A CN109684479 A CN 109684479A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- classification
- carried out
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 13
- 238000003745 diagnosis Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013518 transcription Methods 0.000 claims abstract description 16
- 230000035897 transcription Effects 0.000 claims abstract description 16
- 238000011946 reduction process Methods 0.000 claims abstract description 8
- 238000004519 manufacturing process Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 206010013032 Diplacusis Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004454 trace mineral analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于人工智能来实现业务分析的方法,所述方法包括步骤:(1)对原始通话录音转写文本进行降噪处理;(2)将转写文本转成布尔向量,再通过杰卡德相似距离度量文本间的相似度,最后根据DBSCAN算法将紧密项相连的文本划为一类,从而得到了一个聚类的类别;(3)通过人工抽样方法,提取类别下的文本进行识别,对类别进行业务判定,从而完成训练语料的制作工序。该基于人工智能来实现业务分析的方法,能够将信息进行自动分析,并且处理,根据采取的算法能够较好的进行处理和分析,实现高效率、自动化,准确性高的目的,通过朴素贝叶斯文本分类器进行文本分类预测,最后得到概率最高的分类结果。
Description
技术领域
本发明涉及电信通讯领域和人工智能领域,特别是涉及一种基于人工智能来实现业务分析的方法。
背景技术
目前缺乏对客服热线的业务分析数据,而通话录音数据能直接反映客服热线的服务内容,能够及时、准确的发现和掌握客户的关注热点;跟踪分析特定客户群体的行为,完善业务监控客户投诉内容及原因,为客户的服务和维系提供支撑。但是,电信运营商的客服热线每天有上百万的通话录音,如果都通过人工进行复听、业务分类,那会耗费大量的人力和时间。
而人工智能的出现,可以在尽可能降低前期人员标注的前提下,通过自动聚类和人工抽样标注完成训练语料制作;通过机器学习对训练语料进行特征建模,最后对通话录音文本进行非结构化的文本分析、业务分类,以此降低人工复听压力、节省人力。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于人工智能来实现业务分析的方法,解决了背景技术中的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于人工智能来实现业务分析的方法,所述方法包括步骤:
(1)对原始通话录音转写文本进行降噪处理;
(2)将转写文本转成布尔向量,再通过杰卡德相似距离度量文本间的相似度,最后根据DBSCAN算法将紧密项相连的文本划为一类,从而得到了一个聚类的类别;
(3)通过人工抽样方法,提取类别下的文本进行识别,对类别进行业务判定,从而完成训练语料的制作工序;
(4)对训练语料进行词频计算,根据TF-IDF公式计算词的权重,从而进行文本特征提取;然后对文本特征进行归一化处理,抽象成一个向量化的样本集,最后保存成模型文件,提交给分类器继续训练;
(5)最后分类器对测试文本进行分析预测,找出概率最高的业务类别。
优选的,所述降噪处理包括步骤:
(1)XML标记消除,通过正则表达式<[^>]+>去除ASR语音转写引擎转写后保留的<xml>标记;
(2)停用词处理,先将文本进行分词处理,然后将单词与停用词表的词进行匹配,过滤掉停用词。
优选的,所述文本聚类包括步骤:
(1)将文本转化成n维布尔向量,即所有维度的取值为0或1,比如某文本A的布尔向量是(0,1,0,1,0,……1),某文本B的布尔向量是(0,0,1,0,0,……0).向量的每个维度对应了一个词,1表示集合中包含该词,即向量中1对应位置的词出现在文本中,0表示集合不包含该元素。
(2)对所有文本向量集任意两两计算杰卡德系数,并保存于杰卡德系数矩阵中,用于计算杰卡德距离。再根据基于密度的DBSCAN算法,寻找密度相连的最大文本集合,从而得到一个聚类的集合。
优选的,所述模型生成包括步骤:
(1)将训练语料读入内存,对每个文档进行分词处理;
(2)计算每个单词的在文档中的词频,以及单词出现的文档数,根据TF-IDF公式计算每个单词的权值;
(3)权重对词进行倒排序,按文档的单词数比例从文档选取一定数量。最后对这些特征词进行归一化处理,并保存到模型文件中。
优选的,所述分类器是指基于朴素贝叶斯实现的文本分类器。
(三)有益效果
与现有技术相比,本发明提供了一种基于人工智能来实现业务分析的方法,具备以下有益效果:
1、该基于人工智能来实现业务分析的方法,能够将信息进行自动分析,并且处理,根据采取的算法能够较好的进行处理和分析,实现高效率、自动化,准确性高的目的,通过朴素贝叶斯文本分类器进行文本分类预测,最后得到概率最高的分类结果。
附图说明
图1为本发明处理系统示意图;
图2为本发明工作流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种基于人工智能来实现业务分析的方法,所述方法包括步骤:
(1)对原始通话录音转写文本进行降噪处理;
(2)将转写文本转成布尔向量,再通过杰卡德相似距离度量文本间的相似度,最后根据DBSCAN算法将紧密项相连的文本划为一类,从而得到了一个聚类的类别;
(3)通过人工抽样方法,提取类别下的文本进行识别,对类别进行业务判定,从而完成训练语料的制作工序;
(4)对训练语料进行词频计算,根据TF-IDF公式计算词的权重,从而进行文本特征提取;然后对文本特征进行归一化处理,抽象成一个向量化的样本集,最后保存成模型文件,提交给分类器继续训练;
(5)最后分类器对测试文本进行分析预测,找出概率最高的业务类别。
优选的,所述降噪处理包括步骤:
(1)XML标记消除,通过正则表达式<[^>]+>去除ASR语音转写引擎转写后保留的<xml>标记;
(2)停用词处理,先将文本进行分词处理,然后将单词与停用词表的词进行匹配,过滤掉停用词。
优选的,所述文本聚类包括步骤:
(1)将文本转化成n维布尔向量,即所有维度的取值为0或1,比如某文本A的布尔向量是(0,1,0,1,0,……1),某文本B的布尔向量是(0,0,1,0,0,……0).向量的每个维度对应了一个词,1表示集合中包含该词,即向量中1对应位置的词出现在文本中,0表示集合不包含该元素。
(2)对所有文本向量集任意两两计算杰卡德系数,并保存于杰卡德系数矩阵中,用于计算杰卡德距离。再根据基于密度的DBSCAN算法,寻找密度相连的最大文本集合,从而得到一个聚类的集合。
优选的,所述模型生成包括步骤:
(1)将训练语料读入内存,对每个文档进行分词处理;
(2)计算每个单词的在文档中的词频,以及单词出现的文档数,根据TF-IDF公式计算每个单词的权值;
(3)权重对词进行倒排序,按文档的单词数比例从文档选取一定数量。最后对这些特征词进行归一化处理,并保存到模型文件中。
优选的,所述分类器是指基于朴素贝叶斯实现的文本分类器。
1、通过杰卡德距离计算文本相似度。对于两个文本向量集合A,B,杰卡德系数定义为A与B交集的大小与A与B并集的大小的比值,定义表达式如下:
与杰卡德系数相关的指标叫做杰卡德距离,用于描述集合间的不相似度,定义表达式如下:
2、根据基于密度的DBSCAN算法进行文本聚类。DBSCAN算法定义从某个选定的核心文本(核心点)出发,不断向密度可达的区域扩张,从而得到一个包含核心文本和边界文本的最大化区域,区域中任意两点密度相连,最终得到一个聚类的集合。
3、根据TF-IDF公式来计算每个单词的特征权值。公式定义如下:
其中tfik表示单词tk在文档di中出现的频率,N为训练文档总数,nk为在训练集中出现词tk的文档数。一批文档中某词出现的频率越高,它的区分度则越小,权值也越低;而在一个文档中,某词出现的频率越高,区分度则越大,权重越大。
4、通过朴素贝叶斯文本分类器进行文本分类预测。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,属于有监督学习。文本分类预测包括步骤:
(1)计算每个类别的先验概率P(yi),即对文本x进行预测前,每个类别yi的出现概率;
(2)统计训练集里面每个类别的下面各种特征的条件概率p(ai|yi),即所有特征词ai在所有类别下的出现概率;
(3)对需要预测的文本x,分别计算相对每个类别的p(x|yi)p(yi)。其中p(x|yi)由如下公式计算得出:
p(x|yi)=p(a1|yi)*p(a2|yi)...*p(am|yi)
其中a1、a2、am为训练集中的特征词。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面对本发明的实施方式作进一步详细的说明。
1、“文本聚类系统”通过FTP下载通话录音转写文本文件;
2、“文本聚类系统”读取转写文本文件内容,首先对文本内容进行降噪处理,然后根据杰卡德距离计算文本间的相似度,再通过DBSCAN算法进行文件聚类;
3、“文本聚类系统”把相似度高的文本文件保存到同一个文件夹下,最后得到跟业务分类个数的相同文件夹个数。
4、业务人员对每个文件夹的文件进行抽样检查,根据内容对每个文件夹按业务名进行重命名,从而完成训练语料的制作。
5、“文本分类系统”加载训练语料,从语料中提取分类的特征属性后,保存到模型文件中。
6、“文本分类系统”通过FTP下载需要预测分析的通话录音文件,通过朴素贝叶斯文本分类器进行文本分类预测,最后得到概率最高的分类结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于人工智能来实现业务分析的方法,其特征在于,所述方法包括步骤:
(1)对原始通话录音转写文本进行降噪处理;
(2)将转写文本转成布尔向量,再通过杰卡德相似距离度量文本间的相似度,最后根据DBSCAN算法将紧密项相连的文本划为一类,从而得到了一个聚类的类别;
(3)通过人工抽样方法,提取类别下的文本进行识别,对类别进行业务判定,从而完成训练语料的制作工序;
(4)对训练语料进行词频计算,根据TF-IDF公式计算词的权重,从而进行文本特征提取;然后对文本特征进行归一化处理,抽象成一个向量化的样本集,最后保存成模型文件,提交给分类器继续训练;
(5)最后分类器对测试文本进行分析预测,找出概率最高的业务类别。
2.根据权利要求1所述的方法,其特征在于,所述降噪处理包括步骤:
(1)XML标记消除,通过正则表达式<[^>]+>去除ASR语音转写引擎转写后保留的<xml>标记;
(2)停用词处理,先将文本进行分词处理,然后将单词与停用词表的词进行匹配,过滤掉停用词。
3.根据权利要求1所述的方法,其特征在于,所述文本聚类包括步骤:
(1)将文本转化成n维布尔向量,即所有维度的取值为0或1,比如某文本A的布尔向量是(0,1,0,1,0,……1),某文本B的布尔向量是(0,0,1,0,0,……0).向量的每个维度对应了一个词,1表示集合中包含该词,即向量中1对应位置的词出现在文本中,0表示集合不包含该元素。
(2)对所有文本向量集任意两两计算杰卡德系数,并保存于杰卡德系数矩阵中,用于计算杰卡德距离。再根据基于密度的DBSCAN算法,寻找密度相连的最大文本集合,从而得到一个聚类的集合。
4.根据权利要求1所述的方法,其特征在于,所述模型生成包括步骤:
(1)将训练语料读入内存,对每个文档进行分词处理;
(2)计算每个单词的在文档中的词频,以及单词出现的文档数,根据TF-IDF公式计算每个单词的权值;
(3)权重对词进行倒排序,按文档的单词数比例从文档选取一定数量。最后对这些特征词进行归一化处理,并保存到模型文件中。
5.根据权利要求1所述的方法,其特征在于,所述分类器是指基于朴素贝叶斯实现的文本分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811605306.4A CN109684479A (zh) | 2018-12-26 | 2018-12-26 | 一种基于人工智能来实现业务分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811605306.4A CN109684479A (zh) | 2018-12-26 | 2018-12-26 | 一种基于人工智能来实现业务分析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684479A true CN109684479A (zh) | 2019-04-26 |
Family
ID=66189830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811605306.4A Pending CN109684479A (zh) | 2018-12-26 | 2018-12-26 | 一种基于人工智能来实现业务分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684479A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183068A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种客户投诉事件差异化处理方法及系统 |
CN113807073A (zh) * | 2020-06-16 | 2021-12-17 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699772A (zh) * | 2015-03-05 | 2015-06-10 | 孟海东 | 一种基于云计算的大数据文本分类方法 |
CN106776713A (zh) * | 2016-11-03 | 2017-05-31 | 中山大学 | 一种基于词向量语义分析的海量短文本聚类方法 |
CN108228687A (zh) * | 2017-06-20 | 2018-06-29 | 上海吉贝克信息技术有限公司 | 大数据知识挖掘及精准跟踪方法与系统 |
-
2018
- 2018-12-26 CN CN201811605306.4A patent/CN109684479A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699772A (zh) * | 2015-03-05 | 2015-06-10 | 孟海东 | 一种基于云计算的大数据文本分类方法 |
CN106776713A (zh) * | 2016-11-03 | 2017-05-31 | 中山大学 | 一种基于词向量语义分析的海量短文本聚类方法 |
CN108228687A (zh) * | 2017-06-20 | 2018-06-29 | 上海吉贝克信息技术有限公司 | 大数据知识挖掘及精准跟踪方法与系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807073A (zh) * | 2020-06-16 | 2021-12-17 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN113807073B (zh) * | 2020-06-16 | 2023-11-14 | 中国电信股份有限公司 | 文本内容异常检测方法、装置以及存储介质 |
CN112183068A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种客户投诉事件差异化处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109739850B (zh) | 一种档案大数据智能分析清洗挖掘系统 | |
CN109145097A (zh) | 一种基于信息提取的裁判文书分类方法 | |
CN110019792A (zh) | 文本分类方法及装置和分类器模型训练方法 | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN107491433A (zh) | 基于深度学习的电商异常金融商品识别方法 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN113191156A (zh) | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 | |
CN111680225A (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN109446300A (zh) | 一种语料预处理方法、语料预标注方法及电子设备 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN110134777A (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN109684479A (zh) | 一种基于人工智能来实现业务分析的方法 | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN115730581A (zh) | 用于投标文档中项目和公司基础信息提取方法和装置 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
Sawalha et al. | Towards an efficient big data management schema for IoT | |
CN104699819A (zh) | 一种义原的分类方法及装置 | |
CN109800215A (zh) | 一种对标处理的方法、装置、计算机存储介质及终端 | |
CN107506407A (zh) | 一种文件分类、调用的方法及装置 | |
CN106775694A (zh) | 一种软件配置代码制品的层次分类方法 | |
CN116975738A (zh) | 一种面向问句意图识别的多项式朴素贝叶斯分类方法 | |
CN108595593B (zh) | 基于主题模型的会议研究热点与发展趋势信息分析方法 | |
CN113094424B (zh) | 通过构建多级指标体系进行图表模式识别的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190426 |
|
WD01 | Invention patent application deemed withdrawn after publication |