CN112148880A - 一种客服对话语料聚类方法、系统、设备及存储介质 - Google Patents
一种客服对话语料聚类方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN112148880A CN112148880A CN202011039075.2A CN202011039075A CN112148880A CN 112148880 A CN112148880 A CN 112148880A CN 202011039075 A CN202011039075 A CN 202011039075A CN 112148880 A CN112148880 A CN 112148880A
- Authority
- CN
- China
- Prior art keywords
- clustering
- cluster
- corpus
- optimal
- numbers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 235000012571 Ficus glomerata Nutrition 0.000 description 2
- 244000153665 Ficus glomerata Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种客服对话语料聚类方法、系统、设备及存储介质,通过获取待聚类语料的语料数目;根据所述语料数目,确定多个聚类数目;根据所述多个聚类数目,得到每个聚类数目对应的聚类簇;对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;根据所述最优聚类簇确定最优聚类数目以及最优聚类数目对应的聚类簇;输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。很好的解决了在使用聚类算法时,需要人工确定聚类数目的问题。尤其是在语料量大,簇类数目大的情况下,更加准确地确定聚类数目,使得语料聚类结果更加准确。
Description
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种客服对话语料聚类方法、系统、设备及存储介质。
背景技术
语料聚类分析是指大量信息中获取有价值的热点信息,为企业制定产品计划、营销策略和确定服务重心等提供参考依据。在自然语言处理技术的应用中,我们经常会需要用到无监督的聚类算法进行语料聚类分析。在聚类算法中,k均值聚类算法是比较经典好用的算法,但是k均值聚类算法有个问题,需要指定聚类数目才能有比较好的聚类效果,但是在很多实际应用场景,用户通常是根据语料信息的数目选择聚类数目,但是,语料信息聚类数目较多时,聚类数目不好确定,而聚类数据估计不准确会导致最终的聚类结果不准确。
发明内容
有鉴于此,本发明实施例提供了一种客服对话语料聚类方法、系统、计算机设备及计算机可读存储介质,用于解决聚类数目不好确定导致聚类结果不准确的问题。
本发明实施例是通过下述技术方案来解决上述技术问题:
一种客服对话语料聚类方法,包括:
获取待聚类语料的语料数目;
根据所述语料数目,确定多个聚类数目;
根据所述多个聚类数目,得到每个聚类数目对应的聚类簇;
对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;
根据所述最优聚类簇确定最优聚类数目;
输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。
进一步地,所述根据所述语料数目,确定多个聚类数目包括:
根据预设的聚类数目计算规则,确定聚类数目的范围;
根据所述聚类数目的范围,确定所述聚类数目的步长;
根据所述聚类数目的范围以及所述聚类聚类数目的步长,确定多个聚类数目。
进一步地,所述根据所述多个聚类数目,得到每个聚类数目对应的聚类簇包括:
根据所述多个聚类数目,将所述待聚类语料分成与每个聚类数目对应的多个待聚类簇;
对所述多个待聚类簇中的待聚类语料进行处理,得到语料特征向量;
对所述语料特征向量进行聚类计算,得到所述每个聚类数目对应的多个聚类簇。
进一步地,所述对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇包括:
计算每个聚类簇里的语料特征向量的均方差;
将均方差超过预设阈值的聚类簇进行重新聚类以及
将均方差不超过预设阈值的聚类簇作为每个聚类数目对应的最优聚类簇。
进一步地,所述根据所述最优聚类簇确定最优聚类数目包括:
计算所述每个聚类数目对应的最优聚类簇的轮廓系数;
确定轮廓系数最大的聚类数目为最优聚类数目。
进一步地,所述对所述多个待聚类簇中的待聚类语料进行处理,得到语料特征向量包括:
对所述待聚类语料进行分词处理,得到与所述待聚类语料对应的分词;
去除分词中的停用词,得到所述待聚类语料对应的实体;
对所述实体进行词向量映射,得到所述语料特征向量。
进一步地,所述方法还包括:
将所述语料信息聚类结果上传至区块链中。
为了实现上述目的,本发明实施例还提供一种客服对话语料聚类系统,包括:
语料数目获取模块,用于获取待聚类的语料的语料数目;
聚类数目确定模块,用于根据所述语料数目,确定多个聚类数目;
聚类簇获取模块,用于根据所述多个聚类数目,得到每个聚类数目对应的聚类簇;
单独聚类模块,用于对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;
最优聚类数目确定模块,用于根据所述最优聚类簇确定最优聚类数目;
语料信息聚类结果输出模块,用于输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。
为了实现上述目的,本发明实施例还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述客服对话语料聚类方法的步骤。
为了实现上述目的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的客服对话语料聚类方法的步骤。
本发明实施例提供的客服对话语料聚类方法、系统、计算机设备及计算机可读存储介质,通过获取待聚类语料的语料数目;根据所述语料数目,确定多个聚类数目;根据所述多个聚类数目,得到每个聚类数目对应的聚类簇;对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;根据所述最优聚类簇确定最优聚类数目;输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果,根据语料数据自动确定k均值聚类算法中的聚类数目,提高了语料聚类结果的准确性。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为本发明实施例一之客服对话语料聚类方法的步骤流程图;
图2为本发明实施例一之根据所述语料数目,确定多个聚类数目方法的步骤流程图;
图3为本发明实施例一之根据所述多个聚类数目,得到每个聚类数目对应的聚类簇方法的步骤流程图;
图4为本发明实施例一之对所述多个待聚类簇中的待聚类语料进行处理,得到语料特征向量方法的步骤流程图;
图5为本发明实施例一之对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇方法的步骤流程图;
图6为本发明实施例一之根据所述最优聚类簇确定最优聚类数目方法的步骤流程图;
图7为本发明实施例二之客服对话语料聚类系统的程序模块示意图;
图8为本发明实施例三之计算机设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
请参阅图1~6,示出了本发明实施例之客服对话语料聚类方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述,具体如下:
如图1所示,所述客服对话语料聚类方法可以包括步骤S100~S600,其中:
步骤S100:获取待聚类语料的语料数目。
具体的,语料数目是指待聚类的语料的数目,例如,待聚类的语料数目为10条,100条,1000等。其中,待聚类语料可以是公司内部呼叫中心提供的录音数据或是客服在提供服务的过程中的聊天记录等。
步骤S200:根据所述语料数目,确定多个聚类数目。
在示例性的实施例中,如图2所示,步骤S200还进一步包括:
步骤S201:根据预设的聚类数目计算规则,确定聚类数目的范围。
步骤S202:根据所述聚类数目的范围,确定所述聚类数目的步长。
步骤S203:根据所述聚类数目的范围以及所述聚类聚类数目的步长,确定多个聚类数目。
具体的,根据语料信息的数目,计算的聚类数目的范围以及搜索的步长。聚类数目是指将语料信息分成多少个聚类簇,聚类数目的范围会根据待聚类的语料数目计算。如果语料数目比较少,则聚类数目也相应较少,同时步长相应的也比较小,在实例性的实施例中,聚类数目的范围为大于聚类树的十分之一的最小正整数,小于聚类数目的四分之一的最小正整数;步长是指确定了聚类数目的范围后,选取聚类数目的间隔,在示例性的实施例中,步长同样与语料数目相关。例如,语料数目比较大时,例如聚类数目的范围>100,,步长为20。如果10<聚类数目<=30,步长为1;30<聚类数目<100,步长为5;对于很少的语料数比如<10条,没有聚类的需要,则不作聚类处理。通过确定聚类数目的范围以及步长,会确定多个聚类数目。
步骤S300:根据所述多个聚类数目,得到每个聚类数目对应的聚类簇。
具体的,由于有多个聚类数目,每个聚类数目都有其对应数量的聚类簇,例如,聚类数目为10时,则对应10个聚类簇,聚类数目为20时,则对应20个聚类簇。
在示例性的实施例中,如图3所示,步骤S300还可以进一步包括:
步骤S301:根据所述多个聚类数目,将所述待聚类语料分成与每个聚类数目对应的多个待聚类簇。
步骤S302:对所述多个待聚类簇中的待聚类语料进行处理,得到语料特征向量。
在示例性的实施例中,如图4所示,步骤S302还可以进一步包括:
步骤S3021:对所述待聚类语料进行分词处理,得到与所述待聚类语料对应的分词。
步骤S3022:去除分词中的停用词,得到所述待聚类语料对应的实体。
步骤S3023:对所述实体进行词向量映射,得到所述语料特征向量。
具体的,将文本进行分词处理,分词以后去除停用词,得到待聚类语料对应的实体,实体是指现实世界中具有区别性,可以独立存在的事务或者抽象概念,例如,“贷款”、“企业”、“账户”等。然后查找实体对应的词向量,根据tf-idf的权重,将所有实体的向量相加得到样本语料的句向量,即为语料特征向量。
步骤S303:对所述语料特征向量进行聚类计算,得到所述每个聚类数目对应的多个聚类簇。
具体的,根据聚类数目得到需要聚类的簇的数量,然后在语料特征向量里随机选取这些数量的语料特征向量作为起始簇的中心,计算其余每个语料特征向量到这个中心的欧式距离,将离的最近(即距离最短的)中心的簇归给这个特征信息。当所有特征信息完成第一轮的迭代,第二轮开始迭代。第二轮不再随机选取中心点,而是根据上轮结果里每个语料特征向量,取其平均值作为该簇的中心,计算各个特征信息到中心点的距离,重新分配语料特征向量的归属的聚类簇,如此类推迭代,直到收敛,得到每个聚类数目对应的多个聚类簇。收敛条件是中心点不再发生变化,或者变化距离小于某个阈值。
步骤S400:对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇。
在示例性的实施例中,如图5所示,步骤S400还可以进一步包括:
步骤S401:计算每个聚类簇里的特征向量的均方差。
步骤S402:将均方差超过预设阈值的聚类簇进行重新聚类以及
将均方差不超过预设阈值的聚类簇作为每个聚类数目对应的最优聚类簇。
具体的,在每次聚类后,利用组内均方差和每簇语料数,根据预设阈值,把该聚类簇进行再次聚类。计算每个聚类数目对应的聚类簇里语料特征向量的距离均方差和该聚类中语料特征向量的数目,如果均方差超过设定的阈值,则该聚类簇会单独进行重新聚类。具体做法如下:将一个聚类数目对应的每个聚类簇分成几个子聚类簇,即最终的聚类数目是K=k1+k2+…+kn+k(初始值)。通过对每个聚类数目对应的聚类簇进行单独聚类,保证了每个聚类数目对应的聚类簇都能到了很好的聚类效果,得到每个聚类数目对应的最优聚类簇。
其中,均方差的定义如下:
其中,xi为每条语料对应的向量,r为该簇的中心点,N为该聚类中语料特征向量的数目,均方差能够有效衡量一个簇内的数据的差异性。
步骤S500:根据所述最优聚类簇确定最优聚类数目。
具体的,遍历聚类数目并记录每个聚类数目对应的轮廓系数,确定最大的轮廓系数对应的聚类数目值为最优聚类数目。
在示例性的实施例中,如图6所示,步骤S500还可以进一步包括:
步骤S501:计算所述每个聚类数目对应的最优聚类簇的轮廓系数;
步骤S502:确定轮廓系数最大的聚类数目为最优聚类数目。
具体的,轮廓系数是衡量聚类好坏的一个指标,轮廓系数值越大,表示聚类效果越好,轮廓系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。
轮廓系数的定义如下:
将待分类数据分为了k个簇,对于簇中的每个向量,分别计算它们的轮廓系数。轮廓系数的具体计算公式如下:
其中,S(i)表示对于聚类簇中其中的一个向量i的轮廓系数,a(i)表示i向量到同一簇内其他点不相似程度的平均值,a(i)的计算公式为:a(i)=average(i向量到所有它属于的簇中其它点的距离);b(i)表示i向量到其他簇的平均不相似程度的最小值,b(i)的计算公式为:b(i)=min(i向量到与它相邻最近的一簇内的所有点的平均距离),将聚类数目对应的所有聚类簇中所有点的轮廓系数求平均,就是该聚类数目的对应的聚类簇的轮廓系数。
步骤S600:输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。
具体的,得到每个聚类簇包含一个类别的特征信息,当输出聚类簇对应的特征信息后,即可根据聚类簇中的特征信息确定该聚类簇的类别。例如聚类簇为A和B。其中,聚类簇A对应的类别可以是“账户余额查询”;聚类簇B对应类别可以是“银行账号查询”,即根据聚类簇中的特征信息共同表达的语义确定。由此,语料信息中蕴藏的信息热点被发掘出来,用户(例如企业)可以根据信息热点确定相关的业务重心,从而改进和优化产品和服务等。
在示例性的实施例中,本方法还包括:将所述语料信息聚类结果存储至区块链中。
具体的,基于语料信息聚类结果得到对应的摘要信息,具体来说,摘要信息由语料信息聚类结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证语料信息聚类结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本方案通过获取待聚类语料的语料数目;根据所述语料数目,确定多个聚类数目;根据所述多个聚类数目,得到每个聚类数目对应的聚类簇;对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;根据所述最优聚类簇确定最优聚类数目以及最优聚类数目对应的聚类簇;输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。很好的解决了在使用聚类算法时,需要人工确定聚类数目的问题。尤其是在语料量大,簇类数目大的情况下,更加准确地确定聚类数目,提高聚类算法的准确性,使得语料聚类的结果更加准确。
实施例二
请继续参阅图7,示出了本发明客服对话语料聚类系统的程序模块示意图。在本实施例中,客服对话语料聚类系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述客服对话语料聚类方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述客服对话语料聚类系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
语料数目获取模块200,用于获取待聚类的语料的语料数目;
聚类数目确定模块202,用于根据所述语料数目,确定多个聚类数目;
进一步地,聚类数目确定模块202还用于:
根据预设的聚类数目计算规则,确定聚类数目的范围;
根据所述聚类数目的范围,确定所述聚类数目的步长;
根据所述聚类数目的范围以及所述聚类聚类数目的步长,确定多个聚类数目。
聚类簇获取模块204,用于根据所述多个聚类数目,得到每个聚类数目对应的聚类簇。
进一步地,聚类簇获取模块204还用于:
根据所述多个聚类数目,将所述待聚类语料分成与每个聚类数目对应的多个待聚类簇;
对所述多个待聚类簇中的待聚类语料进行处理,得到语料特征向量;
对所述语料特征向量进行聚类计算,得到所述每个聚类数目对应的多个聚类簇。
进一步地,聚类簇获取模块204还用于:
对所述待聚类语料进行分词处理,得到与所述待聚类语料对应的分词;
去除分词中的停用词,得到所述待聚类语料对应的实体;
对所述实体进行词向量映射,得到所述语料特征向量。
单独聚类模块206,用于对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;
进一步地,单独聚类模块206还用于:
计算每个聚类簇里的语料特征向量的均方差;
将均方差超过预设阈值的聚类簇进行重新聚类以及
将均方差不超过预设阈值的聚类簇作为每个聚类数目对应的最优聚类簇。
最优聚类数目确定模块208,用于根据所述最优聚类簇确定最优聚类数目。
进一步地,最优聚类数目确定模块208还用于:
计算所述每个聚类数目对应的最优聚类簇的轮廓系数;
确定轮廓系数最大的聚类数目为最优聚类数目。
语料信息聚类结果输出模块210,用于输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。
进一步地,语料信息聚类结果输出模块210还用于:
将所述语料信息聚类结果上传至区块链中。
实施例三
参阅图8,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图8所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及客服对话语料聚类系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如上述实施例的客服对话语料聚类系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行客服对话语料聚类系统20,以实现上述实施例的客服对话语料聚类方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图8仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述客服对话语料聚类系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图7示出了所述实现客服对话语料聚类系统20实施例二的程序模块示意图,该实施例中,所述基于客服对话语料聚类系统20可以被划分为语料数目获取模块200、聚类数目确定模块202、聚类簇获取模块204、单独聚类模块206、最优聚类数目确定模块208和语料信息聚类结果输出模块210。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述客服对话语料聚类系统20在所述计算机设备2中的执行过程。所述程序模块语料数目获取模块200-语料信息聚类结果输出模块210的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储客服对话语料聚类系统20,被处理器执行时实现上述实施例的客服对话语料聚类方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种客服对话语料聚类方法,其特征在于,包括:
获取待聚类语料的语料数目;
根据所述语料数目,确定多个聚类数目;
根据所述多个聚类数目,得到每个聚类数目对应的聚类簇;
对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;
根据所述最优聚类簇确定最优聚类数目;
输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。
2.根据权利要求1所述的客服对话语料聚类方法,其特征在于,所述根据所述语料数目,确定多个聚类数目包括:
根据预设的聚类数目计算规则,确定聚类数目的范围;
根据所述聚类数目的范围,确定所述聚类数目的步长;
根据所述聚类数目的范围以及所述聚类聚类数目的步长,确定多个聚类数目。
3.根据权利要求2所述的客服对话语料聚类方法,其特征在于,所述根据所述多个聚类数目,得到每个聚类数目对应的聚类簇包括:
根据所述多个聚类数目,将所述待聚类语料分成与每个聚类数目对应的多个待聚类簇;
对所述多个待聚类簇中的待聚类语料进行处理,得到语料特征向量;
对所述语料特征向量进行聚类计算,得到所述每个聚类数目对应的多个聚类簇。
4.根据权利要求3所述的客服对话语料聚类方法,其特征在于,所述对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇包括:
计算每个聚类簇里的语料特征向量的均方差;
将均方差超过预设阈值的聚类簇进行重新聚类以及
将均方差不超过预设阈值的聚类簇作为每个聚类数目对应的最优聚类簇。
5.根据权利要求4所述的客服对话语料聚类方法,其特征在于,所述根据所述最优聚类簇确定最优聚类数目包括:
计算所述每个聚类数目对应的最优聚类簇的轮廓系数;
确定轮廓系数最大的聚类数目为最优聚类数目。
6.根据权利要求5所述的客服对话语料聚类方法,其特征在于,所述对所述多个待聚类簇中的待聚类语料进行处理,得到语料特征向量包括:
对所述待聚类语料进行分词处理,得到与所述待聚类语料对应的分词;
去除分词中的停用词,得到所述待聚类语料对应的实体;
对所述实体进行词向量映射,得到所述语料特征向量。
7.根据权利要求6所述的客服对话语料聚类方法,其特征在于,所述方法还包括:
将所述语料信息聚类结果上传至区块链中。
8.一种客服对话语料聚类系统,其特征在于,包括:
语料数目获取模块,用于获取待聚类的语料的语料数目;
聚类数目确定模块,用于根据所述语料数目,确定多个聚类数目;
聚类簇获取模块,用于根据所述多个聚类数目,得到每个聚类数目对应的聚类簇;
单独聚类模块,用于对所述每个聚类数目对应的聚类簇进行单独聚类,得到所述每个聚类数目对应的最优聚类簇;
最优聚类数目确定模块,用于根据所述最优聚类簇确定最优聚类数目;
语料信息聚类结果输出模块,用于输出所述最优聚类数目对应的聚类簇的特征信息,根据所述特征信息得到所述语料信息聚类结果。
9.一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的客服对话语料聚类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的客服对话语料聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011039075.2A CN112148880A (zh) | 2020-09-28 | 2020-09-28 | 一种客服对话语料聚类方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011039075.2A CN112148880A (zh) | 2020-09-28 | 2020-09-28 | 一种客服对话语料聚类方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148880A true CN112148880A (zh) | 2020-12-29 |
Family
ID=73895628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011039075.2A Pending CN112148880A (zh) | 2020-09-28 | 2020-09-28 | 一种客服对话语料聚类方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148880A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948579A (zh) * | 2021-01-29 | 2021-06-11 | 广东海洋大学 | 留言文本信息处理方法、装置、系统和计算机设备 |
CN113010658A (zh) * | 2021-04-08 | 2021-06-22 | 深圳市一号互联科技有限公司 | 一种智能问答知识库构建方法、系统、终端以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0615227A2 (en) * | 1993-03-08 | 1994-09-14 | International Business Machines Corporation | Speech coding apparatus using acoustic prototype vectors |
CN105574005A (zh) * | 2014-10-10 | 2016-05-11 | 富士通株式会社 | 对包含多个文档的源数据进行聚类的装置和方法 |
CN109065071A (zh) * | 2018-08-31 | 2018-12-21 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
CN109086961A (zh) * | 2018-06-26 | 2018-12-25 | 阿里巴巴集团控股有限公司 | 一种信息风险监测方法及装置 |
CN109492109A (zh) * | 2018-11-22 | 2019-03-19 | 北京神州泰岳软件股份有限公司 | 一种信息热点挖掘方法及装置 |
CN110704638A (zh) * | 2019-09-30 | 2020-01-17 | 南京邮电大学 | 一种基于聚类算法的电力文本词典构造方法 |
CN110765360A (zh) * | 2019-11-01 | 2020-02-07 | 新华网股份有限公司 | 文本话题处理方法、装置、电子设备及计算机存储介质 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
-
2020
- 2020-09-28 CN CN202011039075.2A patent/CN112148880A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0615227A2 (en) * | 1993-03-08 | 1994-09-14 | International Business Machines Corporation | Speech coding apparatus using acoustic prototype vectors |
CN105574005A (zh) * | 2014-10-10 | 2016-05-11 | 富士通株式会社 | 对包含多个文档的源数据进行聚类的装置和方法 |
CN109086961A (zh) * | 2018-06-26 | 2018-12-25 | 阿里巴巴集团控股有限公司 | 一种信息风险监测方法及装置 |
CN109065071A (zh) * | 2018-08-31 | 2018-12-21 | 电子科技大学 | 一种基于迭代k-means算法的歌曲聚类方法 |
CN109492109A (zh) * | 2018-11-22 | 2019-03-19 | 北京神州泰岳软件股份有限公司 | 一种信息热点挖掘方法及装置 |
CN110704638A (zh) * | 2019-09-30 | 2020-01-17 | 南京邮电大学 | 一种基于聚类算法的电力文本词典构造方法 |
CN110765360A (zh) * | 2019-11-01 | 2020-02-07 | 新华网股份有限公司 | 文本话题处理方法、装置、电子设备及计算机存储介质 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948579A (zh) * | 2021-01-29 | 2021-06-11 | 广东海洋大学 | 留言文本信息处理方法、装置、系统和计算机设备 |
CN113010658A (zh) * | 2021-04-08 | 2021-06-22 | 深圳市一号互联科技有限公司 | 一种智能问答知识库构建方法、系统、终端以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020048051A1 (zh) | 理财产品推荐方法、服务器及计算机可读存储介质 | |
CN110083623B (zh) | 一种业务规则生成方法及装置 | |
CN111507470A (zh) | 一种异常账户的识别方法及装置 | |
CN104809132A (zh) | 一种获取网络主体社交关系类型的方法及装置 | |
WO2022105496A1 (zh) | 智能回访方法、装置、电子设备及可读存储介质 | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN111797320B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN110610431A (zh) | 基于大数据的智能理赔方法及智能理赔系统 | |
CN112148880A (zh) | 一种客服对话语料聚类方法、系统、设备及存储介质 | |
CN115698977A (zh) | 上下文驱动的数据剖析 | |
CN108446270B (zh) | 电子装置、系统敏感内容的预警方法及存储介质 | |
CN112529429A (zh) | 客户信息校验方法、装置、计算机设备及存储介质 | |
CN108985755B (zh) | 一种账号状态识别方法、装置及服务器 | |
WO2021174881A1 (zh) | 多维度信息的组合预测方法、装置、计算机设备及介质 | |
CN111984674A (zh) | 结构化查询语言的生成方法及系统 | |
CN113448876B (zh) | 一种业务测试方法、装置、计算机设备及存储介质 | |
CN110827137A (zh) | 信用评价方法和装置 | |
CN111986006A (zh) | 基于知识图谱的产品推荐方法、装置、计算机设备及存储介质 | |
CN114511409A (zh) | 用户样本处理方法、装置及电子设备 | |
JP2022153339A (ja) | データベースシステムにおけるレコードマッチング(データベースシステムにおけるレコードマッチングのコンピュータ実装方法、コンピュータプログラム、コンピュータシステム) | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN113591881A (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN113723522B (zh) | 异常用户的识别方法、装置、电子设备以及存储介质 | |
US7933853B2 (en) | Computer-readable recording medium, apparatus and method for calculating scale-parameter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |