CN113239193A

CN113239193A - 一种文本挖掘方法及系统

Info

Publication number: CN113239193A
Application number: CN202110479541.7A
Authority: CN
Inventors: 王露瑶; 沈艺; 陈述; 钟涛; 张兵兵
Original assignee: Shenzhen Yunwangwandian Technology Co ltd
Current assignee: Shenzhen Yunwangwandian Technology Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-10

Abstract

本申请涉及一种文本挖掘方法及系统。方法包括：接收用户问句向量，与已有语料进行相似度判断，根据判断结果确定待聚类数据；根据预设簇心列表，将所述待聚类数据生成与所述预设簇心列表对应的簇；遍历所有所述簇，分割包含多个用户问类别的簇，使每个所述簇对应一个用户问类别；精简所有所述簇，合并包含同一意图的所有簇；对比每个簇生成的结果，确定最优聚类数据。本发明可以进行文本向量化并对向量化后的文本进行聚类，将所有相近的用户问归纳为新类别，扩充原有机器人的语料类别，提升客服机器人的解决率。

Description

一种文本挖掘方法及系统

技术领域

本申请涉及信息挖掘的技术领域，涉及一种文本挖掘方法及系统，特别是通过使用Faiss的K-Means均值聚类来对文本进行挖掘。

背景技术

现有的文本挖掘一般分为两步，第一步是对向量化的文本进行聚类。文本特征通过结巴分词(精确模式)将句子进行准确切分，通过停用词表以及一系列正则规则对文本进行清洗，完成文本的预处理。通过根据Word2vec训练词向量或者TF-IDF词频统计方式将文本向量化，即将自然语言中的词转换为计算机可以理解的稠密向量。对于向量化的文本，使用k-Means、DBSCAN等聚类方式进行文本聚类，将语义相近的文本划分成同一簇。第二步是提取关键词。文本特征经过结巴分词将文本进行切分并附带词性，给予不同的词性以不同的权重系数，从语义的角度名词以及动词的权重应大于形容词、副词等。使用TF-IDF词频逆词频的方式计算文本中各单词的TF-IDF数值，并将词性的权重系数与TF-IDF数值相乘作为关键词特征，并构造关键词列表。根据关键词列表，对海量文本进行分类，将包含同一关键词的划分为一簇。

然而，现有的做法存在如下缺陷：

(1)对向量化文本进行聚类的不足。

分词依赖于结巴分词，结巴分词不准确将造成向量化的文本不能表达文本的语义，故聚类出来的同一簇中将包含多种语义意图的文本。

K-means需要人为划定簇心的数量，若划分出来的簇的数量与实际文本的簇的数量大不相同，将造成聚类的同一簇中包含多种语义的文本或者不同簇中包含同一语义的文本。

(2)关键词提取的不足。

关键词提取技术，是以关键词索引来进行文本的分类。可能造成截然相反的语义，但同时包含同一关键词就划分为同一个类别，该种做法没有考虑到文本的语义特征。

发明内容

为了解决上述问题，本发明提出了一种文本挖掘方法及系统，包括：

一种文本挖掘方法，该方法包括：

接收用户问句向量，与已有语料进行相似度判断，根据判断结果确定待聚类数据；

根据预设簇心列表，将待聚类数据生成与预设簇心列表对应的簇；

遍历所有簇，分割包含多个用户问类别的簇，使每个簇对应一个用户问类别；

精简所有簇，合并包含同一意图的所有簇；

对比每个簇生成的结果，确定最优聚类数据。

在一个实施例中，与已有语料进行相似度判断，根据判断结果确定待聚类数据，进一步包括：

采用高维向量相似度检索，筛选用户问句向量中与已有语料的接近数据；

计算接近数据与已有语料的余弦值，余弦值低于相似度阈值的接近数据确定为待聚类数据。

在一个实施例中，将待聚类数据生成预设簇心列表对应的簇，进一步包括：

根据预设簇心列表，遍历待聚类数据中每一个用户问，确定与该用户问对应的簇心，形成对应预设簇心列表的簇。

在一个实施例中，分割包含多个用户问类别的簇，使每个簇对应一个用户问类别，进一步包括：

对包含多个用户问类别的簇的簇心数据进行分离，将离簇心最近的用户问加入辅助候选列表；

遍历该簇余下的所有用户问，计算余下的用户问与辅助候选列表的用户问的余弦距离，将该余弦距离符合第一距离阈值范围的用户问加入辅助候选列表；

根据辅助候选列表确定新的簇心，辅助候选列表中的所有用户问形成新的簇；

重复上述步骤，直至该簇心下所有的用户问均划分到新的簇心下。

在一个实施例中，精简所有簇，合并包含同一意图的所有簇，进一步包括：

根据内聚性对所有簇进行排序，确定内聚性最优簇；

遍历剩余的簇，合并与内聚性最优簇的簇心的余弦距离符合第二距离阈值范围的所有簇；

重复上述步骤，直至包含同一意图的不同簇均合并划分为同一簇。

在一个实施例中，方法还包括：

计算各簇心与该簇包含的所有用户问的余弦距离，过滤该簇内余弦距离低于第三距离阈值的用户问。

在一个实施例中，确定最优聚类数据，包括：计算所有簇的内聚度与分离度的比值，确定比值最大的为最优聚类数据。

在一个实施例中，方法还包括将聚类生成的数据加入已有语料。

在一个实施例中，获取用户问句向量包括：

将待挖掘的用户问转化为句向量，通过分类模型，筛选问句类型为问句的用户问；

通过文本相似度模型，生成聚类特征，输出包含上下文语义的用户问句向量。

一种文本挖掘系统，该系统包括：

判定模块，用于接收用户问句向量，与已有语料进行相似度判断，根据判断结果确定待聚类数据；

聚类模块，用于根据预设簇心列表，将待聚类数据生成与预设簇心列表对应的簇；

分割模块，用于遍历所有簇，分割包含多个用户问类别的簇，使每个簇对应一个用户问类别；

合并模块，用于精简所有簇，合并包含同一意图的所有簇；

输出模块，用于对比每个簇生成的结果，确定最优聚类数据。

本发明的文本挖掘方法及系统，可以进行文本向量化并对向量化后的文本进行聚类，将所有相近的用户问归纳为新类别，扩充原有机器人的语料类别，提升客服机器人的解决率。。

附图说明

图1为一个实施例中一种文本挖掘方法的步骤示意图；

图2为一个实施例中一种文本挖掘方法的整体流程示意图；

图3为一个实施例中一种文本挖掘方法的精简流程示意图；

图4为一个实施例中一种文本挖掘系统的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的一种文本挖掘方法，首先构建一个含有多种文案布局样式的模板库，根据设计的筛选条件选择一个模板，然后参考模板原型来布置文字排版方式，根据选择模板的不同最终实现排版样式多样化。该方法在应用在智能合成电商banner图上，根据用户输入的文案内容和指定的布局区域，该方法可以在无人工干预的情况下设计出当前布局区域内多种文案排版样式，弥补了目前智能合成banner系统中同一模板中文案布局形式单一的缺陷，同时该方法支持用户设置是否给文案修饰层预留出位置，进而提升整个布局的视觉效果。

在一个实施例中，如图1-图3所示，包括以下步骤：

S100、接收用户问句向量，与已有语料进行相似度判断，根据判断结果确定待聚类数据。

在本实施例中，接收系统已经处理好的用户问句向量，与已有语料进行相似度判断，从用户问句向量中根据判断结果确定需要进行聚类的待聚类数据。

具体地，首先，采用Faiss的高维向量相似度检索，筛选用户问句向量中与已有语料的接近数据。

其次，计算每个接近数据与已有语料两者之间的余弦值，余弦值低于相似度阈值的接近数据说明与已有语料不相似，则被确定为待聚类数据，后续进行聚类操作。

在另一个实施例中，获取用户问句向量的方法包括：

问句区分。将待挖掘的用户问转化为句向量，输入分类模型中，通过该分类模型，筛选出问句类型是问句的用户问，待进入聚类环节。

生成聚类特征。将上述环节得到是问句的用户问，通过文本相似度模型，生成对应的聚类特征，输出包含上下文语义的用户问句向量。具体地，载入文本相似度模型，并给定生成聚类特征所需的输入层以及输出层，输入模型所需的特征X([x₁，x₂，x_i...x_n])，模型输出D([d₁，d₂，d_i...d_m])，其中m表示文本特征向量的维度，d_i为小数。通过该文本相似度模型，可以输出包含上下文语义的文本向量。

S200、根据预设簇心列表，将待聚类数据生成与预设簇心列表对应的簇。

在本实施例中，在获得步骤S100确定的待聚类数据后，根据簇心重新划分问句。由于使用Faiss的K-means进行聚类，因此聚类的簇心数需要在聚类之前就需要确定好，所以在聚类之前，预设一个簇心列表KList([k₁，k₂，k₃...k_n]))，根据簇心列表的簇心数，将待聚类数据生成与之对应的类别数的聚类数据形成的簇。

具体地，将K个簇心存入Faiss索引库，根据Faiss建立的簇心向量索引库，遍历待聚类数据中每一个用户问，确定与该用户问对应的簇心，找出每一个用户问相对应的最近的簇心，并指定该离用户问最近的簇心就是该用户问的类别。依次类推，可以将所有待聚类数据的用户问划入对应的簇心，形成对应预设簇心列表的簇。

S300、遍历所有簇，分割包含多个用户问类别的簇，使每个簇对应一个用户问类别。

在本实施例中，虽然经步骤S200根据簇心列表确定好了簇，但是由于簇心是人为指定，会带来簇心数目不准确的问题，造成一个中心点下方包含多个新意图的现象，因此还需要遍历所有簇，对于包含多个用户问类别的簇，分割该簇，分裂产生新的簇心，使每个簇对应一个用户问类别。

具体地，找出所有簇中包含含多个用户问类别的簇，对Kmeans聚类后的包含多个用户问类别的簇的簇心数据进行分离，将离簇心最近的用户问的文本加入辅助候选列表。

遍历该簇内余下的所有用户问的文本，计算余下的每个用户问与辅助候选列表的用户问二者之间的余弦距离，将该余弦距离符合第一距离阈值范围的用户问的文本也加入到辅助候选列表，直至所有用户问的文本均被比较完毕。优选地，余弦距离大于第一距离阈值。

根据辅助候选列表确定新的簇心，优选地，将辅助候选列表中所有用户问的文本按列求平均作为簇心向量，同时辅助候选列表中的所有用户问形成新的簇。

重复上述步骤，将没有加入到辅助候选列表的用户问的文本重复上述操作，直至该簇心下所有的用户问均划分到新的簇心下。

S400、精简所有簇，合并包含同一意图的所有簇。

在本实施例中，为了进一步保证聚类数据的准确率，需要对聚类数据进行精简，保证簇心内距离小而簇间的距离较大。因此，通过步骤S300后，获得所有均对应一个类别的簇，精简所有簇，将包含同一意图的所有簇进行合并，形成新的簇。

具体地，根据内聚性对所有簇进行排序，确定内聚性最优簇。

遍历剩余的簇，合并与内聚性最优簇的簇心的余弦距离符合第二距离阈值范围的所有簇，优选地，找出与内聚最优簇的簇心小于第二距离阈值的所有簇进行合并。

在本实施例中，通过上述步骤确保了各聚类类别的差异性较大，即各簇中心点间隔距离较远。通过比较簇心之间的两两距离，合并距离小的簇，从而保证簇心类别之间的差异性较大。

在另一个实施例中，为了确保各聚类类别间的差异性较大的同时还需要确保各聚类类别内的相似度较高，还包括对簇内数据进行精简的步骤。在，具体地，对Faiss聚类生成的簇心向量进行归一化，计算各簇心与该类别的簇包含的所有用户问的余弦距离，过滤掉余弦距离低于第三距离阈值的用户问。该做法可删除离群点，保证各簇心下的用户问相似。

在另一个实施例中，确保簇内的所有用户问均相似的同时需要确保经过第三距离阈值筛选后的簇内的用户问的数量，使得数量要大于固定数量阈值。

S500、对比每个簇生成的结果，确定最优聚类数据。

在本实施例中，由于上述Faiss的K-means聚类指定了簇心列表，故根据簇心数的不同生成不同的聚类数据。因此需要根据指定的聚类数据评价指标CSP来选择列表中聚类效果最好的数据，参与后续的操作。具体的，需要再对通过上述步骤得到的所有簇下的聚类数据进行评价，对比每个簇生成的结果，确定最优聚类数据。

定义聚类数据评价指标CSP。考察簇心内部内聚度以及簇心之间分离度。

内聚度衡量一个类里成员之间的紧凑程度，其计算公式如下：

其中，m_i是簇心数目,x_i是用户问向量,w_i是簇心向量,‖x_i-w_i‖是用户问与簇心的余弦距离，距离越大代表内聚性能越好。

其中，CP_k是各簇心下用户问到簇心的平均距离。

分离度衡量不同簇心之间的分离情况，其计算公式如下：

其中，w_i、w_j表示簇心,‖w_i-w_j‖₂是任意两个簇心点之间的y余弦距离，距离越小代表任意两簇心之间的区分度越高。

最终选取CSP＝CP/SP作为最终的衡量指标，值越大表示聚类性能越优。

根据聚类数据评价指标CSP，计算所有簇的内聚度与分离度的比值CSP，确定CSP比值最大的为最优聚类数据。

在另一个实施例中，文本挖掘方法还包括将通过上述步骤聚类生成的数据加入已有语料，增加原有语料种类数量。

在另一个实施例中，文本挖掘方法还包括与已有语料比对过滤。为了确保推荐的新意图与原有的知识库已包含的意图之间没有重复，需要将步骤S400精简提纯后的聚类数据与电商客服已有语料中所有的相似问进行Faiss高维向量相似度检索，找出各簇心下的用户问与已有电商客服语料最相近的意图。若该簇心下所包含的同一意图的数量超过该簇心下所包含用户问的一半，则认为该待推荐的意图与原有意图重复，不进行推荐。

应该理解的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，附图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了应用上述方法的文本挖掘系统，包括：

判定模块100，用于接收用户问句向量，与已有语料进行相似度判断，根据判断结果确定待聚类数据。

聚类模块200，用于根据预设簇心列表，将待聚类数据生成与预设簇心列表对应的簇。

分割模块300，用于遍历所有簇，分割包含多个用户问类别的簇，使每个簇对应一个用户问类别。

合并模块400，用于精简所有簇，合并包含同一意图的所有簇。

输出模块500，用于对比每个簇生成的结果，确定最优聚类数据。

关于文本挖掘系统的具体限定可以参见上文中对于文本挖掘方法的限定，在此不再赘述。上述系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是数据管理服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的数据源终端通过网络连接通信，以接收数据源终端上传的数据。该计算机程序被处理器执行时以实现文本挖掘方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述文本挖掘方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本发明公开了一种文本挖掘方法及系统，在文本特征向量化方面，使用字来分割文本，并通过训练文本编码器来生成文本向量，使得文本特征表达更符合语义。在对向量化文本进行聚类方面，对聚类后的数据进行分割与合并操作，使得聚类的同一簇中的文本不包含多种语义的文本以及不同簇中不包含同一语义的文本。在对聚类后的数据进行精简提纯，使得簇内之间的文本具有较高的内聚性同时簇间的数据具有较高的分割性。

实际业务中，当客服机器人接受到一个新的用户问的时候，需要比较这个新问题与已有客服语料中所有问题的相似度，找出最相近的问句，根据阈值决定是否做出回答。对所有未作出答复的用户问，使用本发明提出的本文挖掘方法来进行文本向量化并对向量化后的文本进行聚类，将所有相近的用户问归纳为新类别，扩充原有机器人的语料类别，提升客服机器人的解决率。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本挖掘方法，其特征在于，所述方法包括：

根据预设簇心列表，将所述待聚类数据生成与所述预设簇心列表对应的簇；

遍历所有所述簇，分割包含多个用户问类别的簇，使每个所述簇对应一个用户问类别；

精简所有所述簇，合并包含同一意图的所有簇；

对比每个簇生成的结果，确定最优聚类数据。

2.根据权利要求1所述的方法，其特征在于，所述与已有语料进行相似度判断，根据判断结果确定待聚类数据，进一步包括：

采用高维向量相似度检索，筛选所述用户问句向量中与已有语料的接近数据；

计算所述接近数据与已有语料的余弦值，所述余弦值低于相似度阈值的接近数据确定为待聚类数据。

3.根据权利要求1所述的方法，其特征在于，所述将所述待聚类数据生成所述预设簇心列表对应的簇，进一步包括：

根据所述预设簇心列表，遍历所述待聚类数据中每一个用户问，确定与该用户问对应的簇心，形成对应所述预设簇心列表的簇。

4.根据权利要求3所述的方法，其特征在于，所述分割包含多个用户问类别的簇，使每个所述簇对应一个用户问类别，进一步包括：

根据所述辅助候选列表确定新的簇心，所述辅助候选列表中的所有用户问形成新的簇；

5.根据权利要求1所述的方法，其特征在于，所述精简所有所述簇，合并包含同一意图的所有簇，进一步包括：

根据内聚性对所有簇进行排序，确定内聚性最优簇；

遍历剩余的簇，合并与所述内聚性最优簇的簇心的余弦距离符合第二距离阈值范围的所有簇；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述确定最优聚类数据，包括：计算所有簇的内聚度与分离度的比值，确定所述比值最大的为最优聚类数据。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括将聚类生成的数据加入已有语料。

9.根据权利要求1所述的方法，其特征在于，获取所述用户问句向量包括：

10.一种文本挖掘系统，其特征在于，所述系统包括：

聚类模块，用于根据预设簇心列表，将所述待聚类数据生成与所述预设簇心列表对应的簇；

分割模块，用于遍历所有所述簇，分割包含多个用户问类别的簇，使每个所述簇对应一个用户问类别；

合并模块，用于精简所有所述簇，合并包含同一意图的所有簇；