CN116595227A

CN116595227A - 一种基于热线数据提取通用知识的方法

Info

Publication number: CN116595227A
Application number: CN202310506965.7A
Authority: CN
Inventors: 张兆勇; 杨春蕾; 吴俊雄; 陈兆亮; 宁方刚; 迟钰沛
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-08-15

Abstract

本发明公开一种基于热线数据提取通用知识的方法，涉及数据处理技术领域，采用技术方案为：S1、获取热线数据，对热线数据进行分类，并提取咨询类和诉求类的热线数据；S2、利用SimCSE模型对提取的热线数据进行排重；S3、从热线数据中提取引用文件型数据，并处理，生成问答对；S4、从热线数据中提取引用文件型数据后，热线数据的剩余数据作为非引用文件型数据，处理非引用文件型数据，生成问答对；S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。本发明可以对不断生成的海量热线数据进行高效过滤，有效提取含有有效信息的数据，再应用人工审核，有效提高通用知识生成的质量。

Description

一种基于热线数据提取通用知识的方法

技术领域

本发明涉及数据处理技术领域，具体的说是一种基于热线数据提取通用知识的方法。

背景技术

针对类型丰富的热线数据，需要采取不同的知识提取方法进行通用知识的提取。

目前，对热线数据的知识提取更多依赖人工梳理，海量的热线数据通过人工梳理效率非常有限，对人力资源的占用程度较高。在数字化的今天，开始尝试采取人工+智能的方式进行知识梳理，一方面可以对海量数据进行批量化处理，最大限度的采集有价值的热线知识；另一方面可以极大提高知识提取的效率。

现今采取的人工+智能方式进行热线知识提取，在提高知识处理效率的同时，也存在一些问题，比如对有效知识的判断不够精准，提取的知识价值度可能较低、智能算法的开发时间较长等。但随着提取知识量的增加，模型的不断优化，提取知识的数量与质量也在不断提高。

发明内容

本发明针对人工梳理海量热线数据提取热线知识效率低的问题，提供一种基于热线数据提取通用知识的方法，以通过人工+智能方式实现热线知识的快速提取。

本发明的一种基于热线数据提取通用知识的方法，解决上述技术问题采用的技术方案如下：

一种基于热线数据提取通用知识的方法，包括如下步骤：

S1、获取热线数据，对热线数据进行分类，并提取咨询类和诉求类的热线数据；

S2、利用SimCSE模型对提取的热线数据进行排重；

S3、从热线数据中提取引用文件型数据，并处理，生成问答对；

S4、从热线数据中提取引用文件型数据后，热线数据的剩余数据作为非引用文件型数据，处理非引用文件型数据，生成问答对；

S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。

可选的，执行步骤S1，将热线数据划分成咨询类、诉求类、投诉类、表扬类、建议类，提取咨询类和诉求类热线数据的同时，保存热线数据的有效字段，该有效字段不限于热线数据的序号、问题及答案。

进一步可选的，执行步骤S2，利用SimCSE模型对热线数据进行排重，具体操作包括：

S2.1、应用SimCSE模型计算两条热线数据的向量A、向量B；

S2.2、利用如下公式计算两个向量的夹角余弦值来评估相似度，

设向量A＝(A₁，A₂，…，A_n)，B＝(B₁，B₂，...，B_n)，

其中，n大于700，cosθ的阈值设定为0.95，

当0.95≤cosθ≤1时，认定两条热线数据相似度极高，随机删除其中一条热线数据；

S2.3、分别存储cosθ<0.95的热线数据和执行步骤S2.3保留的热线数据。

进一步可选的，执行步骤S3，从热线数据中提取引用文件型数据，并处理，生成问答对，具体操作包括：

S3.1、针对热线数据，提取其答案中包含书名号的数据，形成引用文件型数据，同时提取书名号中的内容，剔除过期政策或非政策数据；

S3.2、应用SimCSE模型和K均值聚类算法对引用文件型数据进行聚类；

S3.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取，进行问题与答案内容的标准化；

S3.4、生成问答对，打标签引用文件型数据。

优选的，执行步骤S3.2，应用SimCSE模型和K均值聚类算法对引用文件型数据的答案进行聚类，具体操作包括：

S3.2.1、应用SimCSE模型计算所有引用文件型数据的向量；

S3.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心；

S3.2.3、针对选择的聚类中心，计算所有样本到各个中心的欧式距离，将每个样本聚集到与其最近的中心的类中，构成聚类结果；

S3.2.4、计算聚类后的中心，计算每个类的质心，即每个类中样本的均值，作为新的聚类中心；

S3.2.5、然后重新执行步骤S3.2.3、S3.2.4，直到聚类结果不再变化；

S3.2.6、人工分析聚类结果，并梳理聚类生成的热线数据中的重复片段，梳理完成的数据用于后期的摘要提取。

进一步可选的，执行步骤S4，从热线数据中提取引用文件型数据后，热线数据的剩余数据作为非引用文件型数据，非引用文件型数据包含用于解释政府部门相关业务的业务知识型数据和用于解释政府办事流程的办事方法型数据，处理非引用文件型数据，生成问答对，具体操作包括：

S4.1、应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查，得到有效数据，

S4.2、应用SimCSE和K均值聚类算法对有效数据进行聚类；

S4.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取，进行问题与答案内容的标准化；

S4.4、生成问答对，打标签非引用文件型数据。

优选的，执行步骤S4.1，应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查，得到有效数据，具体操作包括：

S4.1.1、获取历史热线数据形成的文本数据，对其中指定条数的文本数据按照有效信息和无效信息进行打标签；

S4.1.2、将具有有效标签的文本数据输入到RoBERTa-wwm文本分类算法的预训练模型中，让预训练模型学习文本数据的特征，生成新模型M；

S4.1.3、新热线数据形成的文本数据输入新模型M，新模型M预测输出该文本数据具有的有效数据。

优选的，将具有有效标签的文本数据按照8:1:1的比例随即划分为训练集、验证集、测试集。

优选的，执行步骤S4.2，应用SimCSE模型和K均值聚类算法对有效数据进行聚类，具体操作包括：

S4.2.1、应用SimCSE模型计算有效数据的向量；

S4.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心；

S4.2.3、针对选择的聚类中心，计算所有样本到各个中心的欧式距离，将每个样本聚集到与其最近的中心的类中，构成聚类结果；

S4.2.4、计算聚类后的中心，计算每个类的质心，即每个类中样本的均值，作为新的聚类中心；

S4.2.5、然后重新执行步骤S4.2.3、S4.2.4，直到聚类结果不再变化；

S4.2.6、人工分析聚类结果，并梳理聚类生成的热线数据中的重复片段，梳理完成的数据用于后期的摘要提取。

本发明的一种基于热线数据提取通用知识的方法，与现有技术相比具有的有益效果是：

本发明可以对不断生成的海量热线数据进行高效过滤，有效提取含有有效信息的数据，再应用人工审核，有效提高通用知识生成的质量。

附图说明

附图1是本发明的实施例一的方法流程图。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

实施例一：

结合附图1，本实施例提出一种基于热线数据提取通用知识的方法，包括如下步骤：

S1、将热线数据划分成咨询类、诉求类、投诉类、表扬类、建议类；

获取热线数据，对热线数据进行分类，并提取咨询类和诉求类的热线数据，同时，保存热线数据的有效字段，该有效字段不限于热线数据的序号、问题及答案。

S2、利用SimCSE模型对提取的热线数据进行排重，具体操作包括：

S2.1、应用SimCSE模型计算两条热线数据的向量A、向量B；

设向量A＝(A_l，A₂，…，A_n)，B＝(B₁，B₂，...，B_n)，

其中，n大于700，cosθ的阈值设定为0.95，

S3、从热线数据中提取引用文件型数据，并处理，生成问答对，具体操作包括：

S3.2、应用SimCSE模型和K均值聚类算法对引用文件型数据进行聚类，具体过程如下：

S3.2.1、应用SimCSE模型计算所有引用文件型数据的向量，

S3.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心，

S3.2.3、针对选择的聚类中心，计算所有样本到各个中心的欧式距离，将每个样本聚集到与其最近的中心的类中，构成聚类结果，

S3.2.4、计算聚类后的中心，计算每个类的质心，即每个类中样本的均值，作为新的聚类中心，

S3.2.5、然后重新执行步骤S3.2.3、S3.2.4，直到聚类结果不再变化，

S3.2.6、人工分析聚类结果，并梳理聚类生成的热线数据中的重复片段，梳理完成的数据用于后期的摘要提取；

S3.4、生成问答对，打标签引用文件型数据。

S4、从热线数据中提取引用文件型数据后，热线数据的剩余数据作为非引用文件型数据，非引用文件型数据包含用于解释政府部门相关业务的业务知识型数据和用于解释政府办事流程的办事方法型数据，处理非引用文件型数据，生成问答对，具体操作包括：

S4.1、应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查，得到有效数据，具体过程如下：

S4.1.1、获取历史热线数据形成的文本数据，对10000条文本数据按照有效信息和无效信息进行打标签，

S4.1.2、将具有有效标签的文本数据按照8:1:1的比例随即划分为训练集、验证集、测试集，将训练集的文本数据输入到RoBERTa-wwm文本分类算法的预训练模型中，让预训练模型学习文本数据的特征，生成新模型M，使用验证集的文本数据验证新模型M，验证符合要求后，使用测试集的文本数据测试新模型M，测试符合要求后，输出新模型M，

S4.1.3、新热线数据形成的文本数据输入新模型M，新模型M预测输出该文本数据具有的有效数据；

S4.2、应用SimCSE和K均值聚类算法对有效数据进行聚类，过程如下：

S4.2.1、应用SimCSE模型计算有效数据的向量，

S4.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心，

S4.2.3、针对选择的聚类中心，计算所有样本到各个中心的欧式距离，将每个样本聚集到与其最近的中心的类中，构成聚类结果，

S4.2.4、计算聚类后的中心，计算每个类的质心，即每个类中样本的均值，作为新的聚类中心，

S4.2.5、然后重新执行步骤S4.2.3、S4.2.4，直到聚类结果不再变化，

S4.2.6、人工分析聚类结果，并梳理聚类生成的热线数据中的重复片段，梳理完成的数据用于后期的摘要提取；

S4.4、生成问答对，打标签非引用文件型数据。

综上可知，采用本发明的一种基于热线数据提取通用知识的方法，可以对不断生成的海量热线数据进行高效过滤，有效提取含有有效信息的数据，再应用人工审核，有效提高通用知识生成的质量。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于热线数据提取通用知识的方法，其特征在于,包括如下步骤：

S2、利用SimCSE模型对提取的热线数据进行排重；

2.根据权利要求1所述的一种基于热线数据提取通用知识的方法，其特征在于，执行步骤S1，将热线数据划分成咨询类、诉求类、投诉类、表扬类、建议类，提取咨询类和诉求类热线数据的同时，保存热线数据的有效字段，该有效字段不限于热线数据的序号、问题及答案。

3.根据权利要求2所述的一种基于热线数据提取通用知识的方法，其特征在于，执行步骤S2，利用SimCSE模型对热线数据进行排重，具体操作包括：

S2.1、应用SimCSE模型计算两条热线数据的向量A、向量B；

设向量A＝(A₁,A₂,...,A_n),B＝(B₁,B₂,...,B_n)，

其中，n大于700，cosθ的阈值设定为0.95，

4.根据权利要求2所述的一种基于热线数据提取通用知识的方法，其特征在于，执行步骤S3，从热线数据中提取引用文件型数据，并处理，生成问答对，具体操作包括：

S3.4、生成问答对，打标签引用文件型数据。

5.根据权利要求4所述的一种基于热线数据提取通用知识的方法，其特征在于，执行步骤S3.2，应用SimCSE模型和K均值聚类算法对引用文件型数据的答案进行聚类，具体操作包括：

S3.2.1、应用SimCSE模型计算所有引用文件型数据的向量；

6.根据权利要求2所述的一种基于热线数据提取通用知识的方法，其特征在于，执行步骤S4，从热线数据中提取引用文件型数据后，热线数据的剩余数据作为非引用文件型数据，非引用文件型数据包含用于解释政府部门相关业务的业务知识型数据和用于解释政府办事流程的办事方法型数据，处理非引用文件型数据，生成问答对，具体操作包括：

S4.2、应用SimCSE和K均值聚类算法对有效数据进行聚类；

S4.4、生成问答对，打标签非引用文件型数据。

7.根据权利要求6所述的一种基于热线数据提取通用知识的方法，其特征在于，执行步骤S4.1，应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查，得到有效数据，具体操作包括：

8.根据权利要求7所述的一种基于热线数据提取通用知识的方法，其特征在于，将具有有效标签的文本数据按照8:1:1的比例随即划分为训练集、验证集、测试集。

9.根据权利要求6所述的一种基于热线数据提取通用知识的方法，其特征在于，执行步骤S4.2，应用SimCSE模型和K均值聚类算法对有效数据进行聚类，具体操作包括：

S4.2.1、应用SimCSE模型计算有效数据的向量；