CN114281928A

CN114281928A - 基于文本数据的模型生成方法、装置及设备

Info

Publication number: CN114281928A
Application number: CN202011044299.2A
Authority: CN
Inventors: 程治胜; 雷蕾; 李伟渊; 潘宇华
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangxi Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-04-05

Abstract

本发明实施例公开了一种基于文本数据的模型生成方法、装置及设备，以解决现有的模型训练需要人工标注文本，导致模型训练效率低及准确性低问题。该方法包括：对采集的各样本数据进行分词处理，根据得到的样本分词之间的关联程度，对各样本数据进行聚类，得到包含多个样本数据集的目标聚类结果；为各样本数据集添加类别标签，以建立类别标签和样本数据集之间的对应关系；以多个样本数据为模型输入数据、对应关系为模型输出数据，并利用预设算法进行模型训练，得到目标模型和第一模型参数。该方案实现类别标注的自动化，并确保样本数据标注的准确性，使最终训练出的模型的精确度更高。

Description

基于文本数据的模型生成方法、装置及设备

技术领域

本发明涉及模型训练技术领域，尤其涉及一种基于文本数据的模型生成方法、装置及设备。

背景技术

在机器学习进行监督学习建模时，特征值和目标值是必不可少的条件，在构造目标值时，一般会通过人工去标注样本的类别，需要大量的人力物力，且还不能保证文本是否能够正确的被分类，使得工作效率极为低下。对于模型的生成，如果采用正则表达式去做非结构化数据识别，只能在一定程度上达到一些效果，当数据的表达形式改变时，就需要修改正则表达式，这种方式极其繁琐和笨重，维护成本较高，并且限制识别的准确率。

在获得特征值和目标值之后，就可以进行监督学习建模，传统的建模方式是二分类，实际应用中的多分类建模建立在多个二分类基础上实现，如果文本的类别很多，则会导致模型的时间复杂度非常高，且模型容易出现过拟合问题，造成模型识别效果差、泛化能力弱。并且传统的建模使用的是离线分析方法，每次模型需要更新时，相关技术人员都要对模型进行分析和细节的调整，导致规则生成的成本高，效率低。

发明内容

本发明实施例提供一种基于文本数据的模型生成方法、装置及设备，以解决现有的模型训练需要人工标注文本，导致模型训练效率低及准确性低的问题。

为解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种基于文本数据的模型生成方法，包括：

采集多个样本数据，并对各所述样本数据进行分词处理，得到各所述样本数据分别对应的多个样本分词；

根据各所述样本数据分别对应的所述样本分词之间的关联程度，对各所述样本数据进行聚类，得到包含多个样本数据集的目标聚类结果；

根据所述目标聚类结果，为各所述样本数据集添加类别标签，以建立所述类别标签和所述样本数据集之间的对应关系；

以所述多个样本数据为模型输入数据、所述对应关系为模型输出数据，并利用预设的模型训练算法进行模型训练，得到目标模型和所述目标模型对应的第一模型参数。

第二方面，本发明实施例还提供了一种基于文本数据的模型生成装置，包括：

采集和处理模块，用于采集多个样本数据，并对各所述样本数据进行分词处理，得到各所述样本数据分别对应的多个样本分词；

聚类模块，根据各所述样本数据分别对应的所述样本分词之间的关联程度，对各所述样本数据进行聚类，得到包含多个样本数据集的目标聚类结果；

建立模块，用于根据所述目标聚类结果，为各所述样本数据集添加类别标签，以建立所述类别标签和所述样本数据集之间的对应关系；

模型训练模块，用于以所述多个样本数据为模型输入数据、所述对应关系为模型输出数据，并利用预设的模型训练算法进行模型训练，得到目标模型和所述目标模型对应的第一模型参数。

第三方面，本发明实施例还提供了一种基于文本数据的模型生成设备，包括：

存储器，存储有计算机程序指令；

处理器，当所述计算机程序指令被所述处理器执行时实现如上述任一项所述的基于文本数据的模型生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括指令，当所述指令在计算机上运行时，使得所述计算机执行如上述任一项所述的基于文本数据的模型生成方法。

在本发明实施例中，通过对采集到的多个样本数据进行分词处理，得到各样本数据分别对应的多个样本分词，并根据该多个样本分词之间的关联程度，对各样本数据进行聚类，进而得到包含多个样本数据集的目标聚类结果，通过为聚类后的各样本数据集添加类别标签，以建立类别标签和样本数据集之间的对应关系。以多个样本数据为模型输入数据、对应关系为模型输出数据，并利用预设的模型训练算法进行模型训练，得到目标模型和其对应的第一模型参数。可见，该技术方案能够依据样本数据的聚类结果自动添加类别标签，实现了类别标注的自动化，即模型训练不再依赖于人工操作，从而能够自适应各类样本集，使模型训练具备通用性和泛化性。并且，自动化的类别标注更能确保样本数据标注的准确性，进而使最终训练出的模型的精确度更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一个实施例中一种基于文本数据的模型生成方法的示意性流程图。

图2是本发明的另一个实施例中一种基于文本数据的模型生成方法的示意性流程图。

图3是本发明的一个实施例中部分目标聚类结果输出报告的示意图。

图4是本发明的一个实施例中一种基于文本数据的模型生成装置的示意性框图。

图5是本发明的一个实施例中一种基于文本数据的模型生成设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明的一个实施例中一种基于文本数据的模型生成方法的示意性流程图，如图1所示，包括以下步骤：

S102，采集多个样本数据，并对各样本数据进行分词处理，得到各样本数据分别对应的多个样本分词。

其中，采集到的各样本数据的内容和格式呈多样化，如为上传到浏览器的任意文本数据，包括doc(文档)、xls(电子表格)、ppt(演示文档)、csv(逗号分隔值文件)等常用格式。可使用jieba算法(一种分词算法)对各样本数据进行分词处理，从而将各样本数据中的句子结构拆分成字词的形式。

S104，根据各样本数据分别对应的样本分词之间的关联程度，对各样本数据进行聚类，得到包含多个样本数据集的目标聚类结果。

其中，样本分词之间的关联程度可包括由各样本分词对应的权重组成的特征向量之间的距离。

S106，根据目标聚类结果，为各样本数据集添加类别标签，以建立类别标签和样本数据集之间的对应关系。

该步骤中，目标聚类结果包含多个样本数据集，各样本数据集中包括被聚类到一起的一个或多个样本数据。可综合各样本数据集分别对应的至少一个样本关键词的语义，自动为各样本数据集添加属于各自的类别标签，进而建立类别标签和样本数据集之间的对应关系，使得分类效果更加明确。

S108，以多个样本数据为模型输入数据、类别标签和样本数据集之间的对应关系为模型输出数据，并利用预设的模型训练算法进行模型训练，得到目标模型和目标模型对应的第一模型参数。

该步骤中，利用预设的模型训练算法进行模型训练时，需要模型训练所需的特征值和目标值。模型输入数据即特征值，在本申请中具体为样本数据对应的特征矩阵；模型输出数据即目标值，具体为添加类别标签后的目标聚类结果，即类别标签和样本数据集之间的对应关系。在得到模型训练所需的特征值和目标值后，可利用pandas(数据分析包)对模型训练所需的特征值和目标值进行过滤，以防存在缺失、异常、重复等数据，导致数据分析出现偏差。

其中，预设的模型训练算法可包括xgboost树模型集成算法，通过将特征值和目标值输入xgboost树模型集成算法中进行训练，并给予模型训练所需的参数范围，进而根据参数范围调节训练模型的参数，使得训练模型能够适应不同的样本数据集而进行建模，获得目标聚类模型和对应的第一模型参数，提高系统的可维护性，提升模型的识别效果。

在一个实施例中，在对各样本数据进行分词处理之前，可首先对各样本数据进行预处理，然后再对预处理后的各样本数据进行分词处理。其中，预处理可包括以下至少一项：文本格式统一化、标注词性、去除预设停用词等。

在本实施例中，对采集到的各样本数据进行预处理，并将经过预处理得到的各样本数据存储至语料库中。预处理的各个步骤的执行顺序不受限定，其中优选的执行顺序可以是：文本格式统一化、标注词性、去除预设停用词。以下按照这种优选的预处理方式进行详细说明。

首先，将采集到的各样本数据的文本格式统一化处理，包括文本文件格式的转换、编码转换、繁简体映射等内容。采集到的各样本的文件格式呈现多样化，包括doc、xls、ppt、csv等常用格式，因此为方便各样本数据进行编码转换，可先将各样本的文件格式统一转换为csv文件格式，进而对各样本数据进行UTF-8(8位元，Universal Character Set/UnicodeTransformation Format)编码转换，使得样本数据以UTF-8编码形式存储。进一步的，将各样本数据中的繁体转换成简体形式，实现繁简体映射，其中，需在进行繁简体映射之前构造本地词典库，输入简体文字的UTF-8编码形式，以及与简体文字对应的繁体文字的UTF-8编码形式，为繁简体映射提供依据，并将完成繁简体映射的各样本数据存储至csv文件中。

其次，对各样本数据进行文本格式统一化处理后，标注各样本数据的分词的词性，包括但不限于以下词性：普通名词(n)、普通动词(v)、形容词(a)、数量词(m)、量词(q)、代词(r)，进而得到被标注词性的样本数据。

再次，对经过文本格式统一化和词性标注处理的各样本数据进行停用词过滤，即去除预设停用词。具体的，可通过预设本地常用的停用词词典，如的、地、啊等无意义的预设停用词，进而在编写程序时以判断的形式体现对预设停用词的过滤，将预设停用词从csv文件中剔除，得到完成预处理的各样本数据，将其存储至语料库的csv文件中。

本实施例通过将样本数据的文本格式统一化，并对各样本数据进行词性标注，以及去除样本数据中的停用词，实现对样本数据的预处理，使得经过预处理的样本数据格式统一且无冗余信息，方便后续计算各样本数据的权重。

在一个实施例中，根据各样本分词在各样本数据中的出现信息，计算各样本分词分别对应的权重，进而根据该权重确定各样本数据分别对应的样本关键词，并将各样本数据分别对应的样本关键词添加至目标聚类结果中。其中，样本关键词用于表征对应的样本数据的语义特征，从而可依据样本数据的语义特征进行自动化的类别标注。

在计算出各样本分词对应的权重之后，进而根据各样本数据分别对应的样本分词之间的关联程度，对各样本数据进行聚类，得到包含多个样本数据集的目标聚类结果，具体执行过程可如以下步骤A1～A4：

步骤A1，根据各样本分词在各样本数据中的出现信息，计算各样本分词分别对应的权重，其中，各样本分词在各样本数据中的出现信息可包括以下至少一项：样本分词在对应的样本数据中的词频、包含样本分词的样本数据的数量、样本数据的总数量。

该步骤中，可通过TF-IDF(term frequency–inverse document frequency)算法计算分词的权重值，TF是样本分词在对应的样本数据中的词频(Term Frequency)，IDF是样本分词的逆文本频率指数(Inverse DocumentFrequency)，该算法的表达式如下：

TF-IDF＝TF(词频)*IDF(逆文本频率)

IDF＝log(样本数据的总数量/(包含该样本分词的样本数据的数量+1))

其中，词频的意义在于某一个给定的样本分词在总样本数据中出现的频率，IDF是这个给定的样本分词的普遍重要性的度量。TF-IDF值即样本分词的权重，若某个给定的样本分词在语料库总样本数据中的TF-IDF值越大，即样本分词在语料库总样本数据中的权重越大，则表示该给定的样本分词在语料库总样本数据中重要性越高。

步骤A2，通过TF-IDF算法计算各样本数据的样本分词的权重，并将各样本数据中样本分词的权重按大小顺序排列，排名靠前的样本分词即为各样本数据对应的样本关键词，其中，样本关键词的数量由经验和技术需求而定。

步骤A3，根据各样本数据中样本分词对应的权重，确定各样本数据对应的特征向量，进而根据各样本数据对应的特征向量，确定样本数据对应的特征矩阵。其中，特征矩阵的每一行对应一个样本数据对应的特征向量。

该步骤中，得到样本数据的特征矩阵后，可通过PCA(主成分分析)算法降低该特征矩阵的维度，即将高维数据通过矩阵分解映射至低维数据中。例如，特征矩阵的初始计算的特征维度为4000，可通过PCA算法降维至25个特征维度，将复杂的特征矩阵映射为简单并方便计算的特征矩阵。此外，通过将样本关键词和降低维度后的特征矩阵结合，可得到DataFrame(一种表格型数据结构)数据结构。

步骤A4，计算样本数据的特征矩阵的各行之间的距离，并确定指定聚类算法对应参数的多个不同值。基于距离和该参数的多个不同值，利用指定聚类算法对各样本数据进行聚类，得到包含多个样本数据集的多个第一聚类结果，以及，根据所述第一聚类结果确定所述目标聚类结果。

本实施例中，指定聚类算法可以是k-means算法(k均值聚类算法)，k-means算法的参数为k值。通过对k值设定多个不同的值，并基于该多个不同的值分别对样本数据进行聚类，从而得到多个第一聚类结果。

一种可实施方式如下：获取样本数据的特征矩阵，采用k-means算法(k均值聚类算法)对样本数据的特征矩阵实现聚类分类，由于k-means只能实现一次分类，很难分类成最好的状态，在程序编写时增加了while true循环代码，实现自动超参数调节，进而优化了k-means算法，使得分类效果更佳，无需人工调试。并且，可通过确定样本数据对应的特征矩阵的各行之间的距离，对各样本数据进行聚类，使得相似度高的样本数据集合到一个类别，构成多个样本数据集，进而得到一个聚类结果。此外，可通过设置参数[:self.BACKEND_MODEL_NUMBER]改变k值，即得到聚类算法对应参数的多个不同值，基于该参数的多个不同值以及样本数据对应的特征矩阵的各行之间的距离，分别对样本数据进行聚类，进而得到包含多个样本数据集的多个第一聚类结果。

步骤A5，将各样本数据分别对应的样本关键词添加至目标聚类结果中。

目标聚类结果包含多个通过聚类形成的样本数据集，各样本数据通过聚类形成多个样本数据集，因此将样本关键词添加至目标聚类结果中，即将各样本数据对应的样本关键词添加至各样本数据所在的样本数据集中，使用户直观了解各样本数据集的语义内容。

本实施例通过TF-IDF算法计算各样本分词在语料库总样本数据中的权重，生成k-means算法计算所需的特征矩阵，通过在聚类运算中添加自动超参数调节的代码，提高分类的准确度和效率，获得比人工分类效果更佳的目标聚类结果。通过将样本关键词添加到目标聚类结果中，可更加直观的了解目标聚类结果中各个类别(即各样本数据集)的语义内容，不局限于根据样本数据名称确定该类别含义，从而建立精确的类别标签。

在一个实施例中，在对各样本数据进行聚类时，由于特征矩阵的每一行对应一个样本数据对应的特征向量，因此，首先计算样本数据对应的特征矩阵的各行之间的距离，根据该距离对各样本数据进行聚类，得到第一聚类结果；进而根据第一聚类结果确定目标聚类结果。

具体的，若第一聚类结果包括多个，则针对各第一聚类结果，计算第一聚类结果中各样本数据的轮廓系数。具体如，对于其中的一个样本数据i来说，获取样本数据i到所有它属于的聚类内其它样本数据的距离向量a(i)，以及样本数据i到与它相邻最近的一聚类内的所有样本数据的平均距离向量b(i)，并通过计算轮廓系数的公式进行计算，进而确定第一聚类结果中该样本数据i的轮廓系数。具体计算如下：

a(i)＝average(样本数据i到所有它属于的聚类内其它样本数据的距离)

b(i)＝min(样本数据i到与它相邻最近的一聚类内的所有样本数据的平均距离)

那么样本数据i的轮廓系数就为：

由此可见，通过此公式即可计算各样本数据的轮廓系数。其中，轮廓系数的值是介于[-1，1]，并且越趋近于1代表样本数据集间各样本数据的内聚度相对较优，即属于同一个样本数据集内的各样本数据的相似度高且联系紧密。

其次，根据计算获得各样本数据的轮廓系数，进而根据各样本数据的轮廓系数计算第一聚类结果对应的平均轮廓系数，确定最高的平均轮廓系数对应的第一聚类结果为目标聚类结果。其中，第一聚类结果中的平均轮廓系数代表了不同k值下聚类结果的优劣，平均轮廓系数最高则代表聚类效果最佳，因此将平均轮廓系数最高的第一聚类结果确定为目标聚类结果。

本实施例中，通过计算样本数据对应的特征矩阵的各行之间的距离对各样本数据进行分类，得到多个第一聚类结果，进而通过计算各样本数据的轮廓系数可得到各聚类结果的平均轮廓系数，进而能够根据平均轮廓系数的大小确定最优的聚类结果，并将其确定为目标聚类结果，参考轮廓系数可获取直观的分类效果程度，便于后续筛选目标模型，提高分类准确度。

在一个实施例中，得到目标模型和目标模型对应的第一模型参数之后，可根据第一模型参数对目标模型进行评估，得到评估结果。其中，评估结果可包括准确率、精确率、召回率、评价指标中的至少一项，并且，可以选择F1分数作为评价指标，F1分数(F1 Score)同时兼顾了分类模型的精确率和召回率，因此可更加准确地衡量模型的精确度。

进一步的，根据评估结果，判断目标模型是否满足预设的模型使用条件，若是，则将目标模型持久化至本地；若否，则对第一模型参数进行调整，得到第二模型参数，以及，根据第二模型参数再次对目标模型进行评估，直至目标模型满足模型使用条件。

该步骤中，首先确定评价指标的预设阈值[0.65，0.80]，若目标模型的F1分数高于评价指标的预设阈值，也就是目标模型的F1分数大于0.80，则确定第一模型参数满足预设的模型使用条件，可将得到的目标模型持久化至本地。

若目标模型的F1分数在评价指标的预设阈值区间内，则重新选择参数范围内的其他值，进而对第一模型参数进行调整，得到第二模型参数，以及，根据第二模型参数再次对目标模型进行评估，直至F1分数高于评价指标的预设阈值。

若目标模型的F1分数低于评价指标的预设阈值，即目标模型的F1分数小于0.65，则表示模型的精度低，识别效果较差，需重新选择目标聚类结果作为训练模型的目标值。

本实施例通过预设模型使用条件对目标模型进行评估，可通过评估结果确定目标模型的优劣，进而能够保证该目标模型对样本分类时具有较高的准确度。

在一个实施例中，若目标模型的F1分数在评估指标的预设阈值区间内，根据预设模型指标对第一模型参数进行调整，其中，预设模型指标可包括以下至少一项：样本数据的采样比例、二次采样比例、算法学习率、xgboost树模型集成算法中的每棵树的深度、树的最小节点的权重值、树的最小分裂损失。

在调节第一模型参数时，可根据以下步骤B1～B4进行：

Bl，调节xgboost树模型集成算法中的每棵树的深度(max depth)以及树的最小节点的权重值(min child weight)可解决目标模型过拟合的问题。

B2，调节树的最小分裂损失(gamma)，进而筛选出有用的特征，给定所需的最低损失函数的值。

B3，调节样本数据的二次采样比例(subsample)模型训练的公平性，以及调节样本数据的采样比例(colsample bytree)使模型训练的样本数据集尽可能均衡。

B4，由于最终的迭代优化需要从学习率入手，因此最后调节算法学习率(learningrate)，防止模型复杂度过高。

经过上述步骤B1～B4，得到目标模型的第二模型参数，再次根据第二模型参数对目标模型进行评估，根据此次评估结果，判断目标模型是否满足预设的模型使用条件，若此次目标模型的F1分数高于评价指标的预设阈值，即认为附有第二模型参数的目标模型满足预设的模型使用条件，该目标模型可用于对多个文本数据进行分类识别。

本实施例通过xgboost树模型集成算法进行监督学习建模生成目标模型，并通过设置参数范围实现动态调节参数，以自适应的方式使得目标模型符合各类样本数据集，能够提升目标模型的识别效果，使得目标模型的精确度更高。

图2是根据另一实施例的一种基于文本数据的模型生成方法的示意性流程图，如图2所示：

S201，采集多个样本数据，分别对各样本数据进行预处理，进而对经过预处理的各样本数据进行分词处理，得到各样本数据对应的多个样本分词。

该步骤可由语义分析模块执行，其中，预处理包括以下至少一项：文本格式统一化、去除预设停用词、标注词性，执行顺序可根据实际需求进行调整。样本数据的文本格式统一化包括文本文件格式的转换、编码转换、繁简体映射等内容。将经过预处理的各个样本数据进行分词处理，得到各样本数据对应的多个样本分词，进而将经过分词处理的各样本数据以csv文件格式存储至语料库中，形成语义分析模块。

S202，针对预先采集的多个样本数据，确定各样本数据分别对应的样本分词，针对任一样本数据，根据各样本数据中样本分词对应的权重，确定各样本数据对应的特征向量，进而确定样本数据对应的特征矩阵。其中，特征矩阵的每一行对应一个样本数据对应的特征向量。

该步骤可由特征矩阵模块执行，该模块中，根据各分词在各样本数据中的出现信息，通过TF-IDF算法计算各分词分别对应的权重，进而将该样本数据的样本分词和权重之间的对应关系转化为特征矩阵，通过PCA(主成分分析)算法降低该特征矩阵的维度。确定各样本数据分别对应的样本分词的权重后，将其按大小顺序排列，排名靠前的样本分词即为各样本数据对应的样本关键词，其中样本关键词的数量由经验和技术需求而定。将样本的关键词与降低维度后的特征矩阵组合，可生成DataFrame数据结构，进而形成了特征矩阵模块。

S203，计算特征矩阵的各行之间的距离，并确定指定聚类算法对应参数的多个不同值，基于距离和参数的多个不同值，利用指定聚类算法对各样本数据进行聚类，得到包含多个样本数据集的多个第一聚类结果。

该步骤由聚类算法模块执行，其中，采用k-means算法对特征矩阵模块中的特征矩阵实现聚类，通过确定各样本数据对应的特征向量获得样本数据对应的特征矩阵的各行之间的距离，进而对各样本数据进行聚类，得到第一聚类结果。通过在k-means算法的程序中增加了while true循环代码，可实现自动超参数调节，优化聚类效果。此外，可通过设置参数[:self.BACKEND_MODEL_NUMBER]改变k值，即得到聚类算法对应参数的多个不同值，基于该参数的多个不同值以及样本数据对应的特征矩阵的各行之间的距离，分别对样本数据进行聚类，获得包含多个样本数据集的多个第一聚类结果。

S204，根据第一聚类结果确定目标聚类结果，进而根据目标聚类结果，为各样本数据集添加类别标签，以建立类别标签和样本数据集之间的对应关系。

该步骤由聚类风险评估模块实现，其中，通过计算各第一聚类结果中各样本数据的轮廓系数，进一步计算各第一聚类结果对应的平均轮廓系数，从而确定最高的平均轮廓系数对应的第一聚类结果为目标聚类结果。

获取到的目标聚类结果中包括由各样本数据聚类形成的多个样本数据集，结合各样本数据集所对应的至少一个样本关键词的语义，可确定各样本数据集所属类别，进而为各样本数据集添加类别标签，以建立各样本数据集对应的类别标签和样本数据集之间的对立关系，并将各样本数据集对应的类别标签、样本关键词与各样本数据名称结合生成输出报告，形成聚类风险评估模块。

S205，确定模型输入数据为多个样本数据，以及确定模型输出数据为类别标签和样本数据集之间的对应关系。

其中，模型输入数据具体为样本数据对应的特征矩阵，模型输出数据具体为添加类别标签后的目标聚类结果，可利用pandas(数据分析包)对得到的模型输入数据和模型输出数据进行过滤，以防存在缺失、异常、重复等数据，导致数据分析出现偏差。

S206，以多个样本数据为模型输入数据、对应关系为模型输出数据，并利用预设的模型训练算法进行模型训练，得到目标模型和目标模型对应的第一模型参数。

其中，预设的模型训练算法包括xgboost树模型集成算法，通过将模型输入数据和模型输出数据输入xgboost树模型集成算法中进行训练，并给予模型训练所需的参数范围，进而根据参数范围调节模型训练的参数。

S207，根据第一模型参数对目标模型进行评估，获取评估结果，根据评估结果，判断目标模型是否满足预设的模型使用条件。若否，则执行S208；若是，则执行S209。

其中，评估结果包括准确率、精确率、召回率、评价指标中的至少一项，并且，F1分数可以作为评价指标。首先确定评价指标的预设阈值，若目标模型的F1分数高于评价指标的预设阈值，则判断第一模型参数满足预设的模型使用条件，可将得到的目标模型持久化至本地，即执行S209。若目标模型的F1分数在评价指标的预设阈值区间内，则执行S208，直至F1分数高于评价指标的预设阈值。若目标模型的F1分数低于评价指标的预设阈值，则表示模型的精度低，识别效果较差，需重新选择目标聚类结果作为模型训练的模型输入数据。

S208，对第一模型参数进行调整，得到第二模型参数，以及根据第二模型参数再次对目标模型进行评估，直至目标模型满足模型使用条件。

S209，将目标模型持久化至本地。

采用本实施例的技术方案，通过对样本数据的预处理和分词处理，使得经过预处理和分词处理的样本数据格式统一且无冗余信息，根据TF-IDF算法计算各样本分词在语料库总样本数据中的权重，生成k-means算法进行聚类时所需的特征矩阵，进而通过在聚类运算中添加自动超参数调节的代码，提高分类的准确度和效率，获得比人工分类效果更佳的目标聚类结果。进一步的，通过计算各样本数据的轮廓系数可得到各聚类结果的平均轮廓系数，通过参考平均轮廓系数的大小可获取分类的直观效果，便于后续筛选目标模型，提高分类准确度。此外，通过xgboost树模型集成算法进行监督学习建模生成目标模型，并通过设置参数范围实现动态调节参数，以自适应的方式使得目标模型符合各类样本数据集，能够提升目标模型的识别效果，使得目标模型的精确度更高。在得到目标模型后，通过预设模型使用条件对目标模型进行评估，可通过评估结果确定目标模型的优劣，进而能够保证该目标模型在后续应用时对样本分类的准确度。

另一个实施例中，可设置模型训练的各参数的调节范围如下：xgboost树模型集成算法中的每棵树的深度(max depth)的参数范围为(4，9)、树的最小节点的权重值(minchildweight)的参数范围为(1，3，6)、树的最小分裂损失(gamma)的参数范围为[0.1*ifori inrange(0，5)]、样本数据的二次采样比例(subsample)的参数范围为[0.1*i foriinrange(6，9)]、样本数据的采样比例(colsample bytree)的参数范围为[0.1*i for i inrange(6，9)]、算法学习率(learning rate)的参数范围为[0.5，0.4，0.3，0.2，0.1，0.075，0.05，0.04，0.03]，其中，各参数的参数范围中的i是编程所需语言，属于现有技术，因此不再赘述。

如果目标模型和对应的第一模型参数在训练的样本数据集表现较佳，在测试的样本数据集上表现较差，则适当的增大参数中树的最小分裂损失(gamma)的值，同时需要减小xgboost树模型集成算法中的每棵树的深度(max depth)的值和树的最小节点的权重值(min childweight)，此外，为确定实验数据不具偶然性，需根据调节样本数据的二次采样比例、采样比例，对数据进行随机采样。

图3是本发明的一个实施例中部分目标聚类结果输出报告的示意图，如图3所示，该输出报告包括部分目标聚类结果，并附有类别标签、各样本数据集对应的样本关键词以及各样本数据的名称。

该部分目标聚类结果中包含两个样本数据集：1类样本数据集包含了对应的样本关键词，如：用户、数据、就业、信息、系统、数据安全、请求、管理，以及该类样本数据集所包含的各样本数据的名称，如[A公司安全白皮书.pdf]等样本名称；2类样本数据集包含了对应的样本关键词，如：资源、市场、价格、需求、练厂、风险、数据、分析，以及该类样本数据集所包含的各样本数据的名称，如[资源市场周报20130315.doc]等样本名称。

通过构建样本关键词和各样本数据集之间的联系，可确定各类的类别标签，1类的类别标签可为“用户数据安全分析”，2类的类别标签可为“资源市场分析”，通过根据各样本数据集对应的样本关键词构建各类的类别标签，不局限于依赖样本数据名称猜测样本数据的实际内容所代表的含义，能够增强类别标签的精准度，并且使类别标签和各样本数据内容的对应关系更加明确。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

图4是本发明的一个实施例中一种基于文本数据的模型生成装置的示意性框图。如图4所示，基于文本数据的模型生成装置可包括：

采集和处理模块410，用于采集多个样本数据，并对各所述样本数据进行分词处理，得到各所述样本数据分别对应的多个样本分词；

聚类模块420，用于根据各所述样本数据分别对应的所述样本分词之间的关联程度，对各所述样本数据进行聚类，得到包含多个样本数据集的目标聚类结果；

建立模块430，用于根据所述目标聚类结果，为各所述样本数据集添加类别标签，以建立所述类别标签和所述样本数据集之间的对应关系；

模型训练模块440，用于以所述多个样本数据为模型输入数据、所述对应关系为模型输出数据，并利用预设的模型训练算法进行模型训练，得到目标模型和所述目标模型对应的第一模型参数。

在一个实施例中，所述装置还包括：

预处理模块，用于对各所述样本数据进行分词处理之前，分别对各所述样本数据进行预处理；所述预处理包括以下至少一项：文本格式统一化、标注词性、去除预设停用词。

在一个实施例中，所述装置还包括：

计算模块，用于根据各所述样本分词在各所述样本数据中的出现信息，计算各所述样本分词分别对应的权重；所述出现信息包括以下至少一项：所述样本分词在对应的所述样本数据中的词频、包含所述样本分词的所述样本数据的数量、所述样本数据的总数量；

确定模块，用于根据所述权重，确定各所述样本数据分别对应的样本关键词；

添加模块，将各所述样本数据分别对应的所述样本关键词添加至所述目标聚类结果中。

在一个实施例中，所述关联程度包括由各所述样本分词对应的所述权重组成的特征向量之间的距离；

所述聚类模块420包括：

第一确定单元，用于根据各所述样本数据中所述样本分词对应的权重，确定各所述样本数据对应的所述特征向量；

第二确定单元，用于根据各所述样本数据对应的所述特征向量，确定所述样本数据对应的特征矩阵；所述特征矩阵的每一行对应一个所述样本数据对应的所述特征向量；

计算和确定单元，用于计算所述特征矩阵的各行之间的距离，并确定指定聚类算法对应参数的多个不同值；

聚类单元，用于基于所述距离和所述参数的多个不同值，利用所述指定聚类算法对各所述样本数据进行聚类，得到包含多个样本数据集的多个第一聚类结果；以及，根据所述第一聚类结果确定所述目标聚类结果。

在一个实施例中，所述聚类单元还用于：针对各所述第一聚类结果，计算所述第一聚类结果中各所述样本数据的轮廓系数；根据各所述样本数据的轮廓系数，计算所述第一聚类结果对应的平均轮廓系数；确定最高的所述平均轮廓系数对应的所述第一聚类结果为所述目标聚类结果。

在一个实施例中，所述装置还包括：

评估模块，用于所述利用预设的模型训练算法进行模型训练，得到目标模型和所述目标模型对应的第一模型参数之后，根据所述第一模型参数对所述目标模型进行评估，得到评估结果；所述评估结果包括准确率、精确率、召回率、评价指标中的至少一项；

判断模块，用于根据所述评估结果，判断所述目标模型是否满足预设的模型使用条件；

持久化模块，用于若是，则将所述目标模型持久化至本地；

调整模块，用于若否，则对所述第一模型参数进行调整，得到第二模型参数；以及，根据所述第二模型参数再次对所述目标模型进行评估，直至所述目标模型满足所述模型使用条件。

在一个实施例中，所述预设的模型训练算法包括xgboost树模型集成算法；

所述调整模块包括：

调整单元，用于根据预设模型指标对所述第一模型参数进行调整；所述预设模型指标包括以下至少一项：所述样本数据的采样比例、二次采样比例、算法学习率、所述xgboost树模型集成算法中的每棵树的深度、所述树的最小节点的权重值、所述树的最小分裂损失。

本发明实施例提供的基于文本数据的模型生成装置能够实现上述方法实施例中基于文本数据的模型生成方法实现的各个过程，为避免重复，这里不再赘述。

图5是本发明实施例应用的基于文本数据的模型生成设备的示意性框图，能够实现上述实施例中的基于文本数据的模型生成方法的细节，并达到相同的效果。如图5所示，基于文本数据的模型生成设备500包括：处理器501、收发机502、存储器503、用户接口504和总线接口，其中：

在本发明实施例中，基于文本数据的模型生成设备500还包括：存储在存储器上503并可在处理器501上运行的计算机程序，计算机程序被处理器501执行时实现如下步骤：

针对预先采集的多个样本数据，确定各所述样本数据分别对应的样本关键词；各所述样本数据分别包括对文本数据进行分词后得到的多个样本分词；

根据各所述样本数据分别对应的所述样本关键词之间的关联程度，对各所述样本数据进行聚类，得到包含多个样本数据集的目标聚类结果；

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器501代表的一个或多个处理器和存储器503代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机502可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口504还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器501负责管理总线架构和通常的处理，存储器503可以存储处理器501在执行操作时所使用的数据。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。该计算机程序被处理器执行时实现上述方法实施例的各个过程，并具体用于执行：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于文本数据的模型生成方法，其特征在于，包括：

以所述多个样本数据为模型输入数据、所述对应关系为模型输出数据，并利用预设的模型训练算法进行模型训练，得到目标聚类模型和所述目标聚类模型对应的第一模型参数。

2.根据权利要求1所述的方法，其特征在于，所述对各所述样本数据进行分词处理之前，所述方法还包括：

分别对各所述样本数据进行预处理；所述预处理包括以下至少一项：文本格式统一化、标注词性、去除预设停用词。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据各所述样本分词在各所述样本数据中的出现信息，计算各所述样本分词分别对应的权重；所述出现信息包括以下至少一项：所述样本分词在对应的所述样本数据中的词频、包含所述样本分词的所述样本数据的数量、所述样本数据的总数量；

根据所述权重，确定各所述样本数据分别对应的样本关键词；

将各所述样本数据分别对应的所述样本关键词添加至所述目标聚类结果中。

4.根据权利要求3所述的方法，其特征在于，所述关联程度包括由各所述样本分词对应的所述权重组成的特征向量之间的距离；

所述根据各所述样本数据分别对应的所述样本分词之间的关联程度，对各所述样本数据进行聚类，得到包含多个样本数据集的目标聚类结果，包括：

根据各所述样本数据中所述样本分词对应的权重，确定各所述样本数据对应的所述特征向量；

根据各所述样本数据对应的所述特征向量，确定所述样本数据对应的特征矩阵；所述特征矩阵的每一行对应一个所述样本数据对应的所述特征向量；

计算所述特征矩阵的各行之间的距离，并确定指定聚类算法对应参数的多个不同值；

基于所述第一距离和所述参数的多个不同值，利用所述指定聚类算法对各所述样本数据进行聚类，得到包含多个样本数据集的多个第一聚类结果；以及，根据所述第一聚类结果确定所述目标聚类结果。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一聚类结果确定所述目标聚类结果，包括：

针对各所述第一聚类结果，计算所述第一聚类结果中各所述样本数据的轮廓系数；

根据各所述样本数据的轮廓系数，计算所述第一聚类结果对应的平均轮廓系数；

确定最高的所述平均轮廓系数对应的所述第一聚类结果为所述目标聚类结果。

6.根据权利要求1所述的方法，其特征在于，所述利用预设的模型训练算法进行模型训练，得到目标模型和所述目标模型对应的第一模型参数之后，所述方法还包括：

根据所述第一模型参数对所述目标模型进行评估，得到评估结果；所述评估结果包括准确率、精确率、召回率、评价指标中的至少一项；

根据所述评估结果，判断所述目标模型是否满足预设的模型使用条件；

若是，则将所述目标模型持久化至本地；

若否，则对所述第一模型参数进行调整，得到第二模型参数；以及，根据所述第二模型参数再次对所述目标模型进行评估，直至所述目标模型满足所述模型使用条件。

7.根据权利要求6所述的方法，其特征在于，所述预设的模型训练算法包括xgboost树模型集成算法；

所述对所述第一模型参数进行调整，包括：

根据预设模型指标对所述第一模型参数进行调整；所述预设模型指标包括以下至少一项：所述样本数据的采样比例、二次采样比例、算法学习率、所述xgboost树模型集成算法中的每棵树的深度、所述树的最小节点的权重值、所述树的最小分裂损失。

8.一种基于文本数据的模型生成装置，其特征在于，包括：

聚类模块，用于根据各所述样本数据分别对应的所述样本分词之间的关联程度，对各所述样本数据进行聚类，得到包含多个样本数据集的目标聚类结果；

9.一种基于文本数据的模型生成设备，其特征在于，包括：

存储器，存储有计算机程序指令；

处理器，当所述计算机程序指令被所述处理器执行时实现如权利要求1至7中任一项所述的基于文本数据的模型生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1至7中任一项所述的基于文本数据的模型生成方法。