CN110196979A

CN110196979A - 基于分布式系统的意图识别方法及装置

Info

Publication number: CN110196979A
Application number: CN201910487058.6A
Authority: CN
Inventors: 姜伟敏
Original assignee: Shenzhen Di Di Information Technology Ltd By Share Ltd
Current assignee: Shenzhen Di Di Information Technology Ltd By Share Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-03
Anticipated expiration: 2039-06-05
Also published as: CN110196979B

Abstract

本发明提供了一种基于分布式系统的意图识别方法及装置，所述方法通过数据分块模型，对原始数据进行有效分块预处理；将每一块数据作为单一独立模块数据，分别通过Scikit‑learn算法实现文本数据信息处理和训练，经过训练后的countVectorizer和tfidfVectorizer函数模型，作为Scikit‑learn算法中间件存储于本地，便于对用户数据直接进行关联特征选取；接下来，独立模块分别对应进入XGBoost算法训练，通过损失函数设置训练周期，意图识别XGBoost模型结果存储于本地；最后分布式系统根据分块训练的个数配置分布式计算规模，每个节点位置，对应配置Scikit‑learn算法中间件和XGBoost存储模型，根据用户意图分析模块，综合分析用户意图。本发明有效解决海量数据时，初始样本巨大，造成训练周期长，训练效果不理想的问题。

Description

基于分布式系统的意图识别方法及装置

技术领域

本发明涉及一种意图识别方法及装置，尤其是指一种基于分布式系统的意图识别方法及装置。

背景技术

随着信息时代的快速发展，用户数据以指数级增长，大数据背景下，充分挖掘海量细粒度查询意图，不仅有效提高搜索的速度和准确性，同时覆盖率较高。因此用户意图识别技术研究是一项具有重要意义和挑战性的工作。

传统意图识别方法中，XGBoost算法凭借在分类，回归，排序等具体场景时，通用问题解决能力，在学术竞赛和工业界领域使用非常频繁。但是数据量较大时，XGBoost算法内部使用的贪婪算法耗时严重；另外XGBoost使用level-wise生成决策树，当多叶子节点的分裂增益较低时，系统开销巨大。

发明内容

本发明所要解决的技术问题是：提供一种基于分布式系统的意图识别方法及装置，旨在解决在面对大数据量的文本数据时，传统意图识别技术在训练效率和意图识别准确率低的问题。

为了解决上述技术问题，本发明采用的技术方案为：一种基于分布式系统的意图识别方法，包括以下步骤，

S10、通过数据分块模型，对原始文本数据进行分块处理，得到文本分块数据；

S20、基于分块数据，每一块数据作为单一独立模块数据，分别通过Scikit-learn算法模型中的countVectorizer和tfidfVectorizer函数模型进行训练；

S30、将经过训练后的countVectorizer和tfidfVectorizer函数模型，作为Scikit-learn算法中间件存储于本地，保留文本数据特征间相互关联关系，形成XGBoost模型初始数据；

S40、分别对与分布式系统的每个节点对应的XGBoost算法通过XGBoost模型初始数据进行独立训练，得到意图识别XGBoost模型存储于本地；

S60、在分布式系统的每个节点位置，对应配置Scikit-learn算法中间件和意图识别XGBoost模型；

S70、根据在分布式系统的每个节点位置对应配置的Scikit-learn算法中间件和XGBoost存储模型，分析用户意图。

进一步的，在步骤S60之前，还包括步骤，

S50、通过分布式系统，根据分块训练的个数配置分布式计算规模，分布式计算出分布式系统的每个节点位置。

进一步的，所述步骤S20具体包括，

S21、通过Scikit-learn算法中的CountVectorizer函数将分块数据转换词频矩阵；

S22、词频矩阵通过TfidfVectorizer函数计算出每个短语权重分值。

进一步的，所述步骤S40还包括，将XGBoost模型初始数据，经过XGBoost模型中梯度增强算法进行模型训练，通过收缩比例因子新增加权重防止过拟合情况，训练直至达到损失函数条件，终止模型训练，得到XGBoost算法意图识别模型。

为了解决上述技术问题，本发明采用的另一个技术方案为：一种基于分布式系统的意图识别装置，包括以下模块，

数据分块模块，用于通过数据分块模型，对原始数据进行有效分块处理；

特征函数训练模块，用于基于分块数据，每一块数据作为单一独立模块数据，分别通过Scikit-learn算法模型中的countVectorizer和tfidfVectorizer函数模型进行训练；

特征函数存储模块，用于将经过训练后的countVectorizer和tfidfVectorizer函数模型，作为Scikit-learn算法中间件存储于本地，保留文本数据特征间相互关联关系，形成XGBoost模型初始数据；

XGBoost模型优化模块，用于分别对与分布式系统的每个节点对应的XGBoost算法通过XGBoost模型初始数据进行独立训练，得到意图识别XGBoost模型存储于本地；

XGBoost模型配置模块，用于在分布式系统的每个节点位置，对应配置Scikit-learn算法中间件和意图识别XGBoost模型；

用户意图分析模块，用于根据在分布式系统的每个节点位置对应配置的Scikit-learn算法中间件和XGBoost存储模型，分析用户意图。

进一步的，在XGBoost模型配置模块之前，还包括，

节点位置计算模块，用于通过分布式系统，根据分块训练的个数配置分布式计算规模，分布式计算出分布式系统的每个节点位置。

进一步的，所述特征函数训练模块包括，

数据转换单元，用于通过Scikit-learn算法中的CountVectorizer函数将分块数据转换词频矩阵；

短语权重计算单元，用于词频矩阵通过TfidfVectorizer函数计算出每个短语权重分值。

进一步的，所述XGBoost模型优化模块，还用于将XGBoost模型初始数据，经过XGBoost模型中梯度增强算法进行模型训练，通过收缩比例因子新增加权重防止过拟合情况，训练直至达到损失函数条件，终止模型训练，得到XGBoost算法意图识别模型存储于本地。

本发明的有益效果在于：分布式系统根据分块训练的个数配置分布式计算规模，分布式计算每个节点位置，对应配置Scikit-learn算法中间件和XGBoost存储模型，有效解决海量数据时，初始样本巨大，造成训练周期长，训练效果不理想的问题；各个分块数据是相对独立关系，所以Scikit-learn算法中间件最大限度保留各个原始数据中训练样本间关联关系，可以有效对用户信息进行特征抽取和分析；然后，各个Scikit-learn算法中间件对应结果进入相应XGBoost存储模型；通过分布式系统实现意图识别，有效降低计算周期，同时提高模型的准确性。

附图说明

下面结合附图详述本发明的具体结构。

图1为本发明一具体实施例的基于分布式系统的意图识别方法流程图；

图2为本发明另一具体实施例的基于分布式系统的意图识别方法流程图；

图3为本发明一具体实施例的特征函数训练流程图；

图4为本发明一具体实施例的基于分布式系统的意图识别装置模块框图；

图5为本发明另一具体实施例的基于分布式系统的意图识别装置模块框图；

图6为本发明一具体实施例的特征函数训练模块框图；

图7为本发明基于分布式系统的意图识别模型关系图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

参阅图1，图7，本发明的一具体实施例为：一种基于分布式系统的意图识别方法，包括以下步骤，

本步骤中，对于原始文本数据，需要人工进行类别标注，标志格式：datas＝[(number1：data2)，(number2：data2)，...，(number(n-1)：data(n-1))，(number(n)：data(n))]，(number是数据类别)。海量数据经过人工标注后，通过datasBlock算法实现数据分块，即首先检测人工标注的分类数据类别的总和n，datas/n作为人工标注数据分块标准，人工标注数据子类分类依次记为datas1，datas2...datasn。当data1小于datas/n时，data1整块作为一个分类，否则(data1-datas/n)作为一个分块，data1剩余数据继续进行比较操作，直至当前分类分块结束。依次循环直至所有类别分块结束。

本步骤，对每一块数据作为单一独立模块数据输入Scikit-learn算法模型中的countVectorizer和tfidfVectorizer函数模型训练，针对相应的分块数据分别提取文本特征，提取文本特征过程：数据初始化后，采用Scikit-learn算法中CountVectorizer函数实现数据转换词频矩阵，TfidfVectorizer函数不仅考量某一词汇在当前文本中出现的频率，同时关注包含这个词汇的其他训练文本的倒数。

本步骤中，训练countVectorizer和tfidfVectorizer中间件存储于本地，便于程序本地化加载运行，根据训练文本数据特征间相互关联关系，直接对用户数据进行处理，从而降低系统开销，提高运行效率。

本步骤中，将XGBoost训练后模型自动存储于本地，便于运行加载训练好的模型，复用率高。

本步骤中，在分布式系统的各个节点上，配置Scikit-learn算法中间件和意图识别XGBoost模型，有效降低计算周期，同时提高模型的准确性。

本技术方案，如图7的基于分布式系统的意图识别模型关系图，分布式系统根据分块训练的个数配置分布式计算规模，分布式计算每个节点位置，对应配置Scikit-learn算法中间件和XGBoost存储模型，有效解决海量数据时，初始样本巨大，造成训练周期长，训练效果不理想的问题；各个分块数据是相对独立关系，所以Scikit-learn算法中间件最大限度保留各个原始数据中训练样本间关联关系，可以有效对用户信息进行特征抽取和分析；然后，各个Scikit-learn算法中间件对应结果进入相应XGBoost存储模型；通过分布式系统实现意图识别，有效降低计算周期，同时提高模型的准确性。

参阅图2，在一具体实施例中，在步骤S60之前，还包括步骤，

参阅图3，在一具体实施例中，所述步骤S20具体包括，

在一具体实施例中，所述步骤S40还包括，将XGBoost模型初始数据，经过XGBoost模型中梯度增强算法进行模型训练，通过收缩比例因子新增加权重防止过拟合情况，训练直至达到损失函数条件，终止模型训练，得到XGBoost算法意图识别模型。

参阅图4，本发明的另一具体实施例为：一种基于分布式系统的意图识别装置，包括以下模块，

参阅图5，在一具体实施例中，在XGBoost模型配置模块之前，还包括，

参阅图6，在一具体实施例中，所述特征函数训练模块包括，

在一具体实施例中，所述XGBoost模型优化模块，还用于将XGBoost模型初始数据，经过XGBoost模型中梯度增强算法进行模型训练，通过收缩比例因子新增加权重防止过拟合情况，训练直至达到损失函数条件，终止模型训练，得到XGBoost算法意图识别模型存储于本地。

综上所述，本发明的有益效果在于：分布式系统根据分块训练的个数配置分布式计算规模，分布式计算每个节点位置，对应配置Scikit-learn算法中间件和XGBoost存储模型，有效解决海量数据时，初始样本巨大，造成训练周期长，训练效果不理想的问题；各个分块数据是相对独立关系，所以Scikit-learn算法中间件最大限度保留各个原始数据中训练样本间关联关系，可以有效对用户信息进行特征抽取和分析；然后，各个Scikit-learn算法中间件对应结果进入相应XGBoost存储模型；通过分布式系统实现意图识别，有效降低计算周期，同时提高模型的准确性。

此处第一、第二……只代表其名称的区分，不代表它们的重要程度和位置有什么不同。

此处，上、下、左、右、前、后只代表其相对位置而不表示其绝对位置。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于分布式系统的意图识别方法，其特征在于：包括以下步骤，

2.如权利要求1所述的基于分布式系统的意图识别方法，其特征在于：在步骤S60之前，还包括步骤，

3.如权利要求1所述的基于分布式系统的意图识别方法，其特征在于：所述步骤S20具体包括，

4.如权利要求1所述的基于分布式系统的意图识别方法，其特征在于：所述步骤S40还包括，将XGBoost模型初始数据，经过XGBoost模型中梯度增强算法进行模型训练，通过收缩比例因子新增加权重防止过拟合情况，训练直至达到损失函数条件，终止模型训练，得到XGBoost算法意图识别模型。

5.一种基于分布式系统的意图识别装置，其特征在于：包括以下模块，

6.如权利要求5所述的基于分布式系统的意图识别装置，其特征在于：在XGBoost模型配置模块之前，还包括，

7.如权利要求5所述的基于分布式系统的意图识别装置，其特征在于：所述特征函数训练模块包括，

8.如权利要求5所述的基于分布式系统的意图识别装置，其特征在于：所述XGBoost模型优化模块，还用于将XGBoost模型初始数据，经过XGBoost模型中梯度增强算法进行模型训练，通过收缩比例因子新增加权重防止过拟合情况，训练直至达到损失函数条件，终止模型训练，得到XGBoost算法意图识别模型存储于本地。