CN115146704B

CN115146704B - 基于分布式数据库和机器学习的事件自动分类方法和系统

Info

Publication number: CN115146704B
Application number: CN202210591398.5A
Authority: CN
Inventors: 叶智慧; 廖畅; 陈成斌; 苏胜林; 马军亮
Original assignee: Zhongruixin Digital Technology Co ltd
Current assignee: Zhongruixin Digital Technology Co ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-11-07
Anticipated expiration: 2042-05-27
Also published as: CN115146704A

Abstract

本发明公开了基于分布式数据库和机器学习的事件自动分类方法和系统，基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。采用机器学习进行分类预测，能自适应的提升预测准确率，将事件分类的算法执行逻辑迁移到分布式数据中，大力提升了计算效率和减少了数据迁移同步工作，基于多分类算法要求，将词向量矩阵压缩为行向量矩阵，一站式的接入机器学习算法，方便进行模型训练预测。

Description

基于分布式数据库和机器学习的事件自动分类方法和系统

技术领域

本发明涉及事件自动分类技术领域，尤其涉及基于分布式数据库和机器学习的事件自动分类方法和系统。

背景技术

传统的事件分类有两种思路，包括：人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式，明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题；对于基于固定规则进行分类的模式，如图1所示为基于固定规则的事件分类流程，需要基于历史的事件数据梳理出事件分类规则库，对于不在规则库中的事件，则无法进行自动分类，并且规则判断比较严格，如果事件关键词不是和规则完全匹配，则很难自动实现分类。

发明内容

本发明提供基于分布式数据库和机器学习的事件自动分类方法和系统，以解决现有技术中存在的传统的事件分类有两种思路，包括：人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式，明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题；对于基于固定规则进行分类的模式，需要基于历史的事件数据梳理出事件分类规则库，对于不在规则库中的事件，则无法进行自动分类，并且规则判断比较严格，如果事件关键词不是和规则完全匹配，则很难自动实现分类的上述问题。

为了达到上述目的，本发明提供如下技术方案：

基于分布式数据库和机器学习的事件自动分类方法和系统，该于分布式数据库和机器学习的事件自动分类方法，包括：

S101：基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；

S102：基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；

S103：基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。

其中，所述S101步骤包括：

S1011：基于中文分词器和自定义词库，对历史事件数据进行预处理；

S1012：当历史事件数据经过停用词时进行去停用词处理，经过自定义词时进行专有名词处理，经过中文分词时进行分词处理；

S1013：对历史事件数据预处理后获取历史事件数据的若干个分词。

其中，所述S102步骤包括：

S1021：基于NLP处理模块和WordtoVec词向量训练模块，对若干个分词进行训练，获取分词训练数据；

S1022：将分词训练数据通过词向量矩阵表示，其中，词向量矩阵的行数为输入文本切分后的分词数量，一个分词对应一个行向量，若干个分词组成对应的M*N的词向量矩阵；

S1023：词向量矩阵通过压缩变换，将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵；

S1024：在Greenplum分布式数据库中创建维度表，将压缩后的行向量矩阵按列存储于维度表中；

S1025：基于多分类模型算法，利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练，获取分类预测模型。

其中，所述S1024步骤包括：

在Greenplum分布式数据库中创建维度表为K列，其中，K＝N+1，N列为所述行向量矩阵对应的每一维数据，1为增加的列，增加的1列为事件信息的唯一标识。

其中，所述S103步骤包括：

当产生新事件数据时，新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示，基于分类预测模型对新事件的行向量进行分类预测，获取预测结果表，通过预测结果表和事件表关联，获取新事件数据对应的事件分类值。

基于分布式数据库和机器学习的事件自动分类系统，包括：

数据预处理单元，用于基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；

数据模型训练单元，用于基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；

事件分类预测单元，用于基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。

其中，所述数据预处理单元包括：

事件数据预处理第一子单元，用于基于中文分词器和自定义词库，对历史事件数据进行预处理；

事件数据预处理第二子单元，用于当历史事件数据经过停用词时进行去停用词处理，经过自定义词时进行专有名词处理，经过中文分词时进行分词处理；

分词获取子单元，用于对历史事件数据预处理后获取历史事件数据的若干个分词。

其中，所述数据模型训练单元包括：

词向量训练子单元，用于基于NLP处理模块和WordtoVec词向量训练模块，对若干个分词进行训练，获取分词训练数据；

词向量矩阵子单元，将分词训练数据通过词向量矩阵表示，其中，词向量矩阵的行数为输入文本切分后的分词数量，一个分词对应一个行向量，若干个分词组成对应的M*N的词向量矩阵；

压缩变换子单元，用于词向量矩阵通过压缩变换，将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵；

分布式数据子单元，用于在Greenplum分布式数据库中创建维度表，将压缩后的行向量矩阵按列存储于维度表中；

多分类训练模型子单元，用于基于多分类模型算法，利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练，获取分类预测模型。

其中，所述分布式数据子单元包括：

其中，所述事件分类预测单元包括：

与现有技术相比，本发明具有以下优点：

基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。采用机器学习进行分类预测，能自适应的提升预测准确率，将事件分类的算法执行逻辑迁移到分布式数据中，大力提升了计算效率和减少了数据迁移同步工作，通过词向量模型的理念，对事件描述进行NLP处理，转换为机器可以理解的数据，基于多分类算法要求，将词向量矩阵压缩为行向量矩阵，一站式的接入机器学习算法，方便进行模型训练预测。随着业务数据的积累，模型业务不断进行迭代优化，事件分类预测精准度也会不断提升。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明背景技术中基于固定规则的事件分类流程示意图；

图2为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法的流程图；

图3为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法中的事件数据预处理流程图；

图4为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法中的数据训练流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了基于分布式数据库和机器学习的事件自动分类方法，请参考图2至图4，包括：

上述技术方案的工作原理为：基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。采用机器学习进行分类预测，能自适应的提升预测准确率，将事件分类的算法执行逻辑迁移到分布式数据中，大力提升了计算效率和减少了数据迁移同步工作，通过词向量模型的理念，对事件描述进行NLP处理，转换为机器可以理解的数据，基于多分类算法要求，将词向量矩阵压缩为行向量矩阵，一站式的接入机器学习算法，方便进行模型训练预测。

上述技术方案的有益效果为：基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。采用机器学习进行分类预测，能自适应的提升预测准确率，将事件分类的算法执行逻辑迁移到分布式数据中，大力提升了计算效率和减少了数据迁移同步工作，通过词向量模型的理念，对事件描述进行NLP处理，转换为机器可以理解的数据，基于多分类算法要求，将词向量矩阵压缩为行向量矩阵，一站式的接入机器学习算法，方便进行模型训练预测。

在另一实施例中，所述S101步骤包括：

上述技术方案的工作原理为：基于中文分词器和自定义词库，对历史事件数据进行预处理；当历史事件数据经过停用词时进行去停用词处理，经过自定义词时进行专有名词处理，经过中文分词时进行分词处理；对历史事件数据预处理后获取历史事件数据的若干个分词。基于历史产生的事件数据的事件描述文本分词处理具体样例如下：

事件描述：在金城路老婆烧饼店门口有车辆乱停放；

分词处理后：金城路老婆烧饼烧饼店门口车辆乱停放。

上述技术方案的有益效果为：基于中文分词器和自定义词库，对历史事件数据进行预处理；当历史事件数据经过停用词时进行去停用词处理，经过自定义词时进行专有名词处理，经过中文分词时进行分词处理；对历史事件数据预处理后获取历史事件数据的若干个分词。获取该历史事件数据文本的多个分词，便于对多个分词进行大量的训练，提高事件自动分类的准确率。

在另一实施例中，所述S102步骤包括：

上述技术方案的工作原理为：基于NLP处理模块和WordtoVec词向量训练模块，对若干个分词进行训练，获取分词训练数据；将分词训练数据通过词向量矩阵表示，其中，词向量矩阵的行数为输入文本切分后的分词数量，一个分词对应一个行向量，若干个分词组成对应的M*N的词向量矩阵；词向量矩阵通过压缩变换，将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵；在Greenplum分布式数据库中创建维度表，将压缩后的行向量矩阵按列存储于维度表中；基于多分类模型算法，利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练，获取分类预测模型。其中，多分类模型算法madlib.multinom，具体训练步骤为：

调用训练函数：

select madlib.multinom('维度表',

'模型输出表',

'分类值',

'array[1,x1,x2,…]',

'1',

'logit'

)；

查看回归结果：

select*from模型输出表；

基于MADlib的多分类算法要求，将词向量矩阵压缩为行向量矩阵，一站式的接入机器学习算法，方便进行模型训练预测。

上述技术方案的有益效果为：基于NLP处理模块和WordtoVec词向量训练模块，对若干个分词进行训练，获取分词训练数据；将分词训练数据通过词向量矩阵表示，其中，词向量矩阵的行数为输入文本切分后的分词数量，一个分词对应一个行向量，若干个分词组成对应的M*N的词向量矩阵；词向量矩阵通过压缩变换，将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵；在Greenplum分布式数据库中创建维度表，将压缩后的行向量矩阵按列存储于维度表中；基于多分类模型算法，利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练，获取分类预测模型。基于NLP并结合词向量模型解决文本含义相近的问题，让机器能自动识别不同文本描述的内容是否相近，从而实现若事件关键词不是和规则完全匹配，也可以自动获取事件分类，提升预测准确率。

在另一实施例中，所述S1024步骤包括：

上述技术方案的工作原理为：在Greenplum分布式数据库中创建维度表为K列，其中，K＝N+1，N列为所述行向量矩阵对应的每一维数据，1为增加的列，增加的1列为事件信息的唯一标识。基于计算压力和经验值设置需要创建一个65列的维度表，其中64列为行向量对应的每一维数据，另外一列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中，大力提升了计算效率和减少了数据迁移同步工作。

上述技术方案的有益效果为：在Greenplum分布式数据库中创建维度表为K列，其中，K＝N+1，N列为所述行向量矩阵对应的每一维数据，1为增加的列，增加的1列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中，大力提升了计算效率和减少了数据迁移同步工作。

在另一实施例中，所述S103步骤包括：

上述技术方案的工作原理为：当产生新事件数据时，新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示，基于分类预测模型对新事件的行向量进行分类预测，预测算法为：

select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response')；

通过预测结果表和事件表关联，获取新事件数据对应的事件分类值。

上述技术方案的有益效果为：当产生新事件数据时，新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示，基于分类预测模型对新事件的行向量进行分类预测，预测算法为：

通过预测结果表和事件表关联，获取新事件数据对应的事件分类值。采用机器学习进行分类预测，能自适应的提升预测准确率。

在另一实施例中，基于分布式数据库和机器学习的事件自动分类系统，包括：

上述技术方案的工作原理为：数据预处理单元，用于基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；数据模型训练单元，用于基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；事件分类预测单元，用于基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。通过词向量模型的理念，对事件描述进行NLP处理，转换为机器可以理解的数据。

上述技术方案的有益效果为：数据预处理单元，用于基于数据预处理模块，对历史事件数据进行预处理，获取事件分词数据；数据模型训练单元，用于基于WordtoVec词向量训练模块和MADlib机器学习模块，对事件分词数据进行模型训练，将训练后的事件分词数据进行整合，获取分类预测模型；事件分类预测单元，用于基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型。采用机器学习进行分类预测，能自适应的提升预测准确率，将事件分类的算法执行逻辑迁移到分布式数据中，大力提升了计算效率和减少了数据迁移同步工作，通过词向量模型的理念，对事件描述进行NLP处理，转换为机器可以理解的数据，基于MADlib的多分类算法要求，将词向量矩阵压缩为行向量矩阵，一站式的接入机器学习算法，方便进行模型训练预测。

在另一实施例中，所述数据预处理单元包括：

上述技术方案的工作原理为：事件数据预处理第一子单元，用于基于中文分词器和自定义词库，对历史事件数据进行预处理；事件数据预处理第二子单元，用于当历史事件数据经过停用词时进行去停用词处理，经过自定义词时进行专有名词处理，经过中文分词时进行分词处理；分词获取子单元，用于对历史事件数据预处理后获取历史事件数据的若干个分词。基于历史产生的事件数据的事件描述文本分词处理具体样例如下：

事件描述：在金城路老婆烧饼店门口有车辆乱停放；

分词处理后：金城路老婆烧饼烧饼店门口车辆乱停放。

上述技术方案的有益效果为：事件数据预处理第一子单元，用于基于中文分词器和自定义词库，对历史事件数据进行预处理；事件数据预处理第二子单元，用于当历史事件数据经过停用词时进行去停用词处理，经过自定义词时进行专有名词处理，经过中文分词时进行分词处理；分词获取子单元，用于对历史事件数据预处理后获取历史事件数据的若干个分词。获取该历史事件数据文本的多个分词，便于对多个分词进行大量的训练，提高事件自动分类的准确率。

在另一实施例中，所述数据模型训练单元包括：

上述技术方案的工作原理为：词向量训练子单元，用于基于NLP处理模块和WordtoVec词向量训练模块，对若干个分词进行训练，获取分词训练数据；词向量矩阵子单元，将分词训练数据通过词向量矩阵表示，其中，词向量矩阵的行数为输入文本切分后的分词数量，一个分词对应一个行向量，若干个分词组成对应的M*N的词向量矩阵；压缩变换子单元，用于词向量矩阵通过压缩变换，将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵；分布式数据子单元，用于在Greenplum分布式数据库中创建维度表，将压缩后的行向量矩阵按列存储于维度表中；多分类训练模型子单元，用于基于多分类模型算法，利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练，获取分类预测模型。其中，多分类模型算法madlib.multinom，具体训练步骤为：

调用训练函数：

select madlib.multinom('维度表',

'模型输出表',

'分类值',

'array[1,x1,x2,…]',

'1',

'logit'

)；

查看回归结果：

select*from模型输出表；

上述技术方案的有益效果为：词向量训练子单元，用于基于NLP处理模块和WordtoVec词向量训练模块，对若干个分词进行训练，获取分词训练数据；词向量矩阵子单元，将分词训练数据通过词向量矩阵表示，其中，词向量矩阵的行数为输入文本切分后的分词数量，一个分词对应一个行向量，若干个分词组成对应的M*N的词向量矩阵；压缩变换子单元，用于词向量矩阵通过压缩变换，将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵；分布式数据子单元，用于在Greenplum分布式数据库中创建维度表，将压缩后的行向量矩阵按列存储于维度表中；多分类训练模型子单元，用于基于多分类模型算法，利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练，获取分类预测模型。基于NLP并结合词向量模型解决文本含义相近的问题，让机器能自动识别不同文本描述的内容是否相近，从而实现若事件关键词不是和规则完全匹配，也可以自动获取事件分类，提升预测准确率。

在另一实施例中，所述分布式数据子单元包括：

在另一实施例中，所述事件分类预测单元包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于分布式数据库和机器学习的事件自动分类方法，其特征在于，包括：

S103：基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型；

所述S101步骤包括：

S1013：对历史事件数据预处理后获取历史事件数据的若干个分词；

所述S102步骤包括：

2.根据权利要求1所述的基于分布式数据库和机器学习的事件自动分类方法，其特征在于，所述S1024步骤包括：

3.根据权利要求2所述的基于分布式数据库和机器学习的事件自动分类方法，其特征在于，所述S103步骤包括：

4.基于分布式数据库和机器学习的事件自动分类系统，其特征在于，包括：

事件分类预测单元，用于基于分类预测模型，对当前产生的新事件数据自动进行事件分类，获取新事件对应的事件类型；

所述数据预处理单元包括：

分词获取子单元，用于对历史事件数据预处理后获取历史事件数据的若干个分词；

所述数据模型训练单元包括：

5.根据权利要求4所述的基于分布式数据库和机器学习的事件自动分类系统，其特征在于，所述分布式数据子单元包括：

6.根据权利要求5所述的基于分布式数据库和机器学习的事件自动分类系统，其特征在于，所述事件分类预测单元包括：