CN115146704A - 基于分布式数据库和机器学习的事件自动分类方法和系统 - Google Patents

基于分布式数据库和机器学习的事件自动分类方法和系统 Download PDF

Info

Publication number
CN115146704A
CN115146704A CN202210591398.5A CN202210591398A CN115146704A CN 115146704 A CN115146704 A CN 115146704A CN 202210591398 A CN202210591398 A CN 202210591398A CN 115146704 A CN115146704 A CN 115146704A
Authority
CN
China
Prior art keywords
event
data
classification
word
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210591398.5A
Other languages
English (en)
Other versions
CN115146704B (zh
Inventor
叶智慧
廖畅
陈成斌
苏胜林
马军亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongruixin Digital Technology Co ltd
Original Assignee
Zhongruixin Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongruixin Digital Technology Co ltd filed Critical Zhongruixin Digital Technology Co ltd
Priority to CN202210591398.5A priority Critical patent/CN115146704B/zh
Publication of CN115146704A publication Critical patent/CN115146704A/zh
Application granted granted Critical
Publication of CN115146704B publication Critical patent/CN115146704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于分布式数据库和机器学习的事件自动分类方法和系统,基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。

Description

基于分布式数据库和机器学习的事件自动分类方法和系统
技术领域
本发明涉及事件自动分类技术领域,尤其涉及基于分布式数据库和机器学习的事件自动分类方法和系统。
背景技术
传统的事件分类有两种思路,包括:人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式,明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题;对于基于固定规则进行分类的模式,如图1所示为基于固定规则的事件分类流程,需要基于历史的事件数据梳理出事件分类规则库,对于不在规则库中的事件,则无法进行自动分类,并且规则判断比较严格,如果事件关键词不是和规则完全匹配,则很难自动实现分类。
发明内容
本发明提供基于分布式数据库和机器学习的事件自动分类方法和系统,以解决现有技术中存在的传统的事件分类有两种思路,包括:人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式,明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题;对于基于固定规则进行分类的模式,需要基于历史的事件数据梳理出事件分类规则库,对于不在规则库中的事件,则无法进行自动分类,并且规则判断比较严格,如果事件关键词不是和规则完全匹配,则很难自动实现分类的上述问题。
为了达到上述目的,本发明提供如下技术方案:
基于分布式数据库和机器学习的事件自动分类方法和系统,该于分布式数据库和机器学习的事件自动分类方法,包括:
S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
其中,所述S101步骤包括:
S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;
S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
S1013:对历史事件数据预处理后获取历史事件数据的若干个分词。
其中,所述S102步骤包括:
S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
其中,所述S1024步骤包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
其中,所述S103步骤包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
基于分布式数据库和机器学习的事件自动分类系统,包括:
数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
其中,所述数据预处理单元包括:
事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;
事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。
其中,所述数据模型训练单元包括:
词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
其中,所述分布式数据子单元包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
其中,所述事件分类预测单元包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
与现有技术相比,本发明具有以下优点:
基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。随着业务数据的积累,模型业务不断进行迭代优化,事件分类预测精准度也会不断提升。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明背景技术中基于固定规则的事件分类流程示意图;
图2为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法的流程图;
图3为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法中的事件数据预处理流程图;
图4为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法中的数据训练流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了基于分布式数据库和机器学习的事件自动分类方法,请参考图2至图4,包括:
S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
上述技术方案的工作原理为:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
上述技术方案的有益效果为:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
在另一实施例中,所述S101步骤包括:
S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;
S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
S1013:对历史事件数据预处理后获取历史事件数据的若干个分词。
上述技术方案的工作原理为:基于中文分词器和自定义词库,对历史事件数据进行预处理;当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;对历史事件数据预处理后获取历史事件数据的若干个分词。基于历史产生的事件数据的事件描述文本分词处理具体样例如下:
事件描述:在金城路老婆烧饼店门口有车辆乱停放;
分词处理后:金城路老婆烧饼烧饼店门口车辆乱停放。
上述技术方案的有益效果为:基于中文分词器和自定义词库,对历史事件数据进行预处理;当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;对历史事件数据预处理后获取历史事件数据的若干个分词。获取该历史事件数据文本的多个分词,便于对多个分词进行大量的训练,提高事件自动分类的准确率。
在另一实施例中,所述S102步骤包括:
S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
上述技术方案的工作原理为:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。其中,多分类模型算法madlib.multinom,具体训练步骤为:
调用训练函数:
select madlib.multinom('维度表',
'模型输出表',
'分类值',
'array[1,x1,x2,…]',
'1',
'logit'
);
查看回归结果:
select*from模型输出表;
基于MADlib的多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
上述技术方案的有益效果为:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。基于NLP并结合词向量模型解决文本含义相近的问题,让机器能自动识别不同文本描述的内容是否相近,从而实现若事件关键词不是和规则完全匹配,也可以自动获取事件分类,提升预测准确率。
在另一实施例中,所述S1024步骤包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
上述技术方案的工作原理为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。基于计算压力和经验值设置需要创建一个65列的维度表,其中64列为行向量对应的每一维数据,另外一列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
上述技术方案的有益效果为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
在另一实施例中,所述S103步骤包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的工作原理为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的有益效果为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。采用机器学习进行分类预测,能自适应的提升预测准确率。
在另一实施例中,基于分布式数据库和机器学习的事件自动分类系统,包括:
数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
上述技术方案的工作原理为:数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据。
上述技术方案的有益效果为:数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于MADlib的多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
在另一实施例中,所述数据预处理单元包括:
事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;
事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。
上述技术方案的工作原理为:事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。基于历史产生的事件数据的事件描述文本分词处理具体样例如下:
事件描述:在金城路老婆烧饼店门口有车辆乱停放;
分词处理后:金城路老婆烧饼烧饼店门口车辆乱停放。
上述技术方案的有益效果为:事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。获取该历史事件数据文本的多个分词,便于对多个分词进行大量的训练,提高事件自动分类的准确率。
在另一实施例中,所述数据模型训练单元包括:
词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
上述技术方案的工作原理为:词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。其中,多分类模型算法madlib.multinom,具体训练步骤为:
调用训练函数:
select madlib.multinom('维度表',
'模型输出表',
'分类值',
'array[1,x1,x2,…]',
'1',
'logit'
);
查看回归结果:
select*from模型输出表;
基于MADlib的多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
上述技术方案的有益效果为:词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。基于NLP并结合词向量模型解决文本含义相近的问题,让机器能自动识别不同文本描述的内容是否相近,从而实现若事件关键词不是和规则完全匹配,也可以自动获取事件分类,提升预测准确率。
在另一实施例中,所述分布式数据子单元包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
上述技术方案的工作原理为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。基于计算压力和经验值设置需要创建一个65列的维度表,其中64列为行向量对应的每一维数据,另外一列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
上述技术方案的有益效果为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
在另一实施例中,所述事件分类预测单元包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的工作原理为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的有益效果为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。采用机器学习进行分类预测,能自适应的提升预测准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.基于分布式数据库和机器学习的事件自动分类方法,其特征在于,包括:
S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
2.根据权利要求1所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S101步骤包括:
S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;
S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
S1013:对历史事件数据预处理后获取历史事件数据的若干个分词。
3.根据权利要求2所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S102步骤包括:
S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
4.根据权利要求3所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S1024步骤包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
5.根据权利要求4所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S103步骤包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
6.基于分布式数据库和机器学习的事件自动分类系统,其特征在于,包括:
数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
7.根据权利要求6所述的基于分布式数据库和机器学习的事件自动分类系统,其特征在于,所述数据预处理单元包括:
事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;
事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。
8.根据权利要求7所述的基于分布式数据库和机器学习的事件自动分类系统,其特征在于,所述数据模型训练单元包括:
词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
9.根据权利要求8所述的基于分布式数据库和机器学习的事件自动分类系统,其特征在于,所述分布式数据子单元包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
10.根据权利要求9所述的基于分布式数据库和机器学习的事件自动分类系统,其特征在于,所述事件分类预测单元包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
CN202210591398.5A 2022-05-27 2022-05-27 基于分布式数据库和机器学习的事件自动分类方法和系统 Active CN115146704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210591398.5A CN115146704B (zh) 2022-05-27 2022-05-27 基于分布式数据库和机器学习的事件自动分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210591398.5A CN115146704B (zh) 2022-05-27 2022-05-27 基于分布式数据库和机器学习的事件自动分类方法和系统

Publications (2)

Publication Number Publication Date
CN115146704A true CN115146704A (zh) 2022-10-04
CN115146704B CN115146704B (zh) 2023-11-07

Family

ID=83406613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210591398.5A Active CN115146704B (zh) 2022-05-27 2022-05-27 基于分布式数据库和机器学习的事件自动分类方法和系统

Country Status (1)

Country Link
CN (1) CN115146704B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803399B1 (en) * 2015-09-10 2020-10-13 EMC IP Holding Company LLC Topic model based clustering of text data with machine learning utilizing interface feedback
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN111859924A (zh) * 2020-07-21 2020-10-30 浪潮云信息技术股份公司 一种基于word2vec模型构建词网的方法和装置
CN112560473A (zh) * 2020-09-03 2021-03-26 上海东普信息科技有限公司 快递商品画像生成方法、生成装置、设备及存储介质
CN113177644A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种基于词嵌入和深度时序模型的自动建模系统
CN113468421A (zh) * 2021-06-29 2021-10-01 平安信托有限责任公司 基于向量匹配技术的产品推荐方法、装置、设备及介质
US20210374360A1 (en) * 2020-05-29 2021-12-02 Fmr Llc Generating Customized Digital Documents Using Artificial Intelligence
WO2022048363A1 (zh) * 2020-09-02 2022-03-10 深圳壹账通智能科技有限公司 网站分类方法、装置、计算机设备及存储介质
CN114357171A (zh) * 2022-01-04 2022-04-15 中国建设银行股份有限公司 一种应急事件处理方法、装置、存储介质及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803399B1 (en) * 2015-09-10 2020-10-13 EMC IP Holding Company LLC Topic model based clustering of text data with machine learning utilizing interface feedback
US20210374360A1 (en) * 2020-05-29 2021-12-02 Fmr Llc Generating Customized Digital Documents Using Artificial Intelligence
CN111859924A (zh) * 2020-07-21 2020-10-30 浪潮云信息技术股份公司 一种基于word2vec模型构建词网的方法和装置
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
WO2022048363A1 (zh) * 2020-09-02 2022-03-10 深圳壹账通智能科技有限公司 网站分类方法、装置、计算机设备及存储介质
CN112560473A (zh) * 2020-09-03 2021-03-26 上海东普信息科技有限公司 快递商品画像生成方法、生成装置、设备及存储介质
CN113177644A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种基于词嵌入和深度时序模型的自动建模系统
CN113468421A (zh) * 2021-06-29 2021-10-01 平安信托有限责任公司 基于向量匹配技术的产品推荐方法、装置、设备及介质
CN114357171A (zh) * 2022-01-04 2022-04-15 中国建设银行股份有限公司 一种应急事件处理方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LILI WANG等: "Tibetan Word Segmentation Method Based on BiLSTM_ CRF Model", 《2018 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 *
卢达沛: "审计大数据平台的若干技术研究", pages 138 - 680 *

Also Published As

Publication number Publication date
CN115146704B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
US20210216880A1 (en) Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn
CN108415980A (zh) 问答数据处理方法、电子装置及存储介质
CN108416375B (zh) 工单分类方法及装置
US20150199913A1 (en) Method and system for automated essay scoring using nominal classification
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN110781671A (zh) 一种智能ietm故障维修记录文本的知识挖掘方法
CN111177186B (zh) 基于问题检索的单句意图识别方法、装置和系统
CN112541745A (zh) 用户行为数据分析方法、装置、电子设备及可读存储介质
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN109690581B (zh) 用户指导系统及方法
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN111651601A (zh) 用于电力信息系统的故障分类模型的训练方法及分类方法
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112560506A (zh) 文本语义解析方法、装置、终端设备及存储介质
CN111782804A (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN109063155B (zh) 语言模型参数确定方法、装置和计算机设备
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN115146704A (zh) 基于分布式数据库和机器学习的事件自动分类方法和系统
CN113052544A (zh) 工作流依用户行为智能适配方法、装置以及存储介质
CN110895562A (zh) 反馈信息处理方法及装置
CN114281761A (zh) 一种数据文件加载方法、装置、计算机设备及存储介质
CN113407700A (zh) 一种数据查询方法、装置和设备
CN115617790A (zh) 数据仓库创建方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant