CN115146704B - 基于分布式数据库和机器学习的事件自动分类方法和系统 - Google Patents
基于分布式数据库和机器学习的事件自动分类方法和系统 Download PDFInfo
- Publication number
- CN115146704B CN115146704B CN202210591398.5A CN202210591398A CN115146704B CN 115146704 B CN115146704 B CN 115146704B CN 202210591398 A CN202210591398 A CN 202210591398A CN 115146704 B CN115146704 B CN 115146704B
- Authority
- CN
- China
- Prior art keywords
- event
- data
- word
- classification
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 114
- 230000011218 segmentation Effects 0.000 claims abstract description 105
- 239000011159 matrix material Substances 0.000 claims abstract description 99
- 238000007781 pre-processing Methods 0.000 claims abstract description 73
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 49
- 230000006835 compression Effects 0.000 claims description 15
- 238000007906 compression Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 12
- 238000013499 data model Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 abstract description 13
- 230000005012 migration Effects 0.000 abstract description 9
- 238000013508 migration Methods 0.000 abstract description 9
- 238000007635 classification algorithm Methods 0.000 abstract description 7
- 230000001360 synchronised effect Effects 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 4
- 241000207961 Sesamum Species 0.000 description 2
- 235000003434 Sesamum indicum Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于分布式数据库和机器学习的事件自动分类方法和系统,基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
Description
技术领域
本发明涉及事件自动分类技术领域,尤其涉及基于分布式数据库和机器学习的事件自动分类方法和系统。
背景技术
传统的事件分类有两种思路,包括:人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式,明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题;对于基于固定规则进行分类的模式,如图1所示为基于固定规则的事件分类流程,需要基于历史的事件数据梳理出事件分类规则库,对于不在规则库中的事件,则无法进行自动分类,并且规则判断比较严格,如果事件关键词不是和规则完全匹配,则很难自动实现分类。
发明内容
本发明提供基于分布式数据库和机器学习的事件自动分类方法和系统,以解决现有技术中存在的传统的事件分类有两种思路,包括:人工进行事件分类和基于固定规则进行事件分类。对于人工分类模式,明显存在分类效率低下、无法长时间工作、容易出现错误且浪费人力的问题;对于基于固定规则进行分类的模式,需要基于历史的事件数据梳理出事件分类规则库,对于不在规则库中的事件,则无法进行自动分类,并且规则判断比较严格,如果事件关键词不是和规则完全匹配,则很难自动实现分类的上述问题。
为了达到上述目的,本发明提供如下技术方案:
基于分布式数据库和机器学习的事件自动分类方法和系统,该于分布式数据库和机器学习的事件自动分类方法,包括:
S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
其中,所述S101步骤包括:
S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;
S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
S1013:对历史事件数据预处理后获取历史事件数据的若干个分词。
其中,所述S102步骤包括:
S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
其中,所述S1024步骤包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
其中,所述S103步骤包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
基于分布式数据库和机器学习的事件自动分类系统,包括:
数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
其中,所述数据预处理单元包括:
事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;
事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。
其中,所述数据模型训练单元包括:
词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
其中,所述分布式数据子单元包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
其中,所述事件分类预测单元包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
与现有技术相比,本发明具有以下优点:
基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。随着业务数据的积累,模型业务不断进行迭代优化,事件分类预测精准度也会不断提升。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明背景技术中基于固定规则的事件分类流程示意图;
图2为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法的流程图;
图3为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法中的事件数据预处理流程图;
图4为本发明实施例中基于分布式数据库和机器学习的事件自动分类方法中的数据训练流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了基于分布式数据库和机器学习的事件自动分类方法,请参考图2至图4,包括:
S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
上述技术方案的工作原理为:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
上述技术方案的有益效果为:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
在另一实施例中,所述S101步骤包括:
S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;
S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
S1013:对历史事件数据预处理后获取历史事件数据的若干个分词。
上述技术方案的工作原理为:基于中文分词器和自定义词库,对历史事件数据进行预处理;当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;对历史事件数据预处理后获取历史事件数据的若干个分词。基于历史产生的事件数据的事件描述文本分词处理具体样例如下:
事件描述:在金城路老婆烧饼店门口有车辆乱停放;
分词处理后:金城路老婆烧饼烧饼店门口车辆乱停放。
上述技术方案的有益效果为:基于中文分词器和自定义词库,对历史事件数据进行预处理;当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;对历史事件数据预处理后获取历史事件数据的若干个分词。获取该历史事件数据文本的多个分词,便于对多个分词进行大量的训练,提高事件自动分类的准确率。
在另一实施例中,所述S102步骤包括:
S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
上述技术方案的工作原理为:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。其中,多分类模型算法madlib.multinom,具体训练步骤为:
调用训练函数:
select madlib.multinom('维度表',
'模型输出表',
'分类值',
'array[1,x1,x2,…]',
'1',
'logit'
);
查看回归结果:
select*from模型输出表;
基于MADlib的多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
上述技术方案的有益效果为:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。基于NLP并结合词向量模型解决文本含义相近的问题,让机器能自动识别不同文本描述的内容是否相近,从而实现若事件关键词不是和规则完全匹配,也可以自动获取事件分类,提升预测准确率。
在另一实施例中,所述S1024步骤包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
上述技术方案的工作原理为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。基于计算压力和经验值设置需要创建一个65列的维度表,其中64列为行向量对应的每一维数据,另外一列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
上述技术方案的有益效果为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
在另一实施例中,所述S103步骤包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的工作原理为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的有益效果为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。采用机器学习进行分类预测,能自适应的提升预测准确率。
在另一实施例中,基于分布式数据库和机器学习的事件自动分类系统,包括:
数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。
上述技术方案的工作原理为:数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据。
上述技术方案的有益效果为:数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型。采用机器学习进行分类预测,能自适应的提升预测准确率,将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作,通过词向量模型的理念,对事件描述进行NLP处理,转换为机器可以理解的数据,基于MADlib的多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
在另一实施例中,所述数据预处理单元包括:
事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;
事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。
上述技术方案的工作原理为:事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。基于历史产生的事件数据的事件描述文本分词处理具体样例如下:
事件描述:在金城路老婆烧饼店门口有车辆乱停放;
分词处理后:金城路老婆烧饼烧饼店门口车辆乱停放。
上述技术方案的有益效果为:事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词。获取该历史事件数据文本的多个分词,便于对多个分词进行大量的训练,提高事件自动分类的准确率。
在另一实施例中,所述数据模型训练单元包括:
词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
上述技术方案的工作原理为:词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。其中,多分类模型算法madlib.multinom,具体训练步骤为:
调用训练函数:
select madlib.multinom('维度表',
'模型输出表',
'分类值',
'array[1,x1,x2,…]',
'1',
'logit'
);
查看回归结果:
select*from模型输出表;
基于MADlib的多分类算法要求,将词向量矩阵压缩为行向量矩阵,一站式的接入机器学习算法,方便进行模型训练预测。
上述技术方案的有益效果为:词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维(基于计算压力和经验值设置为1*64维)的行向量矩阵;分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。基于NLP并结合词向量模型解决文本含义相近的问题,让机器能自动识别不同文本描述的内容是否相近,从而实现若事件关键词不是和规则完全匹配,也可以自动获取事件分类,提升预测准确率。
在另一实施例中,所述分布式数据子单元包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
上述技术方案的工作原理为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。基于计算压力和经验值设置需要创建一个65列的维度表,其中64列为行向量对应的每一维数据,另外一列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
上述技术方案的有益效果为:在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。将事件分类的算法执行逻辑迁移到分布式数据中,大力提升了计算效率和减少了数据迁移同步工作。
在另一实施例中,所述事件分类预测单元包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的工作原理为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
上述技术方案的有益效果为:当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,预测算法为:
select madlib.multinom_predict('模型输出表','新事件信息表','预测结果表','response');
通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。采用机器学习进行分类预测,能自适应的提升预测准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.基于分布式数据库和机器学习的事件自动分类方法,其特征在于,包括:
S101:基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
S102:基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
S103:基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型;
所述S101步骤包括:
S1011:基于中文分词器和自定义词库,对历史事件数据进行预处理;
S1012:当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
S1013:对历史事件数据预处理后获取历史事件数据的若干个分词;
所述S102步骤包括:
S1021:基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
S1022:将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
S1023:词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
S1024:在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
S1025:基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
2.根据权利要求1所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S1024步骤包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
3.根据权利要求2所述的基于分布式数据库和机器学习的事件自动分类方法,其特征在于,所述S103步骤包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
4.基于分布式数据库和机器学习的事件自动分类系统,其特征在于,包括:
数据预处理单元,用于基于数据预处理模块,对历史事件数据进行预处理,获取事件分词数据;
数据模型训练单元,用于基于WordtoVec词向量训练模块和MADlib机器学习模块,对事件分词数据进行模型训练,将训练后的事件分词数据进行整合,获取分类预测模型;
事件分类预测单元,用于基于分类预测模型,对当前产生的新事件数据自动进行事件分类,获取新事件对应的事件类型;
所述数据预处理单元包括:
事件数据预处理第一子单元,用于基于中文分词器和自定义词库,对历史事件数据进行预处理;
事件数据预处理第二子单元,用于当历史事件数据经过停用词时进行去停用词处理,经过自定义词时进行专有名词处理,经过中文分词时进行分词处理;
分词获取子单元,用于对历史事件数据预处理后获取历史事件数据的若干个分词;
所述数据模型训练单元包括:
词向量训练子单元,用于基于NLP处理模块和WordtoVec词向量训练模块,对若干个分词进行训练,获取分词训练数据;
词向量矩阵子单元,将分词训练数据通过词向量矩阵表示,其中,词向量矩阵的行数为输入文本切分后的分词数量,一个分词对应一个行向量,若干个分词组成对应的M*N的词向量矩阵;
压缩变换子单元,用于词向量矩阵通过压缩变换,将对应的M*N的词向量矩阵压缩为1*N维的行向量矩阵;
分布式数据子单元,用于在Greenplum分布式数据库中创建维度表,将压缩后的行向量矩阵按列存储于维度表中;
多分类训练模型子单元,用于基于多分类模型算法,利用MADlib机器学习模块对压缩后的行向量矩阵进行多分类训练,获取分类预测模型。
5.根据权利要求4所述的基于分布式数据库和机器学习的事件自动分类系统,其特征在于,所述分布式数据子单元包括:
在Greenplum分布式数据库中创建维度表为K列,其中,K=N+1,N列为所述行向量矩阵对应的每一维数据,1为增加的列,增加的1列为事件信息的唯一标识。
6.根据权利要求5所述的基于分布式数据库和机器学习的事件自动分类系统,其特征在于,所述事件分类预测单元包括:
当产生新事件数据时,新事件数据经过数据预处理模块预处理、WordtoVec词向量训练模块压缩处理后获取新事件的行向量表示,基于分类预测模型对新事件的行向量进行分类预测,获取预测结果表,通过预测结果表和事件表关联,获取新事件数据对应的事件分类值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210591398.5A CN115146704B (zh) | 2022-05-27 | 2022-05-27 | 基于分布式数据库和机器学习的事件自动分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210591398.5A CN115146704B (zh) | 2022-05-27 | 2022-05-27 | 基于分布式数据库和机器学习的事件自动分类方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115146704A CN115146704A (zh) | 2022-10-04 |
CN115146704B true CN115146704B (zh) | 2023-11-07 |
Family
ID=83406613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210591398.5A Active CN115146704B (zh) | 2022-05-27 | 2022-05-27 | 基于分布式数据库和机器学习的事件自动分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146704B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803399B1 (en) * | 2015-09-10 | 2020-10-13 | EMC IP Holding Company LLC | Topic model based clustering of text data with machine learning utilizing interface feedback |
CN111858945A (zh) * | 2020-08-05 | 2020-10-30 | 上海哈蜂信息科技有限公司 | 基于深度学习的评论文本方面级情感分类方法及系统 |
CN111859924A (zh) * | 2020-07-21 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种基于word2vec模型构建词网的方法和装置 |
CN112560473A (zh) * | 2020-09-03 | 2021-03-26 | 上海东普信息科技有限公司 | 快递商品画像生成方法、生成装置、设备及存储介质 |
CN113177644A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种基于词嵌入和深度时序模型的自动建模系统 |
CN113468421A (zh) * | 2021-06-29 | 2021-10-01 | 平安信托有限责任公司 | 基于向量匹配技术的产品推荐方法、装置、设备及介质 |
WO2022048363A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳壹账通智能科技有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
CN114357171A (zh) * | 2022-01-04 | 2022-04-15 | 中国建设银行股份有限公司 | 一种应急事件处理方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11900071B2 (en) * | 2020-05-29 | 2024-02-13 | Fmr Llc | Generating customized digital documents using artificial intelligence |
-
2022
- 2022-05-27 CN CN202210591398.5A patent/CN115146704B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803399B1 (en) * | 2015-09-10 | 2020-10-13 | EMC IP Holding Company LLC | Topic model based clustering of text data with machine learning utilizing interface feedback |
CN111859924A (zh) * | 2020-07-21 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种基于word2vec模型构建词网的方法和装置 |
CN111858945A (zh) * | 2020-08-05 | 2020-10-30 | 上海哈蜂信息科技有限公司 | 基于深度学习的评论文本方面级情感分类方法及系统 |
WO2022048363A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳壹账通智能科技有限公司 | 网站分类方法、装置、计算机设备及存储介质 |
CN112560473A (zh) * | 2020-09-03 | 2021-03-26 | 上海东普信息科技有限公司 | 快递商品画像生成方法、生成装置、设备及存储介质 |
CN113177644A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种基于词嵌入和深度时序模型的自动建模系统 |
CN113468421A (zh) * | 2021-06-29 | 2021-10-01 | 平安信托有限责任公司 | 基于向量匹配技术的产品推荐方法、装置、设备及介质 |
CN114357171A (zh) * | 2022-01-04 | 2022-04-15 | 中国建设银行股份有限公司 | 一种应急事件处理方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Tibetan Word Segmentation Method Based on BiLSTM_ CRF Model;Lili Wang等;《2018 International Conference on Asian Language Processing (IALP)》;全文 * |
卢达沛.审计大数据平台的若干技术研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2021,I138-680. * |
Also Published As
Publication number | Publication date |
---|---|
CN115146704A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4311552B2 (ja) | ドキュメントの自動分離 | |
CN111651601B (zh) | 用于电力信息系统的故障分类模型的训练方法及分类方法 | |
US11816138B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
CN112541745A (zh) | 用户行为数据分析方法、装置、电子设备及可读存储介质 | |
CN112541077B (zh) | 一种用于电网用户服务评价的处理方法及系统 | |
US11429810B2 (en) | Question answering method, terminal, and non-transitory computer readable storage medium | |
CN113591866B (zh) | 基于db与crnn的特种作业证件检测方法及系统 | |
EP1903479A1 (en) | Method and system for data classification using a self-organizing map | |
CN111325156A (zh) | 人脸识别方法、装置、设备和存储介质 | |
CN116127105B (zh) | 一种大数据平台的数据汇集方法及装置 | |
CN112818117A (zh) | 标签映射方法、系统、计算机可读存储介质 | |
CN115146704B (zh) | 基于分布式数据库和机器学习的事件自动分类方法和系统 | |
CN113407700A (zh) | 一种数据查询方法、装置和设备 | |
CN111553442B (zh) | 一种分类器链标签序列的优化方法及系统 | |
CN110895562A (zh) | 反馈信息处理方法及装置 | |
CN111652256B (zh) | 一种获取多维数据的方法和系统 | |
CN113947079A (zh) | 一种企业行业标签的生成方法及装置 | |
CN115617790A (zh) | 数据仓库创建方法、电子设备及存储介质 | |
CN112699949A (zh) | 一种基于社交平台数据的潜在用户识别方法及装置 | |
CN111488852A (zh) | 一种基于图像识别的缴费智能核查预警系统及预警方法 | |
CN112257525A (zh) | 物流车辆打卡的识别方法、装置、设备和存储介质 | |
CN111209365A (zh) | 企业名称智能分类的方法及系统 | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
CN117371533B (zh) | 一种生成数据标签规则的方法及装置 | |
CN112508036B (zh) | 基于卷积神经网络和编码的手写数字识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |