CN116795886B - 用于销售数据的数据分析引擎及方法 - Google Patents
用于销售数据的数据分析引擎及方法 Download PDFInfo
- Publication number
- CN116795886B CN116795886B CN202310857319.5A CN202310857319A CN116795886B CN 116795886 B CN116795886 B CN 116795886B CN 202310857319 A CN202310857319 A CN 202310857319A CN 116795886 B CN116795886 B CN 116795886B
- Authority
- CN
- China
- Prior art keywords
- analysis
- data
- rule
- sequence
- analysis rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 139
- 238000012795 verification Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 121
- 238000012549 training Methods 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000009826 distribution Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 239000010410 layer Substances 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
公开了一种用于销售数据的数据分析引擎及方法。该引擎包括用于收集来自于CRM系统的表单数据的数据集采集模块,用于通过数据集配置界面对所述表单数据的解析规则进行配置的解析规则配置模块,用于通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确的验证模块,以及,用于执行用户配置的所述解析规则以输出预览结果的分析执行模块。这样,可以结合所述解析规则的词文本内容和词性信息来对所述解析规则进行语义理解,并基于语义理解结果来确定所述解析规则是否存在错误。
Description
技术领域
本申请涉及数据分析领域,且更为具体地,涉及一种用于销售数据的数据分析引擎及方法。
背景技术
在公司治理中,通过数据集工具来对企业业务数据进行处理和分析以对企业进行“软”监控,从而以直观地方式来观测企业是否满足了客户提出的需求,同时也能够实时地监控企业成本。市面上现有的ETL工具,例如kettle,数据工厂类软件作为数据抽取的一种工具,大多实时性达不到和过滤条件灵活兼备的要求,同时,还具有成本较高、效率低、灵活性差、不能实现通用逻辑和特殊需求的结合(例如,PaaS数据和SaaS数据的结合)。
因此,期待一种优化的用于销售数据的数据分析引擎。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于销售数据的数据分析引擎及方法。其可以结合所述解析规则的词文本内容和词性信息来对所述解析规则进行语义理解,并基于语义理解结果来确定所述解析规则是否存在错误。
根据本申请的一个方面,提供了一种用于销售数据的数据分析引擎,其包括:
数据集采集模块,用于收集来自于CRM系统的表单数据;
解析规则配置模块,用于通过数据集配置界面对所述表单数据的解析规则进行配置;
验证模块,用于通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确;以及
分析执行模块,用于执行用户配置的所述解析规则以输出预览结果。
根据本申请的另一个方面,提供了一种用于销售数据的数据分析方法,其包括:
收集来自于CRM系统的表单数据;
通过数据集配置界面对所述表单数据的解析规则进行配置;
通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确;以及
执行用户配置的所述解析规则以输出预览结果。
与现有技术相比,本申请提供的用于销售数据的数据分析引擎及方法,该引擎包括用于收集来自于CRM系统的表单数据的数据集采集模块,用于通过数据集配置界面对所述表单数据的解析规则进行配置的解析规则配置模块,用于通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确的验证模块,以及,用于执行用户配置的所述解析规则以输出预览结果的分析执行模块。这样,可以结合所述解析规则的词文本内容和词性信息来对所述解析规则进行语义理解,并基于语义理解结果来确定所述解析规则是否存在错误。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的用于销售数据的数据分析引擎的框图示意图。
图2为根据本申请实施例的用于销售数据的数据分析引擎中的所述解析规则配置模块的框图示意图。
图3为根据本申请实施例的用于销售数据的数据分析引擎中的所述语义理解单元的框图示意图。
图4为根据本申请实施例的用于销售数据的数据分析引擎中的所述向量化子单元的框图示意图。
图5为根据本申请实施例的用于销售数据的数据分析引擎中的所述训练模块的框图示意图。
图6为根据本申请实施例的用于销售数据的数据分析方法的流程图。
图7为根据本申请实施例的用于销售数据的数据分析方法的子步骤S120的系统架构的示意图。
图8为根据本申请实施例的用于销售数据的数据分析引擎的应用场景图。
图9为数据流程图。
图10为操作流程图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
针对上述技术问题,本申请的技术构思为提供一种新型的用于销售数据的数据分析引擎,其数据处理流程如下:首先,数据集的数据来自于销帮帮CRM系统表单数据,通过binlog采集到kafka中,通过Flink框架对数据进行预处理之后将数据插入ClickHouse进行数据分析源数据准备;其次,用户通过数据集配置界面配置数据集规则;接着,规则解析引擎对规则进行验证、优化和解析;进而,执行所述用户配置的解析规则以输出预览结果。相应地,用户在图表中心引用数据集的输出进行二次分析。图9和图10示出了数据流程图和操作流程图。
应可以理解,数据集是数据加工和处理的工具,得到的数据可以用在图表中心进行二次分析。可以理解为数据工厂的一种,也可以理解为ETL(Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)的一种。
特别地,在所述用于销售数据的数据分析引擎的运行过程中,通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确是所述用于销售数据的数据分析引擎能够正常运行的关键步骤。但是,用户在配置自定义的解析规则时,因表达不规范或判断逻辑没有仔细审核而导致解析规则发生错误。因此,在运行所述解析规则以输出预览结果之前,需要对所述用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确。
针对此具体的技术问题,本申请的技术构思为结合所述解析规则的词文本内容和词性信息来对所述解析规则进行语义理解,并基于语义理解结果来确定所述解析规则是否存在错误。
图1为根据本申请实施例的用于销售数据的数据分析引擎的框图示意图。如图1所示,根据本申请实施例的用于销售数据的数据分析引擎100,包括:数据集采集模块110,用于收集来自于CRM系统的表单数据;解析规则配置模块120,用于通过数据集配置界面对所述表单数据的解析规则进行配置;验证模块130,用于通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确;以及,分析执行模块140,用于执行用户配置的所述解析规则以输出预览结果。
更具体地,在本申请实施例中,所述数据集采集模块110,用于收集来自于CRM系统的表单数据。具体地,在本申请的技术方案中,首先获取由用户配置的解析规则。接着,对所述解析规则进行数据清洗和格式转换以得到解析规则描述词的序列,并提取所述解析规则描述词的序列中各个解析规则描述词的词性信息以得到解析规则描述词的词性信息的序列。
更具体地,在本申请实施例中,所述解析规则配置模块120,用于通过数据集配置界面对所述表单数据的解析规则进行配置。相应地,在一个具体示例中,如图2所示,所述解析规则配置模块120,包括:清洗转换单元121,用于对所述解析规则进行数据清洗和格式转换以得到解析规则描述词的序列;词性信息提取单元122,用于提取所述解析规则描述词的序列中各个解析规则描述词的词性信息以得到解析规则描述词的词性信息的序列;语义理解单元123,用于对所述解析规则描述词的序列和所述解析规则描述词的词性信息的序列进行语义理解以得到解析规则语义理解特征向量;以及,解析规则判断单元124,用于基于所述解析规则语义理解特征向量,确定所述解析规则是否正确。
应可以理解,数据清洗和格式转换是指对原始数据进行处理,以使其符合特定的规则、格式或标准。其中,数据清洗是指对原始数据进行去除错误、不完整或不一致的操作,这可以包括删除重复数据、处理缺失值、修复错误数据、处理异常值等,数据清洗的目的是确保数据的准确性和一致性,以便后续的数据分析和处理能够得到正确的结果;数据格式转换是指将数据从一种格式转换为另一种格式,例如,将日期数据从字符串格式转换为日期格式,将数值数据从字符串格式转换为数值格式,将数据从不同的编码格式转换为统一的编码格式等,数据格式转换的目的是使数据能够被正确地解析和处理。数据清洗和格式转换在解析规则配置模块中的作用是对解析规则进行预处理,以确保解析规则的准确性和一致性。通过清洗和转换解析规则,可以消除解析规则中可能存在的错误、不完整或不一致的部分,从而提高解析规则的质量和可靠性。
进一步地,对所述解析规则描述词的序列和所述解析规则描述词的词性信息的序列进行向量化以得到解析规则描述词向量的序列和解析规则描述词的词性向量的序列。在本申请一个具体的示例中,将所述解析规则描述词的序列通过词嵌入层(例如,Word2vec模型)以得到所述解析规则描述词向量的序列;同时,对所述解析规则描述词的词性信息的序列中的各个解析规则描述词的词性信息进行独热编码以得到所述解析规则描述词的词性向量的序列。
接着,融合所述解析规则描述词向量的序列和所述解析规则描述词的词性向量的序列以得到解析规则词-词性向量的序列。也就是,在词预料空间中,融合所述解析规则的词文本嵌入向量和词性向量以综合词文本内容和词性信息。例如,在本申请一个具体的示例中,将所述解析规则描述词向量的序列和所述解析规则描述词的词性向量的序列中各组对应的解析规则描述词向量和解析规则描述词的词性向量分别进行拼接以得到所述解析规则词-词性向量的序列。
继而,将所述解析规则词-词性向量的序列通过基于BilSTM模型的语义编码器以得到解析规则语义理解特征向量。也就是,对所述解析规则词-词性向量的序列进行语义编码以得到解析规则词-词性向量的序列,其中,所述语义编码模型为基于BilSTM模型的语义编码器。
相应地,在一个具体示例中,如图3所示,所述语义理解单元123,包括:向量化子单元1231,用于对所述解析规则描述词的序列和所述解析规则描述词的词性信息的序列进行向量化以得到解析规则描述词向量的序列和解析规则描述词的词性向量的序列;融合子单元1232,用于融合所述解析规则描述词向量的序列和所述解析规则描述词的词性向量的序列以得到解析规则词-词性向量的序列;以及,语义编码子单元1233,用于将所述解析规则词-词性向量的序列通过基于BiLSTM模型的语义编码器以得到所述解析规则语义理解特征向量
应可以理解,向量化是将文本数据转换为数值向量的过程,使得计算机可以对文本进行处理和分析。在语义理解单元中,向量化子单元用于将解析规则描述词的序列和解析规则描述词的词性信息的序列转换为向量表示。例如可以通过词嵌入(Word Embedding)实现向量化,词嵌入将每个词映射到一个固定长度的实数向量,具体地,在一个示例中,首先,需要构建一个词汇表,将所有可能出现的解析规则描述词和词性信息进行编码,每个词对应一个唯一的索引;接着,初始化词向量矩阵,根据词汇表的大小,初始化一个词向量矩阵,其中每行表示一个词的向量表示;然后,将解析规则描述词序列和词性信息序列转换为词索引序列,将解析规则描述词序列和词性信息序列中的每个词转换为其在词汇表中的索引,得到解析规则描述词索引序列和词性信息索引序列;接着,根据解析规则描述词索引序列和词性信息索引序列,从词向量矩阵中获取对应的词向量,得到解析规则描述词向量序列和词性向量序列;最后,融合词向量和词性向量,例如可以通过简单地将解析规则描述词向量序列和词性向量序列进行拼接或者加权平均等方式融合,得到解析规则词-词性向量序列。通过以上步骤,解析规则描述词的序列和解析规则描述词的词性信息的序列就被转换为了数值向量的序列,可以作为输入传递给后续的语义编码子单元进行语义理解和特征提取。
应可以理解,BiLSTM是双向长短时记忆网络(Bidirectional Long Short-TermMemory Network)的简称。它是一种循环神经网络(Recurrent Neural Network,RNN)的变体,用于处理序列数据,如文本或时间序列。BiLSTM通过同时考虑当前时刻的前向和后向上下文信息,能够更好地捕捉序列中的长期依赖关系。它由两个LSTM单元组成,一个按照正向顺序处理输入序列,另一个按照逆向顺序处理输入序列。每个LSTM单元内部有门控机制,可以控制信息的流动和遗忘,从而有效地处理长序列。在语义理解单元中,基于BiLSTM模型的语义编码器将解析规则词-词性向量的序列作为输入,通过前向和后向LSTM层进行编码,得到解析规则的语义理解特征向量。这个特征向量可以用于后续的分类任务,如解析规则的准确理解和分类。
相应地,在一个具体示例中,如图4所示,所述向量化子单元1231,包括:词嵌入二级子单元12311,用于将所述解析规则描述词的序列通过词嵌入层以得到所述解析规则描述词向量的序列;以及,独热编码二级子单元12312,用于对所述解析规则描述词的词性信息的序列中的各个解析规则描述词的词性信息进行独热编码以得到所述解析规则描述词的词性向量的序列。应可以理解,独热编码(One-Hot Encoding)是一种常用的分类变量编码方法,用于将离散的分类变量转换为数值向量。在独热编码中,每个分类变量的取值都被表示为一个只有一个元素为1,其他元素为0的向量。具体地,对于解析规则描述词的词性信息序列,独热编码二级子单元将每个解析规则描述词的词性信息转换为一个唯一的向量,假设有N个不同的词性信息,那么每个词性信息将被编码为一个长度为N的向量,其中只有对应的位置为1,其他位置为0,这样,每个解析规则描述词的词性信息都可以表示为一个独特的向量。通过独热编码,可以将分类变量的取值转换为数值向量,以便于后续的计算和处理。
相应地,在一个具体示例中,所述融合子单元1232,用于:将所述解析规则描述词向量的序列和所述解析规则描述词的词性向量的序列中各组对应的解析规则描述词向量和解析规则描述词的词性向量分别进行拼接以得到所述解析规则词-词性向量的序列。应可以理解,拼接是指将两个向量按照一定的方式连接在一起,形成一个更长的向量。拼接的好处是能够将两个不同的信息源结合在一起,形成一个更丰富的特征表示。在解析规则的语义理解中,解析规则描述词向量表示了词的语义信息,而解析规则描述词的词性向量表示了词的词性信息。通过将这两个信息进行拼接,可以将词的语义信息和词性信息同时考虑,从而更全面地描述解析规则。拼接后的解析规则词-词性向量的序列可以作为输入用于后续的语义理解和特征提取任务。这样的融合方式可以增加模型对解析规则的理解能力,提高解析规则的表达能力,有助于更准确地进行后续的语义分析和处理。
相应的,在得到所述解析规则语义理解特征向量,进一步将所述解析规则语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示解析规则是否存在错误。也就是,在得到所述解析规则的语义编码结果后,使用所述分类器来确定所述解析规则语义理解特征向量所属的类概率标签,以确定所述解析规则是否存在错误。相应地,在一个具体示例中,所述解析规则判断单元124,用于:将所述解析规则语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示解析规则是否正确。
应可以理解,分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题(multi-class classification),同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这样容易出错且效率不高,常用的多分类方法有Softmax分类函数。
相应地,在一个具体示例中,将所述解析规则语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示解析规则是否正确,包括:使用所述分类器的全连接层对所述解析规则语义理解特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
相应地,在一个具体示例中,所述的用于销售数据的数据分析引擎,还包括用于对所述基于BiLSTM模型的语义编码器和所述分类器进行训练的训练模块。训练模块的作用是通过使用训练数据对模型进行训练,使其具备良好的解析规则理解和分类能力。通过训练模块,销售数据的数据分析引擎可以根据实际需求和标准,自动学习和调整模型,以提高解析规则的准确性和效果。
进一步地,如图5所示,所述训练模块200,包括:训练数据获取单元210,用于获取训练数据,所述训练数据为训练解析规则;训练语义编码单元220,用于对所述训练数据进行语义编码以得到训练解析规则语义理解特征向量;分类损失单元230,用于将所述训练解析规则语义理解特征向量通过分类器以得到分类损失函数值;以及,梯度下降训练单元240,用于基于所述分类损失函数值并通过梯度下降的反向传播来训练所述基于BiLSTM模型的语义编码器和所述分类器。
值得一提的是,在训练数据获取单元210中,这些训练数据是用于训练解析规则的数据,这些数据包含了解析规则及其对应的标签或分类信息;在训练语义编码单元220中,对训练数据进行语义编码,将训练数据中的解析规则转换为语义理解特征向量,这个过程使用基于BiLSTM模型的语义编码器,通过学习解析规则的上下文信息,将解析规则转换为语义向量表示;在分类损失单元230中,将训练解析规则语义理解特征向量通过分类器进行分类,并计算分类损失函数值,分类器可以是任何适合解析规则分类任务的模型,如逻辑回归、支持向量机等;在梯度下降训练单元240中,基于分类损失函数值和梯度下降的反向传播算法,对基于BiLSTM模型的语义编码器和分类器进行训练,通过不断调整模型参数,使得模型能够更准确地预测解析规则的分类结果。
特别地,在本申请的技术方案中,由于所述解析规则词-词性向量的序列融合了所述解析规则描述词向量的序列(通过将解析规则描述词的序列通过词嵌入层得到)和所述解析规则描述词的词性向量的序列(通过对解析规则描述词的词性信息的序列进行独热编码得到),由于词嵌入向量和独热编码向量本身的编码表示的差异,尽管通过基于BiLSTM模型的语义编码器可以进行向量特征的上下文关联编码,但所述训练解析规则语义理解特征向量仍然会具有与不同编码表示的关联特征对应的多样化特征分布。
这样,当所述训练解析规则语义理解特征向量通过分类器进行分类时,考虑到多样化特征分布在分类的域转移过程中的分布可转移性差异,例如,相同编码表示之间的关联特征的良好分布可转移性相对于不同编码表示之间的关联特征的不良分布可转移性,需要针对所述分类器的权重矩阵对于所述训练解析规则语义理解特征向量进行自适应优化,以便提升所述训练解析规则语义理解特征向量通过分类器进行分类训练的训练效果,即,提升分类速度和得到的分类结果的准确性。
因此,本申请的申请人在每次分类器的权重矩阵的迭代过程中,对于所述权重矩
阵进行基于特征分布跨域注意力的特征转移优化。
进一步地,所述梯度下降训练单元240,用于:在所述训练的每一轮迭代中,以如下优化公式对于所述分类器的权重矩阵进行基于特征分布跨域注意力的特征转移优化;其中,所述优化公式为:
其中,表示所述权重矩阵,的尺度为,到是所述权重矩阵的个
行向量,表示特征向量的二范数,是对所述权重矩阵的每个行向量的求和
值排列得到的行向量,表示迭代后的所述分类器的权重矩阵,且和均表示
单层卷积操作,表示矩阵的转置矩阵,表示矩阵的乘法。
这里,所述基于特征分布跨域注意力的特征转移优化针对所述训练解析规则语义
理解特征向量的特征分布在特征空间域和分类目标域内存在的不同表示,基于所述分类器
的权重矩阵相对于待分类的所述训练解析规则语义理解特征向量的跨域多样性特征表
示,通过对所述权重矩阵的空间结构化特征分布通过卷积操作给予注意力,来增强多样
化特征分布中的良好转移特征分布的跨域间隙的可转移性,同时抑制不良转移特征分布的
消极转移(negative transfer),以基于所述权重矩阵自身相对于所述训练解析规则语
义理解特征向量的分布结构来实现权重矩阵的无监督的域转移自适应优化,从而提升所
述训练解析规则语义理解特征向量通过分类器进行分类训练的训练效果。
根据本申请的所述用于销售数据的数据分析引擎,具有如下技术优势:首先,解决了客户需求中要求的数据展示;其次,所述多个数据源的加工可以方便用户汇集全系统数据,打破数据割裂,得出结果,便于决策。还有,所述数据集数据的处理使得数据结构化更强,更利于图表使用。
综上,基于本申请实施例的用于销售数据的数据分析引擎100被阐明,其可以结合所述解析规则的词文本内容和词性信息来对所述解析规则进行语义理解,并基于语义理解结果来确定所述解析规则是否存在错误。
如上所述,根据本申请实施例的基于本申请实施例的用于销售数据的数据分析引擎100可以实现在各种终端设备中,例如具有基于本申请实施例的用于销售数据的数据分析算法的服务器等。在一个示例中,基于本申请实施例的用于销售数据的数据分析引擎100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于本申请实施例的用于销售数据的数据分析引擎100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于本申请实施例的用于销售数据的数据分析引擎100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于本申请实施例的用于销售数据的数据分析引擎100与该终端设备也可以是分立的设备,并且该用于销售数据的数据分析引擎100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图6为根据本申请实施例的用于销售数据的数据分析方法的流程图。如图6所示,根据本申请实施例的用于销售数据的数据分析方法,其包括:S110,收集来自于CRM系统的表单数据;S120,通过数据集配置界面对所述表单数据的解析规则进行配置;S130,通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确;以及,S140,执行用户配置的所述解析规则以输出预览结果。
图7为根据本申请实施例的用于销售数据的数据分析方法的子步骤S120的系统架构的示意图。在一个具体示例中,在上述用于销售数据的数据分析方法中,通过数据集配置界面对所述表单数据的解析规则进行配置,包括:对所述解析规则进行数据清洗和格式转换以得到解析规则描述词的序列;提取所述解析规则描述词的序列中各个解析规则描述词的词性信息以得到解析规则描述词的词性信息的序列;对所述解析规则描述词的序列和所述解析规则描述词的词性信息的序列进行语义理解以得到解析规则语义理解特征向量;以及,基于所述解析规则语义理解特征向量,确定所述解析规则是否正确。
这里,本领域技术人员可以理解,上述用于销售数据的数据分析方法中的各个步骤的具体操作已经在上面参考图1到图5的用于销售数据的数据分析引擎100的描述中得到了详细介绍,并因此,将省略其重复描述。
图8为根据本申请实施例的用于销售数据的数据分析引擎的应用场景图。如图8所示,在该应用场景中,首先,收集来自于CRM系统的表单数据(例如,图8中所示意的D),然后,将所述表单数据输入至部署有用于销售数据的数据分析算法的服务器中(例如,图8中所示意的S),其中,所述服务器能够使用所述用于销售数据的数据分析算法对所述表单数据进行处理以得到用于表示解析规则是否正确的分类结果。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (8)
1.一种用于销售数据的数据分析引擎,其特征在于,包括:
数据集采集模块,用于收集来自于CRM系统的表单数据;
解析规则配置模块,用于通过数据集配置界面对所述表单数据的解析规则进行配置;
验证模块,用于通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确;以及
分析执行模块,用于执行用户配置的所述解析规则以输出预览结果;所述验证模块,包括:
清洗转换单元,用于对所述解析规则进行数据清洗和格式转换以得到解析规则描述词的序列;
词性信息提取单元,用于提取所述解析规则描述词的序列中各个解析规则描述词的词性信息以得到解析规则描述词的词性信息的序列;
语义理解单元,用于对所述解析规则描述词的序列和所述解析规则描述词的词性信息的序列进行语义理解以得到解析规则语义理解特征向量;以及
解析规则判断单元,用于基于所述解析规则语义理解特征向量,确定所述解析规则是否正确;所述语义理解单元,包括:
向量化子单元,用于对所述解析规则描述词的序列和所述解析规则描述词的词性信息的序列进行向量化以得到解析规则描述词向量的序列和解析规则描述词的词性向量的序列;
融合子单元,用于融合所述解析规则描述词向量的序列和所述解析规则描述词的词性向量的序列以得到解析规则词-词性向量的序列;以及
语义编码子单元,用于将所述解析规则词-词性向量的序列通过基于BiLSTM模型的语义编码器以得到所述解析规则语义理解特征向量。
2.根据权利要求1所述的用于销售数据的数据分析引擎,其特征在于,所述解析规则判断单元,用于:
将所述解析规则语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示解析规则是否正确。
3.根据权利要求2所述的用于销售数据的数据分析引擎,其特征在于,所述向量化子单元,包括:
词嵌入二级子单元,用于将所述解析规则描述词的序列通过词嵌入层以得到所述解析规则描述词向量的序列;以及
独热编码二级子单元,用于对所述解析规则描述词的词性信息的序列中的各个解析规则描述词的词性信息进行独热编码以得到所述解析规则描述词的词性向量的序列。
4.根据权利要求3所述的用于销售数据的数据分析引擎,其特征在于,所述融合子单元,用于:
将所述解析规则描述词向量的序列和所述解析规则描述词的词性向量的序列中各组对应的解析规则描述词向量和解析规则描述词的词性向量分别进行拼接以得到所述解析规则词-词性向量的序列。
5.根据权利要求4所述的用于销售数据的数据分析引擎,其特征在于,还包括用于对所述基于BiLSTM模型的语义编码器和所述分类器进行训练的训练模块。
6.根据权利要求5所述的用于销售数据的数据分析引擎,其特征在于,所述训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据为训练解析规则;
训练语义编码单元,用于对所述训练数据进行语义编码以得到训练解析规则语义理解特征向量;
分类损失单元,用于将所述训练解析规则语义理解特征向量通过分类器以得到分类损失函数值;以及
梯度下降训练单元,用于基于所述分类损失函数值并通过梯度下降的反向传播来训练所述基于BiLSTM模型的语义编码器和所述分类器。
7.根据权利要求6所述的用于销售数据的数据分析引擎,其特征在于,所述梯度下降训练单元,用于:
在所述训练的每一轮迭代中,以如下优化公式对于所述分类器的权重矩阵进行基于特征分布跨域注意力的特征转移优化;
其中,所述优化公式为:,
其中,表示所述权重矩阵,/>的尺度为/>,/>到/>是所述权重矩阵/>的/>个行向量,/>表示特征向量的二范数,/>是对所述权重矩阵/>的每个行向量的求和值排列得到的行向量,/>表示迭代后的所述分类器的权重矩阵,且/>和/>均表示单层卷积操作,/>表示矩阵的转置矩阵,/>表示矩阵的乘法。
8.一种基于如权利要求1至7中任一所述的用于销售数据的数据分析引擎的用于销售数据的数据分析方法,其特征在于,包括:
收集来自于CRM系统的表单数据;
通过数据集配置界面对所述表单数据的解析规则进行配置;
通过规则解析引擎对用户配置的解析规则进行验证以判断用户配置的所述解析规则是否正确;以及
执行用户配置的所述解析规则以输出预览结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310857319.5A CN116795886B (zh) | 2023-07-13 | 2023-07-13 | 用于销售数据的数据分析引擎及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310857319.5A CN116795886B (zh) | 2023-07-13 | 2023-07-13 | 用于销售数据的数据分析引擎及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116795886A CN116795886A (zh) | 2023-09-22 |
CN116795886B true CN116795886B (zh) | 2024-03-08 |
Family
ID=88040188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310857319.5A Active CN116795886B (zh) | 2023-07-13 | 2023-07-13 | 用于销售数据的数据分析引擎及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116795886B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777892B (zh) * | 2023-07-03 | 2024-01-26 | 东莞市震坤行胶粘剂有限公司 | 基于视觉检测的点胶质量检测方法及其系统 |
CN117034093B (zh) * | 2023-10-10 | 2024-05-14 | 尚宁智感(北京)科技有限公司 | 基于光纤系统的入侵信号识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709368A (zh) * | 2016-12-15 | 2017-05-24 | 天津交控科技有限公司 | 一种数据解析方法及装置 |
CN114330338A (zh) * | 2022-01-13 | 2022-04-12 | 东北电力大学 | 融合关联信息的程式语识别系统及方法 |
CN114996511A (zh) * | 2022-04-22 | 2022-09-02 | 北京爱奇艺科技有限公司 | 一种针对跨模态视频检索模型的训练方法及装置 |
CN115034178A (zh) * | 2022-07-01 | 2022-09-09 | 杨双远 | 一种人岗需求文本的知识图谱的方法及存储介质 |
WO2022198750A1 (zh) * | 2021-03-26 | 2022-09-29 | 南京邮电大学 | 语义识别方法 |
CN115757786A (zh) * | 2022-11-23 | 2023-03-07 | 中南民族大学 | 文本分类方法、装置、设备及存储介质 |
-
2023
- 2023-07-13 CN CN202310857319.5A patent/CN116795886B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709368A (zh) * | 2016-12-15 | 2017-05-24 | 天津交控科技有限公司 | 一种数据解析方法及装置 |
WO2022198750A1 (zh) * | 2021-03-26 | 2022-09-29 | 南京邮电大学 | 语义识别方法 |
CN114330338A (zh) * | 2022-01-13 | 2022-04-12 | 东北电力大学 | 融合关联信息的程式语识别系统及方法 |
CN114996511A (zh) * | 2022-04-22 | 2022-09-02 | 北京爱奇艺科技有限公司 | 一种针对跨模态视频检索模型的训练方法及装置 |
CN115034178A (zh) * | 2022-07-01 | 2022-09-09 | 杨双远 | 一种人岗需求文本的知识图谱的方法及存储介质 |
CN115757786A (zh) * | 2022-11-23 | 2023-03-07 | 中南民族大学 | 文本分类方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Design of Chinese named entity recognition algorithm based on bilstm-crf model;Luan Di 等;《2021 IEEE conference telecommunications》;20220128;第1-2页 * |
结合多头自注意力机制与BILSTM-CRF的中文临床实体识别;罗熹 等;《湖南大学学报》;20210422;第48卷(第4期);第45-55页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116795886A (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034368B (zh) | 一种基于dnn的复杂设备多重故障诊断方法 | |
CN116795886B (zh) | 用于销售数据的数据分析引擎及方法 | |
CN110209823B (zh) | 一种多标签文本分类方法及系统 | |
CN116627708B (zh) | 存储故障分析系统及其方法 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN114169330A (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN104657744A (zh) | 一种基于非确定主动学习的多分类器训练方法及分类方法 | |
CN111198817A (zh) | 一种基于卷积神经网络的SaaS软件故障诊断方法及装置 | |
CN116610803B (zh) | 基于大数据的产业链优企信息管理方法及系统 | |
CN111104242A (zh) | 基于深度学习的操作系统的异常日志的处理方法及装置 | |
CN117034123B (zh) | 健身器材的故障监控系统及其方法 | |
CN116911929B (zh) | 基于大数据的广告服务终端及方法 | |
CN116663568B (zh) | 基于优先级的关键任务识别系统及其方法 | |
CN109977014A (zh) | 基于区块链的代码错误识别方法、装置、设备及存储介质 | |
CN116992304A (zh) | 基于人工智能的政策匹配分析系统及其方法 | |
CN116451139B (zh) | 一种基于人工智能的直播数据快速分析方法 | |
CN115344414A (zh) | 基于LSTM-Transformer的日志异常检测方法及系统 | |
CN118113849A (zh) | 基于大数据的信息咨询服务系统及方法 | |
CN117056902A (zh) | 物联网密码管理方法及系统 | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
CN117495421A (zh) | 基于电力通信网建设的电网通信工程造价预测方法 | |
CN117011609A (zh) | 纺织品加工进度自动跟踪系统及其方法 | |
CN116956289A (zh) | 动态调整潜在黑名单和黑名单的方法 | |
CN112182211B (zh) | 文本分类方法及装置 | |
CN118261117B (zh) | 基于大数据资源服务的图书评级智能处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |