CN113449326A - 一种基于多源异构数据处理的工业大数据分析系统 - Google Patents
一种基于多源异构数据处理的工业大数据分析系统 Download PDFInfo
- Publication number
- CN113449326A CN113449326A CN202111004498.5A CN202111004498A CN113449326A CN 113449326 A CN113449326 A CN 113449326A CN 202111004498 A CN202111004498 A CN 202111004498A CN 113449326 A CN113449326 A CN 113449326A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- data information
- cleaning unit
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多源异构数据处理的工业大数据分析系统,其特征在于,包括,数据采集模块、数据加密模块、数据接收模块、数据存储模块以及数据分析模块;数据采集模块,用以采集工业生产的数据信息;数据加密模块,用以将采集的数据信息进行加密传输;数据接收模块,用以接收经过加密的数据信息,数据存储模块,用以存储经过数据接收模块处理的数据信息;数据分析模块,构建人工智能模型对数据存储模块存储的数据信息进行分析以得到工业生产过程中的预警预测信息、问题信息以及生产能力信息,通过本发明可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确,进一步地提升了系统的分析能力。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多源异构数据处理的工业大数据分析系统。
背景技术
随着信息技术快速发展,各行业大力推动信息化建设。经过几年发展,企业内部先后建成了各类特定业务相关的信息化系统。由于建设上的多样性,例如实现技术多样性、存储设备不同、数据存储方式多样性等导致存储大量异构。业务相关数据具有以下特点:数据异构型,包括结构化和非结构化;数据多态性,静态数据和动态数据;数据离散型,数据分布在不同的系统中;数据量大,每天都有新数据产生。
目前基于工业数据的分析和应用集中在对数据的统计、分析,采用的方法也是比较基础的统计分析方法,比如计算均值、中位数等,将这些结果进行业务决策参考,现有的工业大数据分析系统中的数据清洗方式为,将获取到的数据首先统一发送到服务器端,再经过繁重的程序编码工作,由服务器端根据预设的数据清洗规则对不同类型的数据进行清洗,这种数据清洗方式效率低下,增加了数据清洗的难度。
发明内容
为此,本发明提供一种基于多源异构数据处理的工业大数据分析系统,用以克服现有技术中数据清洗方式效率低下,增加了数据清洗的难度的问题。
为实现上述目的,本发明提供一种基于多源异构数据处理的工业大数据分析系统,包括,
数据采集模块,用以采集工业生产的数据信息;
数据加密模块,其与所述数据采集模块相连,用以将采集的数据信息进行加密传输;
数据接收模块,其与所述数据加密模块相连,用以接收经过加密的数据信息,数据接收模块包括用以对接收的数据进行清洗的数据清洗单元和用以对清洗后的数据进行分类的数据分类单元;
数据存储模块,其与所述数据接收模块相连,用以存储经过数据接收模块处理的数据信息;
数据分析模块,其与所述数据存储模块相连,用以构建人工智能模型对数据存储模块存储的数据信息进行分析以得到工业生产过程中的预警预测信息、问题信息以及生产能力信息;
所述数据分析模块在进行数据分析时,所述数据清洗单元获取工业数据信息、将数据信息数量记为Wi并将第i条数据信息字符长度记为Li,其中,i为正整数,所述数据清洗单元预设有标准数据信息字符长度L,在进行数据清洗时,所述数据清洗单元依次将各条数据信息长度与标准数据信息字符长度L作比对并根据比对结果删除数据信息冗长的数据和数据信息简短的数据;
所述数据清洗单元还设置有标准关键词字符长度N0,在依次对各条数据信息进行数据清洗时,所述数据清洗单元将第i条数据信息字符长度Li与标准关键词字符长度N0作比对,若Li<N0,所述数据清洗单元判定该条数据信息内不含有关键词信息,若Li≥N0,所述数据清洗单元判定该条数据信息内含有关键词信息,比对完成后,所述数据清理单元删除不含有关键词的数据信息。
进一步地,所述数据清洗单元预设有标准数据信息字符长度L,包括,第一标准数据信息字符长度L1和第二标准数据信息字符长度L2,在进行数据清洗时,所述数据清洗单元将每条数据信息字符长度Li与标准数据信息字符长度L作比对,其中L1<L2;
当Li<L1时,所述数据清洗单元判定该数据信息字符长度简短并对该数据信息进行删除;
当L1≤Li≤L2时,所述数据清洗单元判定该数据信息长度符合标准;
当Li>L2时,所述数据清洗单元判定该数据信息长度冗长并对该数据信息进行删除;
所述数据清洗单元将处理后的数据信息记为第一处理数据信息。
进一步地,当所述数据清洗单元判定关键词信息时包括且Li>N0时,所述数据清洗单元对数据信息内的关键词进行判定,从数据信息Wi中的第1个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于100%时,所述数据清洗单元判定该数据信息含有关键词;
从数据信息Wi中的第2个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词;
从数据信息Wi中的第k个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%时,所述数据清洗单元判定该数据信息含有关键词,其中k<n。
进一步地,当所述数据清洗单元数据信息不含有关键词时,所述数据清洗单元从数据信息Wi的倒数第1个字符开始,倒数n个字符,将n个字符与标准关键词字符进行比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词;
所述数据清洗单元从数据信息Wi的倒数第k个字符开始,倒数n个字符,将n个字符与标准关键词字符进行比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词,其中,k<n。
进一步地,当n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元从数据信息Wi找到出现缺失的第一个字符,从缺失的第二个字符开始重新选择n个字符,所述数据处理将n个字符与标准关键词字符进行比对,若关键词缺失度大于10%,所述数据清洗单元判定该数据不含有关键词并进行进一步判断,若关键词缺失度小于等于10%,所述数据清洗单元判定该数据信息还有关键词。
进一步地,所述数据清洗单元还设置有最大比对次数Y0,所述数据清洗单元进行关键词缺失度对比时,所述数据清洗单元将对比次数记为Y,当所述数据清洗单元完成第j次关键词缺失度对比时,所述数据清洗单元设定Y=j,当Y=Y0时,所述数据清洗单元判定数据信息不含有关键词信息并将该数据信息删除;
所述数据清洗单元将处理后数据信息记为第二处理数据信息。
进一步地,所述数据清洗单元依次选择第二处理数据中的第i个数据信息的字符信息与其他数据信息的字符信息作比对,若重合度大于等于95%,所述数据清洗单元判定为重复信息并保留第i个数据信息的同时删除其他数据信息;
所述数据清洗单元将处理后数据信息记为第三处理数据信息。
进一步地,所述数据分类单元将根据数据信息的结构对第三处理数据信息进行分类;
所述数据分类单元预设有第一种类、第二种类和第三种类;
当数据字符串在第一位置时,所述数据分类单元将该数据信息判定为第一种类;
当数据字符串在第二位置时,所述数据分类单元将该数据判定为第二种类;
当数据字符串在第三位置时,所述数据分类单元将该数据判定为第三种类。
与现有技术相比,本发明的有益效果在于,通过对获取的工业数据信息字符长度以及关键词的判断,实现在对数据的清洗,通过对数据的清洗,可以有效的过滤无用的数据信息,提高了清洗效率,降低了清洗难度,通过对清洗后的数据进行分类,可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确,进一步地提升了系统的分析能力。
进一步地,通过对数据信息字符长度的判断,可以精准的去除冗长和过于简短的数据信息,通过对数据信息字符长度的精准判断,可以有效的过滤无用的数据信息,提高了清洗效率,降低了清洗难度。
进一步地,通过正反两个方向对数据信息中的n个字符与标准关键词的字符进行比较,以根据比较结果确定数据信息中是否包含关键字,通过对数据信息的关键字的精准判断,可以有效的过滤无用的数据信息,提高了清洗效率,降低了清洗难度。
进一步地,通过对数据信息中的第i个数据信息字符与其他的数据信息字符进行比较,以根据比较结果确定数据信息中是否包含重复数据,通过对重复数据信息的判断,可以有效的过滤无用的数据信息,提高了清洗效率,降低了清洗难度。
进一步地,根据数据信息的不同结构,可以精准的对数据进行分类,通过对清洗后的数据进行分类,可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确,进一步地提升了系统的分析能力。
附图说明
图1为本发明所述一种基于多源异构数据处理的工业大数据分析系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,本发明提供一种基于多源异构数据处理的工业大数据分析系统,包括,数据采集模块、数据加密模块、数据接收模块、数据存储模块以及数据分析模块;
数据采集模块,用以采集工业生产的数据信息;
数据加密模块,其与所述数据采集模块相连,用以将采集的数据信息进行加密传输;
数据接收模块,其与所述数据加密模块相连,用以接收经过加密的数据信息,数据接收模块包括用以对接收的数据进行清洗的数据清洗单元和用以对清洗后的数据进行分类的数据分类单元;
数据存储模块,其与所述数据接收模块相连,用以存储经过数据接收模块处理的数据信息;
数据分析模块,其与所述数据存储模块相连,用以构建人工智能模型对数据存储模块存储的数据信息进行分析以得到工业生产过程中的预警预测信息、问题信息以及生产能力信息;
所述数据分析模块在进行数据分析时,所述数据清洗单元获取工业数据信息、将数据信息数量记为Wi并将第i条数据信息字符长度记为Li,其中,i为正整数,所述数据清洗单元预设有标准数据信息字符长度L,在进行数据清洗时,所述数据清洗单元依次将各条数据信息长度与标准数据信息字符长度L作比对并根据比对结果删除数据信息冗长的数据和数据信息简短的数据;
所述数据清洗单元还设置有标准关键词字符长度N0,在依次对各条数据信息进行数据清洗时,所述数据清洗单元将第i条数据信息字符长度Li与标准关键词字符长度N0作比对,若Li<N0,所述数据清洗单元判定该条数据信息内不含有关键词信息,若Li≥N0,所述数据清洗单元判定该条数据信息内含有关键词信息,比对完成后,所述数据清理单元删除不含有关键词的数据信息。
具体而言,所述数据清洗单元预设有标准数据信息字符长度L,包括,第一标准数据信息字符长度L1和第二标准数据信息字符长度L2,在进行数据清洗时,所述数据清洗单元将每条数据信息字符长度Li与标准数据信息字符长度L作比对,其中L1<L2;
当Li<L1时,所述数据清洗单元判定该数据信息字符长度简短并对该数据信息进行删除;
当L1≤Li≤L2时,所述数据清洗单元判定该数据信息长度符合标准;
当Li>L2时,所述数据清洗单元判定该数据信息长度冗长并对该数据信息进行删除;
所述数据清洗单元将处理后的数据信息记为第一处理数据信息。
具体而言,按照预设标准数据字符长度对获取到的数据信息进行清洗,过滤掉冗余和过于简短的数据信息,将清洗后的多源异构数据标记为第一处理数据,由于获取到的数据是最基本的原始数据,不仅结构多样化而且还携带有很多无用信息,因此需要对获取到的数据进行清洗,并在清洗的过程中过滤掉冗余信息。
具体而言,通过对数据信息字符长度的判断,可以精准的去除冗长和过于简短的数据信息,通过对数据信息字符长度的精准判断,可以有效的过滤无用的数据信息,提高了清洗效率,降低了清洗难度。
进一步地,所述数据清洗单元判定关键词信息时包括,当Li>N0时,所述数据清洗单元对数据信息内的关键词进行判定,从数据信息Wi中的第1个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于100%时,所述数据清洗单元判定该数据信息含有关键词;
从数据信息Wi中的第2个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词;
从数据信息Wi中的第k个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%时,所述数据清洗单元判定该数据信息含有关键词,其中k<n。
具体而言,所述数据清洗单元设置有关键词表,所述关键词表可以由数据源或人工确定。
具体而言,通过正反两个方向对数据信息中的n个字符与标准关键词的字符进行比较,以根据比较结果确定数据信息中是否包含关键字,通过对数据信息的关键字的精准判断,可以有效的过滤无用的数据信息,提高了清洗效率,降低了清洗难度。
进一步地,当所述数据清洗单元数据信息不含有关键词时,所述数据清洗单元从数据信息Wi的倒数第1个字符开始,倒数n个字符,将n个字符与标准关键词字符进行比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词;
所述数据清洗单元从数据信息Wi的倒数第k个字符开始,倒数n个字符,将n个字符与标准关键词字符进行比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词,其中,k<n。
进一步地,当n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元从数据信息Wi找到出现缺失的第一个字符,从缺失的第二个字符开始重新选择n个字符,所述数据处理将n个字符与标准关键词字符进行比对,若关键词缺失度大于10%,所述数据清洗单元判定该数据不含有关键词并进行进一步判断,若关键词缺失度小于等于10%,所述数据清洗单元判定该数据信息还有关键词。
进一步地,所述数据清洗单元还设置有最大比对次数Y0,所述数据清洗单元进行关键词缺失度对比时,所述数据清洗单元将对比次数记为Y,当所述数据清洗单元完成第j次关键词缺失度对比时,所述数据清洗单元设定Y=j,当Y=Y0时,所述数据清洗单元判定数据信息不含有关键词信息并将该数据信息删除;
所述数据清洗单元将处理后数据信息记为第二处理数据信息。
进一步地,所述数据清洗单元依次选择第二处理数据中的第i个数据信息的字符信息与其他数据信息的字符信息作比对,若重合度大于等于95%,所述数据清洗单元判定为重复信息并保留第i个数据信息的同时删除其他数据信息;
所述数据清洗单元将处理后数据信息记为第三处理数据信息。
进一步地,所述数据分类单元将根据数据信息的结构对第三处理数据信息进行分类;
所述数据分类单元预设有第一种类、第二种类和第三种类;
当数据字符串在第一位置时,所述数据分类单元将该数据信息判定为第一种类;
当数据字符串在第二位置时,所述数据分类单元将该数据判定为第二种类;
当数据字符串在第三位置时,所述数据分类单元将该数据判定为第三种类。
具体而言,数据分类单元将数据信息的结构分为三个部分,分别为,字符串部分、索引部分、密钥分部,数据分类单元根据字符串部分的位置对数据信息进行精准分类,通过对清洗后的数据进行分类,可以更加有效的对工业数据进行分析以使得到的预警预测信息、问题信息以及生产能力信息更加准确,进一步地提升了系统的分析能力。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多源异构数据处理的工业大数据分析系统,其特征在于,包括:
数据采集模块,用以采集工业生产的数据信息;
数据加密模块,其与所述数据采集模块相连,用以将采集的数据信息进行加密传输;
数据接收模块,其与所述数据加密模块相连,用以接收经过加密的数据信息,数据接收模块包括用以对接收的数据进行清洗的数据清洗单元和用以对清洗后的数据进行分类的数据分类单元;
数据存储模块,其与所述数据接收模块相连,用以存储经过数据接收模块处理的数据信息;
数据分析模块,其与所述数据存储模块相连,用以构建人工智能模型对数据存储模块存储的数据信息进行分析以得到工业生产过程中的预警预测信息、问题信息以及生产能力信息;
所述数据分析模块在进行数据分析时,所述数据清洗单元获取工业数据信息、将数据信息数量记为Wi并将第i条数据信息字符长度记为Li,其中,i为正整数,所述数据清洗单元预设有标准数据信息字符长度L,在进行数据清洗时,所述数据清洗单元依次将各条数据信息长度与标准数据信息字符长度L作比对并根据比对结果删除数据信息冗长的数据和数据信息简短的数据;
所述数据清洗单元还设置有标准关键词字符长度N0,在依次对各条数据信息进行数据清洗时,所述数据清洗单元将第i条数据信息字符长度Li与标准关键词字符长度N0作比对,若Li<N0,所述数据清洗单元判定该条数据信息内不含有关键词信息,若Li≥N0,所述数据清洗单元判定该条数据信息内含有关键词信息,比对完成后,所述数据清理单元删除不含有关键词的数据信息。
2.根据权利要求1所述的基于多源异构数据处理的工业大数据分析系统,其特征在于,所述数据清洗单元预设有标准数据信息字符长度L,包括,第一标准数据信息字符长度L1和第二标准数据信息字符长度L2,在进行数据清洗时,所述数据清洗单元将每条数据信息字符长度Li与标准数据信息字符长度L作比对,其中L1<L2;
当Li<L1时,所述数据清洗单元判定该数据信息字符长度简短并对该数据信息进行删除;
当L1≤Li≤L2时,所述数据清洗单元判定该数据信息长度符合标准;
当Li>L2时,所述数据清洗单元判定该数据信息长度冗长并对该数据信息进行删除;
所述数据清洗单元将处理后的数据信息记为第一处理数据信息。
3.根据权利要求1所述的基于多源异构数据处理的工业大数据分析系统,其特征在于,当所述数据清洗单元判定关键词信息且Li>N0时,所述数据清洗单元对数据信息内的关键词进行判定,从数据信息Wi中的第1个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于100%时,所述数据清洗单元判定该数据信息含有关键词;
从数据信息Wi中的第2个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词;
从数据信息Wi中的第k个字符开始,选择n个字符,将n个字符与标准关键词字符作比对,若n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%时,所述数据清洗单元判定该数据信息含有关键词,其中k<n。
4.根据权利要求3所述的基于多源异构数据处理的工业大数据分析系统,其特征在于,当所述数据清洗单元数据信息不含有关键词时,所述数据清洗单元从数据信息Wi的倒数第1个字符开始,倒数n个字符,将n个字符与标准关键词字符进行比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词;
所述数据清洗单元从数据信息Wi的倒数第k个字符开始,倒数n个字符,将n个字符与标准关键词字符进行比对,若n个字符与标准关键词字符的缺失度大于10%,所述数据清洗单元判定该数据信息中不含有关键词并进行进一步判断,若n个字符与标准关键词字符的缺失度小于等于10%,所述数据清洗单元判定该数据信息含有关键词,其中,k<n。
5.根据权利要求3或4所述的基于多源异构数据处理的工业大数据分析系统,其特征在于,当n个字符与标准关键词字符的缺失度大于10%时,所述数据清洗单元从数据信息Wi找到出现缺失的第一个字符,从缺失的第二个字符开始重新选择n个字符,所述数据处理将n个字符与标准关键词字符进行比对,若关键词缺失度大于10%,所述数据清洗单元判定该数据不含有关键词并进行进一步判断,若关键词缺失度小于等于10%,所述数据清洗单元判定该数据信息还有关键词。
6.根据权利要求5所述的基于多源异构数据处理的工业大数据分析系统,其特征在于,所述数据清洗单元还设置有最大比对次数Y0,所述数据清洗单元进行关键词缺失度对比时,所述数据清洗单元将对比次数记为Y,当所述数据清洗单元完成第j次关键词缺失度对比时,所述数据清洗单元设定Y=j,当Y=Y0时,所述数据清洗单元判定数据信息不含有关键词信息并将该数据信息删除;
所述数据清洗单元将处理后数据信息记为第二处理数据信息。
7.根据权利要求6所述的基于多源异构数据处理的工业大数据分析系统,其特征在于,所述数据清洗单元依次选择第二处理数据中的第i个数据信息的字符信息与其他数据信息的字符信息作比对,若重合度大于等于95%,所述数据清洗单元判定为重复信息并保留第i个数据信息的同时删除其他数据信息;
所述数据清洗单元将处理后数据信息记为第三处理数据信息。
8.根据权利要求7所述的基于多源异构数据处理的工业大数据分析系统,其特征在于,所述数据分类单元将根据数据信息的结构对第三处理数据信息进行分类;
所述数据分类单元预设有第一种类、第二种类和第三种类;
当数据字符串在第一位置时,所述数据分类单元将该数据信息判定为第一种类;
当数据字符串在第二位置时,所述数据分类单元将该数据判定为第二种类;
当数据字符串在第三位置时,所述数据分类单元将该数据判定为第三种类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004498.5A CN113449326A (zh) | 2021-08-30 | 2021-08-30 | 一种基于多源异构数据处理的工业大数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004498.5A CN113449326A (zh) | 2021-08-30 | 2021-08-30 | 一种基于多源异构数据处理的工业大数据分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449326A true CN113449326A (zh) | 2021-09-28 |
Family
ID=77819066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111004498.5A Pending CN113449326A (zh) | 2021-08-30 | 2021-08-30 | 一种基于多源异构数据处理的工业大数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449326A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114146388A (zh) * | 2022-02-07 | 2022-03-08 | 北京新赛点体育投资股份有限公司 | 一种基于大数据的数据处理系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121508A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 基于教育大数据的多源异构数据采集系统及处理方法 |
CN111737529A (zh) * | 2020-07-23 | 2020-10-02 | 北京东方通科技股份有限公司 | 一种多源异构数据采集方法 |
CN112506913A (zh) * | 2021-02-02 | 2021-03-16 | 广东工业大学 | 一种面向制造业数据空间的大数据体系结构构建方法 |
CN112905580A (zh) * | 2021-03-19 | 2021-06-04 | 贵州航天云网科技有限公司 | 一种基于工业大数据的多源异构数据融合系统及方法 |
-
2021
- 2021-08-30 CN CN202111004498.5A patent/CN113449326A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121508A (zh) * | 2017-12-15 | 2018-06-05 | 华中师范大学 | 基于教育大数据的多源异构数据采集系统及处理方法 |
CN111737529A (zh) * | 2020-07-23 | 2020-10-02 | 北京东方通科技股份有限公司 | 一种多源异构数据采集方法 |
CN112506913A (zh) * | 2021-02-02 | 2021-03-16 | 广东工业大学 | 一种面向制造业数据空间的大数据体系结构构建方法 |
CN112905580A (zh) * | 2021-03-19 | 2021-06-04 | 贵州航天云网科技有限公司 | 一种基于工业大数据的多源异构数据融合系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114146388A (zh) * | 2022-02-07 | 2022-03-08 | 北京新赛点体育投资股份有限公司 | 一种基于大数据的数据处理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577588B (zh) | 一种海量日志数据智能运维系统 | |
CN113676464B (zh) | 一种基于大数据分析技术的网络安全日志告警处理方法 | |
Barbará | Requirements for clustering data streams | |
CN114048870A (zh) | 一种基于日志特征智能挖掘的电力系统异常监测方法 | |
CN1992632A (zh) | 一种通信网络告警方法以及告警系统 | |
CN112953738B (zh) | 根因告警的定位系统、方法、装置、计算机设备 | |
CN102801548B (zh) | 一种智能预警的方法、装置及信息系统 | |
CN113449326A (zh) | 一种基于多源异构数据处理的工业大数据分析系统 | |
CN113254255A (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
CN115514784A (zh) | 基于物联网的多源数据采集中台 | |
CN110597792A (zh) | 基于同期线损数据融合的多级冗余数据融合方法及装置 | |
CN112288317B (zh) | 一种基于多源异构数据治理的工业大数据分析平台和方法 | |
CN112711582A (zh) | 一种数据源清洗集成化主数据管理平台 | |
CN107666403B (zh) | 一种指标数据的获取方法及装置 | |
CN104951555A (zh) | 一种日志信息管理方法及日志信息管理终端 | |
CN117171135A (zh) | 一种用户行为分析建模方法、分析方法及系统 | |
CN113672602B (zh) | 一种基于数字调度的通信设备 | |
CN115314421A (zh) | 基于网络智慧平台的量化管理系统 | |
CN114491061A (zh) | 一种多维数据关联分析系统及方法 | |
CN113568811A (zh) | 分布式安全监测数据处理方法 | |
CN104980750A (zh) | 一种视频转码日志的收集方法、装置及系统 | |
CN110175200A (zh) | 一种基于人工智能算法的异常用能分析方法及系统 | |
CN110781309A (zh) | 一种基于模式匹配的实体并列关系相似度计算方法 | |
CN117312634B (zh) | 人工智能数据整合传播处理系统 | |
CN115618050B (zh) | 视频数据存储、分析方法、装置、系统、通信设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |