CN111814000A - 一种基于模板过滤的异构数据分析方法及系统 - Google Patents
一种基于模板过滤的异构数据分析方法及系统 Download PDFInfo
- Publication number
- CN111814000A CN111814000A CN202010660404.9A CN202010660404A CN111814000A CN 111814000 A CN111814000 A CN 111814000A CN 202010660404 A CN202010660404 A CN 202010660404A CN 111814000 A CN111814000 A CN 111814000A
- Authority
- CN
- China
- Prior art keywords
- data
- cleaning
- template
- filtering
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000007405 data analysis Methods 0.000 title claims abstract description 19
- 238000004140 cleaning Methods 0.000 claims abstract description 43
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000004519 manufacturing process Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Abstract
本发明公开了一种基于模板过滤的异构数据分析方法,所述方法包括:将原始数据进行解码编码,得到解码编码数据;将所述解码编码数据进行数据清洗,得到清洗数据;将所述清洗数据送入数据湖,并对数据湖中的清洗数据进行属性提取;将提取的清洗数据进行类型转换,得到转换数据;对所述转换数据进行指标计算,得到目标数据。本发明通过模板插拔,可针对任意来源、任意类型的数据,灵活组合出最终结果将查询数据与生产数据分离,减少了生产系统的压力,且降低对系统的侵入性。
Description
技术领域
本发明属于大数据处理技术领域,特别涉及一种基于模板过滤的异构数据分析方法及系统。
背景技术
目前,不同企业的异构数据存在成分、容量等巨大的差异,并且此种数据的规范化、分析、使用都十分复杂,难以使查询数据与生产数据分离,不利于生产系统的运行。
因此,亟需一种异构数据的分析处理方法来解决上述问题。
发明内容
针对上述问题,本发明提供了一种基于模板过滤的异构数据分析方法,所述方法包括:
将原始数据进行解码编码,得到解码编码数据;
将所述解码编码数据进行数据清洗,得到清洗数据;
将所述清洗数据送入数据湖,并对数据湖中的清洗数据进行属性提取;
将提取的清洗数据进行类型转换,得到转换数据;
对所述转换数据进行指标计算,得到目标数据。
进一步地,所述方法还包括:
将所述清洗数据通过模板规范化送入数据湖;
通过模板匹配提取数据湖中的清洗数据,呈现结果。
进一步地,所述将原始数据进行解码编码,得到解码编码数据,包括:
对原始数据的类型进行识别;
根据识别结果对原始数据进行相应的解码编码。
进一步地,所述原始数据的类型包括:
文本文字;
图像、图片;
视频流、电视流。
进一步地,当所述原始数据的类型为非结构化的图片,对原始数据进行相应的解码编码包括:
对图片进行ocr抽取,将图片信息转换成文本信息;
对文本信息进行数据规范化过滤处理;
将过滤处理后的文本信息进行解码编码。
进一步地,所述数据清洗包括检查数据的一致性、处理无效值和缺失值。
本发明还提供了一种基于模板过滤的异构数据分析系统,所述系统包括:
解码编码模块,用于将原始数据进行解码编码,得到解码编码数据;
数据清洗模块,用于将所述解码编码数据进行数据清洗,得到清洗数据;
属性提取模块,用于将所述清洗数据送入数据湖,并对数据湖中的清洗数据进行属性提取;
类型转换模块,用于将提取的清洗数据进行类型转换,得到转换数据;
指标计算模块,用于对所述转换数据进行指标计算,得到目标数据。
进一步地,所述将原始数据进行解码编码,得到解码编码数据,包括:
对原始数据的类型进行识别;
根据识别结果对原始数据进行相应的解码编码。
进一步地,所述原始数据的类型包括:
文本文字;
图像、图片;
视频流、电视流。
进一步地,当所述原始数据的类型为非结构化的图片,对原始数据进行相应的解码编码包括:
对图片进行ocr抽取,将图片信息转换成文本信息;
对文本信息进行数据规范化过滤处理;
将过滤处理后的文本信息进行解码编码。
本发明通过模板插拔,可针对任意来源、任意类型的数据,灵活组合出最终结果将查询数据与生产数据分离,减少了生产系统的压力,且降低对系统的侵入性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的基于模板过滤的异构数据分析方法流程图;
图2示出了本发明实施例的企业财报信息初始图;
图3示出了本发明实施例的处理财务数据的流程图;
图4示出了本发明实施例的企业财报信息经财务ocr过滤模板过滤后的示意图;
图5示出了本发明实施例的企业财报信息再经财务数据规范过滤模板过滤后的示意图;
图6示出了本发明实施例的企业财报信息利用财务报告过滤模板处理后的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于模板过滤的异构数据分析方法,示例性的,图1示出了本发明实施例的基于模板过滤的异构数据分析方法流程图,如图1所示,所述方法包括如下步骤:
步骤一、将原始数据进行解码编码,得到解码编码数据。
具体的,对原始数据的类型进行识别;
根据识别结果对原始数据进行相应的解码编码。
所述原始数据的类型包括:
文本文字;图像、图片;视频流、电视流。
当所述原始数据的类型为非结构化的图片,对原始数据进行相应的解码编码包括:
对图片进行ocr抽取,将图片信息转换成文本信息;
对文本信息进行数据规范化过滤处理;
将过滤处理后的文本信息进行解码编码。
步骤二、将所述解码编码数据进行数据清洗,得到清洗数据。
具体的,所述数据清洗包括检查数据的一致性、处理无效值和缺失值。
步骤三、将所述清洗数据送入数据湖,并对数据湖中的清洗数据进行属性提取。
步骤四、将提取的清洗数据进行类型转换,得到转换数据。
步骤五、对所述转换数据进行指标计算,得到目标数据。
进一步地,所述方法还包括:
将所述清洗数据通过模板规范化送入数据湖;
通过模板匹配提取数据湖中的清洗数据,呈现结果。
为了实现本发明实施例的基于模板过滤的异构数据分析方法,本发明还提供了一种基于模板过滤的异构数据分析系统,所述系统包括解码编码模块、数据清洗模块、属性提取模块、类型转换模块和指标计算模块。其中,解码编码模块将原始数据进行解码编码,得到解码编码数据发送给数据清洗模块;数据清洗模块将所述解码编码数据进行数据清洗,得到清洗数据发送给属性提取模块;属性提取模块将所述清洗数据送入数据湖,并对数据湖中的清洗数据进行属性提取,属性提取后的清洗数据发送给类型转换模块;类型转换模块将提取的清洗数据进行类型转换,得到转换数据发送给指标计算模块;指标计算模块对所述转换数据进行指标计算,得到目标数据。
示例性的,以“企业财报信息”为例进行说明:
在进行“企业财报信息”生成时,其中有部分子报告为“企业财报信息”,这部分的原始数据为非结构化的财务图片,如图2所示,在财务图片转化成最终的报告过程中,财务图片需要先后经过财务ocr过滤模板、财务数据规范过滤模板、数据湖、财务报告过滤模板,如图3所示。
当财务图片经过财务ocr过滤模板的ocr抽取过滤后,图片被识别为文本数据,如图4所示,但是文本数据并不规范,需要对其进行规范化处理。插入财务数据规范过滤模板,使文本数据进入财务数据规范过滤模板中进行过滤,使文本数据符合规范,如图5所示,符合规范的文本数据全部进入数据湖中。最后,从数据湖中提取数据,利用财务报告过滤模板进行指标计算,生成子报告,如图6所示。
本发明通过模板插拔,可针对任意来源、任意类型的数据,灵活组合出最终结果将查询数据与生产数据分离,减少了生产系统的压力,且降低对系统的侵入性。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于模板过滤的异构数据分析方法,其特征在于,所述方法包括:
将原始数据进行解码编码,得到解码编码数据;
将所述解码编码数据进行数据清洗,得到清洗数据;
将所述清洗数据送入数据湖,并对数据湖中的清洗数据进行属性提取;
将提取的清洗数据进行类型转换,得到转换数据;
对所述转换数据进行指标计算,得到目标数据。
2.根据权利要求1所述的基于模板过滤的异构数据分析方法,其特征在于,所述方法还包括:
将所述清洗数据通过模板规范化送入数据湖;
通过模板匹配提取数据湖中的清洗数据,呈现结果。
3.根据权利要求2所述的基于模板过滤的异构数据分析方法,其特征在于,所述将原始数据进行解码编码,得到解码编码数据,包括:
对原始数据的类型进行识别;
根据识别结果对原始数据进行相应的解码编码。
4.根据权利要求3所述的基于模板过滤的异构数据分析方法,其特征在于,所述原始数据的类型包括:
文本文字;
图像、图片;
视频流、电视流。
5.根据权利要求4所述的基于模板过滤的异构数据分析方法,其特征在于,当所述原始数据的类型为非结构化的图片,对原始数据进行相应的解码编码包括:
对图片进行ocr抽取,将图片信息转换成文本信息;
对文本信息进行数据规范化过滤处理;
将过滤处理后的文本信息进行解码编码。
6.根据权利要求5所述的基于模板过滤的异构数据分析方法,其特征在于,所述数据清洗包括检查数据的一致性、处理无效值和缺失值。
7.一种基于模板过滤的异构数据分析系统,其特征在于,所述系统包括:
解码编码模块,用于将原始数据进行解码编码,得到解码编码数据;
数据清洗模块,用于将所述解码编码数据进行数据清洗,得到清洗数据;
属性提取模块,用于将所述清洗数据送入数据湖,并对数据湖中的清洗数据进行属性提取;
类型转换模块,用于将提取的清洗数据进行类型转换,得到转换数据;
指标计算模块,用于对所述转换数据进行指标计算,得到目标数据。
8.根据权利要求7所述的基于模板过滤的异构数据分析系统,其特征在于,所述将原始数据进行解码编码,得到解码编码数据,包括:
对原始数据的类型进行识别;
根据识别结果对原始数据进行相应的解码编码。
9.根据权利要求8所述的基于模板过滤的异构数据分析系统,其特征在于,所述原始数据的类型包括:
文本文字;
图像、图片;
视频流、电视流。
10.根据权利要求9所述的基于模板过滤的异构数据分析系统,其特征在于,当所述原始数据的类型为非结构化的图片,对原始数据进行相应的解码编码包括:
对图片进行ocr抽取,将图片信息转换成文本信息;
对文本信息进行数据规范化过滤处理;
将过滤处理后的文本信息进行解码编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660404.9A CN111814000A (zh) | 2020-07-10 | 2020-07-10 | 一种基于模板过滤的异构数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660404.9A CN111814000A (zh) | 2020-07-10 | 2020-07-10 | 一种基于模板过滤的异构数据分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814000A true CN111814000A (zh) | 2020-10-23 |
Family
ID=72843428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010660404.9A Pending CN111814000A (zh) | 2020-07-10 | 2020-07-10 | 一种基于模板过滤的异构数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814000A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020006165A1 (en) * | 2000-06-02 | 2002-01-17 | Motoki Kato | Apparatus and method for image coding and decoding |
CN104299105A (zh) * | 2014-11-02 | 2015-01-21 | 中国科学院软件研究所 | 一种支持复杂企业环境的信用数据管理系统及方法 |
US10282407B1 (en) * | 2013-08-21 | 2019-05-07 | The United States Of America, As Represented By The Secretary Of The Navy | Method for filtering data to generate a balance sheet |
CN110543475A (zh) * | 2019-08-29 | 2019-12-06 | 深圳市原点参数科技有限公司 | 一种基于机器学习的财务报表数据自动识别和分析方法 |
CN110659298A (zh) * | 2019-08-14 | 2020-01-07 | 金蝶软件(中国)有限公司 | 财务数据处理方法、装置、计算机设备和存储介质 |
CN110851847A (zh) * | 2019-11-08 | 2020-02-28 | 国家工业信息安全发展研究中心 | 一种异构数据处理系统、方法、装置和存储介质 |
CN110851667A (zh) * | 2019-09-25 | 2020-02-28 | 中国移动通信集团河南有限公司 | 一种多源头大量数据的整合分析方法及工具 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
CN111125209A (zh) * | 2019-11-25 | 2020-05-08 | 集奥聚合(北京)人工智能科技有限公司 | 一种支持多元异构类型数据的接入配置系统 |
CN111221887A (zh) * | 2018-11-27 | 2020-06-02 | 中云开源数据技术(上海)有限公司 | 一种对数据湖服务器中的数据进行管理和访问的方法 |
-
2020
- 2020-07-10 CN CN202010660404.9A patent/CN111814000A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020006165A1 (en) * | 2000-06-02 | 2002-01-17 | Motoki Kato | Apparatus and method for image coding and decoding |
US10282407B1 (en) * | 2013-08-21 | 2019-05-07 | The United States Of America, As Represented By The Secretary Of The Navy | Method for filtering data to generate a balance sheet |
CN104299105A (zh) * | 2014-11-02 | 2015-01-21 | 中国科学院软件研究所 | 一种支持复杂企业环境的信用数据管理系统及方法 |
CN111221887A (zh) * | 2018-11-27 | 2020-06-02 | 中云开源数据技术(上海)有限公司 | 一种对数据湖服务器中的数据进行管理和访问的方法 |
CN110659298A (zh) * | 2019-08-14 | 2020-01-07 | 金蝶软件(中国)有限公司 | 财务数据处理方法、装置、计算机设备和存储介质 |
CN110543475A (zh) * | 2019-08-29 | 2019-12-06 | 深圳市原点参数科技有限公司 | 一种基于机器学习的财务报表数据自动识别和分析方法 |
CN110851667A (zh) * | 2019-09-25 | 2020-02-28 | 中国移动通信集团河南有限公司 | 一种多源头大量数据的整合分析方法及工具 |
CN110851847A (zh) * | 2019-11-08 | 2020-02-28 | 国家工业信息安全发展研究中心 | 一种异构数据处理系统、方法、装置和存储介质 |
CN111125209A (zh) * | 2019-11-25 | 2020-05-08 | 集奥聚合(北京)人工智能科技有限公司 | 一种支持多元异构类型数据的接入配置系统 |
CN111027297A (zh) * | 2019-12-23 | 2020-04-17 | 海南港澳资讯产业股份有限公司 | 一种对图像型pdf财务数据关键表格信息的处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106027664B (zh) | 医疗设备运行管理系统及方法 | |
JP4152789B2 (ja) | クラスタリングシステムおよびクラスタリング方法 | |
Javed et al. | A review on document image analysis techniques directly in the compressed domain | |
CN110765740B (zh) | 一种基于dom树的全类型文本替换方法、系统、装置及存储介质 | |
CN111708673A (zh) | 一种日志数据压缩方法、装置、设备和存储介质 | |
CN102045268B (zh) | 一种电子邮件数据恢复方法及装置 | |
WO2009129418A1 (en) | System and method for separated image compression | |
CN109168006A (zh) | 一种图形和图像共存的视频编解码方法 | |
CN114972929A (zh) | 一种医学多模态模型的预训练方法及装置 | |
US9380316B2 (en) | Image processing apparatus, image processing system and image processing method | |
US10341671B2 (en) | Method and system for image compression | |
CN111814000A (zh) | 一种基于模板过滤的异构数据分析方法及系统 | |
Piau et al. | Learning on entropy coded images with cnn | |
US20080159640A1 (en) | Document Image Encoding Decoding | |
CN110957016B (zh) | 基于健康云管理平台的体检数据智能识别系统及方法 | |
US6487311B1 (en) | OCR-based image compression | |
CN112954456B (zh) | 一种视频数据处理方法、终端及计算机可读存储介质 | |
CN112770116B (zh) | 用视频压缩编码信息提取视频关键帧的方法 | |
KR20070025853A (ko) | 이진 영상 압축 장치 및 방법 | |
JP2013206323A (ja) | 帳票画像管理システム、帳票画像管理方法、及びプログラム | |
CN114328630B (zh) | 一种基于物联网的设备识别系统 | |
KR100598115B1 (ko) | 고속 문자인식방법 및 장치 | |
JP2005055996A (ja) | 図面の電子化保管方法と図面の電子化保管システム及び図面データ提供システム | |
CN115150623A (zh) | 一种基于人工智能分类方式的视频图像压缩去冗余方法 | |
CN115497569A (zh) | 生物序列标识符的压缩方法及装置、解压方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |