CN104618459A - 数据模型的自动采集方法及系统 - Google Patents
数据模型的自动采集方法及系统 Download PDFInfo
- Publication number
- CN104618459A CN104618459A CN201510016361.XA CN201510016361A CN104618459A CN 104618459 A CN104618459 A CN 104618459A CN 201510016361 A CN201510016361 A CN 201510016361A CN 104618459 A CN104618459 A CN 104618459A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- parsing
- acquisition method
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及互联网技术领域,公开了一种数据模型的自动采集方法及系统。该方法包括步骤:配置数据接入规则;根据采集数据的类型和需求定义并建立数据模型;根据采集数据的样式及规则进行数据解析;对解析后的数据进行数据过滤处理;对过滤后的数据重新映射到数据模型进行匹配;对匹配成功的数据配置展示模型并启动采集工作。与现有技术相比,本发明所提供的数据模型的自动采集方法,基于实时大数据流技术,充分利用报文大数据的优势,尽量挖掘有效的信息为目标提供支持,采用的数据维度增加,补全结果的准确度也会随之增提高。
Description
技术领域
本发明涉及互联网数据应用领域,尤其涉及一种数据模型的自动采集方法及系统。
背景技术
目前数据流处理都是针对每个公司自己的业务。开发基于业务对数据进行处理,这样针对性强,扩展难。在进入大数据时代,一份数据会有很多种功能。给自己公司使用的同时,可以粗加工一下,特供给其他公司使用。这样就需要一个数据处理工具,来对外提供特殊格式,特殊需求的数据。目前对于模型数据的采集处理,一般由运维人员手工配置,查询定制开发,这样容易造成上线麻烦,代码实现冗余,目前解决上述问题一般采用如下手段,1、归并解析思路,使数据模块化;2、在多种情况下,实现可配置化。但是那样需要积累各种工具的功能才能实现。
发明内容
为解决上述技术问题,本发明公开了一种数据模型的自动采集方法,其包含如下步骤:
根据采集数据的类型和需求定义并建立数据模型;
根据采集数据的样式及规则进行数据解析;
对解析后的数据进行数据过滤处理;
对过滤后的数据重新映射到数据模型进行匹配;
对匹配成功的数据配置展示模型并启动采集工作。
优选地,数据的解析方式为流式解析。
优选地,所述流式解析包括将无规则的数据解析为单数据、行数据、表格数据三种类型。
优选地,数据的过滤包括列过滤、行过滤以及匹配过滤。
优选地,对数据的解析通过数据解析器实现,所述数据解析器设有多个。
优选地,对数据的过滤通过数据过滤器实现,所述数据过滤器设有多个。
优选地,对数据的配置接入规则依据网络协议、连接地址以及端口信息。
另一方面,本发明还同时提供了一种数据模型的自动采集系统,所述系统包括:
建模模块,用于根据采集数据的类型定义并建立数据模型;
解析模块,用于根据采集数据的样式及规则进行数据解析;
过滤模块,用于对解析后的数据进行数据过滤处理;
映射匹配模块,用于对过滤后的数据重新映射到数据模型进行匹配;
采集模块,用于对匹配成功的数据配置展示模型并启动采集工作。
优选地,所述系统中,所述解析模块通过数据解析器实现,所述数据解析器设有多个。
优选地,所述系统中,所述过滤模块通过数据过滤器实现,所述数据过滤器设有多个。
与现有技术相比,本发明所提供的数据模型的自动采集方案,基于实时大数据流技术,充分利用报文大数据的优势,尽量挖掘有效的信息为目标提供支持,采用的数据维度增加,补全结果的准确度也会随之增提高。
附图说明
图1为本发明实施例中的数据模型的自动采集方法的原理示意图。
图2为本发明实施例中的数据模型的自动采集方法的工作流程图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,产品制造商可能会用不同名词来称呼同一个部件。本说明书及权利要求并不以名称的差异来作为区分部件的方式,而是以部件在功能上的差异来作为区分的准则。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
参照附图1,本发明所提供的数据模型的自动采集方法,包括如下步骤:
步骤一,配置数据接入规则;接入规则采用例如通讯协议、连接地址、端口信息等来进行配置。
步骤二,根据采集数据的类型和需求定义并建立数据模型;例如根据采集车数据、采集服务器数据等不同的模式建立对应的数据模型。
步骤三,根据采集数据的样式进行数据解析;根据采集数据的样式及采集数据的规则来指定解析方式,解析遵从流式解析规则,即把无规则的数据解析为单数据,行数据,表格数据三种类型。
步骤四,对解析后的数据进行数据过滤处理;对上述解析完成的三种类型的数据再进行过滤,过滤提供多种过滤规则,包括列过滤、行过滤、匹配过滤等方式。
步骤五,对过滤后的数据重新映射到数据模型进行匹配。
步骤六,对匹配成功的数据配置展示模型并启动采集工作。展示模型也依托于建立的数据模型,例如服务器模型,包括cpu、内存等。展示模型同样也会根据这些模型架构来配置展示模型。当配置成功后,即可启动采集工作,打开分析页面。其中,在本发明更优选的实施例中,数据模型的自动采集系统支持动态的横向扩展,也可同时部署多个以并行或冗余的方式工作;对于数据展示,除依赖于预定义或自动建立的展示模型外,系统还可提供初步的展示配置工具,由使用者(用户或管理者)来指定配置展示模型。
本发明所提供的数据模型的自动采集方法立足于对实时数据流,特供各种可配置的挖掘。并依据不断完善的数据模型、连接器、解析器、过滤器、匹配器、展示器为一种数据提供多种业务提供方便实现途径,为多种数据提供一种业务提供方便的集合。
具体来说,用户首先开始业务建模,通过连接器设置连接参数,也就是接入规则,连接成功后,通过数据解析器1、数据解析器2…数据解析器n等多个数据解析器分别对数据解析。解析后再对数据分别过滤处理,通过数据过滤器1、数据过滤器2…数据过滤器n依次对解析完毕的数据进行过滤处理。其中,多个解析器和过滤器可采用并行方式对大数据进行处理,以提高处理效率。解析器和过滤器根据系统需求和预定规则进行设置,每个解析器/过滤器处理数据的类型和方式可以相同也可不同,以方便针对不同类型的数据和不同的数据量采用适当的并行处理方式。过滤后的数据进行模型匹配,匹配完毕后生成标准数据,然后根据不同的要求,通过数据散发器将标准数据分成两类,一部分提供给第三方平台应用,另一部分作为平台展示,显示各种模型数据。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,本领域相关技术人员应能理解,与本发明的方法相对应的,本发明还同时包括一种数据模型的自动采集系统,该系统各功能模块与上述方法步骤一一对应,在此不再赘述。
本发明所提供的数据模型的自动采集方案,基于实时大数据流技术,充分利用报文大数据的优势,尽量挖掘有效的信息为目标提供支持,采用的数据维度增加,补全结果的准确度也会随之增提高。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种数据模型的自动采集方法,其特征在于,该方法包括步骤:
根据采集数据的类型和需求定义并建立数据模型;
根据采集数据的样式及规则进行数据解析;
对解析后的数据进行数据过滤处理;
对过滤后的数据重新映射到数据模型进行匹配;
对匹配成功的数据配置展示模型并启动采集工作。
2.如权利要求1所述的采集方法,其特征在于,数据的解析方式为流式解析。
3.如权利要求2所述的采集方法,其特征在于,所述流式解析包括将无规则的数据解析为单数据、行数据、表格数据三种类型。
4.如权利要求1所述的采集方法,其特征在于,数据的过滤包括列过滤、行过滤以及匹配过滤。
5.如权利要求1所述的采集方法,其特征在于,对数据的解析通过数据解析器实现,所述数据解析器设有多个。
6.如权利要求1所述的采集方法,其特征在于,对数据的过滤通过数据过滤器实现,所述数据过滤器设有多个。
7.如权利要求1所述的采集方法,其特征在于,对数据的配置接入规则依据网络协议、连接地址以及端口信息。
8.一种数据模型的自动采集系统,其特征在于,所述系统包括:
建模模块,用于根据采集数据的类型和需求定义并建立数据模型;
解析模块,用于根据采集数据的样式及规则进行数据解析;
过滤模块,用于对解析后的数据进行数据过滤处理;
映射匹配模块,用于对过滤后的数据重新映射到数据模型进行匹配;
采集模块,用于对匹配成功的数据配置展示模型并启动采集工作。
9.如权利要求8所述的系统,其特征在于,所述系统中,所述解析模块通过数据解析器实现,所述数据解析器设有多个。
10.如权利要求8所述的系统,其特征在于,所述系统中,所述过滤模块通过数据过滤器实现,所述数据过滤器设有多个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510016361.XA CN104618459A (zh) | 2015-01-13 | 2015-01-13 | 数据模型的自动采集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510016361.XA CN104618459A (zh) | 2015-01-13 | 2015-01-13 | 数据模型的自动采集方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104618459A true CN104618459A (zh) | 2015-05-13 |
Family
ID=53152734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510016361.XA Pending CN104618459A (zh) | 2015-01-13 | 2015-01-13 | 数据模型的自动采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104618459A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448157A (zh) * | 2016-09-05 | 2017-02-22 | 天津中兴智联科技有限公司 | 一种交通数据平台适配器的实现方法及系统 |
CN108600181A (zh) * | 2018-03-28 | 2018-09-28 | 南京智格电力科技有限公司 | 一种支持多类型通信协议的解析配置方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102931625A (zh) * | 2012-11-21 | 2013-02-13 | 安徽南瑞继远软件有限公司 | 一种继电保护在线状态检修智能决策分析装置和其信号处理方法及其应用 |
US8571916B1 (en) * | 2004-01-30 | 2013-10-29 | Applied Predictive Technologies, Inc. | Methods, systems, and articles of manufacture for determining optimal parameter settings for business initiative testing models |
CN103646109A (zh) * | 2013-12-25 | 2014-03-19 | 武汉大学 | 一种基于机器学习的空间数据匹配方法 |
CN103824069A (zh) * | 2014-03-19 | 2014-05-28 | 北京邮电大学 | 一种基于多主机日志关联的入侵检测方法 |
CN103926997A (zh) * | 2013-01-11 | 2014-07-16 | 北京三星通信技术研究有限公司 | 一种基于用户的输入确定情绪信息的方法和终端 |
-
2015
- 2015-01-13 CN CN201510016361.XA patent/CN104618459A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8571916B1 (en) * | 2004-01-30 | 2013-10-29 | Applied Predictive Technologies, Inc. | Methods, systems, and articles of manufacture for determining optimal parameter settings for business initiative testing models |
CN102931625A (zh) * | 2012-11-21 | 2013-02-13 | 安徽南瑞继远软件有限公司 | 一种继电保护在线状态检修智能决策分析装置和其信号处理方法及其应用 |
CN103926997A (zh) * | 2013-01-11 | 2014-07-16 | 北京三星通信技术研究有限公司 | 一种基于用户的输入确定情绪信息的方法和终端 |
CN103646109A (zh) * | 2013-12-25 | 2014-03-19 | 武汉大学 | 一种基于机器学习的空间数据匹配方法 |
CN103824069A (zh) * | 2014-03-19 | 2014-05-28 | 北京邮电大学 | 一种基于多主机日志关联的入侵检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448157A (zh) * | 2016-09-05 | 2017-02-22 | 天津中兴智联科技有限公司 | 一种交通数据平台适配器的实现方法及系统 |
CN108600181A (zh) * | 2018-03-28 | 2018-09-28 | 南京智格电力科技有限公司 | 一种支持多类型通信协议的解析配置方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108132957B (zh) | 一种数据库处理方法及装置 | |
CN108520073A (zh) | 风控数据整合方法、装置、设备及计算机可读存储介质 | |
CN102932195A (zh) | 一种基于网络协议分析的业务分析监控方法及系统 | |
CN108255837A (zh) | 一种sql解析器及方法 | |
CN101309178B (zh) | 一种自动交换光网络系统日志信息的解析方法及装置 | |
CN114153980A (zh) | 知识图谱构建方法和装置、检查方法、存储介质 | |
CN113242159A (zh) | 应用访问关系确定方法及装置 | |
CN105389314A (zh) | 一种日志文件查询系统及查询方法 | |
CN106506302A (zh) | 支持动态modbus协议映射的通信装置 | |
CN107944866B (zh) | 交易记录排重方法及计算机可读存储介质 | |
CN104618459A (zh) | 数据模型的自动采集方法及系统 | |
CN110597687A (zh) | 一种日志处理方法和装置 | |
CN104536897A (zh) | 基于关键字的自动测试方法及系统 | |
CN107704567A (zh) | 一种二进制文件的解析方法、装置、设备及存储介质 | |
US20120317073A1 (en) | Replication Support for Procedures with Arguments of Unsupported Types | |
CN116226082A (zh) | 数据库模型的生成方法、装置、存储介质及电子设备 | |
US8856152B2 (en) | Apparatus and method for visualizing data | |
CN107809345B (zh) | 网关数据核查工具、核查网关数据的方法和装置 | |
CN109064191A (zh) | 车源数据解析方法、装置及电子设备 | |
CN111950248B (zh) | 基于xml的产品报告生成方法及系统 | |
CN105653207B (zh) | 一种闪存接口信息的实时解析方法和系统 | |
CN109639520B (zh) | 一种反应堆保护系统网络通信的计算机辅助测试方法 | |
CN103092752B (zh) | 一种仪器属性的错误识别方法 | |
CN102521717A (zh) | 一种配置管理资源库信息统计的方法与装置 | |
CN110737636A (zh) | 一种数据导入方法和装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150513 |