CN102542038A - 一种通用可配置的标准局数据入库方法 - Google Patents
一种通用可配置的标准局数据入库方法 Download PDFInfo
- Publication number
- CN102542038A CN102542038A CN2011104431722A CN201110443172A CN102542038A CN 102542038 A CN102542038 A CN 102542038A CN 2011104431722 A CN2011104431722 A CN 2011104431722A CN 201110443172 A CN201110443172 A CN 201110443172A CN 102542038 A CN102542038 A CN 102542038A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- processing rule
- configuration
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013500 data storage Methods 0.000 title claims abstract description 15
- 230000008676 import Effects 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 4
- 238000005194 fractionation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000007405 data analysis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000677635 Tuxedo Species 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- -1 LSTPHSTP Proteins 0.000 description 1
- 101100482117 Saimiri sciureus THBD gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种通用可配置的标准局数据入库方法,属于数据处理领域领域。该方法设置了文件名关键信息与数据类型对应关系配置、某类数据入库分析配置等两类标准局数据导入配置文件,并通过处理规则或处理规则的组合,对单元格数据进行处理,所述处理规则为替换、拆分用户号码、拆分数字、拆分、提取、格式判断、为空忽略。与现有技术相比,本发明的通用可配置的标准局数据入库方法具有适应不同的入库服务接口、对数据处理的适应性好、处理新增数据需求的工作量低等特点,具有很好的推广应用价值。
Description
技术领域
本发明涉及数据处理领域,具体地说是一种通用可配置的标准局数据入库方法。
背景技术
标准局数据是局数据系统最关键的核心数据,是局数据核查、制作的基础数据之一,在使用(局数据核查、制作)之前需要先把标准局数据导入到数据库中。
标准局数据是由集团公司或者省公司以EXCEL文件形式不定期下发,包括汇总数据、批复数据及省内标准数据三大类数据,每类数据又包含多种不同格式的数据,如BOSS账号用户号段、智能网账号用户号段、GSM国际漫游数据、GPRS国漫数据、短号码数据、端局关口局、TMSC、HLR、LSTPHSTP、SCP、SGSN设备数据等。这些数据每次下发的文件格式(文件名称、EXCEL表头名称、EXCEL表头所在行)、数据格式并不固定,文件中还可能会存在一些错误数据、重复数据。
现在使用的标准局数据分析入库方式是读取出EXCEL的表头行,通过遍历局数据系统标准局数据入库功能中所有支持导入的表头,匹配成功后,即确定了要导入的EXCEL数据类型,然后进入不同类型数据(用户数据、设备数据等)的分支代码处理,对EXCEL中每个单元格的数据进行处理,最终形成可入库的数据导入到数据库中。
上述标准局数据分析入库处理的方法存在以下缺点:
1)确定EXCEL数据类型的效率不高
即需要遍历局数据系统标准局数据入库功能中所有支持入库的表头与用户选定要入库的EXCEL表头进行匹配确定出数据类型。
2)数据处理的灵活性差、维护工作量较大
需要针对不同类型的标准局数据编写处理代码,对于新增数据还需要对程序作调整。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种通用可配置的标准局数据入库方法。
本发明的技术任务是按以下方式实现的:一种通用可配置的标准局数据入库方法,其特征在于,
1)设两类标准局数据导入配置文件(均可采用XML格式):
a、文件名关键信息与数据类型对应关系配置,命名为STDATA_Type.xml,包括采用正则表达式描述的文件名关键信息(如:移动\d{3}用户.*汇总表|移动\d{3}用户.*批复表)、数据类型标识(如:用户号码)及入库处理公共数据;
虽然每次下发的标准局数据文件名并不固定,但描述数据类型的关键信息还是存在的,所以在配置文件中采用正则表达式来描述文件名规则,文件中一个节点描述一种数据类型;
b、某类数据入库分析配置,包括数据库表名、数据库表字段、字段数据类型、是否是关键字、EXCEL表头、处理规则;
2)通过处理规则或处理规则的组合,对单元格数据进行处理,处理规则均采用正则表达式进行匹配;
所述处理规则为替换、拆分用户号码、拆分数字、拆分、提取、格式判断、为空忽略。
本发明的通用可配置的标准局数据入库方法与现有技术相比具有以下突出的有益效果:
1)在标准局数据导入流程中,汇总分析了标准局数据文件格式,提供了两类配置文件结构,提高了数据类型确定效率,实现了通用的标准局数据入库。
2)在标准局数据导入流程中,汇总分析了数据格式、用户导入需求,抽象提取出了7种数据处理规则,实现了可配置的标准局数据入库方法。
3)可适应不同的入库服务接口。若采用TUXEDO中间件进行入库处理,则可在入库配置文件中配置服务名、TUXEDO字段值;若采用WEBSERVICE服务、MQ(消息队列)进行入库处理,则可在入库配置文件中配置数据库表名、数据库表字段,然后调用统一入库功能函数即可。
4)减低处理新增数据需求的工作量,不需要具有编程能力的技术人员修改代码,仅作配置即可。
5)对数据处理的适应性好,配置中采用正则表达式,可以匹配处理复杂的模式,通用性、扩展性强。
6)本发明解决EXCEL文件的列与数据表字段的灵活对应,可以作为所有数据源为EXCEL文件的数据分析入库方式。
附图说明
附图1是本发明通用可配置的标准局数据入库方法实现流程图。
具体实施方式
参照说明书附图以具体实施例对本发明的通用可配置的标准局数据入库方法作以下详细地说明。
实施例一
本发明的通用可配置的标准局数据入库方法主要实现包括以下内容:
1)标准局数据导入配置文件总体分为两类,均采用XML格式:
A.文件名关键信息与数据类型对应关系配置,命名为STDATA_Type.xml。包括采用正则表达式描述的文件名关键信息、数据类型标识及入库处理公共数据。虽然每次下发的标准局数据文件名并不固定,但描述数据类型的关键信息还是存在的,所以在配置文件中采用正则表达式来描述文件名规则。文件中一个节点描述一种数据类型。
例如,以用户号码为例进行配置:
B.某类数据入库分析配置,包括数据库表名、数据库表字段、字段数据类型、是否是关键字、EXCEL表头、处理规则等。
例如,以用户号码的号码列为例进行配置:
2)汇总分析了所有需要入库的标准局数据格式,抽象出7种处理规则,通过这些规则的灵活组合配置可以满足不同单元格数据的处理需求。处理规则均采用正则表达式这一模式匹配方式,具体地说:
A.替换(Deal_Replace)
举例如:<Deal_Replace Description=″替换″ParaOne=″[???无]″ParaTwo=″″/>
ParaOne中配置匹配规则,模式匹配成功后,用ParaTwo中的参数进行替换。
B.拆分用户号码(Deal_Split PhoneNumber)
举例如:<Deal_Split_PhoneNumber Description=″″
ParaOne=″(\d+)-(\d+)″ParaTwo=″,″/>
ParaOne中配置匹配规则,模式匹配成功后,将捕获到两个组的数字就行连续拆分,位长不等时,按最长位进行前方补0,最后加入前缀(前缀如Before=″1899″)。
C.拆分数字(Deal_Split_Number)
与Deal_Split_PhoneNumber类似,只是不进行位长不等补0操作。
D.拆分(Deal_Split)
举例如:<Deal_Split Description=″拆分″ParaOne=″\r\n|\n″
ParaTwo=″″/>
按照ParaOne中配置的规则拆分数据。
E.提取(Deal_Extract)
举例如:<Deal_Extract Description=″″ParaOne=″mnc(\d+)″
ParaTwo=″″/>
按照ParaOne中配置的规则提取数据,当配置了组,则获取组的数据,否则获取整体的数据。
F.格式判断(ErronJudge_Format)
<ErronJudge_Format Description=″″
ParaOne=″^mnc\d+\.mcc\d+\.gprs$″
ParaTwo=″″/>
判断数据格式是否符合ParaOne中配置的规则,不符合则提示操作者。
G.为空忽略(ErronJudge Null)
如:<ErronJudge_Null Description=″为空忽略″ParaOne=″″ParaTwo=″″/>
当数据为空时,忽略该数据并提示操作者。
实施例二:
如附图1所示,上述标准局数据入库方法的实现流程为:
1)读取文件名关键信息与数据类型对应关系配置文件
(STDATA_Type.xml),形成配置类实例,通过配置的正则表达式进行模式匹配,匹配成功后则确定了数据类型,可直接读取入库配置文件,该类数据的入库配置文件名与节点名一致,以用户号码为例(如实施例一中配置举例),STDATA_Type.xml节点为<STDATA_user……,则入库配置文件即为STDATA_User.xml。该步骤不必读取所有可支持导入的表头情况,减少内存占用,减少遍历匹配所有表头的消耗,提高处理效率。当文件名中不包含数据类型的关键信息时,为了减少人为的干预如修改文件名,增加容错处理,进入遍历匹配文件头流程。
2)读取具体的入库配置文件,形成入库控制类实例,该类中包括数据库表名、数据库表字段、字段数据类型、是否是关键字、EXCEL表头、是否分sheet页处理、处理规则等。按照入库控制类的配置EXCEL表头与待入库文件的EXCEL表头进行匹配,建立待入库文件的列名与字段的对应关系。若表头匹配不成功,则弹出帮助窗口,提示操作者下载标准局数据模板文件,结束入库流程。
3)按照入库控制类的处理规则(处理规则可以组合,如用户数据号码列需要进行为空忽略、拆分手机号处理,则可配置上<ErronJudge_Null Description=″为空忽略″ParaOne=″″ParaTwo=″″/>及<Deal_Split_PhoneNumber Description=″拆分手机号″ParaOne=″(\d+)-(\d+)″ParaTwo=″,″/>这两种处理规则),逐一调用通用规则处理函数,形成与入库字段对应的入库数据。
4)调用入库功能函数,结束入库流程。
Claims (1)
1.一种通用可配置的标准局数据入库方法,其特征在于,
1)设两类标准局数据导入配置文件:
a、文件名关键信息与数据类型对应关系配置,包括采用正则表达式描述的文件名关键信息、数据类型标识及入库处理公共数据;
b、某类数据入库分析配置,包括数据库表名、数据库表字段、字段数据类型、是否是关键字、EXCEL表头、处理规则;
2)通过处理规则或处理规则的组合,对单元格数据进行处理,处理规则均采用正则表达式进行匹配;
所述处理规则为替换、拆分用户号码、拆分数字、拆分、提取、格式判断、为空忽略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104431722A CN102542038A (zh) | 2011-12-27 | 2011-12-27 | 一种通用可配置的标准局数据入库方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104431722A CN102542038A (zh) | 2011-12-27 | 2011-12-27 | 一种通用可配置的标准局数据入库方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102542038A true CN102542038A (zh) | 2012-07-04 |
Family
ID=46348919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104431722A Pending CN102542038A (zh) | 2011-12-27 | 2011-12-27 | 一种通用可配置的标准局数据入库方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102542038A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744982A (zh) * | 2014-01-15 | 2014-04-23 | 北京神州普惠科技股份有限公司 | 一种将Excel数据导入数据库的方法 |
CN103970736A (zh) * | 2013-01-25 | 2014-08-06 | 苏州精易会信息技术有限公司 | 一种将Excel表格转换成数据库表的方法 |
CN104239366A (zh) * | 2013-06-21 | 2014-12-24 | 苏州精易会信息技术有限公司 | 基于c/s模式的电子表格数据管理方法 |
CN105117431A (zh) * | 2015-08-07 | 2015-12-02 | 北京思特奇信息技术股份有限公司 | 一种动态配置外部导入数据的方法及系统 |
CN105808510A (zh) * | 2014-12-31 | 2016-07-27 | 北京航天测控技术有限公司 | 一种调试数据校验方法及装置 |
CN106776843A (zh) * | 2016-11-28 | 2017-05-31 | 浪潮软件集团有限公司 | 一种基于xml解析的导入excel文件的方法 |
CN107870979A (zh) * | 2017-09-30 | 2018-04-03 | 平安科技(深圳)有限公司 | 电子装置、提取数据表的数据的方法及存储介质 |
CN108874844A (zh) * | 2017-11-24 | 2018-11-23 | 北京视联动力国际信息技术有限公司 | 一种表格数据处理方法及视联网服务器 |
CN109582651A (zh) * | 2018-11-14 | 2019-04-05 | 中国直升机设计研究所 | 一种无人机测控数据处理方法及装置 |
CN110489577A (zh) * | 2019-08-06 | 2019-11-22 | 腾讯医疗健康(深圳)有限公司 | 医疗影像管理方法及装置、眼底影像处理方法、电子设备 |
CN110851675A (zh) * | 2019-10-10 | 2020-02-28 | 厦门市美亚柏科信息股份有限公司 | 一种数据提取方法、装置及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040187110A1 (en) * | 2003-02-20 | 2004-09-23 | Julian Boyfield | Method and apparatus for specifying properties using regular expression parameterization |
CN101076798A (zh) * | 2004-12-09 | 2007-11-21 | 三菱电机株式会社 | 字符串对照装置及字符串对照程序 |
-
2011
- 2011-12-27 CN CN2011104431722A patent/CN102542038A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040187110A1 (en) * | 2003-02-20 | 2004-09-23 | Julian Boyfield | Method and apparatus for specifying properties using regular expression parameterization |
CN101076798A (zh) * | 2004-12-09 | 2007-11-21 | 三菱电机株式会社 | 字符串对照装置及字符串对照程序 |
Non-Patent Citations (1)
Title |
---|
EPM INFORMATION DEVELOPMENT TEAM: "Essbase Release 11.1.1 Database Administrator"s Guide", 《HTTP://DOCS.ORACLE.COM/CD/E12825_01/EPM.111/ESB_DBAG/FRAMESET.HTM?DOTDIMB.HTM》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970736A (zh) * | 2013-01-25 | 2014-08-06 | 苏州精易会信息技术有限公司 | 一种将Excel表格转换成数据库表的方法 |
CN104239366A (zh) * | 2013-06-21 | 2014-12-24 | 苏州精易会信息技术有限公司 | 基于c/s模式的电子表格数据管理方法 |
CN103744982A (zh) * | 2014-01-15 | 2014-04-23 | 北京神州普惠科技股份有限公司 | 一种将Excel数据导入数据库的方法 |
CN105808510A (zh) * | 2014-12-31 | 2016-07-27 | 北京航天测控技术有限公司 | 一种调试数据校验方法及装置 |
CN105117431A (zh) * | 2015-08-07 | 2015-12-02 | 北京思特奇信息技术股份有限公司 | 一种动态配置外部导入数据的方法及系统 |
CN106776843A (zh) * | 2016-11-28 | 2017-05-31 | 浪潮软件集团有限公司 | 一种基于xml解析的导入excel文件的方法 |
CN107870979A (zh) * | 2017-09-30 | 2018-04-03 | 平安科技(深圳)有限公司 | 电子装置、提取数据表的数据的方法及存储介质 |
CN108874844A (zh) * | 2017-11-24 | 2018-11-23 | 北京视联动力国际信息技术有限公司 | 一种表格数据处理方法及视联网服务器 |
CN108874844B (zh) * | 2017-11-24 | 2021-05-14 | 视联动力信息技术股份有限公司 | 一种表格数据处理方法及视联网服务器 |
CN109582651A (zh) * | 2018-11-14 | 2019-04-05 | 中国直升机设计研究所 | 一种无人机测控数据处理方法及装置 |
CN110489577A (zh) * | 2019-08-06 | 2019-11-22 | 腾讯医疗健康(深圳)有限公司 | 医疗影像管理方法及装置、眼底影像处理方法、电子设备 |
CN110489577B (zh) * | 2019-08-06 | 2024-01-26 | 腾讯医疗健康(深圳)有限公司 | 医疗影像管理方法及装置、眼底影像处理方法、电子设备 |
CN110851675A (zh) * | 2019-10-10 | 2020-02-28 | 厦门市美亚柏科信息股份有限公司 | 一种数据提取方法、装置及介质 |
CN110851675B (zh) * | 2019-10-10 | 2022-05-17 | 厦门市美亚柏科信息股份有限公司 | 一种数据提取方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102542038A (zh) | 一种通用可配置的标准局数据入库方法 | |
CN102375826B (zh) | Sql脚本解析方法、装置及系统 | |
CN101504664B (zh) | 对全量源数据进行抽取转换加载的装置及方法 | |
CN107480280A (zh) | 一种数据处理的方法以及相关设备 | |
CN105447122A (zh) | 一种基于多表关联可自主创建档案系统的实现方法 | |
CN101086732A (zh) | 一种海量数据管理方法 | |
CN105761139A (zh) | 对账系统及方法 | |
CN106599197A (zh) | 数据采集交换引擎 | |
CN109508355A (zh) | 一种数据抽取方法、系统及终端设备 | |
CN110147361A (zh) | 大数据环境下实现主数据编码规则维护功能的系统及其方法 | |
CN102012935A (zh) | 通过Excel对系统之间数据治理的方法 | |
CN1886976B (zh) | 用于使用动作列表及版本控制对一无线装置执行动作的方法及设备 | |
CN107016094A (zh) | 一种项目共享文件多人协同开发方法、装置及系统 | |
CN105045927A (zh) | 建设工程工料机数据自动编码方法及系统 | |
CN106558105A (zh) | 产品可配置bom在虚拟现实系统的使用方法 | |
CN114936727A (zh) | 一种工单派发系统、方法及计算机设备 | |
CN103455516A (zh) | 一种运维平台及数据库的维护方法 | |
CN102075896B (zh) | 一种资费预演方法和系统 | |
CN102955739A (zh) | 一种提高性能测试脚本重用率的方法 | |
CN108733332B (zh) | 一种通用的打印模板元数据设计方法 | |
CN110675121A (zh) | 图片类案卷材料的采集方法 | |
CN101894317B (zh) | 数据变化驱动业务逻辑的方法和系统 | |
CN109902215A (zh) | 一种交易匹配的方法及系统 | |
CN111752541B (zh) | 一种基于Rete算法的支付路由方法 | |
CN101174204A (zh) | 数据版本升级的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120704 |
|
WD01 | Invention patent application deemed withdrawn after publication |