CN107992462B - 一种基于接口规范的数据采集方法及装置 - Google Patents
一种基于接口规范的数据采集方法及装置 Download PDFInfo
- Publication number
- CN107992462B CN107992462B CN201711216643.XA CN201711216643A CN107992462B CN 107992462 B CN107992462 B CN 107992462B CN 201711216643 A CN201711216643 A CN 201711216643A CN 107992462 B CN107992462 B CN 107992462B
- Authority
- CN
- China
- Prior art keywords
- data
- interface
- template
- interface information
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种基于接口规范的数据采集方法及装置,通过解析所述接口规范文本,得到接口信息,使用所述接口信息生成数据填写模板,并将通过所述数据填写模板采集到的数据发给所述数据采集方,因为用于采集数据的数据填写模板依据规范文本得到,所以,与使用计算机应用全自动的采集方法相比,在规范文本发生变化的情况下,无需重新编写以及汇编应用适用性和灵活性较高,而与人工采集数据的方式相比,可以使用数据填写模板辅助数据采集,所以具有较高的效率。
Description
技术领域
本申请涉及电子信息领域,尤其涉及一种基于接口规范的数据采集方法及装置。
背景技术
数据采集的基本过程为:数据采集方和数据提供方使用双方约定的接口规范,传递数据。接口规范通常由数据采集方制定,并下发到数据提供方,数据提供方按照接口规范,将收集到的数据传输给数据采集方。
目前,数据采集的实现方式分为全自动方式和手工采集方式。全自动方式往往需要针对不同的数据类型和接口规范,预先开发计算机应用系统,使用计算机应用系统从数据提供方采集数据。手工方式则针对不能从线上获取到的数据,由人工依据接口规范进行填写,并提供给数据采集方。
全自动的采集方式受限于数据类型和接口规范,在数据类型和接口规范调整后,需要改造系统,因此系统的适用范围窄,不够灵活。而人工方式则存在效率低的问题。
可见,如何兼顾数据采集的灵活性和效率,成为目前亟待解决的问题。
发明内容
本申请提供了一种基于接口规范的数据采集方法及装置,目的在于解决如何兼顾数据采集的灵活性和效率的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种基于接口规范的数据采集方法,包括:
获取数据采集方下发的接口规范文本;
通过解析所述接口规范文本,得到接口信息;
使用所述接口信息生成数据填写模板;
将通过所述数据填写模板采集到的数据发给所述数据采集方。
可选的,所述通过解析所述接口规范,得到解析后的接口信息包括:
使用训练得到的解析规则,对所述接口规范进行解析,以得到所述解析后的接口信息,所述解析规则使用历史接口规范文本、以及预设的接口信息的格式和/或内容训练得到。
可选的,所述将通过所述数据填写模板采集到的数据发给所述数据采集方包括:
收集所述数据填写模板中的数据;
对收集到的所述数据进行预设操作;
将进行所述预设操作后的数据转换为符合所述接口信息的数据后,发给所述数据采集方,所述预设操作包括汇总所述收集到的所述数据。
可选的,所述预设操作还包括:
依据所述接口信息,校验汇总得到的数据。
可选的,所述数据填写模板包括:
Excel表格文件。
一种基于接口规范的数据采集装置,包括:
获取模块,用于获取数据采集方下发的接口规范文本;
解析模块,用于通过解析所述接口规范文本,得到接口信息;
生成模块,用于使用所述接口信息生成数据填写模板;
发送模块,用于将通过所述数据填写模板采集到的数据发给所述数据采集方。
可选的,所述解析模块用于通过解析所述接口规范,得到解析后的接口信息包括:
所述解析模块具体用于,使用训练得到的解析规则,对所述接口规范进行解析,以得到所述解析后的接口信息,所述解析规则使用历史接口规范文本、以及预设的接口信息的格式和/或内容训练得到。
可选的,还包括:
收集模块,用于收集所述数据填写模板中的数据;
汇总模块,用于汇总收集到的所述数据;
所述发送模块用于将通过所述数据填写模板采集到的数据发给所述数据采集方包括:
所述发送模块具体用于,将进行预设操作后的数据转换为符合所述接口信息的数据后,发给所述数据采集方,所述预设操作包括所述汇总所述收集到的所述数据。
可选的,还包括:
校验模块,用于依据所述接口信息,校验汇总得到的数据。
可选的,所述数据填写模板包括:
Excel表格文件。
本申请所述的基于接口规范的数据采集方法及装置,通过解析所述接口规范文本,得到接口信息,使用所述接口信息生成数据填写模板,并将通过所述数据填写模板采集到的数据发给所述数据采集方,因为用于采集数据的数据填写模板依据规范文本得到,所以,与使用计算机应用全自动的采集方法相比,在规范文本发生变化的情况下,无需重新编写以及汇编应用适用性和灵活性较高,而与人工采集数据的方式相比,可以使用数据填写模板辅助数据采集,所以具有较高的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种基于接口规范的数据采集方法的流程图;
图2为本申请实施例公开的一种基于接口规范的数据采集装置的结构示意图。
具体实施方式
本申请实施例公开的基于接口规范的数据采集方法,可以应用在数据采集场景中,在该场景中,数据采集方(例如,人民银行),需要从数据提供方(例如,中国银行)获取跨境人民币业务数据。数据采集方提供了接口规范,要求数据提供方按照XML格式上送数据采集方的清算服务平台。这部分数据无法通过计算机系统线上采集。
本申请实施例公开的基于接口规范的数据采集方法,解析数据采集方提供的接口规范,得到解析后的接口信息,并依据接口信息,限制数据的填写、汇总、校验过程,以提高数据采集的效率。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种基于接口规范的数据采集方法,包括以下步骤:
S101:获取数据采集方下发的接口规范文本。
具体的,数据采集方下发的接口规范通常为提供给数据提供方人员阅读的文本,文件中记载数据采集方制定的接口规范。接口规范通常以表格的形式记录在文件中。
获取接口规范的具体方式可以为通过邮件接收、通过文件传达等现有技术手段。
S102:通过解析接口规范文本,得到接口信息。
接口信息为配置文件或者数据库信息等计算机可识别出的信息。解析得到接口信息是指,通过解析文本,从文本中提取出接口信息。
具体的,本实施例中,以预设的接口信息的格式和/或内容为目标,以历史接口规范文本为样本,训练解析规则,得到将接口规范文本转换为接口信息的解析规则。
基于解析规则,S102的具体实现方式为:从解析规范中提取预设类型的内容,例如,表格等,通过训练得到的解析规则,将这些内容转换为接口信息。
例如,人民银行提供的某接口规范文本为WORD格式的文档,接口内容在文档中的表格中体现,接口规范包括八十余个接口的规范。通过接口规范中的一到两个接口规范训练获取解析规则:首先,训练识别接口在文档中的章节或表现形式,如,某接口规范为表格形式,表格头为标识符、字段名称、类型、长度等。其次,训练获取数据类型,并与解析规则的数据类型对应。经过多次训练后即掌握该接口规范的表述要点,剩余接口即可自动识别转换。转换过程中也可以作为持续训练的过程。
S103:使用接口信息生成数据填写模板。
具体的,数据填写模板可以为Excel表格文件。
因为待采集的数据不能从线上获得,而需要人工填写,所以,后续需要向工作人员提供数据填写模板,以便于工作人员填写待采集的数据。而解析后的接口信息为模板生成的依据和基础。例如,接口信息可对数据填写模板中录入的类型(例如数字、金额和枚举性)进行限定。
因此,在上述解析规则的训练过程中,还可以将模板的预设格式作为训练影响因子。
在生成数据填写模板后,将生成数据填写模板下发给数据源的工作人员。工作人员将待采集的数据填入数据填写模板中。
S104:收集填入数据填写模板中的数据。
具体的,可以通过网络(例如电子邮件)收集填入数据的模板、也可以通过人工收集后录入填好的模板中的数据,或者,通过存储介质收集电子版的填入数据的模板。总之,可以使用现有的方式传递填入数据的模板,尤其可以脱离网络传递填入数据的模板。
S105:汇总收集到的数据。
S106:对汇总后的数据进行校验。
校验的目的在于,找出不符合接口信息的数据,可以对不符合接口信息的数据进行删除或者修改,从而提高数据的质量。
具体的,可以向用户显示汇总后的数据,由用户人工找出不符合接口信息的数据,或者,自动找出不符合接口信息的数据后,由人工进行删除或修改。
具体的,不符合接口信息的数据包括超出规定长度的数据、数据类型不符的数据、枚举型数据超出范围的数据等。
S107:将校验后的数据转换为符合接口信息的数据。
因为将要发送的数据即符合接口信息的数据的格式,与校验后的数据即用户可查看的数据的格式可能不同,所以,需要进行转换。
如枚举型的数据给填写或验证的人员看的是枚举值的说明(中文名称等),而报送的可能是枚举值;又如,金额给人员看的可能是数字型的内容,而报送的可能是带千分位的字符串。
S108:向数据采集方发送转换后的数据。
从图1所示的过程可以看出,本实施例中,将提供给用户阅读的接口规范文件解析成可用于计算机识别的接口要求信息,并依据接口要求信息进行生成模板、校验和转换。
与人工采集数据的方式相比,可使用计算机汇总、校验和转换数据,具有较高的效率和较低的错误率。
与使用计算机应用全自动的采集方法相比,无需重新编写以及汇编应用,而只需设置相应的解析规则即可,适用性和灵活性较高。
综上所述,图1所述的方法,为一种半自动化的数据采集方法,为人工收集数据提供模板,并能够辅助人工完成数据采集过程中的汇总、校验和转换步骤,适用范围广泛,使用灵活。
图2为本申请实施例公开的一种基于接口规范的数据采集装置,包括:
获取模块、解析模块、生成模块和发送模块。可选的,还包括收集模块、汇总模块和校验模块。
其中,获取模块用于获取数据采集方下发的接口规范文本。解析模块用于通过解析所述接口规范文本,得到接口信息。生成模块用于使用所述接口信息生成数据填写模板。发送模块用于将通过所述数据填写模板采集到的数据发给所述数据采集方。
收集模块用于收集所述数据填写模板中的数据。汇总模块用于汇总收集到的所述数据。校验模块用于依据所述接口信息,校验汇总得到的数据。具体的,发送模块将校验后的数据转换为符合所述接口信息的数据后,发给所述数据采集方。
图2所示的数据采集装置,能够辅助人工进行半自动的数据采集,具有更高的效率,并且,能够灵活适用于不同类型的数据和接口规范。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种基于接口规范的数据采集方法,其特征在于,所述方法为一种半自动化的数据采集方法,为人工收集数据提供模板,并能够辅助人工完成数据采集过程中的汇总、校验和转换步骤,所述方法包括:
获取数据采集方下发的接口规范文本,所述接口规范文本为提供给用户阅读的接口规范文本;
通过自动解析所述接口规范文本,得到接口信息;
使用所述接口信息生成数据填写模板,将数据填写模板下发给数据源的工作人员,工作人员将待采集的数据填入数据填写模板中;
将通过所述数据填写模板采集到的数据发给所述数据采集方;
其中,所述通过自动解析所述接口规范文本,得到接口信息包括:
使用训练得到的解析规则,对所述接口规范文本进行自动解析,以得到接口信息,所述解析规则使用历史接口规范文本、以及预设的接口信息的格式和/或内容训练得到,模板的预设格式作为训练影响因子;
其中,所述将通过所述数据填写模板采集到的数据发给所述数据采集方包括:
收集所述数据填写模板中的数据;
对收集到的所述数据进行预设操作;
将进行所述预设操作后的数据转换为符合所述接口信息的数据后,发给所述数据采集方,所述预设操作包括汇总所述收集到的所述数据和依据所述接口信息校验汇总得到数据。
2.根据权利要求1所述的方法,其特征在于,所述数据填写模板包括:
Excel表格文件。
3.一种基于接口规范的数据采集装置,其特征在于,所述装置为一种半自动化的数据采集装置,为人工收集数据提供模板,并能够辅助人工完成数据采集过程中的汇总、校验和转换步骤,所述装置包括:
获取模块,用于获取数据采集方下发的接口规范文本,所述接口规范文本为提供给用户阅读的接口规范文本;
解析模块,用于通过自动解析所述接口规范文本,得到接口信息;
生成模块,用于使用所述接口信息生成数据填写模板,将数据填写模板下发给数据源的工作人员,工作人员将待采集的数据填入数据填写模板中;
发送模块,用于将通过所述数据填写模板采集到的数据发给所述数据采集方;
其中,所述解析模块用于通过自动解析所述接口规范文本,得到接口信息包括:
所述解析模块具体用于,使用训练得到的解析规则,对所述接口规范文本进行自动解析,以得到接口信息,所述解析规则使用历史接口规范文本、以及预设的接口信息的格式和/或内容训练得到,模板的预设格式作为训练影响因子;
其中,还包括:
收集模块,用于收集所述数据填写模板中的数据;
汇总模块,用于汇总收集到的所述数据;
所述发送模块用于将通过所述数据填写模板采集到的数据发给所述数据采集方包括:
所述发送模块具体用于,将进行预设操作后的数据转换为符合所述接口信息的数据后,发给所述数据采集方,所述预设操作包括所述汇总收集到的所述数据和依据所述接口信息校验汇总得到数据。
4.根据权利要求3所述的装置,其特征在于,所述数据填写模板包括:
Excel表格文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711216643.XA CN107992462B (zh) | 2017-11-28 | 2017-11-28 | 一种基于接口规范的数据采集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711216643.XA CN107992462B (zh) | 2017-11-28 | 2017-11-28 | 一种基于接口规范的数据采集方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107992462A CN107992462A (zh) | 2018-05-04 |
CN107992462B true CN107992462B (zh) | 2021-04-16 |
Family
ID=62033878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711216643.XA Active CN107992462B (zh) | 2017-11-28 | 2017-11-28 | 一种基于接口规范的数据采集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992462B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968997B (zh) * | 2019-12-03 | 2023-07-21 | 广联达科技股份有限公司 | 强可控型文档生成方法、装置、存储介质、电子设备 |
CN113806428A (zh) * | 2020-06-11 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 数据处理方法、节点设备、系统及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100346609C (zh) * | 2004-04-16 | 2007-10-31 | 华为技术有限公司 | 网络管理中配置数据的采集系统及其方法 |
US8941870B2 (en) * | 2012-02-08 | 2015-01-27 | Toshiba Tec Kabushiki Kaisha | Automated file generation using a multifunction peripheral |
CN105046386A (zh) * | 2015-01-07 | 2015-11-11 | 泰华智慧产业集团股份有限公司 | 一种城市社会信息管理与监控系统与方法 |
CN104866326B (zh) * | 2015-06-19 | 2018-05-15 | 长沙廖氏软件科技有限公司 | 一种集成交换中间件及其实现方法 |
CN105302785B (zh) * | 2015-09-24 | 2019-01-01 | 金蝶软件(中国)有限公司 | 数据收集方法和系统 |
-
2017
- 2017-11-28 CN CN201711216643.XA patent/CN107992462B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107992462A (zh) | 2018-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829146B (zh) | 一种信息收集管理方法及装置 | |
CN103544136B (zh) | 一种表单自动录入方法 | |
CN109523685A (zh) | 一种基于ofd格式文件的电子发票查验方法及系统 | |
CN105139128A (zh) | 一种远程会计处理方法及系统 | |
CN110689357B (zh) | 基于机器学习的用于在线客服的工单生成方法 | |
CN104199625B (zh) | 一种将打印数据转换输出的方法、装置及系统 | |
CN107992462B (zh) | 一种基于接口规范的数据采集方法及装置 | |
CN115526605B (zh) | 基于企业内部控制管理的审批方法及系统 | |
CN112822286B (zh) | 消息的推送方法及装置 | |
CN113064992A (zh) | 投诉工单结构化处理方法、装置、设备及存储介质 | |
CN110543550A (zh) | 自动生成试题的方法和装置 | |
CN111143404B (zh) | 一种业务处理方法及装置 | |
CN115168335A (zh) | 一种基于json的多源异构试验鉴定数据高效采存方法 | |
CN107885850A (zh) | 一种银行业务类问题的定位方法及装置 | |
CN106528566A (zh) | 日志文件的输出方法、服务器及客户端 | |
WO2024120257A1 (zh) | 一种基于大数据档案管理的智能审批服务系统 | |
CN109189849A (zh) | 一种标准化、流程化的数据录入方法和系统 | |
CN112598502A (zh) | 一种取证方法、装置、设备及存储介质 | |
CN103413190A (zh) | 操作票的实时审核系统及方法 | |
CN115641136A (zh) | 一种基于电子签名的凭证无纸化系统和方法 | |
CN110706003A (zh) | 一种客户反馈工单生成的方法、装置、设备以及存储介质 | |
CN207037679U (zh) | 一种快捷扫描发票信息的系统 | |
KR20080019870A (ko) | 전자증례기록지 생성 장치 및 방법과 이를 이용한전자증례기록지 서비스 제공 시스템 및 방법 | |
CN110310208B (zh) | 项目赔审申请处理方法及装置 | |
CN111242758A (zh) | 一种智能对账方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |