CN115577703A - 一种证监报送数据校验方法、装置、系统及存储介质 - Google Patents
一种证监报送数据校验方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN115577703A CN115577703A CN202211320494.2A CN202211320494A CN115577703A CN 115577703 A CN115577703 A CN 115577703A CN 202211320494 A CN202211320494 A CN 202211320494A CN 115577703 A CN115577703 A CN 115577703A
- Authority
- CN
- China
- Prior art keywords
- data
- certificate
- file
- field
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Abstract
本发明提供了一种证监报送数据校验方法、装置、系统及存储介质,涉及证监报送数据校验技术领域。其中所述方法包括:获取证监报送数据;对所述证监报送数据进行形式校验;若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;若所述证监报送数据通过所述勾稽校验,则对所述证监报送数据生成与证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。本发明实现了自主校验错误数据能够直观查看错误信息,快速定位重新处理,确保了报送时效性准确性,为报送文件的校验提供了方便。
Description
技术领域
本发明涉及证监报送数据校验技术领域,更具体地说,涉及一种证监报送数据校验方法、装置、系统及存储介质。
背景技术
证监会对各托管机构、基金公司等,都要求按照《证券投资基金托管业务数据报送接口规范》规范文档,按时报送文件。
证监报送的文件是必须严格按照规范生成的,不仅包含正确的数据内容、严格规范的数据类型、数据范围、数据(包括分隔符、换行符等)字符集、报送文件的字符集、数据日期、文件日期、序号等,关键还有隐含的37个报送文件相互之间的勾稽关系,无论哪项规范、哪个报送文件不符,当期报送文件就会全部报送失败。报送失败后,必须及时处理报错文件,并重报当期文件,若重报超出当期报送时间段,就只能填单申请重报,而证监会在扫描到未能及时报送的机构或公司会进行通报,逾期仍未报送的,将开展现场检查并依法处置。所以按证监报送规范先行校验数据,及时发现问题避免重报,是很有必要的。
总之,现有的报送流程存在如下缺陷和不足:
1、报送文件出现报送失败,修正错误后重报,有时还会返回失败,反复修复重报非常耗费人力;
2、报送文件间数据勾稽关系复杂,出错后人工核对耗时耗力,修复重报错过报送窗口期;
3、报送文件经常因为个别数据超过范围,导致全部报送失败,而这些个别数据需要各部门核对后才能确定,耽误报送;
4、有时因为新数据(如新增的产品)某些字段获取不到,导致报送失败。
发明内容
有鉴于此,针对于上述技术问题,本发明提供一种可用于金融科技或其他相关领域的证监报送数据校验方法,包括:
获取证监报送数据;
对所述证监报送数据进行形式校验;
若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;
若所述证监报送数据通过所述勾稽校验,则对所述证监报送数据生成与证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。
优选地,所述形式校验包括文件格式校验和字段格式校验;
所述对所述证监报送数据进行形式校验,包括:
对所述证监报送数据进行文件格式校验;
若所述文件格式校验通过,则对所述证监报送数据进行字段格式校验;
若所述文件格式校验未通过,则生成文件格式校验对应的错误信息,将所述错误信息推送至所述证监报送数据的报送方客户端,并返回所述获取证监报送数据;其中,所述错误信息包括所述证监报送数据中所述文件格式校验所对应的未通过的文件格式字段、所述文件格式字段对应的区域和文件名。
优选地,所述对所述证监报送数据进行文件格式校验,包括:
获取所述证监报送数据的格式信息;其中,所述格式信息包括所述证监报送数据的文件命名、文件字符集、空格符、换行符、非标文件类型和非标文件字符集;
将所述证监报送数据的格式信息与预设标准格式信息进行比较;
若所述证监报送数据同时满足全部所述预设标准格式信息,则判定所述证监报送数据通过所述文件格式校验。
若所述证监报送数据中存在不满足所述预设标准格式信息的数据,则判定所述证监报送数据未通过所述文件格式校验。
优选地,所述对所述证监报送数据进行字段格式校验,包括:
获取所述证监报送数据的字段长度值、市值范围值和字段内容码值;
将所述字段长度值与预设长度值范围进行比较;并且将所述市值范围值与预设市值范围进行比较;并且,将所述字段内容码值与规范附录码值范围进行比较;
若所述字段长度值符合所述预设长度值范围,并且所述市值范围值符合所述预设市值范围,并且所述字段内容至符合所述规范附录码值范围,则判定所述证监报送数据通过所述字段格式校验。
若所述字段长度值不符合所述预设长度值范围和/或所述市值范围值不符合所述预设市值范围和/或所述字段内容值不符合所述规范附录码值范围,则判定所述证监报送数据未通过所述字段格式校验。
优选地,所述对所述证监报送数据进行勾稽校验,包括:
对所述证监报送数据进行所述文件内勾稽校验;
若所述证监报送数据通过所述文件内勾稽校验,则对所述证监报送数据进行所述文件间勾稽校验。
优选地,所述文件内勾稽校验包括:
将所述证监报送数据转换为二进制格式的二进制信息文档;
利用训练好的字段识别模型对将所述二进制信息文档识别,拆分所述二进制信息文档为多个有序字段序列;
根据预先设定字段规范,提取所述有序字段序列中的相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段,构建拆分字段表;
基于所述拆分字段表,确定与所述有序字段序列相对应的关联数据区域;并确定与所述有序字段序列对应的所述关联数据区域中的关联值;
判断所述拆分字段表中每组相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段所得到的字段结果,是否与所述关联值一致;
若是,则判定所述拆分字段表中的所述有序字段序列对应的相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段通过所述文件内勾稽校验;
若所述拆分字段表中的所有序字段序列对应得字段均通过所述文件内勾稽校验,则判定的所述证监报送数据通过所述文件内勾稽校验。
优选地,所述对所述证监报送数据进行所述文件间勾稽校验,包括:
将所述证监报送数据转换为二进制格式的二进制信息文档;
利用训练好的字段识别模型对将所述二进制信息文档识别,提取所述二进制信息文档中的关联文件字符串组;
根据所述关联文件字符串组确定特征关联信息,并生成一包含所述特征关联信息的模拟文件档;
通过所述关联文件字符串组确定与所述关联文件字符串组对应的同批报送的证监报送数据,作为对比文档;
比较所述模拟文件档与所述对比文档,判断所述模拟文件档中的特征关联信息是否与所述对比文档相匹配和/或相一致;
若是,则判定所述关联文件字符串组通过所述文件间勾稽校验;
若所述证监报送数据中的所有所述关联文件字符串组均通过所述文件间勾稽校验,则判定所述监报送数据通过所述文件间勾稽校验。
此外,为解决上述问题,本发明还提供一种证监报送数据校验装置,包括:
获取模块,用于获取证监报送数据;
形式校验模块,用于对所述证监报送数据进行形式校验;
勾稽校验模块,用于若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;
报送模块,用于在所述证监报送数据通过所述勾稽校验时,对所述证监报送数据生成与所述证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。
此外,为解决上述问题,本发明还提供一种证监报送数据校验系统,包括存储器以及处理器,所述存储器中存储有证监报送数据校验程序,所述处理器运行所述证监报送数据校验程序以使所述证监报送数据校验系统执行如上述所述的证监报送数据校验方法。
此外,为解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有证监报送数据校验程序,所述证监报送数据校验程序被处理器执行时实现如上述所述的证监报送数据校验方法。
本发明提供了一种证监报送数据校验方法、装置、系统及存储介质,其中,所述方法包括:
获取证监报送数据;
对所述证监报送数据进行形式校验;
若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;
若所述证监报送数据通过所述勾稽校验,则对所述证监报送数据生成与证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。
本发明通过获取到报送端所提交的证监报送数据,分别对所提交的证监报送数据依次进行形式校验和勾稽校验,并且在勾稽校验结束后能够生成与证监会对应的报送文件,从而进一步进行向证监会报送接口进行报送文件递交的过程。本发明能够实现对证监报送数据的自动检查,通过两步校验提高了校验的准确性,通过形式校验找出证监报送数据的格式问题,通过勾稽校验,确定证监报送数据的文件内或文件间的勾稽关系,确定勾稽问题,实现自主校验错误数据能够直观查看错误信息,快速定位重新处理,确保了报送时效性准确性,为报送文件的校验提供了方便。
附图说明
图1为本发明证监报送数据校验方法实施例涉及的硬件运行环境的结构示意图;
图2为本发明证监报送数据校验方法第1实施例的流程示意图;
图3为本发明证监报送数据校验方法第2实施例中步骤S200细化的流程示意图;
图4为本发明证监报送数据校验方法第3实施例中步骤S300细化的流程示意图;
图5为本发明证监报送数据校验装置的模块连接示意图;
图6为本发明证监报送数据校验方法的整体工作流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本发明的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明实施例涉及的终端的硬件运行环境的结构示意图。
本发明实施例证监报送数据校验系统,可以为PC,也可以是智能手机、平板电脑或者便携计算机等可移动式终端设备等。该证监报送数据校验系统中可以包括:处理器1001、例如CPU,网络接口1004、用户接口1003、存储器1005和通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地,证监报送数据校验系统还可以包括RF(Radio Frequency,射频)电路、音频电路、WiFi模块等等。此外,该证监报送数据校验系统还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的证监报送数据校验系统并不构成对其的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及证监报送数据校验程序。
总之,本发明提供了一种证监报送数据校验方法、装置、系统及存储介质,其中,所述方法能够实现对证监报送数据的自动检查,通过两步校验提高了校验的准确性,通过形式校验找出证监报送数据的格式问题,通过勾稽校验,确定证监报送数据的文件内或文件间的勾稽关系,确定勾稽问题,实现自主校验错误数据能够直观查看错误信息,快速定位重新处理,确保了报送时效性准确性,为报送文件的校验提供了方便。
实施例1:
参照图2,本发明第1实施例提供一种证监报送数据校验方法,包括:
步骤S100,获取证监报送数据;
上述,证监报送数据,即为报送人员需要进行报送的文件,证监报送数据可以为其中一个文件,需要保送的文件中包括多个独立的证监报送数据。
需要说明的是,证监会对各托管机构、基金公司等,都要求按照《证券投资基金托管业务数据报送接口规范》规范文档,按时报送文件。
并且,证监报送的文件是必须严格按照规范生成的,不仅包含正确的数据内容、严格规范的数据类型、数据范围、数据(包括分隔符、换行符等)字符集、报送文件的字符集、数据日期、文件日期、序号等,关键还有隐含的37个报送文件相互之间的勾稽关系,无论哪项规范、哪个报送文件不符,当期报送文件就会全部报送失败。
需要说明的是,报送失败后,必须及时处理报错文件,并重报当期文件,若重报超出当期报送时间段,就只能填单申请重报,而证监会在扫描到未能及时报送的机构或公司会进行通报,逾期仍未报送的,将开展现场检查并依法处置。所以按证监报送规范先行校验数据,及时发现问题避免重报,是很有必要的。
本实施例提供一种基于监报送数据校验方法的校验平台,通过该校验平台,报送人员递交证监报送文件,通过校验平台,报送人员对证监报送文件进行校验,从而确定其格式上还是勾稽关系上都符合证监报送的要求,提高校验效率。
步骤S200,对所述证监报送数据进行形式校验;
上述,形式校验即为格式上、规格上的校验,其可以包括但不限于根据证监报送要求从而制定的校验类别,例如,文件名称命名的要求,段落要求,字体要求、字符要求、字数要求、等等。
首先进行对于证监报送数据的形式校验,然后在进行进一步的校验,能够首先找出格式上、形式上的问题,从而在形式上首先筛出其中的问题所在,找到其中的错误区域。
上述,如果形式校验通过,才能进行下一步的校验。
上述,如果形式校验未通过,则可以确定出现问题的区域,确定未通过的原因,并将文件退回,待提交人员修改刑事问题后,在校验平台上重新递交。
步骤S300,若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;
上述,每个报送文件内,不同的字段之间可能存在有一定的勾稽关系,例如,有的字段为“A年的总市值为B”,则其中所存在的A年的所有用于计算市值的原数据(该原数据指向B),以及由原数据所得出的值B,与这个字段之间构成勾稽关系,三者应当完全相同,或所得出的结论应当相同,如果其中一组字段不同,则判定为勾稽关系出现问题,存在计算误差或者错误,不能通过勾稽校验。
步骤S400,若所述证监报送数据通过所述勾稽校验,则对所述证监报送数据生成与证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。
上述,在勾稽校验通过后,确定不存在勾稽关系上的错误,则可以进行申报的工作。
将证监报送数据生成证监会对应的报送文件,如果报送文件齐全,则将报送文件输入证监会报送接口,也可以在证监会报送接口处,设置一个缓存区,将检查通过的证监报送数据在校验后存入如区域,如果所有文件符合报送要求,组成一个报送的打包文件,向证监会递交。
总之,本实施例提供了一种证监报送数据校验方法、装置、系统及存储介质,其中,所述方法能够实现对证监报送数据的自动检查,通过两步校验提高了校验的准确性,通过形式校验找出证监报送数据的格式问题,通过勾稽校验,确定证监报送数据的文件内或文件间的勾稽关系,确定勾稽问题,实现自主校验错误数据能够直观查看错误信息,快速定位重新处理,确保了报送时效性准确性,为报送文件的校验提供了方便。
实施例2:
参照图3,本发明第2实施例提供一种证监报送数据校验方法,基于上述实施例1。所述形式校验包括文件格式校验和字段格式校验;
所述步骤S200,对所述证监报送数据进行形式校验,包括:
步骤S210,对所述证监报送数据进行文件格式校验;
步骤S220,若所述文件格式校验通过,则对所述证监报送数据进行字段格式校验;
步骤S230,若所述文件格式校验未通过,则生成文件格式校验对应的错误信息,将所述错误信息推送至所述证监报送数据的报送方客户端,并返回所述获取证监报送数据;其中,所述错误信息包括所述证监报送数据中所述文件格式校验所对应的未通过的文件格式字段、所述文件格式字段对应的区域和文件名。
上述,首先进行文件格式校验。文件格式指的是报送文件的格式形式上的校验。在流程上,对文件格式进行校验,如果通过,就会进行下一步的字段格式校验,如果不通过,则会生成错误信息,推送到报送方客户端中,提示信息出错的区域局、位置、具体文件等等。
上述,错误信息,在此可以包括未通过的文件格式字段、字段对应的区域,以及文件名等等。
所述步骤S210,对所述证监报送数据进行文件格式校验,包括:
步骤S211,获取所述证监报送数据的格式信息;其中,所述格式信息包括所述证监报送数据的文件命名、文件字符集、空格符、换行符、非标文件类型和非标文件字符集;
步骤S212,将所述证监报送数据的格式信息与预设标准格式信息进行比较;
上述,预设标准格式信息,为预先根据证监规范要求设定的格式上的规则,其中可以包括字段长度、范围、内容码值等等。
步骤S213,若所述证监报送数据同时满足全部所述预设标准格式信息,则判定所述证监报送数据通过所述文件格式校验。
步骤S214,若所述证监报送数据中存在不满足所述预设标准格式信息的数据,则判定所述证监报送数据未通过所述文件格式校验。
本实施例中,平台对证监报送数据,根据预先设定的预设标准格式信息进行比较,其比较结果分别为:
1、同时满足全部预设标准格式信息;
2、存在不满足全部的预设标准格式信息的数据或字段;
如果同时满足,则判定通过文件格式校验。
如果存在不满足的情况,存在不满足的数据,则说明文件中存在形式上的格式问题,判定未通过文件格式校验。
上述,字段格式校验,可以包括但不限于:系统会根据规范校验报送文件命名是否正确,文件字符集是否正确,空格、换行符等是否正确,非标文件(如压缩文件)类型和字符集是否正确等等,不符合要重新生成。
进一步的,不符合条件的可以进行错误信息的生成,并通过邮件通知报送方客户端。以便于报送方及时获知出错位置、问题出现在哪个文件,何种情况。
所述步骤S220,对所述证监报送数据进行字段格式校验,包括:
步骤S221,获取所述证监报送数据的字段长度值、市值范围值和字段内容码值;上述,字段格式校验中,平台系统会对证监报送数据进行字段格式的检测,包括但不限于:系统会根据规范校验字段长度是否超了,市值范围是否超过,字段内容是否在规范附录的码值范围等。
步骤S222,将所述字段长度值与预设长度值范围进行比较;并且将所述市值范围值与预设市值范围进行比较;并且,将所述字段内容码值与规范附录码值范围进行比较;
分别对上述的字段长度值、市值范围值、字段内容码值进行与相应的规范标准值进行比对。其中字段长度值与预设长度范围进行比较,市值范围值与预设市值范围进行比较,字段内容码值与规范附录码值范围进行比较。
步骤S223,若所述字段长度值符合所述预设长度值范围,并且所述市值范围值符合所述预设市值范围,并且所述字段内容至符合所述规范附录码值范围,则判定所述证监报送数据通过所述字段格式校验。
步骤S224,若所述字段长度值不符合所述预设长度值范围和/或所述市值范围值不符合所述预设市值范围和/或所述字段内容值不符合所述规范附录码值范围,则判定所述证监报送数据未通过所述字段格式校验。
上述,本实施例中,通过分别对上述的字段长度值、市值范围值、字段内容码值进行与相应的规范标准值进行比对。其中字段长度值与预设长度范围进行比较,市值范围值与预设市值范围进行比较,字段内容码值与规范附录码值范围进行比较,得出比较结果,如果同时满足预设长度值范围,预设市值范围和规范附录码值范围,则可以判定通过字段格式校验。如果其中一项或多项存在不符合的情况,则判定未通过字段格式校验。
实施例3:
参照图4,本发明第3实施例提供一种证监报送数据校验方法,基于上述实施例1,所述步骤S300,对所述证监报送数据进行勾稽校验,包括:
步骤S310,对所述证监报送数据进行所述文件内勾稽校验;
上述,证监报送数据的文件内,存在一些数据上、文字内容上的勾稽关系。为了确保这些勾稽关系在进行了形式上的规范的校验后,能够从内容上进行规避不通过的风险,本实施例中对证监报送数据进行进一步的文件内的勾稽校验。
步骤S320,若所述证监报送数据通过所述文件内勾稽校验,则对所述证监报送数据进行所述文件间勾稽校验。
上述,在进行了文件内的勾稽校验后,如果通过了该文件内的勾稽校验,则可以进行进一步的文件间的勾稽校验。如果未通过文件内勾稽校验,则生成对应的错误信息,向报送方平台进行反馈,其中包含有未通过字段区域和提示信息。
不同的证监报送数据,对应的是不同的证监报送文件,不同文件之间,如果是同批次报送的文件包中的文件,则可能会存在互相之间的勾稽关系,例如引用其他文件中的数据、内容、信息等等,所以在判定通过文件内勾稽校验之后,通过文件间勾稽校验进行对文件之间的勾稽关系进行检测,从而找出问题所在。
所述步骤S310,文件内勾稽校验包括:
步骤S311,将所述证监报送数据转换为二进制格式的二进制信息文档;
步骤S312,利用训练好的字段识别模型对将所述二进制信息文档识别,拆分所述二进制信息文档为多个有序字段序列;
上述,首先讲整体证监报送数据转换为二进制的信息文档,如此可以使字段识别模型进行数据的直接获取。
字段识别模型,是采用字段识别方法进行训练,抓取相应的段落语料,从而将整体的文件字段,拆分成多个按照顺序排列的有序字段序列。
按照顺序的有序字段序列,即为在文档中顺次出现的字段语句。将文档中的字段语句拆分成独立的有序字段序列,用于进行分别识别。
上述,拆分方法可以为,根据字符规则,对段落进行识别,首先为根据句号识别语句字段;其次为分号。
并且,在识别过程中,首先将文档中内容首先识别成图片、表格、和文字段落,然后进步一步将文字段落进行拆分成独立的有序字段序列。
在识别段落时,对根据文档内中文字排列,为每一行设定标记,如果前方为空两个字符,对该行添加标记为S;其后整行字符均为该段落中内容,为其后的整行字符标记为L;在识别段尾时,如果识别最近一行为首行空两个字符,则其上一行标记为E,为结束符,因此判定:
1×S+n×L+1×E为一个自然段落内容。为该自然段落内容设定段落标记D1,并且进一步的,在根据一个自然段落内容进行识别,拆分成该自然段落内的有序字段序列。
例如,当前页中,有自然段落D1、D2、D3、D4;其中D1通过1×S+n×L+1×E确定。而D1中拆分成有序字段序列为Q1、Q2、Q3、Q4和Q5,5个有序字段序列。
步骤S313,根据预先设定字段规范,提取所述有序字段序列中的相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段,构建拆分字段表;
根据预先设定的符合语法规则的预先设定字段规则,提取出符合中文语法且两个相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段,构建拆分字段表。
预先设定字段规则,不论数量多少,作为一批事物,它们之间应该有一定的共性,即规则的规则。只有规则化的事物,才可能实现大幅度的压缩和可重复。从语法上看,校验规则大多都是简单的“定+主+谓+定+宾”结构。如:“A1市值总值计算表的交易值合计等于A2公司资产状况表的交易值合计等于(误差0.1)”中主语为“A1市值总值计算表的交易值合计”,宾语为“A2公司资产状况表的交易值合计”,而谓语则是“等于(误差0.1))”。这样,这条校验规则就被拆分成了下面的规则表。
将其中的“谓语”换成“勾稽关系”和“误差”,“主语的定语”、“宾语的定语”分别换成了“上勾稽表”、“下勾稽表”“,主语”、“宾语”分别换成了“上勾稽表字段”、“下勾稽表字段”。即可得到以下校验规则配置表。
下一步,编写程序循环读取校验规则配置表,将校验规则构造成可执行的校验语句,一一执行并将校验结果输出给用户。
步骤S314,基于所述拆分字段表,确定与所述有序字段序列相对应的关联数据区域;并确定与所述有序字段序列对应的所述关联数据区域中的关联值;
上述,通过对拆分字段表中每组相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段进行识别,确定关联的关联数据区域,以及关联数据区域中的关联值。例如,通过“A1市值总值计算表的交易值合计等于A2公司资产状况表的交易值合计等于(误差0.1)”识别,确定定位到证监报送数据中的公司资产状况表和市值总值计算表,两个区域,并定位到两个表格中的数据的对应性,确定两者之间的关联数据,即为关联值。例如,“公司资产状况表”中的A年B月的销售额,与“市值总值计算表”中的A年B月的销售额,两者均为关联值。
步骤S315,判断所述拆分字段表中每组相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段所得到的字段结果,是否与所述关联值一致;
步骤S316,若是,则判定所述拆分字段表中的所述有序字段序列对应的相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段通过所述文件内勾稽校验;
步骤S317,若所述拆分字段表中的所有序字段序列对应得字段均通过所述文件内勾稽校验,则判定的所述证监报送数据通过所述文件内勾稽校验。
上述,本实施例中,通过文件内勾稽校验,对证监报送数据进行测试,利用训练好的识别模型,首选对文字内容拆分成段落,在由段落拆分成独立的有序字段序列,并对有序字段序列进行识别,确定其中的相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段,构建拆分字段表;再确定与所述有序字段序列相对应的关联数据区域;并确定与所述有序字段序列对应的所述关联数据区域中的关联值,如果该字段关联值一致,则确定该字段通过文件内勾稽校验,若否则未通过。如果表中所有字段均通过文件内勾稽校验,则可以判定所述证监报送数据通过所述文件内勾稽校验。
所述步骤S320,对所述证监报送数据进行所述文件间勾稽校验,包括:
步骤S321,将所述证监报送数据转换为二进制格式的二进制信息文档;
步骤S322,利用训练好的字段识别模型对将所述二进制信息文档识别,提取所述二进制信息文档中的关联文件字符串组;
上述,对证监报送数据转化为二进制信息文档,并通过识别模型对当当进行识别,从而提取出其中的关联文件字符串组。
步骤S323,根据所述关联文件字符串组确定特征关联信息,并生成一包含所述特征关联信息的模拟文件档;
上述,将对于每个关联文件字符串组,通过系统平台,生成一个包含该特征关联信息的模拟文件档。由此,生成多个与该证监报送数据文档中每个关联文件字符串组对应的模拟文件档。
例如,通过模型识别,确定二进制信息文档中包含有关联文件字符串组如下:
1、该申报数据为122.3,参见“申报文件2”中的信息表;
2、综合申报总和为“申报文件3”中的交易表1总的SUM1值与“申报文件4”中的交易表3中总的SUM2值的总和,为9903。
根据上述关联文件字符串组,分别生成如下模拟文件档:
1、模拟文件档1-申报文件2,其中包含有信息表,信息表中具有122.3该值;
2、模拟文件档2-申报文件3,其中包含有交易表1,交易表1中含有总的SUM1值;
3、模拟文件档3-申报文件4,其中包含有交易表3,交易表3中含有总的SUM2值;
4、并且,总的SUM1值+总的SUM2值=9903。
步骤S324,通过所述关联文件字符串组确定与所述关联文件字符串组对应的同批报送的证监报送数据,作为对比文档;
上述,同批报送的证监报送数据,为区别于当前所进行校验的文档。
通过检索可以找到同批报送的证监报送数据,该证监报送数据中包含有与关联文件字符串组对应的字符串。
步骤S325,比较所述模拟文件档与所述对比文档,判断所述模拟文件档中的特征关联信息是否与所述对比文档相匹配和/或相一致;
上述,将模拟文件档中的特征关联信息与对比文档进行比对,两者确定是否具有一致性。
例如,比对如下:
步骤S326,若是,则判定所述关联文件字符串组通过所述文件间勾稽校验;
步骤S327,若所述证监报送数据中的所有所述关联文件字符串组均通过所述文件间勾稽校验,则判定所述监报送数据通过所述文件间勾稽校验。
通过比对,如果模拟文件档与对比文档中的特征关联信息具有一致性,则可以判定该关联字符串组能够通过文件间勾稽校验。如果该证监报送数据中所有的关联文件字符串组均通过文件间勾稽校验,则可以判定为该证监报送数据通过文件间勾稽校验。
此外,参考图5,本实施例还提供一种证监报送数据校验装置,包括:
获取模块10,用于获取证监报送数据;
形式校验模块20,用于对所述证监报送数据进行形式校验;
勾稽校验模块30,用于若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;
报送模块40,用于在所述证监报送数据通过所述勾稽校验时,对所述证监报送数据生成与所述证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。
此外,本实施例还提供一种证监报送数据校验系统,包括存储器以及处理器,所述存储器存储有证监报送数据校验程序,所述处理器运行所述证监报送数据校验程序以使所述证监报送数据校验系统执行如上述所述的证监报送数据校验方法。
此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有证监报送数据校验程序,所述证监报送数据校验程序被处理器执行时实现如上述所述证监报送数据校验方法。
总之,参考图6,本实施例通过获取到报送端所提交的证监报送数据,分别对所提交的证监报送数据依次进行形式校验和勾稽校验,并且在勾稽校验结束后能够生成与证监会对应的报送文件,从而进一步进行向证监会报送接口进行报送文件递交的过程。本实施例能够实现对证监报送数据的自动检查,通过两步校验提高了校验的准确性,通过形式校验找出证监报送数据的格式问题,通过勾稽校验,确定证监报送数据的文件内或文件间的勾稽关系,确定勾稽问题,实现自主校验错误数据能够直观查看错误信息,快速定位重新处理,确保了报送时效性准确性,为报送文件的校验提供了方便。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种证监报送数据校验方法,其特征在于,包括:
获取证监报送数据;
对所述证监报送数据进行形式校验;
若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;
若所述证监报送数据通过所述勾稽校验,则对所述证监报送数据生成与所述证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。
2.如权利要求1所述证监报送数据校验方法,其特征在于,所述形式校验包括文件格式校验和字段格式校验;
所述对所述证监报送数据进行形式校验,包括:
对所述证监报送数据进行文件格式校验;
若所述文件格式校验通过,则对所述证监报送数据进行字段格式校验;
若所述文件格式校验未通过,则生成文件格式校验对应的错误信息,将所述错误信息推送至所述证监报送数据的报送方客户端,并返回所述获取证监报送数据;其中,所述错误信息包括所述证监报送数据中所述文件格式校验所对应的未通过的文件格式字段、所述文件格式字段对应的区域和文件名。
3.如权利要求2所述证监报送数据校验方法,其特征在于,所述对所述证监报送数据进行文件格式校验,包括:
获取所述证监报送数据的格式信息;其中,所述格式信息包括所述证监报送数据的文件命名、文件字符集、空格符、换行符、非标文件类型和非标文件字符集;
将所述证监报送数据的格式信息与预设标准格式信息进行比较;
若所述证监报送数据同时满足全部所述预设标准格式信息,则判定所述证监报送数据通过所述文件格式校验;
若所述证监报送数据中存在不满足所述预设标准格式信息的数据,则判定所述证监报送数据未通过所述文件格式校验。
4.如权利要求2所述证监报送数据校验方法,其特征在于,所述对所述证监报送数据进行字段格式校验,包括:
获取所述证监报送数据的字段长度值、市值范围值和字段内容码值;
将所述字段长度值与预设长度值范围进行比较;并且将所述市值范围值与预设市值范围进行比较;并且,将所述字段内容码值与规范附录码值范围进行比较;
若所述字段长度值符合所述预设长度值范围,并且所述市值范围值符合所述预设市值范围,并且所述字段内容至符合所述规范附录码值范围,则判定所述证监报送数据通过所述字段格式校验;
若所述字段长度值不符合所述预设长度值范围和/或所述市值范围值不符合所述预设市值范围和/或所述字段内容值不符合所述规范附录码值范围,则判定所述证监报送数据未通过所述字段格式校验。
5.如权利要求1所述证监报送数据校验方法,其特征在于,
所述对所述证监报送数据进行勾稽校验,包括:
对所述证监报送数据进行所述文件内勾稽校验;
若所述证监报送数据通过所述文件内勾稽校验,则对所述证监报送数据进行所述文件间勾稽校验。
6.如权利要求5所述证监报送数据校验方法,其特征在于,所述文件内勾稽校验包括:
将所述证监报送数据转换为二进制格式的二进制信息文档;
利用训练好的字段识别模型对将所述二进制信息文档识别,拆分所述二进制信息文档为多个有序字段序列;
根据预先设定字段规范,提取所述有序字段序列中的相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段,构建拆分字段表;
基于所述拆分字段表,确定与所述有序字段序列相对应的关联数据区域;并确定与所述有序字段序列对应的所述关联数据区域中的关联值;
判断所述拆分字段表中每组相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段所得到的字段结果,是否与所述关联值一致;
若是,则判定所述拆分字段表中的所述有序字段序列对应的相关联的主语字段、主语的定语字段、宾语字段、宾语的谓语字段和独立谓语字段通过所述文件内勾稽校验;
若所述拆分字段表中的所有序字段序列对应得字段均通过所述文件内勾稽校验,则判定的所述证监报送数据通过所述文件内勾稽校验。
7.如权利要求5所述证监报送数据校验方法,其特征在于,所述对所述证监报送数据进行所述文件间勾稽校验,包括:
将所述证监报送数据转换为二进制格式的二进制信息文档;
利用训练好的字段识别模型对将所述二进制信息文档识别,提取所述二进制信息文档中的关联文件字符串组;
根据所述关联文件字符串组确定特征关联信息,并生成一包含所述特征关联信息的模拟文件档;
通过所述关联文件字符串组确定与所述关联文件字符串组对应的同批报送的证监报送数据,作为对比文档;
比较所述模拟文件档与所述对比文档,判断所述模拟文件档中的特征关联信息是否与所述对比文档相匹配和/或相一致;
若是,则判定所述关联文件字符串组通过所述文件间勾稽校验;
若所述证监报送数据中的所有所述关联文件字符串组均通过所述文件间勾稽校验,则判定所述监报送数据通过所述文件间勾稽校验。
8.一种证监报送数据校验装置,其特征在于,包括:
获取模块,用于获取证监报送数据;
形式校验模块,用于对所述证监报送数据进行形式校验;
勾稽校验模块,用于若所述证监报送数据通过所述形式校验,则对所述证监报送数据进行勾稽校验;
报送模块,用于在所述证监报送数据通过所述勾稽校验时,对所述证监报送数据生成与所述证监会对应的报送文件,并将所述报送文件输入证监会报送接口,以便于将所述报送文件报送至所述证监会。
9.一种证监报送数据校验系统,其特征在于,包括存储器以及处理器,所述存储器中存储有证监报送数据校验程序,所述处理器运行所述证监报送数据校验程序以使所述证监报送数据校验系统执行如权利要求1-7任一项所述的证监报送数据校验方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有证监报送数据校验程序,所述证监报送数据校验程序被处理器执行时实现如权利要求1-7任一项所述的证监报送数据校验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211320494.2A CN115577703A (zh) | 2022-10-26 | 2022-10-26 | 一种证监报送数据校验方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211320494.2A CN115577703A (zh) | 2022-10-26 | 2022-10-26 | 一种证监报送数据校验方法、装置、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115577703A true CN115577703A (zh) | 2023-01-06 |
Family
ID=84586781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211320494.2A Pending CN115577703A (zh) | 2022-10-26 | 2022-10-26 | 一种证监报送数据校验方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577703A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994372A (zh) * | 2023-03-20 | 2023-04-21 | 中国信息通信研究院 | 基于区块链的数据资源托管中的文件预处理方法和装置 |
-
2022
- 2022-10-26 CN CN202211320494.2A patent/CN115577703A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994372A (zh) * | 2023-03-20 | 2023-04-21 | 中国信息通信研究院 | 基于区块链的数据资源托管中的文件预处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020006900A1 (zh) | 征信报告解析处理方法、装置、计算机设备及存储介质 | |
CN114862540A (zh) | 一种票据审核系统及其方法 | |
EP3588376A1 (en) | System and method for enrichment of ocr-extracted data | |
US11010423B2 (en) | Populating data fields in electronic documents | |
CN110837998A (zh) | 一种合同审核方法、装置、设备以及介质 | |
CN111626033A (zh) | 一种定值的核对方法、装置、设备和介质 | |
US20220292861A1 (en) | Docket Analysis Methods and Systems | |
CN114549241A (zh) | 合同审查方法、装置、系统与计算机可读存储介质 | |
CN115577703A (zh) | 一种证监报送数据校验方法、装置、系统及存储介质 | |
CN112418813B (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN109542890B (zh) | 数据修改方法、装置、计算机设备及存储介质 | |
CN111242773A (zh) | 虚拟资源申请的对接方法、装置、计算机设备及存储介质 | |
US20200226162A1 (en) | Automated Reporting System | |
CN114861622A (zh) | 跟单信用证生成方法、装置、设备、存储介质和程序产品 | |
CN114742026A (zh) | 一种基于模板技术生成富文本形式的pdf方法 | |
CN110008772B (zh) | 一种用于税务管理的发票快速识别与录入的方法和系统 | |
CN110310208B (zh) | 项目赔审申请处理方法及装置 | |
US11055795B1 (en) | Methods, systems, and computer program products for linking data schemas to electronic tax return | |
CN115099213A (zh) | 一种信息处理方法和信息处理系统 | |
CN113537964A (zh) | 申请单处理方法、设备、存储介质及装置 | |
CN112733509A (zh) | 精算报告生成方法、装置、设备及介质 | |
CN112487152A (zh) | 一种文档自动检测方法及装置 | |
US10558880B2 (en) | System and method for finding evidencing electronic documents based on unstructured data | |
US10387561B2 (en) | System and method for obtaining reissues of electronic documents lacking required data | |
CN117036073B (zh) | 基于互联网的发票审核与自动报销系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |