CN117113932A - 多源估值表数据解析方法及系统 - Google Patents

多源估值表数据解析方法及系统 Download PDF

Info

Publication number
CN117113932A
CN117113932A CN202311090389.9A CN202311090389A CN117113932A CN 117113932 A CN117113932 A CN 117113932A CN 202311090389 A CN202311090389 A CN 202311090389A CN 117113932 A CN117113932 A CN 117113932A
Authority
CN
China
Prior art keywords
content
analyzed
matching
analysis
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311090389.9A
Other languages
English (en)
Inventor
孙志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Specification Outsourcing Technology Co ltd
Original Assignee
Beijing Specification Outsourcing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Specification Outsourcing Technology Co ltd filed Critical Beijing Specification Outsourcing Technology Co ltd
Priority to CN202311090389.9A priority Critical patent/CN117113932A/zh
Publication of CN117113932A publication Critical patent/CN117113932A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供一种多源估值表数据解析方法及系统,包括:接收各平台或各估值系统对应的待解析估值表;对待解析估值表进行解析前校验;对校验通过的待解析估值表进行解析,并生成对应的解析数据;采用本申请中的方法及系统,能够对各平台和各估值系统的估值表进行自动化解析,无需人工干预,解析效率及准确率较高,且在解析前先对待解析估值表进行校验,及时暴露各类估值表存在的问题,方便快捷地解决估值表问题,为金融机构和个人提供了准确的、重要的数据分析,适用于数据处理的技术领域。

Description

多源估值表数据解析方法及系统
技术领域
本申请涉及数据处理的技术领域,具体涉及一种多源估值表数据解析方法及系统。
背景技术
随着投资管理、风险控制、金融研究和金融报告等金融领域的不断发展,市场上涌现出大量的资管产品,金融机构和个人需要对这些产品的估值表进行分析,从中获取资产价值、市场趋势和风险信息等相关信息,以对相关的产品作出正确的评估后进行准确的决策制定和业务分析。
而由于各类资管产品具有各种各样的风格及不同的业绩表现,导致各估值系统和各平台的估值表具有层出不穷的格式和内容,因此需要将各种不同类型和格式的估值表解析成统一的标准格式供各金融机构和个人使用。
而传统的估值表解析大都需要大量的、长期的、持续的人工干预,人工处理费时费力,且极易产生错误,导致整个估值表的解析效率较低、最终获得的解析数据的准确率也较低,不能很好地应用于金融行业分析。
即使随着计算机技术的高速发展,估值表解析逐步趋向于电子化,但是现有的估值表电子化解析大都套用固定模板来进行解析,灵活度和准确度都较低;再加上没有较好的识别和判别机制,导致在解析过程中极易出现科目识别错误、匹配不准确等问题,不能很好地应对多样的估值表格式和复杂的制表规则。此外,传统的估值表解析在接收各估值表时,接收方式单一,大都是手动上传方式,不方便后台管理,也不方便后期溯源。
发明内容
为了解决上述技术缺陷之一,本申请实施例中提供了一种多源估值表数据解析方法及系统。
根据本申请实施例的第一个方面,提供了一种多源估值表数据解析方法,包括:
接收各平台或各估值系统对应的待解析估值表;
对待解析估值表进行解析前校验;
对校验通过的待解析估值表进行解析,并生成对应的解析数据。
优选地,接收各平台或各估值系统对应的待解析估值表的方式,包括邮箱导入方式;
当为邮箱导入方式时,所述接收各平台或各估值系统对应的待解析估值表,具体包括:
每间隔一段时间t,获取目标邮箱的登录信息后,登录目标邮箱;
对目标邮箱中的邮件进行新一轮的扫描,并对扫描到的待解析估值表进行读取;
将读取到的待解析估值表进行加密,并保存至文件服务器中。
优选地,对目标邮箱中的邮件进行新一轮的扫描时,从最新日期的邮件开始往后进行依次扫描,扫描时:
先计算当前待扫描的邮件的日期与本轮扫描开始的日期之间的距离是否大于t,如大于则停止本轮扫描,否则执行:
判断当前待扫描的邮件是否为已读状态,如是则跳过,否则进行扫描;扫描结束后,判断是否从当前邮件中扫描出待解析估值表,如是则将当前邮件的状态设置为已读状态,否则设置为未读状态;
或执行:
比对扫描日志,判断当前待扫描的邮件是否已被扫描过,如是则跳过,否则进行扫描。
优选地,所述对校验通过的待解析估值表进行解析,并生成对应的解析数据,具体包括:
识别待解析估值表的各要素内容,所述要素内容包括:科目代码、科目名称以及对应的科目内容;
对识别出的各要素内容进行完整性校验;
对通过完整性校验的各要素内容进行科目层级调整、明细调整、统一化调整以及要素间的关联匹配,并进行输出;
根据输出的各要素内容,生成对应的解析数据。
优选地,所述识别待解析估值表的各要素内容,具体包括:
首先,对待解析估值表的各要素内容进行一一读取;
然后,将读取到的各要素内容与系统中预先存储的通用解析配置表中的通用配置内容进行通用匹配,将通用匹配成功的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,然后对通用匹配不成功的要素内容执行以下步骤:
将通用匹配不成功的要素内容与系统中预先存储的特殊解析配置表中的特殊配置内容进行特殊匹配,将特殊匹配成功的要素内容与特殊解析配置表中对应的特殊配置内容建立映射关系,然后对特殊匹配不成功的要素内容执行以下步骤:
向外部输出特殊匹配不成功的要素内容,接收外部输入的匹配命令,将特殊匹配不成功的要素内容与外部指定的通用解析配置表中的通用配置内容进行指定匹配,将指定匹配的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,并将指定匹配的结果输入特殊解析配置表中作为新的特殊配置内容进行存储;
最后,根据所有的映射结果,识别出待解析估值表的各要素内容。
根据本申请实施例的第二个方面,提供了一种多源估值表数据解析系统,包括:
估值表接收模块:用于接收各平台或各估值系统对应的待解析估值表;
解析前校验模块:用于对待解析估值表进行解析前校验;
估值表解析模块:用于对校验通过的待解析估值表进行解析,并生成对应的解析数据。
优选地,所述估值表接收模块,包括:邮箱导入单元;
所述邮箱导入单元,包括:
邮箱登录单元:用于每间隔一段时间t,获取目标邮箱的登录信息后,登录目标邮箱;
邮件扫描单元:用于对目标邮箱中的邮件进行新一轮的扫描,并对扫描到的待解析估值表进行读取;
估值表提取单元:用于将读取到的待解析估值表进行加密,并保存至文件服务器中。
优选地,所述邮件扫描单元在对目标邮箱中的邮件进行新一轮的扫描时,从最新日期的邮件开始往后进行依次扫描,扫描时:
先计算当前待扫描的邮件的日期与本轮扫描开始的日期之间的距离是否大于t,如大于则停止本轮扫描,否则执行:
判断当前待扫描的邮件是否为已读状态,如是则跳过,否则进行扫描;扫描结束后,判断是否从当前邮件中扫描出待解析估值表,如是则将当前邮件的状态设置为已读状态,否则设置为未读状态;
或执行:
比对扫描日志,判断当前待扫描的邮件是否已被扫描过,如是则跳过,否则进行扫描。
优选地,所述估值表解析模块,包括:
要素识别单元:用于识别待解析估值表的各要素内容,所述要素内容包括:科目代码、科目名称以及对应的科目内容;
完整性校验单元:用于对识别出的各要素内容进行完整性校验;
要素调整单元:用于对通过完整性校验的各要素内容进行科目层级调整、明细调整、统一化调整以及要素间的关联匹配,并进行输出;
解析数据生成单元:用于根据输出的各要素内容,生成对应的解析数据。
优选地,所述要素识别单元,包括:
通用解析配置表:用于预先存储用于进行通用匹配的通用配置内容;
特殊解析配置表:用于预先存储用于进行特殊匹配的特殊配置内容;
要素读取单元:用于对待解析估值表的各要素内容进行一一读取;
通用匹配单元:用于将读取到的各要素内容与系统中预先存储的通用解析配置表中的通用配置内容进行通用匹配;
特殊匹配单元:用于将通用匹配不成功的要素内容与系统中预先存储的特殊解析配置表中的特殊配置内容进行特殊匹配;
指定匹配单元:用于向外部输出特殊匹配不成功的要素内容,接收外部输入的匹配命令,将特殊匹配不成功的要素内容与外部指定的通用解析配置表中的通用配置内容进行指定匹配;
特殊解析配置表更新单元:用于将指定匹配的结果输入特殊解析配置表中作为新的特殊配置内容进行存储;
映射单元:用于将通用匹配成功的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,将特殊匹配成功的要素内容与特殊解析配置表中对应的特殊配置内容建立映射关系,将指定匹配的要素内容与通用解析配置表中对应的通用配置内容建立映射关系;
识别输出单元:用于根据所有的映射结果,识别出待解析估值表的各要素内容。
采用本申请实施例中提供的多源估值表数据解析方法及系统,能够对各个平台和各个估值系统的估值表进行自动化解析,无需人工干预,解析效率及准确率都较高,并且在解析前先对待解析估值表进行校验,及时暴露各类估值表存在的问题,方便快捷地解决估值表问题,为金融机构和个人提供了准确的、重要的数据分析,帮助他们在竞争激烈的市场中取得优势,对金融行业具有很高的实用性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种多源估值表数据解析方法的一种实施方式的流程示意图;
图2为图1所述实施例中当接收方式为邮箱导入时,接收各平台或各估值系统对应的待解析估值表的一种实施方式的流程示意图;
图3为图2所述实施例中对目标邮箱中的邮件进行新一轮的扫描的一种实施方式的流程示意图;
图4为图2所述实施例中对目标邮箱中的邮件进行新一轮的扫描的另一种实施方式的流程示意图;
图5为图1所述实施例中对待解析估值表进行解析前校验的一种实施方式的流程示意图;
图6为图1所述实施例中对校验通过的待解析估值表进行解析,并生成对应的解析数据的一种实施方式的流程示意图;
图7为图1所述实施例中对校验通过的待解析估值表进行解析,并生成对应的解析数据的另一种实施方式的流程示意图;
图8为图6所述实施例中识别待解析估值表的各要素内容的一种实施方式的流程示意图;
图9为本申请实施例提供的一种多源估值表数据解析系统的一种实施方式的功能结构示意图;
图10为图9所述实施例中估值表接收模块的一种实施方式的功能结构示意图;
图11为图9所述实施例中解析前校验模块的一种实施方式的功能结构示意图;
图12为图9所述实施例中估值表解析模块的一种实施方式的功能结构示意图;
图13为图12所述实施例中要素识别单元的一种实施方式的功能结构示意图;
图中:
10为估值表接收模块、20为解析前校验模块、30为估值表解析模块、101为邮箱导入单元、102为本地读取单元、103为文件上传单元、1011为邮箱登录单元、1012为邮件扫描单元、1013为估值表提取单元、201为格式校验单元、202为格式转换单元、203为判定单元、301为要素识别单元、302为完整性校验单元、303为要素调整单元、304为解析数据生成单元、305为日期识别单元、306为穿透后持仓生产单元、3011为通用解析配置表、3012为特殊解析配置表、3013为要素读取单元、3014为通用匹配单元、3015为特殊匹配单元、3016为指定匹配单元、3017为特殊解析配置表更新单元、3018为映射单元、3019为识别输出单元、3020为特殊匹配计数单元、3021为特殊转通用单元。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例中提供了一种多源估值表数据解析方法,如图1所示,所述的解析方法可包括:
接收各平台或各估值系统对应的待解析估值表;
对待解析估值表进行解析前校验;
对校验通过的待解析估值表进行解析,并生成对应的解析数据。
在实际应用中,接收各平台或各估值系统对应的待解析估值表,可以采用三种方式:本地读取、文件上传、邮箱导入。
进一步地,如图2所示,当为邮箱导入方式时,所述接收各平台或各估值系统对应的待解析估值表,具体可包括:
每间隔一段时间t,获取目标邮箱的登录信息后,登录目标邮箱;
对目标邮箱中的邮件进行新一轮的扫描,并对扫描到的待解析估值表进行读取;
将读取到的待解析估值表进行加密,并保存至文件服务器中。
具体地,所述的登录信息可为目标邮箱的登录账号和登录密码,时间t可根据实际情况进行设定,例如可以设定为2个小时。
在实际应用中,需要将目标邮箱及其服务器的相关配置信息(包括邮箱服务器地址、邮箱协议、端口号、是否采用安全协议、登录账户和登录密码等)预先填装进系统数据库中。每间隔一段时间t,系统会自动读取数据库中维护好的目标邮箱信息,获取到目标邮箱的地址、登录账户和登录密码后,模拟登录邮箱操作以登录目标邮箱。
更进一步地,当登录进目标邮箱后,对目标邮箱中的邮件进行新一轮的扫描时,从最新日期的邮件开始往后进行依次扫描,扫描时:
先计算当前待扫描的邮件的日期与本轮扫描开始的日期之间的距离是否大于t,如大于则说明当前邮件处于上一轮的扫描周期中,默认其已经被处理过,则停止本轮扫描,否则执行如图3所示的步骤:
判断当前待扫描的邮件是否为已读状态,如是则跳过,否则进行扫描;扫描结束后,判断是否从当前邮件中扫描出待解析估值表,如是则将当前邮件的状态设置为已读状态,否则设置为未读状态;
或执行如图4所示的步骤:
比对扫描日志,判断当前待扫描的邮件是否已被扫描过,如是则跳过,否则进行扫描。
在实际应用中,当登录进目标邮箱后,针对不同的邮箱协议对目标邮箱中的邮件会有不同的处理方法,邮箱协议可以有两种,IMAP和POP3。当采用IMAP协议连接邮箱时,执行如图3所示的步骤,也就是当扫描到估值表后会将邮件设置为已读;当采用POP3协议时,执行如图4所示的步骤,也就是不会修改邮件状态,而是与扫描日志做比对,如果扫描过则跳过。
再进一步地,对每一邮件扫描结束后,判断扫描到的待解析估值表的格式是否为系统默认接收格式,如是则进行读取,否则先将扫描到的格式转换为系统默认接收格式后再进行读取。
在实际应用中,系统默认接收格式可以为excel格式,也可以为html等其他格式,当扫描到的待解析估值表的格式为非默认接收格式时,可以先将其转化为默认接收格式再进行读取。如扫描到的邮件格式为压缩包时,可以先进行解压缩然后再判断解压缩后的文件格式是否为系统默认接收格式。
进一步地,如图5所示,所述对待解析估值表进行解析前校验,具体可包括:
对接收到的待解析估值表进行文件格式校验,判断待解析估值表的格式是否为系统默认解析格式,如是则校验通过、进行下一步解析,否则:
将待解析估值表的格式转换为系统默认解析格式,并判断转换是否成功,如是则校验通过、进行下一步解析,否则校验不通过、终止解析。
在实际应用中,系统默认解析格式可以为excel格式,如待解析估值表的格式为excel格式时则校验通过,如待解析估值表的格式为其他格式时则可先将其转化为excel格式(例如可以将html格式转换为excel格式),若转换成功则校验通过、进行下一步具体的解析工作,否则校验不通过、终止解析,并在报警页面展示相关的警示信息。
进一步地,如图6所示,所述对校验通过的待解析估值表进行解析,并生成对应的解析数据,具体可包括:
识别待解析估值表的各要素内容,所述要素内容包括:科目代码、科目名称以及对应的科目内容;
对识别出的各要素内容进行完整性校验;
对通过完整性校验的各要素内容进行科目层级调整、明细调整、统一化调整以及要素间的关联匹配,并进行输出;
根据输出的各要素内容,生成对应的解析数据。
进一步地,如图7所示,对校验通过的待解析估值表进行解析时,在识别待解析估值表的各要素内容之前,先对待解析估值表的日期进行识别。具体地,可根据日期关键字或通用日期格式(例如YYYY-MM-DD)识别待解析估值表的所属日期。
进一步地,如图8所示,所述识别待解析估值表的各要素内容,具体可包括:
首先,对待解析估值表的各要素内容进行一一读取;
然后,将读取到的各要素内容与系统中预先存储的通用解析配置表中的通用配置内容进行通用匹配,将通用匹配成功的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,然后对通用匹配不成功的要素内容执行以下步骤:
将通用匹配不成功的要素内容与系统中预先存储的特殊解析配置表中的特殊配置内容进行特殊匹配,将特殊匹配成功的要素内容与特殊解析配置表中对应的特殊配置内容建立映射关系,然后对特殊匹配不成功的要素内容执行以下步骤:
向外部输出特殊匹配不成功的要素内容,接收外部输入的匹配命令,将特殊匹配不成功的要素内容与外部指定的通用解析配置表中的通用配置内容进行指定匹配,将指定匹配的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,并将指定匹配的结果输入特殊解析配置表中作为新的特殊配置内容进行存储;
最后,根据所有的映射结果,识别出待解析估值表的各要素内容。
进一步地,在识别待解析估值表的各要素内容的过程中:对特殊解析配置表中的每一特殊配置内容被成功匹配的次数进行计数,当某一特殊配置内容被成功匹配的次数达到预设值时,则将该特殊配置内容转移到通用解析配置表中作为新的通用配置内容进行存储。
在实际应用中,系统中预先存储的通用解析配置表中的通用配置内容为市场上通用的科目代码、科目名称以及对应科目内容的相关配置,当系统对待解析估值表的各要素内容进行一一读取时,会逐一读取待解析估值表中的各字段,然后根据读取到的字段内容去通用解析配置表中匹配对应配置,当匹配成功则进行对应映射,如匹配不成功就说明该字段内容不是通用名称,则去特殊解析配置表中进行匹配。特殊解析配置表中的特殊配置内容为市场上的一些不通用的、较为生僻的科目代码、科目名称或科目内容,它们的相关配置是由相关人员根据经验或者通过验证之后进行人为指定的配置关系。当在通用解析配置表中没有匹配成功的字段在特殊解析配置表中匹配成功后,则说明该字段虽然较为生僻、但在之前已解析的估值表中出现过、并已被相关人员进行过指定匹配、且相关配置内容已被存储进特殊解析配置表中,此时,只需将该字段与特殊解析配置表中相应的配置进行对应映射即可。而当在通用解析配置表中没有匹配成功的字段在特殊解析配置表中仍然匹配不成功后,则说明该字段首次出现在估值表中,此时,系统向外部输出该字段内容,外部相关人员根据经验或者通过相关验证之后识别出该字段内容实际上应该为或可以为通用解析配置表中的哪些通用配置要素,然后手动将该字段内容与通用解析配置表中对应的通用配置要素进行指定匹配,系统将指定匹配的字段内容与通用解析配置表中对应的通用配置内容建立映射关系,并将指定匹配的结果输入特殊解析配置表中作为新的特殊配置内容进行存储。而且,系统会对特殊解析配置表中的每一特殊配置内容被成功匹配的次数进行计数,当某一特殊配置内容被成功匹配的次数达到预设值N时(如可将N设为5),说明该特殊配置内容中的生僻字段已在N个估值表中被使用,则可以认为该生僻字段已成为通用字段,则将该特殊配置内容转移到通用解析配置表中作为新的通用配置内容进行存储。
进一步地,所述对识别出的各要素内容进行完整性校验,具体可包括:
检查识别出的各要素内容中的必须项是否缺失(如资产市值、数量等),如缺失则终止解析,并在报警页面展示相关的警示信息。
进一步地,所述对通过完整性校验的各要素内容进行科目层级调整、明细调整,具体可包括:
对通过完整性校验的所有要素内容中的科目代码进行清洗并排序;具体地,将“.”、“ ”后的字母清洗掉,然后正序排序;
对排序后的结果进行循环处理,调整科目代码之间的父子级关系及明细关系;具体地,以某一个科目代码开头的科目代码,开头的科目代码为父级,以父级开头的科目代码为子级,当子级再无子级时,即为明细科目。
在实际应用中,估值表中会包含多种资产(股票、债券、基金、现金等等),但各资产在估值表中并没有统一的科目编制规则,导致在估值表解析中各资产识别极易产生错误(如将基金识别为股票),资产识别错误后则无法匹配到该资产的市场数据,对后续系统分析产生严重影响,因此需要对采用不同编制规则产生的资产类型等要素进行统一化。
进一步地,所述对通过完整性校验的各要素内容进行统一化调整,具体可包括:
根据要素识别规则(例如资产类型识别规则),检查各要素内容是否识别正确,对识别不正确的要素内容执行如下步骤:
判断识别不正确的要素内容中的核心字段是否在以往的估值表解析中被进行过统一化调整,如是则直接调用之前的统一化调整内容来进行当前的统一化调整,否则:
向外部输出识别不正确的要素内容,接收外部输入的统一化调整命令,将当前识别不正确的要素内容调整为正确的要素内容。
在实际应用中,在估值表中不仅有资产科目本身,还会有与之相关的利息、利息调整、溢折价、减值准备等各种科目,此类科目在估值表中单独记录,与资产间分属于不同科目下,解析过程中需要进行关联匹配,将资产与其对应的利息、减值准备等科目建立关联。
进一步地,所述对通过完整性校验的各要素内容进行要素间的关联匹配,具体可包括:
根据要素映射规则,将有关联的各要素进行关联匹配;
接收外部输入的关联匹配命令,对各要素之间的映射关系进行调整,并根据调整结果对要素映射规则进行更新。
在实际应用中,所述的要素识别规则和所述的要素映射规则,是系统基于以往的估值表处理经验、再结合各估值系统或各平台的估值表编制规则生成的,可识别绝大部分资产等要素、可满足大部分场景。
进一步地,针对理财产品持有多个资管计划的场景,本系统在各个资管计划持仓解析无误的情况下,结合各资管计划持仓比例,将各个资管计划中的持仓与理财产品持仓合并,生成理财产品穿透后持仓。
对应地,本申请实施例中还提供了一种多源估值表数据解析系统,如图9所示,所述的解析系统可包括:
估值表接收模块10:用于接收各平台或各估值系统对应的待解析估值表;
解析前校验模块20:用于对待解析估值表进行解析前校验;
估值表解析模块30:用于对校验通过的待解析估值表进行解析,并生成对应的解析数据。
进一步地,如图10所示,所述估值表接收模块10,可包括:邮箱导入单元101、本地读取单元102和文件上传单元103。
所述邮箱导入单元101,可包括:
邮箱登录单元1011:用于每间隔一段时间t,获取目标邮箱的登录信息后,登录目标邮箱;
邮件扫描单元1012:用于对目标邮箱中的邮件进行新一轮的扫描,并对扫描到的待解析估值表进行读取;
估值表提取单元1013:用于将读取到的待解析估值表进行加密,并保存至文件服务器中。
更进一步地,所述邮件扫描单元1012在对目标邮箱中的邮件进行新一轮的扫描时,从最新日期的邮件开始往后进行依次扫描,扫描时:
先计算当前待扫描的邮件的日期与本轮扫描开始的日期之间的距离是否大于t,如大于则停止本轮扫描,否则执行:
判断当前待扫描的邮件是否为已读状态,如是则跳过,否则进行扫描;扫描结束后,判断是否从当前邮件中扫描出待解析估值表,如是则将当前邮件的状态设置为已读状态,否则设置为未读状态;
或执行:
比对扫描日志,判断当前待扫描的邮件是否已被扫描过,如是则跳过,否则进行扫描。
更进一步地,所述邮件扫描单元1012在对每一邮件扫描结束后,判断扫描到的待解析估值表的格式是否为系统默认接收格式,如是则进行读取,否则先将扫描到的格式转换为系统默认接收格式后再进行读取。
进一步地,如图11所示,所述解析前校验模块20,可包括:
格式校验单元201:用于对接收到的待解析估值表进行文件格式校验;
格式转换单元202:用于将校验不通过的待解析估值表的格式转换为系统默认解析格式;
判定单元203:用于判断待解析估值表的格式是否为系统默认解析格式、或是否成功转换为系统默认解析格式,如是则校验通过、进行下一步解析,否则校验不通过、终止解析。
进一步地,如图12所示,所述估值表解析模块30,可包括:
要素识别单元301:用于识别待解析估值表的各要素内容,所述要素内容包括:科目代码、科目名称以及对应的科目内容;
完整性校验单元302:用于对识别出的各要素内容进行完整性校验;
要素调整单元303:用于对通过完整性校验的各要素内容进行科目层级调整、明细调整、统一化调整以及要素间的关联匹配,并进行输出;
解析数据生成单元304:用于根据输出的各要素内容,生成对应的解析数据。
更进一步的,所述估值表解析模块30,还可包括:
日期识别单元305:用于对待解析估值表的日期进行识别。
进一步的,如图13所示,所述要素识别单元301,可包括:
通用解析配置表3011:用于预先存储用于进行通用匹配的通用配置内容;
特殊解析配置表3012:用于预先存储用于进行特殊匹配的特殊配置内容;
要素读取单元3013:用于对待解析估值表的各要素内容进行一一读取;
通用匹配单元3014:用于将读取到的各要素内容与系统中预先存储的通用解析配置表3011中的通用配置内容进行通用匹配;
特殊匹配单元3015:用于将通用匹配不成功的要素内容与系统中预先存储的特殊解析配置表中的特殊配置内容进行特殊匹配;
指定匹配单元3016:用于向外部输出特殊匹配不成功的要素内容,接收外部输入的匹配命令,将特殊匹配不成功的要素内容与外部指定的通用解析配置表中的通用配置内容进行指定匹配;
特殊解析配置表更新单元3017:用于将指定匹配的结果输入特殊解析配置表中作为新的特殊配置内容进行存储;
映射单元3018:用于将通用匹配成功的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,将特殊匹配成功的要素内容与特殊解析配置表中对应的特殊配置内容建立映射关系,将指定匹配的要素内容与通用解析配置表中对应的通用配置内容建立映射关系;
识别输出单元3019:用于根据所有的映射结果,识别出待解析估值表的各要素内容。
进一步地,所述要素识别单元301,还可包括:
特殊匹配计数单元3020:用于对特殊解析配置表中的每一特殊配置内容被成功匹配的次数进行计数;
特殊转通用单元3021:用于当某一特殊配置内容被成功匹配的次数达到预设值时,则将该特殊配置内容转移到通用解析配置表中作为新的通用配置内容进行存储。
进一步地,所述完整性校验单元302,具体可用于:检查识别出的各要素内容中的必须项是否缺失(如资产市值、数量等),如缺失则终止解析,并在报警页面展示相关的警示信息。
进一步地,所述要素调整单元303:
在对通过完整性校验的各要素内容进行科目层级调整、明细调整时,具体可包括以下步骤:
对通过完整性校验的所有要素内容中的科目代码进行清洗并排序;具体地,将“.”、“ ”后的字母清洗掉,然后正序排序;
对排序后的结果进行循环处理,调整科目代码之间的父子级关系及明细关系;具体地,以某一个科目代码开头的科目代码,开头的科目代码为父级,以父级开头的科目代码为子级,当子级再无子级时,即为明细科目。
在对通过完整性校验的各要素内容进行统一化调整时,具体可包括以下步骤:
根据要素识别规则(例如资产类型识别规则),检查各要素内容是否识别正确,对识别不正确的要素内容执行如下步骤:
判断识别不正确的要素内容中的核心字段是否在以往的估值表解析中被进行过统一化调整,如是则直接调用之前的统一化调整内容来进行当前的统一化调整,否则:
向外部输出识别不正确的要素内容,接收外部输入的统一化调整命令,将当前识别不正确的要素内容调整为正确的要素内容。
在对通过完整性校验的各要素内容进行要素间的关联匹配时,具体可包括以下步骤:
根据要素映射规则,将有关联的各要素进行关联匹配;
接收外部输入的关联匹配命令,对各要素之间的映射关系进行调整,并根据调整结果对要素映射规则进行更新。
更进一步的,如图12所示,所述估值表解析模块30,还可包括:
穿透后持仓生产单元306:用于在各个资管计划持仓解析无误的情况下,结合各资管计划持仓比例,将各个资管计划中的持仓与理财产品持仓合并,生成理财产品穿透后持仓。
相应地,本申请实施例还提供了一种终端,所述终端可包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本申请中所述的多源估值表数据解析方法。
相应地,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序;所述计算机程序被处理器执行以实现如本申请中所述的多源估值表数据解析方法。
本申请中的技术方案,具有准确度和灵活度都非常高的识别和解析机制;能够识别市场上所有估值系统和平台的全部估值表样式和类型,更能兼容相关人员对解析数据的调整和更改;能够对各种估值表进行自动化解析,无需人工干预;在整个解析过程中能够进行多方面的自主校验,及时暴露各类估值表存在的问题,方便快捷地解决估值表问题;告别传统模板解析,使估值表解析更加高效和准确;增加邮件扫描上传估值表,上传方式更加优于传统手动上传方式,方便管理和查找历史上传记录,同时方便估值表溯源;整体采用微服务架构,各个模块单独拆分,灵活高效、易于扩展;为金融机构和个人提供了准确的、重要的数据分析,帮助他们在竞争激烈的市场中取得优势,对金融行业具有很高的实用性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,C语言、VHDL语言、Verilog语言、面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.多源估值表数据解析方法,其特征在于:包括:
接收各平台或各估值系统对应的待解析估值表;
对待解析估值表进行解析前校验;
对校验通过的待解析估值表进行解析,并生成对应的解析数据。
2.根据权利要求1所述的多源估值表数据解析方法,其特征在于:接收各平台或各估值系统对应的待解析估值表的方式,包括邮箱导入方式;
当为邮箱导入方式时,所述接收各平台或各估值系统对应的待解析估值表,具体包括:
每间隔一段时间t,获取目标邮箱的登录信息后,登录目标邮箱;
对目标邮箱中的邮件进行新一轮的扫描,并对扫描到的待解析估值表进行读取;
将读取到的待解析估值表进行加密,并保存至文件服务器中。
3.根据权利要求2所述的多源估值表数据解析方法,其特征在于:
对目标邮箱中的邮件进行新一轮的扫描时,从最新日期的邮件开始往后进行依次扫描,扫描时:
先计算当前待扫描的邮件的日期与本轮扫描开始的日期之间的距离是否大于t,如大于则停止本轮扫描,否则执行:
判断当前待扫描的邮件是否为已读状态,如是则跳过,否则进行扫描;扫描结束后,判断是否从当前邮件中扫描出待解析估值表,如是则将当前邮件的状态设置为已读状态,否则设置为未读状态;
或执行:
比对扫描日志,判断当前待扫描的邮件是否已被扫描过,如是则跳过,否则进行扫描。
4.根据权利要求1所述的多源估值表数据解析方法,其特征在于:所述对校验通过的待解析估值表进行解析,并生成对应的解析数据,具体包括:
识别待解析估值表的各要素内容,所述要素内容包括:科目代码、科目名称以及对应的科目内容;
对识别出的各要素内容进行完整性校验;
对通过完整性校验的各要素内容进行科目层级调整、明细调整、统一化调整以及要素间的关联匹配,并进行输出;
根据输出的各要素内容,生成对应的解析数据。
5.根据权利要求4所述的多源估值表数据解析方法,其特征在于:所述识别待解析估值表的各要素内容,具体包括:
首先,对待解析估值表的各要素内容进行一一读取;
然后,将读取到的各要素内容与系统中预先存储的通用解析配置表中的通用配置内容进行通用匹配,将通用匹配成功的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,然后对通用匹配不成功的要素内容执行以下步骤:
将通用匹配不成功的要素内容与系统中预先存储的特殊解析配置表中的特殊配置内容进行特殊匹配,将特殊匹配成功的要素内容与特殊解析配置表中对应的特殊配置内容建立映射关系,然后对特殊匹配不成功的要素内容执行以下步骤:
向外部输出特殊匹配不成功的要素内容,接收外部输入的匹配命令,将特殊匹配不成功的要素内容与外部指定的通用解析配置表中的通用配置内容进行指定匹配,将指定匹配的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,并将指定匹配的结果输入特殊解析配置表中作为新的特殊配置内容进行存储;
最后,根据所有的映射结果,识别出待解析估值表的各要素内容。
6.多源估值表数据解析系统,其特征在于:包括:
估值表接收模块(10):用于接收各平台或各估值系统对应的待解析估值表;
解析前校验模块(20):用于对待解析估值表进行解析前校验;
估值表解析模块(30):用于对校验通过的待解析估值表进行解析,并生成对应的解析数据。
7.根据权利要求6所述的多源估值表数据解析系统,其特征在于:所述估值表接收模块(10),包括:邮箱导入单元(101);
所述邮箱导入单元(101),包括:
邮箱登录单元(1011):用于每间隔一段时间t,获取目标邮箱的登录信息后,登录目标邮箱;
邮件扫描单元(1012):用于对目标邮箱中的邮件进行新一轮的扫描,并对扫描到的待解析估值表进行读取;
估值表提取单元(1013):用于将读取到的待解析估值表进行加密,并保存至文件服务器中。
8.根据权利要求7所述的多源估值表数据解析系统,其特征在于:所述邮件扫描单元(1012)在对目标邮箱中的邮件进行新一轮的扫描时,从最新日期的邮件开始往后进行依次扫描,扫描时:
先计算当前待扫描的邮件的日期与本轮扫描开始的日期之间的距离是否大于t,如大于则停止本轮扫描,否则执行:
判断当前待扫描的邮件是否为已读状态,如是则跳过,否则进行扫描;扫描结束后,判断是否从当前邮件中扫描出待解析估值表,如是则将当前邮件的状态设置为已读状态,否则设置为未读状态;
或执行:
比对扫描日志,判断当前待扫描的邮件是否已被扫描过,如是则跳过,否则进行扫描。
9.根据权利要求6所述的多源估值表数据解析系统,其特征在于:所述估值表解析模块(30),包括:
要素识别单元(301):用于识别待解析估值表的各要素内容,所述要素内容包括:科目代码、科目名称以及对应的科目内容;
完整性校验单元(302):用于对识别出的各要素内容进行完整性校验;
要素调整单元(303):用于对通过完整性校验的各要素内容进行科目层级调整、明细调整、统一化调整以及要素间的关联匹配,并进行输出;
解析数据生成单元(304):用于根据输出的各要素内容,生成对应的解析数据。
10.根据权利要求9所述的多源估值表数据解析系统,其特征在于:所述要素识别单元(301),包括:
通用解析配置表(3011):用于预先存储用于进行通用匹配的通用配置内容;
特殊解析配置表(3012):用于预先存储用于进行特殊匹配的特殊配置内容;
要素读取单元(3013):用于对待解析估值表的各要素内容进行一一读取;
通用匹配单元(3014):用于将读取到的各要素内容与系统中预先存储的通用解析配置表(3011)中的通用配置内容进行通用匹配;
特殊匹配单元(3015):用于将通用匹配不成功的要素内容与系统中预先存储的特殊解析配置表中的特殊配置内容进行特殊匹配;
指定匹配单元(3016):用于向外部输出特殊匹配不成功的要素内容,接收外部输入的匹配命令,将特殊匹配不成功的要素内容与外部指定的通用解析配置表中的通用配置内容进行指定匹配;
特殊解析配置表更新单元(3017):用于将指定匹配的结果输入特殊解析配置表中作为新的特殊配置内容进行存储;
映射单元(3018):用于将通用匹配成功的要素内容与通用解析配置表中对应的通用配置内容建立映射关系,将特殊匹配成功的要素内容与特殊解析配置表中对应的特殊配置内容建立映射关系,将指定匹配的要素内容与通用解析配置表中对应的通用配置内容建立映射关系;
识别输出单元(3019):用于根据所有的映射结果,识别出待解析估值表的各要素内容。
CN202311090389.9A 2023-08-28 2023-08-28 多源估值表数据解析方法及系统 Pending CN117113932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311090389.9A CN117113932A (zh) 2023-08-28 2023-08-28 多源估值表数据解析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311090389.9A CN117113932A (zh) 2023-08-28 2023-08-28 多源估值表数据解析方法及系统

Publications (1)

Publication Number Publication Date
CN117113932A true CN117113932A (zh) 2023-11-24

Family

ID=88796105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311090389.9A Pending CN117113932A (zh) 2023-08-28 2023-08-28 多源估值表数据解析方法及系统

Country Status (1)

Country Link
CN (1) CN117113932A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274291A (zh) * 2017-06-21 2017-10-20 深圳泛态信息技术有限公司 跨平台的估值表解析方法、存储介质及应用服务器
US20200043060A1 (en) * 2018-08-03 2020-02-06 International Business Machines Corporation Methods and systems for valuing patents with multiple valuation models
CN111917632A (zh) * 2020-07-31 2020-11-10 北京明朝万达科技股份有限公司 解析邮件的方法、装置、非易失性存储介质及电子装置
WO2020253366A1 (zh) * 2019-06-17 2020-12-24 深圳壹账通智能科技有限公司 网页邮箱数据的爬取方法、装置、终端和存储介质
WO2023000952A1 (zh) * 2021-07-20 2023-01-26 支付宝(杭州)信息技术有限公司 基于邮箱的票据处理

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274291A (zh) * 2017-06-21 2017-10-20 深圳泛态信息技术有限公司 跨平台的估值表解析方法、存储介质及应用服务器
US20200043060A1 (en) * 2018-08-03 2020-02-06 International Business Machines Corporation Methods and systems for valuing patents with multiple valuation models
WO2020253366A1 (zh) * 2019-06-17 2020-12-24 深圳壹账通智能科技有限公司 网页邮箱数据的爬取方法、装置、终端和存储介质
CN111917632A (zh) * 2020-07-31 2020-11-10 北京明朝万达科技股份有限公司 解析邮件的方法、装置、非易失性存储介质及电子装置
WO2023000952A1 (zh) * 2021-07-20 2023-01-26 支付宝(杭州)信息技术有限公司 基于邮箱的票据处理

Similar Documents

Publication Publication Date Title
US8676731B1 (en) Data extraction confidence attribute with transformations
CN111061696B (zh) 一种交易报文日志的解析方法及装置
CN112163553B (zh) 物料价格核算方法、装置、存储介质和计算机设备
US20140207631A1 (en) Systems and Method for Analyzing and Validating Invoices
CN115358751B (zh) 一种交易单据的自动审核方法、装置及电子设备
CN112200465A (zh) 基于多媒体信息智能分析的电力ai方法及系统
CN111144959A (zh) 一种纳税数据校验和申报方法、系统、可读存储介质
CN109189849B (zh) 一种标准化、流程化的数据录入方法和系统
CN113158988B (zh) 财务报表处理方法、装置以及计算机可读存储介质
US20050096869A1 (en) Data processing system and method for processing test orders
CN117113932A (zh) 多源估值表数据解析方法及系统
CN113704123B (zh) 接口测试方法、装置、设备以及存储介质
CN115587098A (zh) 一种智能识别图表数据的方法及系统
CN114742026A (zh) 一种基于模板技术生成富文本形式的pdf方法
CN114492324A (zh) 组件数据统计方法及装置
CN112613290A (zh) 单证模板生成方法、装置、设备及存储介质
CN116719866B (zh) 一种多格式数据自适应分发方法及系统
CN118394888B (zh) 一种报告自动化生成方法、系统、电子设备及存储介质
CN117350643B (zh) 一种科研数据修改整合系统
CN113778880B (zh) 一种基于形式化验证的智能合约功能验证方法及装置
CN115640952B (zh) 一种数据导入上传的方法及系统
CN117745367A (zh) 进项发票抵扣方法、装置、终端及存储介质
CN114359567A (zh) 一种特征数据抽取方法及装置
CN118052213A (zh) 基于大语言模型的表头识别方法、装置、设备及介质
CN118247095A (zh) 一种学历信息自动审核方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination