CN114187081A - 估值表处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

估值表处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114187081A
CN114187081A CN202111446909.6A CN202111446909A CN114187081A CN 114187081 A CN114187081 A CN 114187081A CN 202111446909 A CN202111446909 A CN 202111446909A CN 114187081 A CN114187081 A CN 114187081A
Authority
CN
China
Prior art keywords
evaluation
estimation
estimation table
features
evaluation table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111446909.6A
Other languages
English (en)
Inventor
徐军
魏承东
徐建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111446909.6A priority Critical patent/CN114187081A/zh
Publication of CN114187081A publication Critical patent/CN114187081A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种估值表处理方法、装置、电子设备及计算机可读存储介质,涉及人工智能领域,尤其涉及大数据领域。具体实现方案为:获取待解析的估值表;对所述估值表进行特征提取,得到估值表特征;基于所述估值表特征,预测所述估值表所对应的目标托管行;基于托管行与估值表解析模板之间的对应关系,确定与所述目标托管行对应的目标估值表解析模板;基于所述目标估值表解析模板对所述估值表进行解析,得到估值表解析结果。

Description

估值表处理方法、装置、电子设备及计算机可读存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及一种估值表处理方法、装置、电子设备及计算机可读存储介质。
背景技术
估值表,来自于托管行的估值核算系统。估值核算系统是根据资管业务监管规定,为相关金融机构定制的财务核算和资产估值的系统。来自托管行的估值表是以excel形式存在,以会计科目的形式记录资产、负债和所有者权益等信息。但是,从投资组合管理的角度,用户希望以组合持仓的视角来进行组合管理和分析。由于估值表来自多家托管行的估值系统,每家的格式不尽相同。
为了准确解析估值表,现在常用的做法是,根据不同的托管行,定制化开发相应的估值表模版。此处托管行数量较多,例如,可能超过数百家,如果为每个托管行定制一个模版,估值表的模板数量较多。这样在对估值表进行解析时,就需要用户从这数百家托管行对应的模板中找出对应的目标模板,从而对估值表进行解析,上述处理方式,不仅操作烦杂,而且容易出错。
发明内容
本公开提供了一种用于估值表处理方法、装置、电子设备及计算机可读存储介质。
根据本公开的一方面,提供了一种估值表处理方法,包括:获取待解析的估值表;对所述估值表进行特征提取,得到估值表特征;基于所述估值表特征,预测所述估值表所对应的目标托管行;基于托管行与估值表解析模板之间的对应关系,确定与所述目标托管行对应的目标估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系;基于所述目标估值表解析模板对所述估值表进行解析,得到估值表解析结果。
根据本公开的另一方面,提供了一种估值表处理方法,包括:获取多组估值表数据,其中,所述多组估值表数据包括:值表,与该估值表对应的托管行;分别提取所述多组估值表数据的估值表特征;基于所述多组估值表数据的估值表特征进行机器训练,得到预测模型,其中,所述预测模型用于对待解析的估值表进行预测,得到目标托管行,所述目标托管行用于基于托管行与估值表解析模板之间的对应关系,确定对应的估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系。
根据本公开的一方面,提供了一种估值表处理装置,包括:第一获取模块,用于获取待解析的估值表;第一提取模块,用于对所述估值表进行特征提取,得到估值表特征;预测模块,用于基于所述估值表特征,预测所述估值表所对应的目标托管行;确定模块,用于基于托管行与估值表解析模板之间的对应关系,确定与所述目标托管行对应的目标估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系;解析模块,用于基于所述目标估值表解析模板对所述估值表进行解析,得到估值表解析结果。
根据本公开的另一方面,提供了一种估值表处理装置,包括:第二获取模块,用于获取多组估值表数据,其中,所述多组估值表数据包括:估值表,与该估值表对应的托管行;第二提取模块,用于分别提取所述多组估值表数据的估值表特征;训练模块,用于基于所述多组估值表数据的估值表特征进行机器训练,得到预测模型,其中,所述预测模型用于对待解析的估值表进行预测,得到目标托管行,所述目标托管行用于基于托管行与估值表解析模板之间的对应关系,确定对应的估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
根据本公开的还一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述任一项所述的方法。
根据本公开的再一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的估值表处理方法一的流程图;
图2是根据本公开实施例所提供的托管行与估值表解析模板之间的对应关系的示意图;
图3是本公开实施例提供的估值表处理方法二的流程图;
图4是根据本公开实施例提供的估值表自动解析系统的示意图;
图5是根据本公开实施例提供的依据解析结果得到的资产持仓数据的数据图;
图6是根据本公开实施例提供的估值表处理装置一的结构框图;
图7是根据本公开实施例提供的估值表处理装置二的结构框图;
图8示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
托管行:托管行是指对资源进行保管,以及对使用资源的对象进行监管的机构,例如,当该资源是资金的形式时,托管行即是负责保管、持有基金管理公司等投资机构募集到的资金,并对基金管理人使用这笔资金进行监管和对外披露信息的机构,通常由商业银行来担当,但也有一些对资金进行管理的证券机构等。
估值表:一般以excel表格的形式存在,以会计科目的形式记录资产、负债和所有者权益等信息。估值表包括的项目信息可以有多个,例如,可以有XXX的估值表这类主标题项目,还可以有科目代码,科目名称,币种,汇率,成本-本币,以及成本-本币下所包括的:成本,本币,单位等这类副标题项目。一般情况下,估值表来自于托管行,托管行一般可以应用一种类型或多种类型的估值表。
针对相关技术中,要么采用人工解析的方式,对估值表进行解析,导致成本高,效率低;要么需要从包括众多解析模板的模板库中找出对应的解析模板对估值表进行解析,导致需要对从多的解析模板进行维护,导致工作量大,准确性不高的问题。在本公开实施例中,提供了一种估值表处理方法,该方法减少对解析模板的选择操作,使得操作失误率降低,不仅能够对估值表进行高效解析,而且准确性也高。
在本公开实施例中,提供了一种估值表处理方法,图1是本公开实施例提供的估值表处理方法一的流程图,如图1所示,该方法包括:
步骤S102,获取待解析的估值表;
步骤S104,对估值表进行特征提取,得到估值表特征;
步骤S106,基于估值表特征,预测估值表所对应的目标托管行;
步骤S108,基于托管行与估值表解析模板之间的对应关系,确定与目标托管行对应的目标估值表解析模板,其中,托管行与估值表解析模板之间的对应关系包括多对一的关系;
步骤S110,基于目标估值表解析模板对估值表进行解析,得到估值表解析结果。
通过上述处理,对托管行与解析模板之间建立对应关系,即将托管行与解析模板之间建立多对一的关系,使得用于解析估值表的解析模板的数量减少,达到用户操作简便,减少对估值表进行解析时,需要用户从众多解析模板中选择解析模板的复杂流程,有效提升解析效率,增加用户使用体验。
作为一种可选的实施例,上述估值表处理方法的执行主体可以是终端,也可以是服务器,还可以是包括多个计算机的计算机集群;可以是本地的上述装置,也可以远端云上的装置。
作为一种可选的实施例,获取待解析的估值表时,依据上述估值表处理方法的执行主体不同而可能不同,例如,当上述执行主体为本地终端设备时,可以直接通过本地终端设备的交互界面来获取该待解析的估值表,比如,通过交互界面上的导入控件,来接收该待解析的估值表。又例如,当上述执行主体为远端云上的装置时,可以是接收来自客户端设备通过通信网络上传的估值表。
作为一种可选的实施例,估值表可以是多中形式的,例如,表1是本公开实施例所示的估值表的示意表,如表1所示,估值表包括的项目信息可以有多个,例如,可以有XXXXX资产估值表这类主标题项目,还可以有科目代码,科目名称,币种,汇率,成本-本币,以及成本-本币下所包括的:成本,本币,单位等这类副标题项目。一般情况下,估值表来自于托管行,托管行一般可以应用一种类型或多种类型的估值表。
表1
Figure BDA0003384156940000051
作为一种可选的实施例,上述托管行与估值表解析模板之间的对应关系包括多对一的关系可以有多种形式,例如,全部的多对一关系,部分的多对一关系。其中,此处所描述的全部的多对一关系可以是,任意一个估值表解析模板均对应多个托管行,而部分的多对一关系则可以是至少有一个估值表解析模板对应多个托管行。图2是根据本公开实施例所提供的托管行与估值表解析模板之间的对应关系的示意图,如图2所示,该托管行与估值表解析模板之间的对应关系为全部的多对一关系,估值表解析模板的数量较少,以8个为例,但不限定8个,可以多于8个或少于8个。另外,需要说明的是,具体采用哪种对应关系,可以依据具体需求灵活确定。
作为一种可选的实施例,对估值表进行特征提取,得到估值表特征时,可以依据提取特征的目的不同,而有针对性地对特征进行提取,例如,可以采用以下方式,对估值表的主标题和副标题特征进行提取。例如,对估值表的主标题进行特征提取,得到主标题特征,以及对估值表的副标题进行特征提取,得到副标题特征;对估值表的主标题的文本内容进行特征提取,得到主标题文本特征,以及对估值表的副标题的文本内容进行特征提取,得到副标题文本特征;其中,估值表特征包括:主标题特征,副标题特征,主标题文本特征和副标题文本特征。
需要说明的是,在对主标题和副标题的特征进行提取时,该提取的特征可以包括:合并前所包括的行数,列数,合并后单元格的行数和列数,以及合并后单元格的内容的字体,字号,颜色等。例如,对主标题的特征进行提取时,得到的主标题特征可以包括:主标题合并前单元格数,单元格列数,合并后单元格数,行数,字号,字体和颜色等。采用同样的方式,对副标题的特征进行提取时,得到的副标题特征可以包括:副标题合并前单元格数,单元格列数,合并后单元格数,行数,字号,字体和颜色等。
对估值表的主标题的文本内容进行特征提取,得到主标题文本特征,以及对估值表的副标题的文本内容进行特征提取,得到副标题文本特征时,可以采用以下方式,表2是本公开实施例所提供的估值表的主标题的示意表,如表2所示,提取估值表中主标题的文本包括:“XXXXX资产估值表”,以及“XXX资产专用表(XXXX年XX月XX日)”。
表2
XXXXX资产估值表
XXX资产专用表(XXXX年XX月XX日)
表3
Figure BDA0003384156940000061
表3是本公开实施例所提供的估值表的副标题的示意表,如表3所示,提取估值表中副标题的文本包括:“科目代码”,“科目名称”,“币种”,“汇率”,“数量”,“单位成本”,“成本-本币”以及“成本占比”等文本内容。
在对估值表的特征进行提取时,提取主标题的主标题特征,副标题的副标题特征,主标题文本特征和副标题文本特征,通过对上述完整信息的提取,为后续对估值表更为准确的预测提供基础。
作为一种可选的实施例,基于估值表特征,预测估值表所对应的目标托管行时,可以采用多种处理方式,例如,为快速准确地得到与估值表对应的目标托管行,可以将估值表特征输入预测模型中,得到预测模型输出的与估值表所对应的目标托管行,其中,预测模型采用多组样本数据训练得到,多组样本数据包括:样本估值表特征,与该样本估值表特征对应的托管行。
通过上述处理,采用提前训练好的模型来对估值表对应的目标托管行进行预测。采用人工智能模型的方式来对目标托管行进行预测,一方面由于模型训练可以采用多种类型的样本进行训练,因而采用训练好的模型进行预测,能够达到准确,全面预测的好处;另一方面,采用模型的方式预测,相对于其它复杂预测的方式而言,高效,快速。
作为一种可选的实施例,在基于目标估值表解析模板对估值表进行解析,得到估值表解析结果之后,为进一步提升解析结果的准确性,可以对估值表解析结果进行校验;在检验通过的情况下,将估值表解析结果转换为估值表对应的估值数据。通过对解析结果进行校验,通过校验过程,能够进一步有效地提升解析结果的准确性。便于后续采取对应的补救或者完善措施。其中,校验可以采用多次,例如,一次按照系统的预定规则进行校验,一次按照人工进行校验。需要说明的是,在按照系统的预定规则进行校验时,该预定规则可以是解析结果中对应项目中的对应值进行校验。例如,在估值表中,资产应该等于负债与所有者权益两者之和,因而在得到的解析结果中,资产这一项对应的值也应该是负债这一项对应的值与所有者权益这一项对应的值之和。如果资产这一项对应的值是负债这一项对应的值与所有者权益这一项对应的值之和,那么从另一个角度来说,采用上述解析模板对估值表进行解析得到的解析结果即是准确的。如果得到的解析结果中,资产这一项对应的值并非负债这一项对应的值与所有者权益这一项对应的值之和,那么就需要启动人工校验,进一步确认,如果确认解析结果就是错误的,那么就需要重新选择更为正确的解析模板对估值表进行解析,直到得到正确的解析结果。
作为一种可选的实施例,由于估值表有时也会随时不同的需要而需要变化,因此,对对应的解析模型也需要进行随时更新。因此,为保证解析结果的准确性,可以按照预定周期对托管行与估值表解析模板之间的对应关系进行更新。上述预定周期可以是估值表更新的周期,也可以是小于估值表更新的周期。
在本公开实施例中,提供了另一种估值表处理方法,图3是本公开实施例提供的估值表处理方法二的流程图,如图3所示,该方法包括:
步骤S302,获取多组估值表数据,其中,多组估值表数据包括:估值表,与该估值表对应的托管行;
步骤S304,分别提取多组估值表数据的估值表特征;
步骤S306,基于多组估值表数据的估值表特征进行机器训练,得到预测模型,其中,预测模型用于对待解析的估值表进行预测,得到目标托管行,目标托管行用于基于托管行与估值表解析模板之间的对应关系,确定对应的估值表解析模板,其中,托管行与估值表解析模板之间的对应关系包括多对一的关系。
通过上述处理,采用机器训练的方式得到对待解析的估值表预测托管行的预测模型,不仅预测结果准确,而且效率高。在采用得到的预测模型对待解析的估值表进行预测,得到目标托管行后,基于对托管行与解析模板之间建立对应关系,即将托管行与解析模板之间建立多对一的关系,使得用于解析估值表的解析模板的数量减少,达到用户操作简便,减少对估值表进行解析时,需要用户从众多解析模板中选择解析模板的复杂流程,有效提升解析效率,增加用户使用体验。因此,采用人工智能的机器训练的方式得到预测模型,而后再基于该预测模型得到待解析估值表对应的目标托管行,实现了预测托管行和确定估值表解析模板两个过程的双重效率的提升,有效增加用户附加体验。
如上,在采用机器训练,得到较优的预测模型时,可以提取估值表中丰富的估值表特征,例如,提取的估值表特征可以包括以下至少之一:估值表的主标题对应的主标题特征,估值表的副标题对应的副标题特征,估值表的主标题文本对应的主标题文本特征和估值表的副标题文本对应的副标题文本特征。
基于上述实施例及可选实施例,在本公开中还提供了一种可选实施方式。
在本公开可选实施方式中,以金融场景为例,提供了一种估值表自动解析系统,在该估值表自动解析系统,引入了深度学习技术对估值表所属托管行进行分类预测,基于得到的分类预测结果,以及提前建立好的托管行与解析模板的多对一规则,使得模板个数从较大数量降低到较低数量,例如,从50个降低到7个,成本大幅度降低。使得用户在导入估值表文件时无需指定解析模板,大大提升了用户体验。
图4是根据本公开实施例提供的估值表自动解析系统的示意图,如图4所示,该系统包括:用户端模块、云端存储模块、估值表特征提取模块、模板预测模块和解析模块。下面对上述系统进行说明。
用户端模块:该模块主要用于提供用户上传估值表至云端服务器存储。
云端存储模块:该模块主要是在云端的服务器上接收估值表文件并存储在磁盘和云存储设备上,然后读取文件的表头信息,供后续模块作为输入。
估值表特征提取模块:该模块主要用于对估值表文件进行特征提取,以便于后续将该特征送入神经网络进行分类预测。
其中,估值表特征提取模块主要完成以下操作:读取Excel格式估值表,提取关键特征以及提取关键特征。下面分别说明。
读取Excel格式估值表:
读取方法可以采用主流的开源代码库,例如,python编程语言中的xlrd和xlwt,读取Excel中sheet1中的内容。
提取关键特征:
(1)提取主标题特征
首先,提取的特征包括:合并前单元格数a1,列数a2,合并后单元格数a3,行数a4,字号a5;字体a6,颜色a7;之后,将上述提取的特征合成特征向量序列a=[a1,a2,a3,....,an]。
(2)提取副标题特征
用同样的方式提取副标题行特征,包括合并前单元格数b1,列数b2,合并后单元格数b3,行数b4,字号b5;字体b6,颜色b7;合成特征向量序列b=[b1,b2,b3,....,bn]。
(3)提取主标题的文本特征向量
读取主标题文本时,可以使用多种方式(例如,BERT)提取出该文章标题的文本向量c,如表2中的文字部分:“XXXXX资产估值表”,以及“XXX资产专用表(XXXX年XX月XX日)”。需要说明的是,上述BERT仅是其中一种方式,BERT是一种深度学习语言预训练模型,广泛的应用于NLP领域),当然这个提取文本向量过程也可以使用其它方式,例如,使用ERNIE,该ERNIE是知识增强的预训练模型,广泛的应用于NLP,尤其对中文领域表现更好)。
(4)提取副标题的文本特性向量
提取副标题所有单元格的列标题文本内容,如提取表3中的文本内容,包括:“科目代码”,“科目名称”,“币种”,“汇率”,“数量”,“单位成本”,..,“停牌信息”,“权益信息”。对于上述提取的每个文本内容,采用上述对应主标题的方法,提取文本向量,构成副标题文本特征向量序列d=[d1,d2,d3....,dn]。
输出向量特征
通过以上处理,得到最终的向量特征[a,b,c,d]作为本模块的输出。
模板类别预测模块:该模块主要完成整个识别模型的训练与预测,包括4个关键步骤,第一步原始业务数据收集,第二步训练样本构建,第三步模型训练,第四步模型预测。下面分别说明。
原始业务数据收集
收集大量的估值表信息,这些估值表收集时能明确所属托管行,对于不能确定托管行的估值表,采用人工标注的方法进行标注,最终形成原始业务数据表,其中,该原始业务数据表包括:第一列为估值表名称,第二列为托管行名称。
在数据均衡上每个类别保证不少于预定数量个(例如,100个),该数量可以根据训练的情况适当调节,在解析阶段每种估值表类别对应一种解析方法。
训练样本构建
本阶段主要读取原始业务数据表,逐个读取解析第一列中的所对应估值表Excel文件的内容,按照上述估值表特征提取模块的方法提取文档的特征[a,b,c,d]作为模型训练样本的X,读取第二列中的托管行名称作为模型训练样本的Y,此时整个训练样本构建完毕。
模型训练
训练算法可以采用深度学习多层感知机(MLP)或者更复杂算法,在框架选型上不限,可以基于PaddlePaddle、Tensorflow、PyTorch等,直到模型训练Loss停止降低,Acc收敛为止,导出训练模型参数文件。
模型预测
使用上述模型训练阶段导出的模型参数文件,加载到深度学习框架中即可对新估值表进行分类的预测,预测的结果为从多托管行之一。
解析模块:
该模块包括五个重要的步骤:
步骤1:建立托管行与解析模板的关系,例如,如上述图2所示,如果有50家左右的托管行,通过经验的总结,可以归纳为7-8套通用的解析模板。该对应关系可以通过配置文件内置。通过该步骤可以精准的选取到正确的解析模板。
步骤2:根据估值表解析模板解析具体的内容。
该步骤主要是采用开源代码库,例如python编程语言中的xlrd和xlwt,根据步骤1种选定的解析模板,选取Excel单元格中对应的单元格值,组成资产持仓数据。
步骤3:二次逻辑校验
二次校验的目的在于针对估值表的结构,从业务逻辑层面判断上述解析结果是否正确。例如,图5是根据本公开实施例提供的依据解析结果得到的资产持仓数据的数据图,如图5所示,判断方法在于须同时满足以下两个条件:
条件1:各个资产科目的汇总项等于所有明细项之和
每个一级科目的数值=∑所有二级科目数值
比如:以债券投资为例
债券投资(1103)=银行间债券(11035)+交易所债券(11031)
条件2:资产=负债+所有者权益
用会计科目表示公式如下:
资产(1002+1021+1031+1102+1103+1104+1105+1106+1202+1203+1204+1207+1221+1501)=负债(2001+2101+2202+2203+2204+2206+2207+2208+2209+2221+2231+2232+2241+2501)+所有制权益(4001+4011+4103+4104)
步骤4:人工二次确认
当上述步骤3逻辑检验不通过时,提示用户端进行二次确认,
步骤5:返回结果
当上述步骤3逻辑检验通过时,直接返回估值表解析后转换的持仓数据。
通过上述可选实施方式,引入了深度学习技术对估值表所属托管行进行分类预测,基于这个分类预测结果,以及提前建立好的托管行与解析装置的多对一规则,使得解析模板个数降低明显,成本大幅度降低。使得用户在导入估值表文件时无需指定解析模板,体验得到较大提升。
在本公开实施例中,还提供了一种估值表处理装置,图6是根据本公开实施例提供的估值表处理装置一的结构框图,如图6所示,该装置包括:第一获取模块61,第一提取模块62,预测模块63,确定模块64和解析模块65,下面对该装置进行说明。
第一获取模块61,用于获取待解析的估值表;第一提取模块62,连接至上述第一获取模块61,用于对估值表进行特征提取,得到估值表特征;预测模块63,连接至上述第一提取模块62,用于基于估值表特征,预测估值表所对应的目标托管行;确定模块64,连接至上述预测模块63,用于基于托管行与估值表解析模板之间的对应关系,确定与目标托管行对应的目标估值表解析模板;解析模块65,连接至上述确定模块64,用于基于目标估值表解析模板对估值表进行解析,得到估值表解析结果。
作为一种可选的实施例,预测模块包括:处理单元,用于将估值表特征输入预测模型中,得到预测模型输出的与估值表所对应的目标托管行,其中,预测模型采用多组样本数据训练得到,多组样本数据包括:样本估值表特征,与该样本估值表特征对应的托管行。
作为一种可选的实施例,第一提取模块62包括:第一提取单元,用于对估值表的主标题进行特征提取,得到主标题特征,以及对估值表的副标题进行特征提取,得到副标题特征;第二提取单元,用于对估值表的主标题的文本内容进行特征提取,得到主标题文本特征,以及对估值表的副标题的文本内容进行特征提取,得到副标题文本特征;其中,估值表特征包括:主标题特征,副标题特征,主标题文本特征和副标题文本特征。
作为一种可选的实施例,上述装置还包括:校验模块,用于在基于目标估值表解析模板对估值表进行解析,得到估值表解析结果之后,对估值表解析结果进行校验;转换模块,用于在检验通过的情况下,将估值表解析结果转换为估值表对应的估值数据。
作为一种可选的实施例,装置还包括:更新模块,用于按照预定周期对托管行与估值表解析模板之间的对应关系进行更新。
在本公开实施例中,还提供了一种估值表处理装置,图7是根据本公开实施例提供的估值表处理装置二的结构框图,如图7所示,该装置包括:第二获取模块71,第二提取模块72和训练模块73,下面对该装置进行说明。
第二获取模块71,用于获取多组估值表数据,其中,多组估值表数据包括:估值表,与该估值表对应的托管行;第二提取模块72,连接至上述第二获取模块71,用于分别提取多组估值表数据的估值表特征;训练模块73,连接至上述第二提取模块72,用于基于多组估值表数据的估值表特征进行机器训练,得到预测模型,其中,预测模型用于对待解析的估值表进行预测,得到目标托管行,目标托管行用于基于托管行与估值表解析模板之间的对应关系,确定对应的估值表解析模板,其中,托管行与估值表解析模板之间的对应关系包括多对一的关系。
作为一种可选的实施例,估值表特征包括:估值表的主标题对应的主标题特征,估值表的副标题对应的副标题特征,估值表的主标题文本对应的主标题文本特征和估值表的副标题文本对应的副标题文本特征。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,估值表处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的估值表处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述任一项的估值表处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种估值表处理方法,包括:
获取待解析的估值表;
对所述估值表进行特征提取,得到估值表特征;
基于所述估值表特征,预测所述估值表所对应的目标托管行;
基于托管行与估值表解析模板之间的对应关系,确定与所述目标托管行对应的目标估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系;
基于所述目标估值表解析模板对所述估值表进行解析,得到估值表解析结果。
2.根据权利要求1所述的方法,其中,所述基于所述估值表特征,预测所述估值表所对应的目标托管行包括:
将所述估值表特征输入预测模型中,得到所述预测模型输出的与所述估值表所对应的目标托管行,其中,所述预测模型采用多组样本数据训练得到,所述多组样本数据包括:样本估值表特征,与该样本估值表特征对应的托管行。
3.根据权利要求1所述的方法,其中,所述对所述估值表进行特征提取,得到估值表特征,包括:
对所述估值表的主标题进行特征提取,得到主标题特征,以及对所述估值表的副标题进行特征提取,得到副标题特征;
对所述估值表的主标题的文本内容进行特征提取,得到主标题文本特征,以及对所述估值表的副标题的文本内容进行特征提取,得到副标题文本特征;
其中,所述估值表特征包括:所述主标题特征,所述副标题特征,所述主标题文本特征和所述副标题文本特征。
4.根据权利要求1所述的方法,其中,在所述基于所述目标估值表解析模板对所述估值表进行解析,得到估值表解析结果之后,还包括:
对所述估值表解析结果进行校验;
在检验通过的情况下,将所述估值表解析结果转换为所述估值表对应的估值数据。
5.根据权利要求1至4中任一项所述的方法,其中,所述方法还包括:
按照预定周期对托管行与估值表解析模板之间的所述对应关系进行更新。
6.一种估值表处理方法,包括:
获取多组估值表数据,其中,所述多组估值表数据包括:估值表,与该估值表对应的托管行;
分别提取所述多组估值表数据的估值表特征;
基于所述多组估值表数据的估值表特征进行机器训练,得到预测模型,其中,所述预测模型用于对待解析的估值表进行预测,得到目标托管行,所述目标托管行用于基于托管行与估值表解析模板之间的对应关系,确定对应的估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系。
7.根据权利要求6所述的方法,其中,所述估值表特征包括:所述估值表的主标题对应的主标题特征,所述估值表的副标题对应的副标题特征,所述估值表的主标题文本对应的主标题文本特征和所述估值表的副标题文本对应的副标题文本特征。
8.一种估值表处理装置,包括:
第一获取模块,用于获取待解析的估值表;
第一提取模块,用于对所述估值表进行特征提取,得到估值表特征;
预测模块,用于基于所述估值表特征,预测所述估值表所对应的目标托管行;
确定模块,用于基于托管行与估值表解析模板之间的对应关系,确定与所述目标托管行对应的目标估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系;
解析模块,用于基于所述目标估值表解析模板对所述估值表进行解析,得到估值表解析结果。
9.根据权利要求8所述的装置,其中,所述预测模块包括:
处理单元,用于将所述估值表特征输入预测模型中,得到所述预测模型输出的与所述估值表所对应的目标托管行,其中,所述预测模型采用多组样本数据训练得到,所述多组样本数据包括:样本估值表特征,与该样本估值表特征对应的托管行。
10.根据权利要求8所述的装置,其中,所述第一提取模块包括:
第一提取单元,用于对所述估值表的主标题进行特征提取,得到主标题特征,以及对所述估值表的副标题进行特征提取,得到副标题特征;
第二提取单元,用于对所述估值表的主标题的文本内容进行特征提取,得到主标题文本特征,以及对所述估值表的副标题的文本内容进行特征提取,得到副标题文本特征;
其中,所述估值表特征包括:所述主标题特征,所述副标题特征,所述主标题文本特征和所述副标题文本特征。
11.根据权利要求8所述的装置,其中,还包括:
校验模块,用于在所述基于所述目标估值表解析模板对所述估值表进行解析,得到估值表解析结果之后,对所述估值表解析结果进行校验;
转换模块,用于在检验通过的情况下,将所述估值表解析结果转换为所述估值表对应的估值数据。
12.根据权利要求8至11中任一项所述的装置,其中,所述装置还包括:
更新模块,用于按照预定周期对托管行与估值表解析模板之间的所述对应关系进行更新。
13.一种估值表处理装置,包括:
第二获取模块,用于获取多组估值表数据,其中,所述多组估值表数据包括:估值表,与该估值表对应的托管行;
第二提取模块,用于分别提取所述多组估值表数据的估值表特征;
训练模块,用于基于所述多组估值表数据的估值表特征进行机器训练,得到预测模型,其中,所述预测模型用于对待解析的估值表进行预测,得到目标托管行,所述目标托管行用于基于托管行与估值表解析模板之间的对应关系,确定对应的估值表解析模板,其中,所述托管行与估值表解析模板之间的对应关系包括多对一的关系。
14.根据权利要求13所述的装置,其中,所述估值表特征包括:所述估值表的主标题对应的主标题特征,所述估值表的副标题对应的副标题特征,所述估值表的主标题文本对应的主标题文本特征和所述估值表的副标题文本对应的副标题文本特征。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
CN202111446909.6A 2021-11-30 2021-11-30 估值表处理方法、装置、电子设备及计算机可读存储介质 Pending CN114187081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111446909.6A CN114187081A (zh) 2021-11-30 2021-11-30 估值表处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111446909.6A CN114187081A (zh) 2021-11-30 2021-11-30 估值表处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114187081A true CN114187081A (zh) 2022-03-15

Family

ID=80541873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111446909.6A Pending CN114187081A (zh) 2021-11-30 2021-11-30 估值表处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114187081A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117010343A (zh) * 2023-09-27 2023-11-07 上海朝阳永续信息技术股份有限公司 解析估值表的方法、设备和计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117010343A (zh) * 2023-09-27 2023-11-07 上海朝阳永续信息技术股份有限公司 解析估值表的方法、设备和计算机可读存储介质
CN117010343B (zh) * 2023-09-27 2023-12-26 上海朝阳永续信息技术股份有限公司 解析估值表的方法、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
AU2017297271B2 (en) System and method for automatic learning of functions
US11663677B2 (en) System and method for automatically generating calculations for fields in compliance forms
US10140277B2 (en) System and method for selecting data sample groups for machine learning of context of data fields for various document types and/or for test data generation for quality assurance systems
CA3033859C (en) Method and system for automatically extracting relevant tax terms from forms and instructions
WO2021088499A1 (zh) 一种基于动态网络表征的发票虚开识别方法及系统
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN114187081A (zh) 估值表处理方法、装置、电子设备及计算机可读存储介质
CN116340831B (zh) 一种信息分类方法、装置、电子设备及存储介质
CN113052063A (zh) 置信度阈值选择方法、装置、设备以及存储介质
CN113420174B (zh) 难样本挖掘方法、装置、设备以及存储介质
CN114461665B (zh) 用于生成语句转换模型的方法、装置及计算机程序产品
CN115374063A (zh) 文件处理方法、装置、设备及存储介质
CN113641823B (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN115546808A (zh) 一种报表类型确定方法、装置、设备和存储介质
CN111429257B (zh) 一种交易监控方法和装置
CN114202309A (zh) 用户与企业的匹配参数的确定方法、电子设备及程序产品
CN113052512A (zh) 风险预测方法、装置和电子设备
CN113450208A (zh) 贷款风险变动预警、模型训练方法和装置
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN113010782A (zh) 需求量获取方法、装置、电子设备以及计算机可读介质
CN112907362A (zh) 贷款业务的处理方法、装置、电子设备和存储介质
CN112990311A (zh) 一种准入客户的识别方法和装置
CA3033843C (en) System and method for automatically generating calculations for fields in compliance forms
CN115496594A (zh) 业务信息的处理方法、装置、设备及存储介质
CN116245085A (zh) 保函开立方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination