CN111552689B - 一种基金审计的去重指标计算方法、装置及设备 - Google Patents

一种基金审计的去重指标计算方法、装置及设备 Download PDF

Info

Publication number
CN111552689B
CN111552689B CN202010234433.9A CN202010234433A CN111552689B CN 111552689 B CN111552689 B CN 111552689B CN 202010234433 A CN202010234433 A CN 202010234433A CN 111552689 B CN111552689 B CN 111552689B
Authority
CN
China
Prior art keywords
data
service
bit
dimension
deduplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010234433.9A
Other languages
English (en)
Other versions
CN111552689A (zh
Inventor
金艳娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Medical Health Technology Service Co Ltd
Original Assignee
Ping An Medical and Healthcare Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Medical and Healthcare Management Co Ltd filed Critical Ping An Medical and Healthcare Management Co Ltd
Priority to CN202010234433.9A priority Critical patent/CN111552689B/zh
Publication of CN111552689A publication Critical patent/CN111552689A/zh
Application granted granted Critical
Publication of CN111552689B publication Critical patent/CN111552689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请属于数据计算领域,公开了一种基金审计的去重指标计算方法、装置及设备,能够预先将各类基金的业务数据编码成INT型编码数据存储在全局字典表中;然后将公司存储在数据库中业务基金运行时的明细数据,按照业务维度分组后,每组数据与全局字典表中的INT型编码数据进行匹配,匹配后的结果排列形成bit数据流,每个业务维度对应的bit数据流进行关联后,列表存储,bit是计算机计算中的基本计算单元,将原有的存储容量减少几十倍,根据逻辑计算公式进行运算时,通过较少的bit操作即可实现跨业务维度的快速聚合计算,通过这样的方法大大提升了去重指标在计算时的效率,且节省了存储和计算时所使用硬件成本。

Description

一种基金审计的去重指标计算方法、装置及设备
技术领域
本申请涉及数据计算技术领域,特别是涉及一种基金审计的去重指标计算方法、装置及设备。
背景技术
在基金审计智能分析类系统中有一类指标的计算对资源的消耗以及占用时间是非常高的,这一类指标就是去重指标,比如用户希望分析参保人数、就诊人数这类指标时,在物理层面计算指标执行时需要将去重的全部明细对象数据从磁盘中读取出来,将数据保存在内存中,对其进行排序,再计算。当去重的数据达到千万、上亿、百亿时对内存占用消耗巨大。即使这样过多明细数据的实时计算仍然会导致页面展示去重指标时性能过低,不能够得到良好的用户体验。
目前对去重指标进行计算时明细数据在内存中进行,在内存不足时,将部分计算好的结果保存在磁盘空间中,性能低下,或使用分布式的方式处理,将一个节点的内存压力分散到多个节点上进行计算,消耗过多的硬件资源。
发明内容
有鉴于此,本申请提供了一种基金审计的去重指标计算方法、装置及设备。主要目的在于解决目前的基金审计的去重指标计算时占用的内存资源较多且耗时较长的技术问题。
依据本申请的第一方面,提供了一种基金审计的去重指标计算方法,所述方法的步骤包括:
获取各类基金的业务数据,将每个业务数据作为去重对象;
将所述去重对象进行编码生成相应的INT型编码数据;
将所述INT型编码数据与所述去重对象进行一一对应,并进行排列添加至全局字典表中;
提取数据库中的明细数据,对所述明细数据按照业务维度进行划分,得到至少一组业务维度数据,其中,每组业务维度数据包括至少一个明细数据;
将所述业务维度数据中的至少一个明细数据,与所述全局字典表中的INT型编码数据进行匹配,将匹配结果按照匹配的顺序进行排列形成bit数据流,其中,匹配结果包括匹配成功或匹配失败,每组业务维度数据对应一个bit数据流;
将每组业务维度数据与bit数据流进行关联,并列表存储;
获取待计算业务维度的逻辑计算公式,从所述列表中查找待计算业务维度对应的待计算bit数据流;
将所述待计算bit数据流根据所述逻辑计算公式进行运算得到去重指标。
依据本申请的第二方面,提供了一种基金审计的去重指标计算装置,所述装置包括:
获取模块,用于获取各类基金的业务数据,将每个业务数据作为去重对象;
编码模块,用于将所述去重对象进行编码生成相应的INT型编码数据;
字典表生成模块,用于将所述INT型编码数据与所述去重对象进行一一对应,并进行排列添加至全局字典表中;
提取划分模块,用于提取数据库中的明细数据,对所述明细数据按照业务维度进行划分,得到至少一组业务维度数据,其中,每组业务维度数据包括至少一个明细数据;
匹配模块,用于将所述业务维度数据中的至少一个明细数据,与所述全局字典表中的INT型编码数据进行匹配,将匹配结果按照匹配的顺序进行排列形成bit数据流,其中,匹配结果包括匹配成功或匹配失败,每组业务维度数据对应一个bit数据流;
关联模块,用于将每组业务维度数据与bit数据流进行关联,并列表存储;
查找模块,用于获取待计算业务维度的逻辑计算公式,从所述列表中查找待计算业务维度对应的待计算bit数据流;
运算模块,用于将所述待计算bit数据流根据所述逻辑计算公式进行运算得到去重指标。
依据本申请的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述基金审计的去重指标计算方法的步骤。
依据本申请的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述基金审计的去重指标计算的步骤。
借由上述技术方案,本申请提供的一种基金审计的去重指标计算方法、装置及设备,能够预先将各类基金的业务数据编码成INT型编码数据存储在全局字典表中;然后将公司存储在数据库中业务基金运行时的明细数据,按照业务维度分组后,每组数据与全局字典表中的INT型编码数据进行匹配,匹配后的结果排列形成bit数据流,每个业务维度对应的bit数据流进行关联后,列表存储,由于bit是计算机计算中的基本计算单元,因此通过bit数据流的方式进行存储可以将原有的存储容量减少几十倍,进而在查找待计算bit数据流时,能够有效减少查找时间,提高查找效率,根据逻辑计算公式进行运算时,直接对bit数据流进行运算得到相应的去重指标,去重指标的计算速率得到大幅度的提高。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请的基金审计的去重指标计算方法的一个实施例的流程图;
图2为本申请的基金审计的去重指标计算装置的一个实施例的结构框图;
图3为本申请的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种基金审计的去重指标计算方法,通过全局字典表+bit数据流的方式进行存储可以将原有的存储容量减少几十倍,根据逻辑计算公式直接对bit数据流进行运算得到相应的去重指标,去重指标的计算速率得到大幅度的提高。
如图1所示,本申请实施例提供了一种基金审计的去重指标计算方法,包括如下步骤:
步骤101,获取各类基金的业务数据,将每个业务数据作为去重对象。
在该步骤中,通过联网将各个基金公司的存储基金业务数据的数据库中获取各类基金的业务数据。
例如,医保基金支出数据信息、参保缴费数据、异地就医数据等。
步骤102,将去重对象进行编码生成相应的INT型编码数据。
在该步骤中,将去重对象编码成INT型编码数据有利于去重对象的存储。
步骤103,将INT型编码数据与去重对象进行一一对应,并进行排列添加至全局字典表中。
在该步骤中,当所有的去重对象全部编码添加至全局字典表后,将全局字典表固化到本地数据库的内存中去存储,这样可以避免去重指标计算时全局字典表的IO,提升计算的性能。
步骤104,提取数据库中的明细数据,对明细数据按照业务维度进行划分,得到至少一组业务维度数据,其中,每组业务维度数据包括至少一个明细数据。
在该步骤中,每个基金公司都有存储自己运营的基金的明细数据的数据库,因此可以直接从数据库中提取这些明细数据,然后按照业务维度分成若干组业务维度数据。
例如:医保基金的业务维度包括:住院数据、购药数据、医疗耗材数据、化验数据等。
步骤105,将业务维度数据中的至少一个明细数据,与全局字典表中的INT型编码数据进行匹配,将匹配结果按照匹配的顺序进行排列形成bit数据流,其中,匹配结果包括匹配成功或匹配失败,每组业务维度数据对应一个bit数据流。
步骤106,将每组业务维度数据与bit数据流进行关联,并列表存储。
在该步骤中,将每组业务维度数据的匹配结果排列形成bit数据流,bit是计算机计算中的基本计算单元,使用bit数据流来保存数据可以将原有的存储容量减少几十倍。
步骤107,获取待计算业务维度的逻辑计算公式,从列表中查找待计算业务维度对应的待计算bit数据流。
步骤108,将待计算bit数据流根据逻辑计算公式进行运算得到去重指标。
在上述步骤中,针对医疗基金,则去重指标包括就诊人数、缴费人数、项目使用次数等。针对期货基金,则去重指标包括:同一类期货的购买次数、同一类期货的购买人数等。企业可以根据计算得到的去重指标获知某基金的运行状况。
例如,根据某医疗基金对应的就诊人数,获知该医疗基金是否受大众认可,如果就诊人数很多,则企业需要对该医疗基金进行大力宣传,如果就诊人数少,则企业需要撤销该医疗基金。
再如,根据某类期货的购买次数,获知该类期货是否受欢迎,如果购买次数多,则保留该类期货,如果购买次数少,则将该类期货下架。
其中,逻辑计算公式中,逻辑运算符包括:交集运算符“∩”、并集运算符“∪”。
通过上述方案,能够预先将各类基金的业务数据编码成INT型编码数据存储在全局字典表中;然后将公司存储在数据库中业务基金运行时的明细数据,按照业务维度分组后,每组数据与全局字典表中的INT型编码数据进行匹配,匹配后的结果排列形成bit数据流,每个业务维度对应的bit数据流进行关联后,列表存储,由于bit是计算机计算中的基本计算单元,因此通过bit数据流的方式进行存储可以将原有的存储容量减少几十倍,进而在查找待计算bit数据流时,能够有效减少查找时间,提高查找效率,根据逻辑计算公式进行运算时,可以使用bit数据流的and或者or进行聚合,通过较少的bit操作即可实现跨业务维度的快速聚合计算,通过这样的方法大大提升了去重指标在计算时的效率,且节省了存储和计算时所使用硬件成本。
在具体实施例中,步骤105具体包括:
步骤1051,对业务维度数据中的至少一个明细数据进行编码,生成相应的INT型明细数据。
步骤1052,在全局字典表中查找INT型明细数据对应的INT型编码数据,若查找到则对应计数为1,若查找不到对应计数为0,将得到的包含0和/或1的一串计数作为bit数据流。
则上述步骤108具体包括:
将待计算bit数据流根据逻辑计算公式进行运算,统计运算结果中计数为1的数量,将计数为1的数量作为去重指标。
例如,逻辑计算公式为A∩B,其中,A和B均为待计算业务维度,则从上述得到的列表中查找A和B对应的bit数据流,分别为A=(01001101),B=(10001101),将两组bit数据流进行交集运算得到的结果为(00001101),则对应的去重指标即为(00001101)。其中“1”的数量有3个则对应的去重指标为3。
在上述方案中,得到的bit数据流为二进制数组,该bit数据流的位数即为业务维度数据中的明细数据的数量。二进制数是计算机最容易识别的数码,这样,直接将二进制数组根据逻辑计算公式进行运算,能够进一步提高运算速度,提高去重指标的计算速率。
在具体实施例中,步骤106具体包括:
步骤1061,获取每个业务维度数据的名称,将名称转换成数码,将对应的bit数据流放置在数码之后组合成bit数组。
步骤1062,将bit数组转换成矩阵,对矩阵进行转置,并列表存储。
在上述方案中,将对应的业务维度数据的名称,转换成与bit数据流相同进制的数码。例如,bit数据流为二进制数,则将名称转换成二进制数码;bit数据流为八进制数,则将名称转换成八进制数码。
由于bit数据流与数码组合后得到的bit数组可能位数较多,这样在计算去重指标时就会占用较大的运行宽度,为了避免这种情况,将bit数组进行矩阵转换,降低bit数组的宽度,从而提高去重指标的计算速率。
在具体实施例中,步骤1062具体包括:
步骤10621,统计bit数组的所有数字的数量n。
步骤10622,计算矩阵每层维度中数字的数量p,公式为:p=[n/m]向上取整,其中,m为预先设定的矩阵维度。
步骤10623,将bit数组的所有数字,每组为p个拆分成m组,其中,最后一组的数字不满p个的用0补充。
步骤10624,将m组数字按照矩阵形式进行排列,排列成m维矩阵。
步骤10625,对m维矩阵进行转置运算后,列表存储。
例如,bit数组为[0,1,1,0,1,0,1,0,1,1,0,0,0,1,0,1,0,0,1,1,1],则数字的数量n=21,若预先设定的威震维度为5,则p=[21/5]向上取整=5。对该bit数组进行拆分,分成五组,分别为,[0,1,1,0,1],[0,1,0,1,1],[0,0,0,1,0],[1,0,0,1,1],[1],最后一组用“0”补充完成后[1,0,0,0,0],则得到的五维矩阵为:
Figure BDA0002430500880000071
对该矩阵进行转置后为:
Figure BDA0002430500880000072
将该矩阵存储在列表中。
在具体实施例中,步骤101具体包括:
步骤1011,获取各类基金的业务数据。
步骤1012,提取每个业务数据中的金额数据,将金额数据与对应的金额范围比对进行金额检查,若超出金额范围,则将对应的业务数据删除。
步骤1013,对经过金额检查后的业务数据进行排空检查,判断经过金额检查后的业务数据中是否有空值数据,若有则将空值数据删除。
步骤1014,对排空检查后的业务数据进行去重检查,将重合的业务数据进行删除。
步骤1015,将去重检查后得到的业务数据作为去重对象。
通过上述方案,对业务数据进行金额检查,能够保证得到的每个业务数据的金额都是正常数据;有些客户建立账户之后只是输入了对应的基金的购买意向,并没有真正购买该基金,因此该用户的业务数据就全部是空值,为了避免这种数据干扰去重指标的计算,同样也需要将这些空值的业务数据删除;另外有些业务数据在统计时,可能会出现重复统计,因此需要将重复烦人业务数据删除,避免了重复业务数据占用空间的现象,同时保证经过计算得到的去重指标的准确性。
在具体实施例中,步骤102具体包括:
步骤1021,提取去重对象中的文字数据和/或数字数据。
步骤1022,将文字数据转换成整型数据。
步骤1023,将数字数据输入INT函数中,对数字数据进行向下取整运算,得到对应的取整数据。
步骤1024,将整型数据与取整数据进行组合,形成INT型编码数据。
在上述方案中,预先为每个中文和英文设置对应的转换数字(该转换数字为整数)。将去重对象的文字数据转换成相应的转换数字,进行INT编码,将去重对象中的数字输入INT函数进行向下取整运算,然后将两部分的整型数字进行结合得到INT型编码数据。
在具体实施例中,如果用户发现新的去重对象,想要将其添加至全局字典表中,步骤如下:
步骤109,获取待添加的去重对象。
步骤110,从全局字典表中查找待添加的去重对象对应的INT型编码数据,若找到,则执行步骤111,若未找到,则执行步骤112。
步骤111,将待添加的去重对象删除。
步骤112,将待添加的去重对象进行编码,生成相应的待添加的INT型编码数据。
步骤113,将待添加的INT型编码数据存储至所述全局字典表中。
通过上述方案,可以实现全局字典的更新,保证该全局字典中的内容始终保持为最新数据,这样避免出现去重对象遗漏,导致计算得到的去重指标不够精确的情况。
在本申请的另一个实施例的基金审计的去重指标计算方法中,包括如下步骤:
首先去重指标是指在不同的时间和维度范围内,重复产生一个行为的数据只计算一次,例如,去重指标包括就诊人数、缴费人数、项目使用次数等。在统计这些行为数据时由于不同维度的划分和聚合都需要全量数据的参与,因此会产生大量的io,进而导致计算时会同样消耗大量的内存和CPU资源。
本方法由原来去重对象的存储数据结构为普通字符,数据不断递增,利用将数据全部取出放在内存中排序去重后,再进行计数形式进行计算。能满足基金审计的业务需求,同时还可以将原有的存储容量减少几十倍。这样使后面的查询IO大幅减少,使整体的计算性能得到大幅提升。
具体为:
一、统计去重对象
1、从各个公司的数据库中提取存储的各个基金的业务数据。
各个基金的业务数据作为去重对象,例如去重对象包括就诊人、参保人、药品、耗材等。
统计完成后,将医保核心数据库中的核心业务数据、各种文档文案数据将其转换成结构化的数据存储到数据库中。
3、对数据库中的数据进行清洗。
(1)对落到数据库中业务数据进行正确性检查,包括业务规则和技术规则的检查。
业务规则包括金额数据是否正确,数值的是否在正确值域的范围内,若正确,则保留数据,若不正确,则将数据删除。
技术规则包括:将字段为空的数据以及重合数据进行删除等。
二、将去重对象生成全局字典表进行存储
具体为:
1、对去重对象进行编码生成独立的INT型数据,并将INT型数据与去重对象进行一一对应形成映射,组成去重对象的全局字典表。
2、当出现新增的去重对象时,将新增去重对象与全局字典表进行对比,若去重对象在全局字典表里面已经存在,则无需添加,若不存在,按照递增的规则生成新的int编码添加至全局字典表中,形成新的全局字典表存储在数据库中。可以避免去重指标计算时在全局字典表形成IO,提升计算的性能。
三、计算每个去重维度对应的去重指标
将存储在公司数据中各个维度维度对应的明细数据提取出来。
将第一个维度对应的明细数据与上述全局字典表中的去重对象进行关联,关联上的用1表示,关联不上的用0表示,形成一串bit数据流。将每层维度与对应的bit数据流进行关联,生成一个新的列表,其中bit数据流中0和1来表示明细数据在字典表中是否存在,用0或1的位置代表明细数据在bit数据流中的偏移量。
然后,将公司需要的各个维度的明细数据,按照上述方法全部计算完成,统计并存储至列表中。
将上述列表中的bit数据流转换成成矩阵,对该矩阵进行转置运算后,将得到的列表存储至数据库中。
用户输入需要计算的维度(例如,输入维度A、B、C),以及计算公式(例如,A∩B∪C),从数据库的列表中调取需要计算的维度对应的bit数据流,按照上述公式进行并集或者交集运算,得到计算结果,统计计算结果中为1的值的数量,作为去重指标值。
综上所述,采用本方法后,关于去重指标在明细层的存储减少数十倍,节省了存储方面的资源和成本,同时由于存储量的减少在使用时同时减少了计算时所消耗的CPU、IO、内存等系统资源的消耗,提升了系统使用的性能。同时统计结果精确,对于不同维度指标的计算可以使用bit数据流的and或者or进行聚合,同时由于数据具有原子性,通过较少的bit操作即可实现跨维度的快速聚合计算,从而取代了传统的计数形式,通过这样的方法大大提升了去重指标在计算时的效率,且节省了存储和计算时所使用硬件成本。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种基金审计的去重指标计算装置,如图2所示,装置包括:依次连接的获取模块21、编码模块22、字典表生成模块23、提取划分模块24、匹配模块25、关联模块26、查找模块27和运算模块28。
获取模块21,用于获取各类基金的业务数据,将每个业务数据作为去重对象;
编码模块22,用于将去重对象进行编码生成相应的INT型编码数据;
字典表生成模块23,用于将INT型编码数据与去重对象进行一一对应,并进行排列添加至全局字典表中;
提取划分模块24,用于提取数据库中的明细数据,对明细数据按照业务维度进行划分,得到至少一组业务维度数据,其中,每组业务维度数据包括至少一个明细数据;
匹配模块25,用于将业务维度数据中的至少一个明细数据,与全局字典表中的INT型编码数据进行匹配,将匹配结果按照匹配的顺序进行排列形成bit数据流,其中,匹配结果包括匹配成功或匹配失败,每组业务维度数据对应一个bit数据流;
关联模块26,用于将每组业务维度数据与bit数据流进行关联,并列表存储;
查找模块27,用于获取待计算业务维度的逻辑计算公式,从列表中查找待计算业务维度对应的待计算bit数据流;
运算模块28,用于将待计算bit数据流根据逻辑计算公式进行运算得到去重指标。
在具体实施例中,编码模块22,还用于对业务维度数据中的至少一个明细数据进行编码,生成相应的INT型明细数据;
查找模块27,还用于在全局字典表中查找INT型明细数据对应的INT型编码数据,若查找到则对应计数为1,若查找不到对应计数为0,将得到的包含0和/或1的一串计数作为bit数据流;
则运算模块28具体用于:将待计算bit数据流根据逻辑计算公式进行运算,统计运算结果中计数为1的数量,将计数为1的数量作为去重指标。
在具体实施例中,关联模块26具体包括:
获取单元,用于获取每个业务维度数据的名称,将名称转换成数码,将对应的bit数据流放置在数码之后组合成bit数组;
矩阵转换单元,用于将bit数组转换成矩阵,对矩阵进行转置,并列表存储。
在具体实施例中,矩阵转换单元具体包括:
统计单元,用于统计bit数组的所有数字的数量n;
数量计算单元,用于计算矩阵每层维度中数字的数量p,公式为:
p=[n/m]向上取整,其中,m为预先设定的矩阵维度;
拆分单元,用于将bit数组的所有数字,每组为p个拆分成m组,其中,最后一组的数字不满p个的用0补充;
排列单元,用于将m组数字按照矩阵形式进行排列,排列成m维矩阵;
转置单元,用于对m维矩阵进行转置运算后,列表存储。
在具体实施例中,获取模块21具体包括:
获取单元,用于获取各类基金的业务数据;
金额检查单元,用于提取每个业务数据中的金额数据,将金额数据与对应的金额范围比对进行金额检查,若超出金额范围,则将对应的业务数据删除;
排空检查单元,用于对经过金额检查后的业务数据进行排空检查,判断经过金额检查后的业务数据中是否有空值数据,若有则将空值数据删除;
去重检查单元,用于对排空检查后的业务数据进行去重检查,将重合的业务数据进行删除;
确定单元,用于将去重检查后得到的业务数据作为去重对象。
在具体实施例中,编码模块22具体包括:
提取单元,用于提取去重对象中的文字数据和/或数字数据;
整型转换单元,用于将文字数据转换成整型数据;
取整单元,用于将数字数据输入INT函数中,对数字数据进行向下取整运算,得到对应的取整数据;
组合单元,用于将整型数据与取整数据进行组合,形成INT型编码数据。
在具体实施例中,获取模块21,还用于获取待添加的去重对象;
查找模块27,还用于从全局字典表中查找待添加的去重对象对应的INT型编码数据;若找到,则将待添加的去重对象删除,若未找到,则将待添加的去重对象进行编码,生成相应的待添加的INT型编码数据;
字典表生成模块23,还用于将待添加的INT型编码数据存储至全局字典表中。
基于上述图1所示方法和图2所示装置的实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,如图3所示,包括存储器32和处理器31,其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序,处理器31执行计算机程序时实现图1所示的基金审计的去重指标计算方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述如图1所示方法和图2所示装置的实施例,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1所示的基金审计的去重指标计算方法。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与计算机设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,能够预先将各类基金的业务数据编码成INT型编码数据存储在全局字典表中;然后将公司存储在数据库中业务基金运行时的明细数据,按照业务维度分组后,每组数据与全局字典表中的INT型编码数据进行匹配,匹配后的结果排列形成bit数据流,每个业务维度对应的bit数据流进行关联后,列表存储,由于bit是计算机计算中的基本计算单元,因此通过bit数据流的方式进行存储可以将原有的存储容量减少几十倍,进而在查找待计算bit数据流时,能够有效减少查找时间,提高查找效率,根据逻辑计算公式进行运算时,可以使用bit数据流的and或者or进行聚合,通过较少的bit操作即可实现跨业务维度的快速聚合计算,通过这样的方法大大提升了去重指标在计算时的效率,且节省了存储和计算时所使用硬件成本。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基金审计的去重指标计算方法,其特征在于,所述方法的步骤包括:
获取各类基金的业务数据,将每个业务数据作为去重对象;
将所述去重对象进行编码生成相应的INT型编码数据;
将所述INT型编码数据与所述去重对象进行一一对应,并进行排列添加至全局字典表中;
提取数据库中的明细数据,对所述明细数据按照业务维度进行划分,得到至少一组业务维度数据,其中,每组业务维度数据包括至少一个明细数据;
将所述业务维度数据中的至少一个明细数据,与所述全局字典表中的INT型编码数据进行匹配,将匹配结果按照匹配的顺序进行排列形成bit数据流,其中,匹配结果包括匹配成功或匹配失败,每组业务维度数据对应一个bit数据流;
将每组业务维度数据与bit数据流进行关联,并列表存储;
获取待计算业务维度的逻辑计算公式,从所述列表中查找待计算业务维度对应的待计算bit数据流;
将所述待计算bit数据流根据所述逻辑计算公式进行运算得到去重指标。
2.根据权利要求1所述的基金审计的去重指标计算方法,其特征在于,将所述业务维度数据中的至少一个明细数据,与所述全局字典表中的INT型编码数据进行匹配,将匹配结果按照匹配的顺序进行排列形成bit数据流,具体包括:
对业务维度数据中的至少一个明细数据进行编码,生成相应的INT型明细数据;
在所述全局字典表中查找所述INT型明细数据对应的INT型编码数据,若查找到则对应计数为1,若查找不到对应计数为0,将得到的包含0和/或1的一串计数作为bit数据流;
则将所述待计算bit数据流根据所述逻辑计算公式进行运算得到去重指标,具体包括:
将所述待计算bit数据流根据所述逻辑计算公式进行运算,统计运算结果中计数为1的数量,将所述计数为1的数量作为去重指标。
3.根据权利要求1所述的基金审计的去重指标计算方法,其特征在于,所述将每组业务维度数据与bit数据流进行关联,并列表存储,具体包括:
获取所述每个业务维度数据的名称,将所述名称转换成数码,将对应的bit数据流放置在所述数码之后组合成bit数组;
将所述bit数组转换成矩阵,对所述矩阵进行转置,并列表存储。
4.根据权利要求3所述的基金审计的去重指标计算方法,其特征在于,将所述bit数组转换成矩阵,对所述矩阵进行转置,并列表存储,具体包括:
统计所述bit数组的所有数字的数量n;
计算矩阵每层维度中数字的数量p,公式为:p=[n/m]向上取整,其中,m为预先设定的矩阵维度;
将所述bit数组的所有数字,每组为p个拆分成m组,其中,最后一组的数字不满p个的用0补充;
将m组数字按照矩阵形式进行排列,排列成m维矩阵;
对所述m维矩阵进行转置运算后,列表存储。
5.根据权利要求1所述的基金审计的去重指标计算方法,其特征在于,所述获取各类基金的业务数据,将每个业务数据作为去重对象,具体包括:
获取各类基金的业务数据;
提取每个业务数据中的金额数据,将所述金额数据与对应的金额范围比对进行金额检查,若超出所述金额范围,则将对应的业务数据删除;
对经过金额检查后的业务数据进行排空检查,判断经过金额检查后的业务数据中是否有空值数据,若有则将空值数据删除;
对排空检查后的业务数据进行去重检查,将重合的业务数据进行删除;
将去重检查后得到的业务数据作为去重对象。
6.根据权利要求1所述的基金审计的去重指标计算方法,其特征在于,将所述去重对象进行编码生成相应的INT型编码数据,具体包括:
提取所述去重对象中的文字数据和/或数字数据;
将所述文字数据转换成整型数据;
将所述数字数据输入INT函数中,对所述数字数据进行向下取整运算,得到对应的取整数据;
将所述整型数据与所述取整数据进行组合,形成INT型编码数据。
7.根据权利要求1所述的基金审计的去重指标计算方法,其特征在于,所述方法还包括:
获取待添加的去重对象;
从所述全局字典表中查找所述待添加的去重对象对应的INT型编码数据;
若找到,则将所述待添加的去重对象删除,若未找到,则将所述待添加的去重对象进行编码,生成相应的待添加的INT型编码数据;
将所述待添加的INT型编码数据存储至所述全局字典表中。
8.一种基金审计的去重指标计算装置,其特征在于,所述装置包括:
获取模块,用于获取各类基金的业务数据,将每个业务数据作为去重对象;
编码模块,用于将所述去重对象进行编码生成相应的INT型编码数据;
字典表生成模块,用于将所述INT型编码数据与所述去重对象进行一一对应,并进行排列添加至全局字典表中;
提取划分模块,用于提取数据库中的明细数据,对所述明细数据按照业务维度进行划分,得到至少一组业务维度数据,其中,每组业务维度数据包括至少一个明细数据;
匹配模块,用于将所述业务维度数据中的至少一个明细数据,与所述全局字典表中的INT型编码数据进行匹配,将匹配结果按照匹配的顺序进行排列形成bit数据流,其中,匹配结果包括匹配成功或匹配失败,每组业务维度数据对应一个bit数据流;
关联模块,用于将每组业务维度数据与bit数据流进行关联,并列表存储;
查找模块,用于获取待计算业务维度的逻辑计算公式,从所述列表中查找待计算业务维度对应的待计算bit数据流;
运算模块,用于将所述待计算bit数据流根据所述逻辑计算公式进行运算得到去重指标。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基金审计的去重指标计算方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基金审计的去重指标计算方法的步骤。
CN202010234433.9A 2020-03-30 2020-03-30 一种基金审计的去重指标计算方法、装置及设备 Active CN111552689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010234433.9A CN111552689B (zh) 2020-03-30 2020-03-30 一种基金审计的去重指标计算方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010234433.9A CN111552689B (zh) 2020-03-30 2020-03-30 一种基金审计的去重指标计算方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111552689A CN111552689A (zh) 2020-08-18
CN111552689B true CN111552689B (zh) 2022-05-03

Family

ID=72002387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010234433.9A Active CN111552689B (zh) 2020-03-30 2020-03-30 一种基金审计的去重指标计算方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111552689B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220715B (zh) * 2021-07-08 2021-10-08 腾讯科技(深圳)有限公司 一种数据处理方法、系统、计算机及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824957A (zh) * 2016-03-30 2016-08-03 电子科技大学 分布式内存列式数据库的查询引擎系统及查询方法
CN109828968A (zh) * 2019-02-19 2019-05-31 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质
CN110069519A (zh) * 2018-08-23 2019-07-30 平安科技(深圳)有限公司 数据信息管理方法、装置、计算机设备及存储介质
US10387066B1 (en) * 2018-04-18 2019-08-20 EMC IP Holding Company LLC Providing data deduplication in a data storage system with parallelized computation of crypto-digests for blocks of host I/O data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824957A (zh) * 2016-03-30 2016-08-03 电子科技大学 分布式内存列式数据库的查询引擎系统及查询方法
US10387066B1 (en) * 2018-04-18 2019-08-20 EMC IP Holding Company LLC Providing data deduplication in a data storage system with parallelized computation of crypto-digests for blocks of host I/O data
CN110069519A (zh) * 2018-08-23 2019-07-30 平安科技(深圳)有限公司 数据信息管理方法、装置、计算机设备及存储介质
CN109828968A (zh) * 2019-02-19 2019-05-31 广州虎牙信息科技有限公司 一种数据去重处理方法、装置、设备、集群及存储介质

Also Published As

Publication number Publication date
CN111552689A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111488363A (zh) 数据处理方法、装置、电子设备及介质
WO2000010103A1 (fr) Procede et dispositif de recuperation, de stockage et de triage de donnees formatees en tableaux
CN111986792B (zh) 医疗机构评分方法、装置、设备及存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN112883190A (zh) 文本分类方法、装置、电子设备及存储介质
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
CN113159118A (zh) 物流数据指标的处理方法、装置、设备及存储介质
CN113051480A (zh) 资源推送方法、装置、电子设备及存储介质
CN114491047A (zh) 多标签文本分类方法、装置、电子设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN111552689B (zh) 一种基金审计的去重指标计算方法、装置及设备
CN115422924A (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN113449002A (zh) 车辆推荐方法、装置、电子设备及存储介质
CN114003787A (zh) 基于人工智能的数据可视化方法及相关设备
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
CN115495636A (zh) 网页搜索方法、装置及存储介质
CN111460293A (zh) 信息推送方法、装置及计算机可读存储介质
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN114490667A (zh) 多维度的数据分析方法、装置、电子设备及介质
CN113342283A (zh) 用户位置信息存储方法、装置、电子设备及可读存储介质
CN115081447A (zh) 软件开发的需求文档构建方法、装置、设备及存储介质
CN111652281B (zh) 信息数据的分类方法、装置及可读存储介质
CN113344674A (zh) 基于用户购买力的产品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220525

Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd.

Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001

Patentee before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd.