CN112988664B

CN112988664B - 数据归档方法、装置、设备及存储介质

Info

Publication number: CN112988664B
Application number: CN202110267044.0A
Authority: CN
Inventors: 欧坚民; 贺文涛
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2023-05-30
Anticipated expiration: 2041-03-11
Also published as: CN112988664A

Abstract

本发明涉及一种人工智能技术，揭露了一种数据归档方法、装置、设备及存储介质，该方法包括：获取预定数量的样本数据，及样本数据的类型信息，根据类型信息确定样本数据对应的多个特征字段数据；根据预设的数据字典，获取每条样本数据中多个特征字段数据的向量及对应的归档时间的向量，将每条样本数据中多个特征字段数据的向量与对应的归档时间的向量进行组合，得到多维向量；将每条样本数据的多维向量输入向量学习模型中进行训练，获取训练好的向量学习模型；获取待归档的数据，基于训练好的向量学习模型预测待归档的数据的归档时间，并按照归档时间对待归档的数据进行归档。本发明能够获取精准的数据归档时间，减少数据反归档次数。

Description

数据归档方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据归档方法、装置、设备及存储介质。

背景技术

随着存储介质和CPU、GPU运算能力的升级，数据呈现快速增长的趋势，给各数据库带来了较大的数据存储压力。如果能在满足实际需求的情况下，控制数据库的数据增长，使其保持在一定水平，那么可以极大地减轻数据库的存储压力，减少安全隐患及便于维护。目前，一般通过对数据进行归档来控制数据库中数据的增长，归档是按照数据的创建时间进行归档的。这种归档方法的缺陷是，不管是什么类型的数据，都是按照固定的时间间隔归档，对于一些常用的数据，例如一业务性质的数据，由于数据可能在一段较长的时间内使用到，归档时间不准确，导致这部分数据经常被反归档，数据库的存储空间不能有效地释放。

发明内容

本发明的目的在于提供一种数据归档方法、装置、设备及存储介质，旨在获取精准的数据归档时间，减少数据反归档次数。

本发明提供一种数据归档方法，包括：

获取预定数量的样本数据，以及每条所述样本数据的类型信息，根据所述类型信息确定所述样本数据对应的多个特征字段数据，每条所述样本数据包括对应的归档时间；

根据预设的数据字典，获取每条所述样本数据中多个所述特征字段数据的向量及对应的归档时间的向量，将每条所述样本数据中多个所述特征字段数据的向量与对应的归档时间的向量进行组合，得到每条所述样本数据对应的多维向量；

将每条所述样本数据对应的多维向量输入预定的向量学习模型中进行训练，获取训练好的向量学习模型；

获取待归档的数据，基于所述训练好的向量学习模型预测所述待归档的数据的归档时间，并按照所述归档时间对所述待归档的数据进行归档。

本发明还提供一种数据归档装置，包括：

获取模块，用于获取预定数量的样本数据，以及每条所述样本数据的类型信息，根据所述类型信息确定所述样本数据对应的多个特征字段数据，每条所述样本数据包括对应的归档时间；

组合模块，用于根据预设的数据字典，获取每条所述样本数据中多个所述特征字段数据的向量及对应的归档时间的向量，将每条所述样本数据中多个所述特征字段数据的向量与对应的归档时间的向量进行组合，得到每条所述样本数据对应的多维向量；

训练模块，用于将每条所述样本数据对应的多维向量输入预定的向量学习模型中进行训练，获取训练好的向量学习模型；

归档模块，用于获取待归档的数据，基于所述训练好的向量学习模型预测所述待归档的数据的归档时间，并按照所述归档时间对所述待归档的数据进行归档。

本发明还提供一种计算机设备，所述计算机设备包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的数据归档方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的数据归档方法的步骤。

本发明的有益效果是：本发明引入向量学习模型，针对不同类型的样本数据，确定各类型的样本数据中对应的多个特征字段数据及归档时间，通过预设的数据字典将样本数据组成多维向量，将样本数据的多维向量输入向量学习模型中进行训练，得到训练好的模型，训练好的模型可以精确预测数据的归档时间。本发明训练向量学习模型，预测数据应该归档的时间，得到更精准的数据归档时间，减少数据反归档次数，更有效地释放数据库的存储空间。

附图说明

图1为本发明数据归档方法一实施例的流程示意图；

图2为本发明数据归档装置一实施例的结构示意图；

图3为本发明计算机设备一实施例的硬件架构的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明数据归档方法一实施例的流程示意图。该数据归档方法包括：

步骤S1，获取预定数量的样本数据，以及每条所述样本数据的类型信息，根据所述类型信息确定所述样本数据对应的多个特征字段数据，每条所述样本数据包括对应的归档时间；

本实施例中，预定数量例如为50万。对于每条样本数据，按照数据的业务性质，可以分为业务数据及非业务数据，非业务数据例如为系统数据，系统数据主要是一些配置信息数据。按照数据的增长性质，可以分为近乎不增长的数据、快速增长的数据，近乎不增长的数据主要包括一些非业务数据、配置信息等数据，快速增长的数据主要是一些客户相关的数据，这类型数据随着时间和客户量的增长而快速增长，比如：客户保单数据，客户报案数据等。

对于上述的非业务数据或近乎不增长的数据，可以直接放置，不做处理。

对于上述的业务数据及快速增长数据，本实施例使用预定的归档算法(例如LRU算法，当然也可以是其他的归档算法)对数据进行监控，当有数据被更新或访问时，对被更新或访问数据的归档时间更新为当前时间。在一实施方式中，使用LRU(Least recentlyused，最近最少使用)算法进行归档，LRU算法根据数据的历史访问记录来进行淘汰数据，其核心思想是：如果数据最近被访问过，那么将来被访问的几率也更高。LRU算法以观察者的模式，监控表内数据的更新或访问状态，当有数据被更新或被访问时，预设的触发器被触发，同步更新归档时间。这样随着时间积累之后，低频使用的数据会逐渐下沉，高频使用的数据始终保持在上层。等到一定时间过去后，可以将下沉至底部的数据进行归档和删除。例如可以使用一个链表保存缓存数据，新数据插入到链表头部，每当缓存命中(即缓存数据被访问)，则将数据移到链表头部，当链表满的时候，将链表尾部的数据丢弃。

本实施例中，样本数据的类型信息包括多种，不同的领域有不同类型的数据，例如对于金融领域，类型信息可以是保险理赔类型、贷款类型等。每一类型的数据具有相应的特征字段数据，特征字段数据为可能影响数据归档时间的字段数据，例如，对于保险理赔类型的数据，其特征字段数据包括投保机构、保单产品、投保金额、投保时间、出险原因等等，特征字段数据的内容和数量选取得越合适则预测归档时间越准确。

其中，根据类型信息确定所述样本数据对应的多个特征字段数据具体包括：获取预设的关联表，所述关联表中记录有多个类型信息及与每一类型信息对应相关联的多个特征字段数据，基于所述关联表提取所述样本数据对应的多个特征字段数据。关联表中的每一类型信息对应的多个特征字段数据为经过大数据计算处理后所选出的权重较大的特征字段数据，例如可以采用验证法，逐个特征字段数据进行重要程度的验证，得到每个特征字段数据相应的权重，包括：获取某一类型信息所有的特征字段数据的集合，在该集合中随机去除某一个特征字段数据，使用该集合中剩余的特征字段数据预测该类型信息的数据的归档时间，通过预测的准确率来得到相应的权重，即越准确权重越大。获取权重大于预定值的n个特征字段数据作为关联表中该类型信息对应相关联的多个特征字段数据。

步骤S2，根据预设的数据字典，获取每条所述样本数据中多个所述特征字段数据的向量及对应的归档时间的向量，将每条所述样本数据中多个所述特征字段数据的向量与对应的归档时间的向量进行组合，得到每条所述样本数据对应的多维向量；

本实施例中，预设一个数据字典，数据字典中记录有各特征字段数据与对应的向量的映射关系，通过该数据字典可以将所有特征字段数据转化为对应的向量，这样，能够将各特征字段数据转化为计算机可以识别的语言。例如，对于特征字段数据(投保机构、保单产品，投保金额，…，出险原因)，从数字字典中查找后得到对应的向量为(1，2，3，…，n)。值得说明的是，可以使用各个位置信息表示各个特征字段数据，使用数字表示各个特征字段数据的向量值，例如第一个位置的特征字段数据为投保机构，数值1表示投保机构的向量值。至于归档时间，也可以使用数字映射不同的时间点，选取数字越多，映射的时间点越密集，将数字与时间点之间的关联关系记录也在数据字典中，通过数据字典也可以得到归档时间的向量。将每条样本数据中多个特征字段数据对应的向量与归档时间的向量进行组合，得到每条样本数据对应的多维向量。

步骤S3，将每条所述样本数据对应的多维向量输入预定的向量学习模型中进行训练，获取训练好的向量学习模型；

本实施例中，预定的向量学习模型为支持向量机模型，当然也可以是其他的向量学习模型，例如随机森林模型等，对于支持向量机模型，上述步骤S3具体包括：

获取所述支持向量机模型的多项式核函数，所述多项式核函数为：

d(XT)＝αi*d(vi)+ε，其中，αi是拉格朗日乘数，ε是回归函数偏移量，d(vi)是所述支持向量机模型的内置算法原型，v为多维向量，i为多维向量的序号，XT为待归档的数据对应的向量；

基于输入的每条所述样本数据对应的多维向量对所述支持向量机模型进行训练，确定所述多项式核函数并获取训练好的支持向量机模型。

其中，可以将样本数据按比例分为学习样本和训练样本(例如，按照3：7的比例)，调用API学习接口，读取学习样本并建立算法模型。之后，再调用API训练接口，导入训练样本进行训练，增加模型的预测精确度。训练的过程即为调整多项式核函数的过程，通过调整模型参数拉格朗日乘数及回归函数偏移量来调整多项式核函数，从而对支持向量机模型进行训练、优化。如果支持向量机模型的预测准确率达到预定的阈值(例如，0.9)，则结束训练，确定多项式核函数，得到训练后的支持向量机模型。

进一步地，为了增加模型的预测精确度，在验证时可以采用交叉验证的方式，上述步骤S3进一步包括：基于交叉验证的方式验证训练好的支持向量机模型，获取多个验证结果；基于所述多个验证结果计算所述训练好的支持向量机模型的预测准确率，当所述预测准确率达到预定的阈值时，确定所述多项式核函数。

本实施例采用交叉验证的方式，选取新的样本数据(例如，10万份)，将新的样本数据均分成若干份，随机有放回地抽取一定比例的新的样本数据作为训练数据，再取剩余的新的样本作为验证数据，校验模型的精确度。经过多轮交叉验证后，对每轮交叉验证的多个验证结果(归档时间)取平均值，通过该平均值计算支持向量机模型的预测准确率，当预测准确率达到预定的阈值时，确定多项式核函数，从而得到最终用于预测的支持向量机模型。

步骤S4，获取待归档的数据，基于所述训练好的向量学习模型预测所述待归档的数据的归档时间，并按照所述归档时间对所述待归档的数据进行归档。

其中，步骤S4具体包括：获取数据库表中的待归档的数据，及每条所述待归档的数据的类型信息，根据所述类型信息确定所述待归档的数据对应的多个特征字段数据；根据所述数据字典，获取每个所述特征字段数据对应的向量；将所述待归档的数据的多个特征字段数据对应的多个向量输入所述训练好的向量学习模型中，获取输出的各个归档时间，并按照各个归档时间对对应的所述待归档的数据进行归档。

获取数据库表中的待归档的数据包括：按照数据的业务性质对数据库表中的数据进行归档标记，将标记有归档字段的业务数据作为所述待归档数据，或者按照数据的增长性质对数据库表中的数据进行归档标记，将标记有归档字段的增长数据作为所述待归档数据。

在一实施方式中，以保险理赔类型的数据及训练支持向量机模型为例进行说明，如下表1所示样本数据对应的多个特征字段数据及对应的归档时间：

表1

按照预设的数据字典，获取保险理赔类型的向量序列作为样本数据，v＝[v1，v2，…，vn]，其中多维向量vn＝[f1，f2，…，fm，tn]，fm为特征字段数据，m为第n个样本数据的特征字段数据的数量，tn为第n个样本数据的归档时间。

设定归档时间集T＝{a1，a2，a3，…，an}，取到训练集：D＝{(v1，a1)，(v2，a2)，...，(vn，an)}，经过支持向量机模型训练获取到如下算法模型：

d(vi)＝ai for all i，其中，vi是样本数据的向量集合，ai是归档时间，d(vi)是支持向量机模型的内置算法原型，根据向量vn可以选对应的N阶多项式(回归)核函数进行模型训练。将上述算法模型d(vi)的常量提取出来，得到：d(XT)＝αi＊d(vi)+ε，其中αi是拉格朗日乘数，ε是回归函数偏移量，这两个值可以在训练中微调，当确定这两个值后即可确定算法模型，得到训练好的支持向量机模型。

通过上面的描述可以得出：本实施例引入向量学习模型，针对不同类型的样本数据，确定各类型的样本数据中对应的多个特征字段数据及归档时间，通过预设的数据字典将样本数据组成多维向量，将样本数据的多维向量输入向量学习模型中进行训练，得到训练好的模型，训练好的模型可以精确预测数据的归档时间。本实施例训练向量学习模型，预测数据应该归档的时间，得到更精准的数据归档时间，减少数据反归档次数，更有效地释放数据库的存储空间。

在一实施例中，本发明提供一种数据归档装置，该数据归档装置与上述实施例中方法一一对应。如图2所示，该数据归档装置包括：

获取模块101，用于获取预定数量的样本数据，以及每条所述样本数据的类型信息，根据所述类型信息确定所述样本数据对应的多个特征字段数据，每条所述样本数据包括对应的归档时间；

组合模块102，用于根据预设的数据字典，获取每条所述样本数据中多个所述特征字段数据的向量及对应的归档时间的向量，将每条所述样本数据中多个所述特征字段数据的向量与对应的归档时间的向量进行组合，得到每条所述样本数据对应的多维向量；

训练模块103，用于将每条所述样本数据对应的多维向量输入预定的向量学习模型中进行训练，获取训练好的向量学习模型；

归档模块104，用于获取待归档的数据，基于所述训练好的向量学习模型预测所述待归档的数据的归档时间，并按照所述归档时间对所述待归档的数据进行归档。

数据归档装置的具体限定可以参见上文中数据归档方法的限定，在此不再赘述。上述数据归档装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述计算机设备可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

如图3所示，所述计算机设备可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的计算机程序。需要指出的是，图3仅示出了具有组件11－13的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11可以是非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。本实施例中，存储器11的可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如存储本发明一实施例中的计算机程序的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central ProcessingUnit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片，用于运行所述存储器11中存储的程序代码或者处理数据，例如运行计算机程序等。

所述网络接口13可包括标准的无线网络接口、有线网络接口，该网络接口13通常用于在所述计算机设备与其他电子设备之间建立通信连接。

所述计算机程序存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器12执行，以实现本申请各实施例的数据归档方法，包括：

本实施例中，预定的向量学习模型为支持向量机模型，当然也可以是其他的向量学习模型，例如随机森林模型等，对于支持向量机模型，上述步骤具体包括：

进一步地，为了增加模型的预测精确度，在验证时可以采用交叉验证的方式，上述步骤进一步包括：基于交叉验证的方式验证训练好的支持向量机模型，获取多个验证结果；基于所述多个验证结果计算所述训练好的支持向量机模型的预测准确率，当所述预测准确率达到预定的阈值时，确定所述多项式核函数。

其中，上述步骤具体包括：获取数据库表中的待归档的数据，及每条所述待归档的数据的类型信息，根据所述类型信息确定所述待归档的数据对应的多个特征字段数据；根据所述数据字典，获取每个所述特征字段数据对应的向量；将所述待归档的数据的多个特征字段数据对应的多个向量输入所述训练好的向量学习模型中，获取输出的各个归档时间，基于所述各个归档时间对对应的所述待归档的数据进行归档。

本实施例引入向量学习模型，针对不同类型的样本数据，确定各类型的样本数据中对应的多个特征字段数据及归档时间，通过预设的数据字典将样本数据组成多维向量，将样本数据的多维向量输入向量学习模型中进行训练，得到训练好的模型，训练好的模型可以精确预测数据的归档时间。本实施例训练向量学习模型，预测数据应该归档的时间，得到更精准的数据归档时间，减少数据反归档次数，更有效地释放数据库的存储空间。

在一个实施例中，本发明提供了一种计算机可读存储介质，计算机可读存储介质可以是非易失性和/或易失性存储器，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中数据归档方法的步骤，例如图1所示的步骤S1至步骤S4。或者，计算机程序被处理器执行时实现上述实施例中数据归档装置的各模块/单元的功能，例如图2所示模块101至模块104的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据归档方法，其特征在于，包括：

获取待归档的数据，基于所述训练好的向量学习模型预测所述待归档的数据的归档时间，并按照所述归档时间对所述待归档的数据进行归档；

其中，所述预定的向量学习模型为支持向量机模型，所述将每条所述样本数据对应的多维向量输入预定的向量学习模型中进行训练，获取训练好的向量学习模型的步骤，具体包括：

基于输入的每条所述样本数据对应的多维向量对所述支持向量机模型进行训练，确定所述多项式核函数并获取训练好的支持向量机模型；

基于交叉验证的方式验证训练好的支持向量机模型，获取多个验证结果；

基于所述多个验证结果计算所述训练好的支持向量机模型的预测准确率，当所述预测准确率达到预定的阈值时，确定所述多项式核函数；

所述获取待归档的数据，基于所述训练好的向量学习模型预测所述待归档的数据的归档时间，并按照所述归档时间对所述待归档的数据进行归档的步骤，具体包括：获取数据库表中的待归档的数据，及每条所述待归档的类型信息，根据所述类型信息确定所述待归档的数据对应的多个特征字段数据；根据所述数据字典，获取每个所述特征字段数据对应的向量；将所述待归档的数据的多个特征字段数据对应的多个向量输入所述训练好的向量学习模型中，获取输出的各个归档时间，并按照所述各个归档时间对对应的所述待归档的数据进行归档。

2.根据权利要求1所述的数据归档方法，其特征在于，所述获取预定数量的样本数据的步骤，具体包括：

分析数据库表中的数据的业务性质或增长性质，对于分析后得到的业务数据或增长数据，使用预定的归档算法对所述业务数据或增长数据进行归档；

将归档后的预定数量的所述业务数据或增长数据作为所述样本数据。

3.根据权利要求2所述的数据归档方法，其特征在于，所述预定的归档算法为最近最少使用算法，所述使用预定的归档算法对所述业务数据或增长数据进行归档的步骤，具体包括：监控所述数据库表中所述业务数据或增长数据的更新或访问状态，当有所述业务数据或增长数据被更新或被访问时，触发预设的触发器，并同步更新所述业务数据或增长数据的归档时间。

4.根据权利要求1所述的数据归档方法，其特征在于，所述根据所述类型信息确定所述样本数据对应的多个特征字段数据的步骤，具体包括：获取预设的关联表，所述关联表中记录有多个类型信息及与每一类型信息对应相关联的多个特征字段数据，基于所述关联表确定所述样本数据对应的多个特征字段数据。

5.一种数据归档装置，所述数据归档装置用于实现如权利要求1至4中任一项所述的数据归档方法的步骤，其特征在于，包括：

6.一种计算机设备，所述计算机设备包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的数据归档方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的数据归档方法的步骤。