CN114201972B

CN114201972B - 一种理财产品数据处理方法

Info

Publication number: CN114201972B
Application number: CN202111529081.0A
Authority: CN
Inventors: 王庆华; 刘颖源; 侯思思; 马巾祺; 王作全
Original assignee: Bank Of Changan Ltd By Share Ltd
Current assignee: Bank Of Changan Ltd By Share Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-07-05
Anticipated expiration: 2041-12-14
Also published as: CN114201972A

Abstract

公开了理财产品数据处理方法，方法中，导入理财产品初始数据，分类合并形成数据集合Q，基于所述数据集合Q进行语义分析，建立学习型数据字典集合N和哈希映射表H，对学习型数据字典集合N中每个元素映射形成结果集合A，读取数据集合Q中的元素X，如元素X是学习型数据字典集合N中的一个元素，通过哈希映射表H得出结果集合A中结果Y，基于数据集合Q构建快速对象队列，其中，基于数据集合Q中的元素X提取特征k以构成快速对象队列，基于数据集合Q合并结果集合A及快速对象队列并进行数据对齐处理得到可视化数据集合。

Description

一种理财产品数据处理方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种理财产品数据处理方法。

背景技术

理财产品数据涉及产品销售、投资交易、运营管理、信息披露等各个环节，散点式分布在多个内外部系统中，具有数据规模大、更新频率快、统计维度多、数据格式不一致、计算工作量大的特点，导致理财数据挖掘难度大，这对银行理财业务发展产生了制约影响，本领域急需一种能够自动地快速处理多格式数据的技术，使得数据便于统计、处理、更新和查询。

在背景技术部分中公开的上述信息仅仅用于增强对本发明背景的理解，因此可能包含不构成本领域普通技术人员公知的现有技术的信息。

发明内容

本发明的目的是提供一种理财产品数据处理方法。为了实现上述目的，本发明提供如下技术方案：

本发明的一种理财产品数据处理方法包括：

第一步骤，导入理财产品初始数据，分类合并形成数据集合Q，

第二步骤，基于所述数据集合Q进行语义分析，建立学习型数据字典集合N和哈希映射表H，对学习型数据字典集合N中每个元素映射形成结果集合A，读取数据集合Q中的元素X，如元素X是学习型数据字典集合N中的一个元素，通过哈希映射表H得出结果集合A中结果Y，

第三步骤，基于数据集合Q构建快速对象队列，其中，基于数据集合Q中的元素X提取特征k以构成快速对象队列，

第四步骤，基于数据集合Q合并结果集合A及快速对象队列并进行数据对齐处理得到可视化数据集合。

所述的一种理财产品数据处理方法中，所述初始数据包括产品名称。

所述的一种理财产品数据处理方法中，所述数据集合Q为多行多列的矩阵结构。

所述的一种理财产品数据处理方法中，第二步骤中，元素X不是学习型数据字典集合N中的一个元素，基于语义分析算法G对元素X进行词组分割，得出词组集合C,使用贪心算法进行中文断句，其中，读入词组字典D以及需要词组分割的中文短句S，执行贪心算法MaxMatch(S,D),MaxMatch表示递归函数名，当S为空，算法结束；否则设置循环变量i=LEN(S),LEN(S)表示中文短句S的文字个数；i每次递减1，令F=S的第一个文字，令R=S截取第一个文字外后面剩余的文字；如果F在词组字典D中，F加入结果集L，递归执行贪心算法MaxMatch(R,D);直到i少于等于0时，词组分割结束；如果F不在词组字典D中，F加入结果集L，返回结果集L。

所述的一种理财产品数据处理方法中，对词组集合C中每个元素X1匹配学习型数据字典集合N，如果元素X1是学习型数据字典集合N中的一个元素，通过哈希映射表H得出结果集合A中结果Y。

所述的一种理财产品数据处理方法中，快速对象队列为通过8个字节的LONGLONG型的特征数据的升序队列。可以理解的，快速对象队列是将产品名称进行提取特征值，形成一个LONGLONG型的特征数值，然后以折半插入的方式形成队列。在检索时候，根据特征数据进行折半查找进行快速搜索。产品名称特征值包含文本长度、奇数字节个数、字节数值和、字节移位校验等这些形成的唯一的特征值数据。

所述的一种理财产品数据处理方法中，数据对齐处理的对象为日期数据。

所述的一种理财产品数据处理方法中，数据对齐处理中，输入日期范围，起始日期为B,结束日期为E数据对齐算法中，根据用户输入日期范围，起始日期为B,结束日期为E，建立矩阵X[M,N]，横坐标M为天数,结束日期E减去开始日期B所得到的天数加1，其以开始日期E为坐标原点，N为结果集合A元素数目，令X[0...M,0...N]=0；读取产品每日的数据K，即X[D,A]=K（K>0，D>=0且<=M，D即为[B,E]日期区间某个任意日期减去B所得的天数，设置点P(X,Y)，X=0,Y=0，建立堆栈SL，将P压栈，堆栈SL出栈得到P1[X1,Y1]，令X[X1,Y1]=-1，计算左边点P2[X2,Y2](X2=X1-1,Y2=Y1)；如果矩阵X[X2,Y2]==0，将P2压栈，计算上边点P3[X3,Y3](X3=X1,Y3=Y1-1)；如果矩阵X[X3,Y3]==0，将P3压栈，计算右边点P4[X4,Y4](X4=X1+1,Y4=Y1)；如果矩阵X[X4,Y4]==0，将P4压栈，计算下边点P5[X5,Y5](X5=X1,Y5=Y1+1)；如果矩阵X[X5,Y5]==0，将P5压栈，直到堆栈SL为空，扫描矩阵X，获取元素值为-1的点集合Q，对Q中每个元素点P6[X6,Y6]，设置X[X6,Y6]=X[X6-1,Y6]。

在上述技术方案中，本发明提供的一种理财产品数据处理方法，具有以下有益效果：通过一致性处理后，语义分析产品数据以及建立快速对象队列提高查询速度，最后形成可视化产品数据。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中理财产品数据处理方法的流程示意图；

图2为本发明一个实施例中理财产品数据处理方法的可视化示例示意图；

图3为本发明一个实施例中理财产品数据处理方法的可视化示例示意图；

图4为本发明一个实施例中理财产品数据处理方法的可视化示例示意图；

图5为本发明一个实施例中理财产品数据处理方法的可视化示例示意图；

图6为本发明一个实施例中理财产品数据处理方法的可视化示例示意图；

图7为本发明一个实施例中理财产品数据处理方法的可视化示例示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图1至图7，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。如图1至图6所示，一种理财产品数据处理方法包括，

所述可视化数据集合是通过表格、折线图、柱状图、散点图、热力图等二维或者三维进行图形化展示的数据集合。根据可视化数据集合可以在计算机屏幕以图形的方式展现给用户。此可视化集合具有多维性的特点，能够清楚对数据的变量或者多个属性进行标识，并且所使用的数据可以根据每一维的量值来进行显示、组合、排序与分类。计算机可以通过动画、三维立体、二维图形、曲线和图像来对可视化数据集合进行显示，这样就可以对数据的相互关系以及模式来进行可视化分析。

所述的一种理财产品数据处理方法的优选实施方式中，所述初始数据包括产品名称。

所述的一种理财产品数据处理方法的优选实施方式中，所述数据集合Q为多行多列的矩阵结构。

所述的一种理财产品数据处理方法的优选实施方式中，第二步骤中，元素X不是学习型数据字典集合N中的一个元素，基于语义分析算法G对元素X进行词组分割，得出词组集合C,使用贪心算法进行中文断句，其中，读入词组字典D以及需要词组分割的中文短句S，执行贪心算法MaxMatch(S,D),MaxMatch表示递归函数名，当S为空，算法结束；否则设置循环变量i=LEN(S),LEN(S)表示中文短句S的文字个数；i每次递减1，令F=S的第一个文字，令R=S截取第一个文字外后面剩余的文字；如果F在词组字典D中，F加入结果集L，递归执行贪心算法MaxMatch(R,D)；直到i少于等于0时，词组分割结束；如果F不在词组字典D中，F加入结果集L，返回结果集L。

在另一个实施例中，递归执行贪心算法伪代码还可以示例如下：

List MaxMatch(S,D)

{

if(empty(S)) return(null);

for(i=len(S);i>=0;i--)

{

F=left(S,1);

R=mid(S,1);

if(In(F,D))return(List(F,MaxMatch(R,D));

}

F=left(S,1);

R=mid(S,1);

return(List(F,MaxMatch(R,D));

}.

所述的一种理财产品数据处理方法的优选实施方式中，对词组集合C中每个元素X1匹配学习型数据字典集合N，如果元素X1是学习型数据字典集合N中的一个元素，通过哈希映射表H得出结果集合A中结果Y。

所述的一种理财产品数据处理方法的优选实施方式中，快速对象队列为通过8个字节的LONGLONG型的特征数据的升序队列。

所述的一种理财产品数据处理方法的优选实施方式中，数据对齐处理的对象为日期数据。

所述的一种理财产品数据处理方法的优选实施方式中，数据对齐处理中，输入日期范围，起始日期为B,结束日期为E，建立矩阵X[M,N]，横坐标M为天数，其以开始日期E为坐标原点，N为结果集合A元素数目），产品每日的数据K，X[D,A]=K（K>0），设置点P(X,Y)，X=0,Y=0，建立堆栈SL，将P压栈，堆栈SL出栈P1[X1,Y1]，令N[X1,Y1]=-1，计算左边点P2[X2,Y2](X2=X1-1,Y2=Y1)；如果矩阵X[X2,Y2]==0，将P2压栈，计算上边点P3[X3,Y3](X3=X1,Y3=Y1-1)；如果矩阵X[X3,Y3]==0，将P3压栈，计算右边点P4[X4,Y4](X4=X1+1,Y4=Y1)；如果矩阵X[X4,Y4]==0，将P4压栈，计算下边点P5[X5,Y5](X5=X1,Y5=Y1+1)；如果矩阵X[X5,Y5]==0，将P5压栈，直到堆栈SL为空，扫描矩阵X，获取元素值为-1的点集合Q，对Q中每个元素点P6[X6,Y6]，设置X[X6,Y6]=X[X6-1,Y6]。

在一个实施例中，数据处理方法的一部分数据来源于多个管理信息系统及手工的不规范的Excel文件数据，需要对其中一部分关键数据进行特征识别，分类，合并，计算等操作。数据存在不规范，上下文中文本描述不一致，但实际表示为同一个数据。例如产品名称存在：“ 长盈聚金白金-年定开”、“白金年定开（长盈聚金）”、“白金专属（年定开）”等描述，其实为同一个产品，均表示产品““长盈聚金”白金专属年定开净值型理财计划”，需要对其进行一定的语义分析，统一转换成““长盈聚金”白金专属年定开净值型理财计划”,语义分析算法如下：

建立所有产品名称结果集合Q；

建立学习型数据字典集合N；

建立哈希映射表H，对集合N中每个元素映射结果集合A；

以上即初步得到语义分析算法G，进一步的：

装载语义分析算法G；

读取新产品名称X；

如果X是集合N中的一个元素，通过哈希表H得出集合A中结果Y；

如果X不是集合N中的一个元素，X传入语义分析算法G中处理。

示例性的，在另一个实施例中，

G对X进行中文断句来词组分割，得出词组集合C,使用贪心算法进行中文断句，算法如下：

读入词组字典D；

读入一个中文短句S；

设置循环变量i=LEN(S),i--，直到i<=0；

令F=S的第一个字；

令R=S的剩余字；

如果F在D中，F加入结果集L, 令S=R，跳转到上述设置循环变量i的步骤继续迭代；

F加入结果集L, 返回L。

进一步的，在另一个实施例中，

对词组集合C中每个元素，以X1匹配集合N，如果X1是集合N中的一个元素，通过哈希表H得出集合A中结果Y，算法结束。

进一步的，

建立词组集合C与所有产品名称结果集合Q的映射关系K；

根据已有的K关系，给出优选解；

根据优选解确定最优解Y1以及学习型数据字典N，获得新解Y2作为结果Y，学习结束；

如果没有最优解，确认是否新产品T，如果是新产品，添加到集合Q，否则提示处理失败。

在一个实施例中，在大量的数据中，对象数据“产品信息”在计算过程上下文大量引用，为了能快速检索引用，本发明对“产品信息”建立快速队列。此处描述的快速队列是通过8个字节的LONGLONG型的特征数据的升序队列，可以支持折半查找来提升检索速度；此处描述的特征数据是根据产品的文本信息提取出来的特征所得到的数据，具体算法如下：

建立对象数组ArrayL；

读入产品名称X，提取X特征K，提取算法如下：

设置特征K=0（K为LONGLONG型,64位,0~63位表示高低位）；

读取产品名称X长度L，将L MOD 255所得L1放入K中56~63位；

设置奇数个数S1=0；

对X每个字节B，如果(B MOD 2) = 1,S1=S1+1；

将S1 MOD 255所得之S1_1放入K中48~55位；

设置N1=0,N2=0,N3=0；

对X每个字节B

N1=(N1<<1) | B；

N2=N2+B；

N3=(N1<<1) | (B & 0XF)；

将N1放入K中0~31位；

将N2 MOD 255所得N2_1放入K中32~39位；

将N3 MOD 65535所得N3_1放入K中40~55位；

算法结束，K为特征数值。

设置下标B=0,上标T=COUNT(L),COUNT(L)为ArrayL数组元素个数；

设置M=(T+B)/2；

如果ArrayL[M].K==K，返回ArrayL[M]，算法结束；

如果M<COUNT(L)-1且ArrayL[M+1].K==K，返回ArrayL[M]，算法结束；

如果ArrayL[M].K>K，T=M，跳转到上述设置M=(T+B)/2的步骤，否则继续；

如果ArrayL[M].K<k，B=M，跳转到上述设置M=(T+B)/2的步骤，否则继续；

如果(T-B)<=1，没有找到结果，T-1位置插入新元素N,使N.K=K，N.Name=X,返回N,算法结束。

在一个实施例中，在用户选定的日期条件范围内容，数据长短不齐，为了能在图表中对数据可视化，本发明对数据对齐处理后才传入可视化组件以实施可视化中，其包括如下处理算法：

输入用户选定日期范围B,E(B为起始日期，E为结束日期）；

建立矩阵X[M,N]（横坐标M为天数，以用户选定的开始日期为坐标原点，N为所有的产品信息），矩阵所有元素置0；

对每个产品每日的数据K，X[D,A]=K（K>0）；

设置点P(X,Y)，X=0,Y=0；

建立堆栈SL，将P压栈；

堆栈SL出栈P1[X1,Y1]；

令N[X1,Y1]=-1；

计算左边点P2[X2,Y2](X2=X1-1,Y2=Y1)；如果矩阵X[X2,Y2]==0，将P2压栈；

计算上边点P3[X3,Y3](X3=X1,Y3=Y1-1)；如果矩阵X[X3,Y3]==0，将P3压栈；

计算右边点P4[X4,Y4](X4=X1+1,Y4=Y1)；如果矩阵X[X4,Y4]==0，将P4压栈；

计算下边点P5[X5,Y5](X5=X1,Y5=Y1+1)；如果矩阵X[X5,Y5]==0，将P5压栈；

跳转到上述堆栈SL出栈的步骤，直到堆栈SL为空；

扫描矩阵X，获取元素值为-1的点集合Q；

对Q中每个元素点P6[X6,Y6]，设置X[X6,Y6]=X[X6-1,Y6]。

在另一个实施例中，本发明揭示了如下示例：

如数据集合Q：

[

{name:长盈聚金白金-年定开,type:市价法},

{name:白金年定开（长盈聚金）,type:市价法},

{name:白金专属（年定开）,type:市价法},

{name:季季添利-开放式,type:市价法},

{name:季季添利（开放式）,type:市价法},

{name:季季开放式（长盛理财）,type:市价法},

]

进行语义分析；

通过数据字典N：[白金年定开、季季开放式]，

哈希表H：

[

{白金年定开=>“长盈聚金”白金专属年定开净值型理财计划},

{季季开放式=>“长盛理财”季季添利开放式净值型理财计划}

]

对Q中任意元素X：{name:白金年定开（长盈聚金）,type:市价法}中的“白金年定开（长盈聚金）”，进行语义分析后,在数据字典N中获得结果“白金年定开”，然后通过哈希表H获得结果Y(““长盈聚金”白金专属年定开净值型理财计划”)，如此循环，将Q中的每一个元素经过上述步骤后获得的结果形成结果集合A。

结果集合A：

[

{name:“长盈聚金”白金专属年定开净值型理财计划,type:市价法},

{name:“长盛理财”季季添利开放式净值型理财计划,type:市价法},

]

然后对集合A通过提取特征方式形成快速队列,队列按特征key已排序，支持折半查找：

[

{key:16384216383524038571,name:“长盈聚金”白金专属年定开净值型理财计划,type:市价法 },

{key:16383494163834156076,name:“长盛理财”季季添利开放式净值型理财计划,type:市价法},

]

对快速队列进行数据对齐：

[

{key:16384216383524038571,name: “长盈聚金”白金专属年定开净值型理财计划,

data:{date:2021-09-01,value:1,date:2021-09-02,value:1.001,date:2021-09-03,value:1.002,date:2021-09-04,value:1.003,date:2021-09-05,value:1.002,date:2021-09-06,value:1.004,date:2021-09-07,value:1.005,date:2021-09-08,value:1.006,date:2021-09-09,value:1.007,date:2021-09-10,value:1.008}},

{key:16383494163834156076,name: “长盛理财”季季添利开放式净值型理财计划，

data:{date:2021-09-03,value:1,date:2021-09-04,value:1.020,date:2021-09-05,value:1.024,date:2021-09-06,value:1.028,date:2021-09-08,value:1.030,date:2021-09-09,value:1.032}},

{key:16382821638426696794,name:“长盈聚金”白金专属封闭式净值型理财计划，

data:{date:2021-09-02,value:1,date:2021-09-03,value:1.003,date:2021-09-04,value:1.004,date:2021-09-07,value:1.005,date:2021-09-08,value:1.003,}},

]

初始化形成矩阵如下：

处理后的矩阵如下：

进一步参见图7，三个理财产品数据经过对齐后，前后为0的数据将在可视化图形折线图上被忽略，矩阵中的数值为可视化折线图图形中的Y轴数值进行展示，从而通过图7可视化的表达上述几个理财产品的净值的净值走势和波动情况，以方便本领域人员形象的理解走势和波动情况。

最后应该说明的是：所描述的实施例仅是本申请一部分实施例，而不是全部的实施例，基于本申请中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种理财产品数据处理方法，其特征在于，其包括以下步骤：

第四步骤，基于数据集合Q合并结果集合A及快速对象队列并进行数据对齐处理得到可视化数据集合；

其中，

快速对象队列为通过8个字节的LONGLONG型的特征数据的升序队列；

数据对齐处理中，输入日期范围，起始日期为B,结束日期为E，数据对齐算法中，根据用户输入日期范围，起始日期为B,结束日期为E，建立矩阵X[M,N]，横坐标M为天数,结束日期E减去开始日期B所得到的天数加1，其以开始日期E为坐标原点，N为结果集合A元素数目，令X[0...M,0...N]=0；读取产品每日的数据K，即X[D,A]=K，K>0，D>=0且<=M，D即为[B,E]日期区间某个任意日期减去B所得的天数，

设置点P(X,Y)，X=0,Y=0，建立堆栈SL，将P压栈，堆栈SL出栈得到P1[X1,Y1]，令X[X1,Y1]=-1，计算左边点P2[X2,Y2]，X2=X1-1,Y2=Y1；如果矩阵X[X2,Y2]==0，将P2压栈，计算上边点P3[X3,Y3]，X3=X1,Y3=Y1-1；如果矩阵X[X3,Y3]==0，将P3压栈，计算右边点P4[X4,Y4]，X4=X1+1,Y4=Y1；如果矩阵X[X4,Y4]==0，将P4压栈，计算下边点P5[X5,Y5]，X5=X1,Y5=Y1+1；如果矩阵X[X5,Y5]==0，将P5压栈，直到堆栈SL为空，扫描矩阵X，获取元素值为-1的点集合Q，对Q中每个元素点P6[X6,Y6]，设置X[X6,Y6]=X[X6-1,Y6]。

2.根据权利要求1所述的一种理财产品数据处理方法，其特征在于，所述初始数据包括产品名称。

3.根据权利要求1所述的一种理财产品数据处理方法，其特征在于，所述数据集合Q为多行多列的矩阵结构。

4.根据权利要求1所述的一种理财产品数据处理方法，其特征在于，数据对齐处理的对象为日期数据。