CN101221578A - 数据筛选的方法、装置以及证券化贷款的筛选方法、装置 - Google Patents

数据筛选的方法、装置以及证券化贷款的筛选方法、装置 Download PDF

Info

Publication number
CN101221578A
CN101221578A CNA2008100060740A CN200810006074A CN101221578A CN 101221578 A CN101221578 A CN 101221578A CN A2008100060740 A CNA2008100060740 A CN A2008100060740A CN 200810006074 A CN200810006074 A CN 200810006074A CN 101221578 A CN101221578 A CN 101221578A
Authority
CN
China
Prior art keywords
data item
loan
data
screening
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100060740A
Other languages
English (en)
Other versions
CN101221578B (zh
Inventor
梁东
邱昆
王步锋
郭红军
黄辉
霍成
孙延凡
李金波
黄耀奇
张佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN2008100060740A priority Critical patent/CN101221578B/zh
Publication of CN101221578A publication Critical patent/CN101221578A/zh
Application granted granted Critical
Publication of CN101221578B publication Critical patent/CN101221578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种数据筛选的方法,应用于至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选,包括:执行预筛选,剔除不满足筛选要求的数据记录,形成预选库;由所述预选库中筛选出满足筛选条件的数据记录,形成备选库;提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容;根据第一数据项内容执行随机分布控制,随机筛选数据记录,然后根据第二数据项内容对该数据记录进行集中度控制;若该记录满足集中度要求,判断该数据记录的第三数据项内容是否满足匹配条件,若是,将该数据记录移入目标数据库。本发明还提供一种数据筛选装置以及证券化贷款的筛选方法、装置。本发明进行数据筛选时用时较少且效率较高。

Description

数据筛选的方法、装置以及证券化贷款的筛选方法、装置
技术领域
本发明涉及数据处理领域,特别涉及一种数据筛选的方法、装置以及证券化贷款的筛选方法、装置。
背景技术
现实生活中,常常需要从大量的数据记录中筛选出满足要求的数据记录,以便于对筛选出的数据进行分类、总结或其它的后续处理。例如,从记录有各个学科的期末考试成绩的数据库中筛选出英语成绩大于60分的学生;从某公司的员工数据库中筛选出年终评定为优秀的员工;或者从银行的贷款数据库中寻找出满足证券化条件的贷款记录等。
现有的一种数据筛选的方法中,通过将数据库中的全部记录都提取到应用程序,然后逐条进行判断,来找出满足要求的数据记录。采用所述的方法,数据传输量大,耗时较长,效率较低。
发明内容
本发明提供一种数据筛选的方法、装置以及证券化贷款的筛选方法、装置,本发明进行数据筛选时用时较少且效率较高。
本发明提供的一种数据筛选的方法,应用于至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选,包括:
A1执行预筛选,从待选数据库中剔除不满足筛选要求的数据记录,满足要求的数据记录形成预选库;
A2根据筛选条件生成数据库查询语句,利用所述查询语句由所述预选库中筛选出满足筛选条件的数据记录,形成备选库;
A3在所述备选库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容;
A4根据第一数据项内容执行随机分布控制,随机访问所述备选库中的数据记录;对于随机访问的每一条数据记录,根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例,若所述第三数据项内容达到比例要求,则舍弃该数据记录;否则,执行步骤A5;
A5判断该数据记录的第三数据项内容是否满足匹配条件,若是,将该数据记录移入目标数据库,否则,返回至步骤A4。
可选的,所述第一数据项和第二数据项为同一的数据项;或
第二数据项和第三数据项为同一的数据项;或
第一数据项和第三数据项为同一数据项;或
第一数据项、第二数据项和第三数据项为同一数据项。
可选的,所述第一数据项和/或第二数据项和/或第三数据项为数值数据项。
可选的,在待筛选数据库中按照黑列表的方式,根据关键字剔除不满足筛选要求的数据记录。
可选的,执行随机分布控制的步骤如下:
将所述备选库中的数据记录导入以数据项为分布维度的空间矩阵中;
通过均匀随机函数均匀的访问所述空间距阵中的数据记录。
可选的,所述空间距阵为稀疏的空间距阵。
可选的,若数据项为离散数值型数据项,则该数据项直接作为空间坐标;
若数据项为连续数值型数据项,则将该连续值在备选库的取值范围分为N等分,将连续值转换为分段的离散值作为空间坐标。
本发明还提供一种数据筛选的方法,应用于至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选,包括:
A11执行预筛选,从待选数据库中剔除不满足筛选要求的数据记录,形成预选库;
A21根据筛选条件生成数据库查询语句,利用所述查询语句由所述预选库中筛选出满足筛选条件的数据记录,形成备选库;
A31在所述备选数据库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容;
A41根据第一数据项内容执行随机分布控制,随机访问所述备选库中的数据记录;
A51对于每一条数据记录,判断该数据记录的第三数据项内容是否满足匹配条件,若是,执行步骤A61;否则,舍弃该数据记录,返回至步骤A41;
A61根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例,若所述第三数据项内容达到比例要求,则舍弃该数据记录,返回步骤A41,否则,将该数据记录移入目标数据库。
可选的,所述第一数据项和第二数据项为同一的数据项;或
第二数据项和第三数据项为同一的数据项;或
第一数据项和第三数据项为同一数据项;或
第一数据项、第二数据项和第三数据项为同一数据项。
可选的,所述第一数据项和/或第二数据项和/或第三数据项为数值数据项。
可选的,在待筛选数据库中按照黑列表的方式,根据关键字剔除不满足筛选要求的数据记录。
本发明还提供一种数据筛选装置,用于对至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选,包括:
用于从待选数据库中剔除不满足筛选要求的数据记录、形成预选库的预处理装置;
根据筛选条件生成数据库查询语句、利用所述查询语句由所述预选库中筛选出满足筛选条件的数据记录、形成备选库的筛选器;
在所述备选库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容的数据项提取装置;
用于根据第一数据项内容执行随机分布控制、以随机访问所述备选库中的数据记录随机分布控制控制器;
根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例的集中度控制器;
用于判断该数据记录的第三数据项内容是否满足匹配条件以及是否满足集中度控制的比例要求的判断装置。
可选的,所述集中度控制器包括:用于将所述备选库中的数据记录导入以数据项为分布维度的空间矩阵中的导入单元;和
用于通过均匀随机函数均匀的访问所述空间距阵中的数据记录的访问单元。
本发明还提供一种证券化贷款筛选的方法,用于从贷款记录集合中筛选出满足证券化的贷款记录,包括:
B1执行预筛选,从待选贷款记录集合中剔除不满足筛选要求的记录,满足要求的贷款记录形成预选库;
B2根据筛选条件生成数据库查询语句,利用所述查询语句由所述预选库中筛选出满足筛选条件的贷款记录,形成备选库;
B3在所述备选库中提取用于随机分布控制的贷款指标的内容和用于集中度控制的贷款指标的内容;
B4根据随机分布控制贷款指标的内容执行随机分布控制,随机访问所述备选库中的贷款记录;对于随机访问的每一条记录,根据集中度控制贷款指标的内容进行集中度控制,以控制该内容的贷款记录的贷款金额在用于证券化的目标贷款金额中的比例,若贷款金额达到或超过比例要求,则舍弃该贷款记录,并返回步骤B4;否则执行步骤B5;
B5判断目标贷款记录库中已有贷款记录的贷款金额总和与该该贷款记录的贷款金额之和是否小于目标贷款金额,若是,将该贷款记录移入目标贷款记录库;否则,则舍弃该贷款记录,返回步骤B4;
其中,所述贷款指标包括贷款金额、贷款合同期限、剩余期限、利率和/或担保方式。
本发明还提供一种证券化贷款筛选装置,用于从贷款记录集合中筛选出满足证券化的贷款记录,包括:
用于从待选贷款记录集合中剔除不满足筛选要求的记录、形成预选库预处理装置;
根据筛选条件生成数据库查询语句、利用所述查询语句由所述预选库中筛选出满足筛选条件的贷款记录、形成备选库的筛选器;
在所述备选库中提取用于随机分布控制的贷款指标的内容和用于集中度控制的贷款指标的内容的贷款指标提取装置;
根据随机分布控制贷款指标的内容执行随机分布控制、随机访问所述备选库中的贷款记录的随机分布控制器;
对于随机访问的每一条记录,根据集中度控制贷款指标的内容进行集中度控制,以控制该内容的贷款记录的贷款金额在用于证券化的目标贷款金额中的比例的集中度控制器;
判断目标贷款记录库中已有贷款记录的贷款金额总和与该贷款记录的贷款金额之和是否小于目标贷款金额、判断该贷款记录的贷款金额是否满足集中度控制要求的判断装置;
其中,所述贷款指标包括贷款金额、贷款合同期限、剩余期限、利率和/或担保方式。
与现有技术相比,上述技术方案的其中一个具有以下优点:
首先通过预筛选剔除不满足要求的数据记录,减少筛选时的数据处理量,接着,根据筛选条件生成筛选查询语句执行数据筛选,利用数据库的并行处理能力,批量处理数据记录,减少循环处理的过程开销,减少筛选时间,提高数据处理的效率。然后执行随机分布控制和集中度控制,保证筛选的随机性并对筛选的结果进行结构性控制,使得筛选出的目标数据库的数据记录满足比例要求。
应用所述的数据筛选方法在对贷款记录进行筛选时,首先采用排他法,先排除不可选中的数据,然后挑选符合条件的记录,降低处理过程中的数据量;批量处理数据记录,而不是逐条选择记录,减少循环处理的过程开销,数据处理量小,占用的硬件资源较少,可减少筛选时间,提高筛选的效率。并可保证满某一贷款指标的所有内容的贷款能够均匀且随机地被获取,而不仅是在符合条件的贷款中随意地挑选。
此外,应用所述方法可以对筛选结果中具有某一贷款指标的贷款余额进行结构性控制,保证该贷款指标下的不同内容的贷款金额占有的比例满足风险控制的要求。
附图说明
图1为本发明数据筛选的方法的第一实施例的流程图;
图2为本发明的数据筛选的方法的第二实施例的流程图;
图3为本发明的数据处理装置的实施例的框图;
图4为图3所示的实施例中的集中度控制器的其中一个实施例的框图;
图5为本发明的证券化贷款筛选的方法的实施例的流程图;
图6为本发明的证券化贷款的筛选装置的实施例的框图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细的说明。
现实生活中常常从大量的数据记录中筛选出满足一定要求的数据记录,本发明提供一种数据筛选的方法,首先,执行预筛选,剔除不满足要求的数据记录,减少执行筛选时的处理量;接着,采用数据库查询语句批量处理数据记录,提高处理的效率;再接着,执行随机分布控制以使筛选记录的选取具有随机性;并执行集中度控制,对筛选结果进行结构性控制。所述的方法能够缩短筛选的时间、提高数据筛选的效率、降低筛选过程中的数据处理量且筛选出的数据记录满足随机性要求和集中度要求。
下面结合实施例对所述的方法进行详细描述。
图1为本发明数据筛选的方法的第一实施例的流程图。请参考图1,步骤S100为执行预筛选,从待选数据库中剔除不满足筛选要求的数据记录,满足要求的数据记录形成预选库。
待筛选的数据库中一般具有大量的数据记录,例如,十万甚至百万条的数据记录。该数据库每一条数据记录都有第一数据项、第二数据项和第三数据项。
其中,所述第一数据项和第二数据项可以为同一的数据项;或第二数据项和第三数据项可以为同一的数据项;或第一数据项和第三数据项可以为同一数据项;或第一数据项、第二数据项和第三数据项可以为同一数据项,或者,三者均为不同的数据项。
所述第一数据项和/或第二数据项和/或第三数据项可以为数值数据项。
在执行筛选之前,首先执行所述的预筛选,从所述的待选数据库中剔除不满足筛选要求的数据记录,减少后续筛选步骤时的数据处理量,从而可减少筛选的时间,提高筛选的效率。
例如,某大学所有的学生的英语四级成绩的数据库,该数据库的每一条数据记录都包括姓名、班级、专业、四级成绩等数据项;其中,班级可以是95级、96级、97级和98级等,专业可以是数学专业、物理专业、化学专业等。筛选时需要从该数据库中筛选出97级英语四级成绩在85分以上(含85分)的学生500名,且需要每一个专业都有一定比例的学生被选中。
在执行筛选之前,首先进行所述的预筛选,例如,剔除该数据库中所有的非在校生的成绩记录;再剔除非97级的成绩记录,剩下的数据库中的数据记录全部为97级的所有在校生的成绩记录,这大大减少了后续筛选的数据量。
又如,从银行大量的贷款数据记录中挑选出一定金额(例如1000万人民币)的符合证券化的贷款记录,其中,每一贷款记录的贷款的数据项(或称为贷款指标)可以包括贷款金额、贷款合同期限、剩余期限、利率和/或担保方式等。在筛选之前,执行所述的预筛选,剔除不满足证券化条件的贷款记录,从而减小后续筛选的数据量。如,将贷款记录中已经转让的贷款记录剔除,将已经被其它证券化资产池选中的记录剔除等。
在其中的一个实施例中,在待筛选数据库中按照黑列表的方式,根据数据记录的关键字批量剔除不满足筛选要求的数据记录,被黑列表的数据记录表示已经由该待筛选数据库剔除,未被剔除的数据记录形成预选库。
在其它的实施例中,可以将待筛选数据库中的不满足要求的数据记录物理上删除,只保留满足筛选要求的数据记录,形成预选库。
步骤S110为根据筛选条件生成数据库查询语句,利用该查询语句对所述的预选库执行筛选,筛选出满足筛选条件的数据记录,形成备选库。
该步骤中,可以利用数据库软件SQL或者Oracle等,生成数据库查询语句,例如,结合使用Select、from和where语句设置查询条件;然后按照所述的查询条件执行查询操作,并标记出满足筛选条件的数据记录。该满足要求的数据记录生成备选库。通过利用该数据库软件的批量处理能力,执行数据查询筛选,可降低应用系统的数据记录处理量和需要获得的数据内容,缩短处理的时间,提高效率。
例如,对于所述的成绩查询,可以生成查询条件为:四级成绩>>=85;执行该查询命令,可查询出所有满足查询条件的记录。
又如,对于所述的满足证券化要求的贷款记录查询,若需要从满足要求的贷款记录中筛选出贷款金额大于或等于10万的记录,可生成查询条件为:贷款金额>>=10(万)。
步骤S120为在所述备选库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容。
执行完所述的筛选后,形成备选库,该备选库中的数据记录并非全部都需要,仅需要该备选库中的部分数据记录,因而,需要做进一步筛选。
然而步骤S110形成的备选库中的数据记录具有较强的排列顺序性,若直接由该备选库中按照排列顺序进行筛选,形成的目标数据库在某些数据项方面就会高度集中,因而,该步骤的筛选过程中需要进行随机分布控制,所谓随机分布控制即为按照某一数据项的内容,例如第一数据项的内容,对备选库中的数据记录进行随机筛选,以保证第一数据项的内容有相同的几率被筛选到,避免了形成的目标数据库第一数据项的某一内容过于集中,而该第一数据项的其它内容的数据记录较少或没有的情形。
此外,执行筛选过程中还需要按照第二数据项的内容进行集中度控制,以保证该第二数据项的不同内容的对应的第三数据项的不同内容在目标数据库中的比例(可以是数值比例或个数比例)符合要求。
其中,该第一数据项和第二数据项可以为相同的数据项或不同的数据项。
例如,对于所述的成绩查询,用于执行随机分布控制的第一数据项为专业,该数据项的内容为:物理专业、化学专业、数学专业等;执行随机分布控制,可保证每一专业的数据记录都有均等的几率被访问到。
用于集中度控制的第二数据项的内容也可以是专业,执行集中度控制,可保证物理专业的记录在全部的500条记录中占有20条,化学专业的记录占有50条......等。
又如,对于所述的满足证券化要求的贷款记录查询,用于随机分布控制的第一数据项的可以是剩余期限,其内容为相应的期限;执行随机分布控制可保证每一期限的贷款记录都有相同的几率被筛选;
用于集中度控制的第二数据项可以是担保方式,其内容为抵押、质押、保证等,通过集中库控制可控制形成的目标库中的不同的担保方式的贷款记录的比例。
步骤S130为根据第一数据项内容执行随机分布控制,随机访问所述备选库中的数据记录。
在其中的一个实施例中,建立以所述备选库中的所有数据项为分布维度的空间矩阵,将每一数据记录的作为空间的点置于所述空间矩阵中,每一空间点都记录有第一数据项的内容;然后通过均匀随机函数均匀的访问所述的空间矩阵中的每一个空间点的第一数据项的内容,进而访问该第一数据项内容所在的数据记录,确保满足筛选条件的每一数据记录在所述空间矩阵中能够被均匀的被访问到,且每一空间点的数据记录能够以相同的几率被选中。
在其中的一个实施例中,所述第一数据项和/或第二数据项和/或第三数据项为数值数据项,若数据项为离散数值型数据项,则该数据项直接作为空间坐标;
若数据项为连续数值型数据项,则将该连续值在备选库的取值范围分为N等分(其中N的取值可以根据实际的需要而定),将连续值转换为分段的离散值作为空间坐标。
在其中的一个实施例中,所述空间矩阵可以是稀疏空间矩阵,将不满足筛选条件的空间点设为零,从而可减少在随机分布控制中的数据处理量,减少访问时间,可以提高数据筛选的效率。
步骤S140,对于步骤S130中执行随机控制时随机访问的每一条记录,根据第二数据项的内容对该数据执行集中度控制,以控制该数据记录的第三数据项的内容在目标数据库中的比例,若第三数据项的内容达到比例要求,则舍弃该数据记录(步骤S170),并返回步骤S130,继续随机筛选下一条数据记录;否则执行步骤S150。
例如,对于所述的成绩查询,随机筛选筛选出内容如下的数据记录:
姓名:AAA;
班级:97级;
专业:物理专业:
四级成绩:91;
若第二数据项为专业,第三数据项为四级成绩,目标数据库要求物理专业的四级成绩大于90分的占全部目标数据库总人数中的百分之一,若目标数据库中为500人,则该步骤需要控制人数为5个;在该步骤中,需要判断物理专业人数在已经筛选出的记录中的个数加上本记录是否超过5个,若超过,则舍弃该数据记录,返回步骤S130,否则,执行步骤S150;对于第二数据项为其它的内容,例如数学专业,化学专业等,根据相应的比例要求执行该步骤。
又如,对于所述的满足证券化要求的贷款记录查询,随机筛选筛选出的贷款记录如下:
贷款金额:¥25万元;
贷款期限:10年;
剩余期限:5年;
利率:5.17%;
担保方式:抵押;
其中,第二数据项为担保方式,第三数据项为贷款金额;筛选要求目标数据库中贷款金额总额为1000万元,其中担保方式为抵押的贷款金额占全部总额的百分之十,即100万元;本步骤中,需要判断该贷款记录的贷款金额加上已经筛选出的满足要求的担保方式为抵押的贷款记录是否达到100万元,若已经达到,则舍弃该数据记录,返回步骤S130;否则,执行步骤S150。对于其它担保方式的贷款记录的贷款金额,按照目标数据库所需要的比例执行本步骤的集中度控制。
步骤S150,判断该数据记录的第三数据项内容是否满足匹配条件,若是,将该数据记录移入目标数据库(步骤S160);否则,则舍弃该数据记录(步骤S170)返回至步骤S130。
其中,所述的匹配条件为需要筛选出的目标数据库的某一数据项所需要满足的条件。例如对于所述的成绩查询大于85分的需要500人,即为匹配条件。对于满足随机分布控制和集中度控制的数据记录,判断成绩大于85分的成绩记录是否小于了500人,若是,将该数据记录移入目标数据库;否则,舍弃该数据记录,返回步骤S130。
又如,对于所述的满足证券化要求的贷款记录查询,全部的贷款记录的贷款金额之和总额为1000万元,所述的总额小于1000万即为匹配条件。对于满足随机分布控制和集中度控制的数据记录,判断目标数据库中已有的贷款记录加上该贷款记录的贷款金额总额是否小于1000万,若是,则将该数据记录移入目标数据库;否则,舍弃该数据记录,返回步骤S130。
所述的数据筛选的方法中,首先通过预筛选剔除不满足要求的数据记录,减少筛选时的数据处理量,接着,根据筛选条件生成筛选查询语句执行数据筛选,利用数据库的并行处理能力,批量处理数据记录,减少循环处理的过程开销,减少筛选时间,提高数据处理的效率。然后执行随机分布控制和集中度控制,保证筛选的随机性并对筛选的结果进行结构性控制,使得筛选出的目标数据库的数据记录满足比例要求。
图2为本发明的数据筛选的方法的第二实施例的流程图。
请参考图2,步骤S200,执行预筛选,从待选数据库中剔除不满足筛选要求的数据记录,形成预选库。
其中,所述待选数据库包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选。
所述第一数据项和第二数据项可以为同一的数据项;或第二数据项和第三数据项为同一的数据项;或第一数据项和第三数据项为同一数据项;或第一数据项、第二数据项和第三数据项为同一数据项;或者第一数据项、第二数据项和第三数据项均为不同的数据项;
所述第一数据项和/或第二数据项和/或第三数据项可以为数值数据项。
在其中的一个实施例中,在待筛选数据库中按照黑列表的方式,根据关键字剔除不满足筛选要求的数据记录。
步骤S210,根据筛选条件生成数据库查询语句,利用所述查询语句由所述备选库中筛选出满足筛选条件的数据记录,形成备选库。
步骤S220,在所述备选数据库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容。
步骤S230,根据第一数据项内容执行随机分布控制,随机访问所述备选库中的数据记录。
步骤S240,对于每一条记录,判断该数据记录的第三数据项内容是否满足匹配条件,若是,执行步骤S250;否则,舍弃该数据记录(步骤S270),返回至步骤S230。
步骤S250,根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例,若所述第三数据项内容达到比例要求,则舍弃该数据记录(步骤S270),返回步骤S230,,否则,将该数据记录移入目标数据库(步骤S260)。
本发明还提供一种数据处理装置,用于对至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选。图3为本发明的数据处理装置的实施例的框图。请参考图3,该数据处理装置包括:
用于从待选数据库中剔除不满足筛选要求的数据记录、形成预选库的预处理装置10;
根据筛选条件生成数据库查询语句、利用所述查询语句从预选库中筛选出满足筛选条件的数据记录、形成备选库的筛选器12;
在所述备选库中提取用于随机分布控制的第一数据项的内容和集中度控制的第二数据项的内容的数据项提取装置14;
用于根据第一数据项内容执行随机分布控制、以随机访问所述备选库中的数据记录随机分布控制控制器16;
根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例的集中度控制器18;
用于判断该数据记录的第三数据项内容是否满足匹配条件以及是否满足集中度控制要求的判断装置20。
在其中的一个实施例中,所述集中度控制器包括:用于将所述备选库中的数据记录导入以数据项为分布维度的空间矩阵中的导入单元18a;和用于通过均匀随机函数均匀的访问所述空间距阵中的数据记录的访问单元18b;请参考图4
利用图3所示数据筛选装置,预处理装置接受待处理的数据库,执行数据筛选的预处理,剔除不满足要求的数据记录,满足要求的数据记录生成预选库;接着,通过所述筛选器执行数据筛选,形成备选库;通过所述数据项提取装置在所述备选库中提取用于随机分布的第一数据项内容和用于集中度控制的第二数据项的内容,并通过随机分布控制器随机筛选数据记录,通过集中度控制器对于筛选的数据记录执行集中度控制,通过判断装置判断该数据记录是否满足集中度控制要求和匹配要求,若是,将该数据记录移入目标数据库。
通过所述实施例的数据筛选装置执行数据筛选,可减少筛选时的数据处理量、减少数据处理时间、提高效率;且保证筛选的随机性并对筛选的结果进行结构性控制,使得筛选出的目标数据库的数据记录满足比例要求。
本发明还提高一种证券化贷款筛选的方法,图5为所述的证券化贷款筛选的方法的实施例的流程图。
请参考图5,步骤S300,执行预筛选,从待选贷款记录集合中剔除不满足筛选要求的记录,满足要求的贷款记录形成预选库。
在筛选正式进行之前,在待筛选数据库上按照黑列表的方式,根据贷款记录的贷款指标关键字批量剔出不满足筛选要求的数据,例如:
从待筛选数据库中剔除处于转让状态的贷;
从待筛选数据库中剔除被其他备选库选中的贷款,该贷款可以是被选中、锁定或待入库的贷款;
从待筛选列表中剔除被指定在删除列表中的贷款。
其中,所述贷款指标包括贷款金额、贷款合同期限、剩余期限、利率和/或担保方式
步骤S310,根据筛选条件生成数据库查询语句,利用所述查询语句筛选出满足筛选条件的贷款记录,形成备选库。
根据用户输入的筛选条件生成数据库的查询语句,将待筛选列表中没有被剔除或没有剔除标记的贷款,标记为“可选”贷款,形成备选库。
步骤S320,在所述备选库中提取用于随机分布控制的贷款指标的内容和用于集中度控制的贷款指标的内容。
根据备选库中贷款记录的贷款指标关键字,从贷款数据表中提取供随机分布和集中度控制所需的数据项内容,放入随机分布控制矩阵和集中度控制矩阵。
步骤S330,根据随机分布控制贷款指标的内容执行随机分布控制,随机访问所述备选库中的贷款记录。
直接基于数据库的批量筛选过程所挑选出的贷款,在从数据库中被读取时具有很强的排列顺序性,使得最终的贷款数据在某些指标方面高度集中。随机分布控制是为了保证某一贷款指标的不同内容的贷款能够均匀的被获取,而不仅是在符合条件的贷款中随意地挑选。
随机分布控制是根据贷款记录的某一贷款指标,将贷款记录归类为N维(贷款指标的个数即为维数)空间中的点,每个点中记录属于该点的贷款记录的该贷款指标。通过均匀随机分布,均匀得访问空间点和该点中的贷款指标内容,确保符合条件的贷款可以在预先定义的维度空间上被均匀化的访问到,并且每个空间中的贷款记录可以随机的被选中。
贷款记录上的每个贷款指标都可以作为分布维度。该指标内容若是数值型,分为两种类型,离散值和连续值,离散值直接作为空间点的坐标,而连续值则采取贷款记录样本中连续值的取值范围分为10份,将连续的值转为分段后的离散值作为空间点的坐标,这样每笔贷款记录就可以落入N维空间的离散点上。
如果采取每个维度维值的笛卡尔集形成选取空间,那么可能存在大量的维值组合不存在对应的贷款记录,这样会浪费大量的访问时间。因此本实施例中建立稀疏的空间矩阵,从已有贷款记录的角度创建并记录该贷款所对应的空间坐标。
步骤S340,对于随机访问的每一条记录,根据集中度控制贷款指标的内容进行集中度控制,以控制该内容的贷款记录的贷款金额在用于证券化的目标贷款金额中的比例,若贷款金额达到或超过比例要求,则舍弃该贷款记录(步骤S370),并返回步骤S330;否则执行步骤S350。
被随机分布选中的贷款已经是符合筛选条件的贷款,但是还需要通过集中度控制,以达到对筛选结果的结构性控制。
在经过随机分布控制和集中度控制后,在待筛选列表的符合条件的贷款记录上标记为“选中”。
步骤S350,判断目标贷款记录库中所有贷款记录的贷款金额总和与该贷款记录的贷款金额之和是否小于目标贷款金额,若是,将该贷款记录移入目标贷款记录库(步骤S360);否则,返回步骤S330;
利用本实施例的方法,在对贷款记录进行筛选时,采用排他法,先排除不可选中的数据,然后挑选符合条件的记录,降低处理过程中的数据量;批量处理数据记录,而不是逐条选择记录,减少循环处理的过程开销,数据处理量小,占用的硬件资源较少,可减少筛选时间,提高筛选的效率。
通常情况下挑出每一笔贷款数据,然后逐项判断是否符合要求,在与本实施例方案相同的设备环境下,10万笔贷款的挑选时间需要5000秒以上。但应用本实施例10万笔贷款的挑选时间为100秒左右。
此外,利用本实施例的方法,可保证满某一贷款指标的所有内容的贷款能够均匀且随机地被获取,而不仅是在符合条件的贷款中随意地挑选。
此外,应用本实施例的方法可以对筛选结果中具有某一贷款指标的贷款余额进行结构性控制。保证该贷款指标下的不同内容的贷款金额占有的比例满足风险控制的要求。
本发明还提供一种证券化贷款的筛选装置,图6所述的证券化贷款的筛选装置的实施例的框图。请参考图6,该装置包括:
用于从待选贷款记录集合中剔除不满足筛选要求的记录、形成预选库预处理装置100;
根据筛选条件生成数据库查询语句、利用所述查询语句筛选出满足筛选条件的贷款记录形成备选库的筛选器120;
在所述备选库中提取用于随机分布控制的贷款指标的内容和用于集中度控制的贷款指标的内容的贷款指标提取装置140;
根据随机分布控制贷款指标的内容执行随机分布控制、随机访问所述备选库中的贷款记录的随机分布控制器160;
对于随机访问的每一条记录,根据集中度控制贷款指标的内容进行集中度控制,以控制该内容的贷款记录的贷款金额在用于证券化的目标贷款金额中的比例的集中度控制器180;
判断目标贷款记录库中所有贷款记录的贷款金额总和与该贷款记录的贷款金额之和是否小于目标贷款金额、判断该贷款记录的贷款金额是否满足集中度控制要求的判断装置200;
其中,所述贷款指标包括贷款金额、贷款合同期限、剩余期限、利率和/或担保方式。
应用本实施例的装置,在对贷款记录进行筛选时,可降低处理过程中的数据量,减少筛选时间,提高筛选的效率。
本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims (15)

1.一种数据筛选的方法,应用于至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选,其特征在于,包括:
A1执行预筛选,从待选数据库中剔除不满足筛选要求的数据记录,满足要求的数据记录形成预选库;
A2根据筛选条件生成数据库查询语句,利用所述查询语句由所述预选库中筛选出满足筛选条件的数据记录,形成备选库;
A3在所述备选库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容;
A4根据第一数据项内容执行随机分布控制,随机访问所述备选库中的数据记录;对于随机访问的每一条数据记录,根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例,若所述第三数据项内容达到比例要求,则舍弃该数据记录;否则,执行步骤A5;
A5判断该数据记录的第三数据项内容是否满足匹配条件,若是,将该数据记录移入目标数据库,否则,返回至步骤A4。
2.如权利要求1所述的数据筛选的方法,其特征在于:
所述第一数据项和第二数据项为同一的数据项;或
第二数据项和第三数据项为同一的数据项;或
第一数据项和第三数据项为同一数据项;或
第一数据项、第二数据项和第三数据项为同一数据项。
3.如权利要求1所述的数据筛选的方法,其特征在于:所述第一数据项和/或第二数据项和/或第三数据项为数值数据项。
4.如权利要求1所述的数据筛选的方法,其特征在于:在待筛选数据库中按照黑列表的方式,根据关键字剔除不满足筛选要求的数据记录。
5.如权利要求1所述的数据筛选的方法,其特征在于,执行随机分布控制的步骤如下:
将所述备选库中的数据记录导入以数据项为分布维度的空间矩阵中;
通过均匀随机函数均匀的访问所述空间距阵中的数据记录。
6.如权利要求5所述的数据筛选的方法,其特征在于:所述空间距阵为稀疏的空间距阵。
7.如权利要求5所述的数据筛选的方法,其特征在于:若数据项为离散数值型数据项,则该数据项直接作为空间坐标;
若数据项为连续数值型数据项,则将该连续值在备选库的取值范围分为N等分,将连续值转换为分段的离散值作为空间坐标。
8.一种数据筛选的方法,应用于至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选,其特征在于,包括:
A11执行预筛选,从待选数据库中剔除不满足筛选要求的数据记录,形成预选库;
A21根据筛选条件生成数据库查询语句,利用所述查询语句由所述预选库中筛选出满足筛选条件的数据记录,形成备选库;
A31在所述备选数据库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容;
A41根据第一数据项内容执行随机分布控制,随机访问所述备选库中的数据记录;
A51对于每一条数据记录,判断该数据记录的第三数据项内容是否满足匹配条件,若是,执行步骤A61;否则,舍弃该数据记录,返回至步骤A41;
A61根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例,若所述第三数据项内容达到比例要求,则舍弃该数据记录,返回步骤A41,否则,将该数据记录移入目标数据库。
9.如权利要求8所述的数据筛选的方法,其特征在于:
所述第一数据项和第二数据项为同一的数据项;或
第二数据项和第三数据项为同一的数据项;或
第一数据项和第三数据项为同一数据项;或
第一数据项、第二数据项和第三数据项为同一数据项。
10.如权利要求8所述的数据筛选的方法,其特征在于:所述第一数据项和/或第二数据项和/或第三数据项为数值数据项。
11.如权利要求8所述的数据筛选的方法,其特征在于:在待筛选数据库中按照黑列表的方式,根据关键字剔除不满足筛选要求的数据记录。
12.一种数据筛选装置,用于对至少包含有第一数据项、第二数据项和第三数据项的数据库中的数据记录的筛选,其特征在于,包括:
用于从待选数据库中剔除不满足筛选要求的数据记录、形成预选库的预处理装置;
根据筛选条件生成数据库查询语句、利用所述查询语句由所述预选库中筛选出满足筛选条件的数据记录、形成备选库的筛选器;
在所述备选库中提取用于随机分布控制的第一数据项的内容和用于集中度控制的第二数据项的内容的数据项提取装置;
用于根据第一数据项内容执行随机分布控制、以随机访问所述备选库中的数据记录随机分布控制控制器;
根据第二数据项内容对该数据记录进行集中度控制,以控制该数据记录的第三数据项内容在目标数据库中的比例的集中度控制器;
用于判断该数据记录的第三数据项内容是否满足匹配条件以及是否满足集中度控制的比例要求的判断装置。
13.如权利要求12所述的数据筛选装置,其特征在于,所述集中度控制器包括:用于将所述备选库中的数据记录导入以数据项为分布维度的空间矩阵中的导入单元;和
用于通过均匀随机函数均匀的访问所述空间距阵中的数据记录的访问单元。
14.一种证券化贷款筛选的方法,用于从贷款记录集合中筛选出满足证券化的贷款记录,其特征在于,包括:
B1执行预筛选,从待选贷款记录集合中剔除不满足筛选要求的记录,满足要求的贷款记录形成预选库;
B2根据筛选条件生成数据库查询语句,利用所述查询语句由所述预选库中筛选出满足筛选条件的贷款记录,形成备选库;
B3在所述备选库中提取用于随机分布控制的贷款指标的内容和用于集中度控制的贷款指标的内容;
B4根据随机分布控制贷款指标的内容执行随机分布控制,随机访问所述备选库中的贷款记录;对于随机访问的每一条记录,根据集中度控制贷款指标的内容进行集中度控制,以控制该内容的贷款记录的贷款金额在用于证券化的目标贷款金额中的比例,若贷款金额达到或超过比例要求,则舍弃该贷款记录,并返回步骤B4;否则执行步骤B5;
B5判断目标贷款记录库中已有贷款记录的贷款金额总和与该该贷款记录的贷款金额之和是否小于目标贷款金额,若是,将该贷款记录移入目标贷款记录库;否则,则舍弃该贷款记录,返回步骤B4;
其中,所述贷款指标包括贷款金额、贷款合同期限、剩余期限、利率和/或担保方式。
15.一种证券化贷款筛选装置,用于从贷款记录集合中筛选出满足证券化的贷款记录,其特征在于,包括:
用于从待选贷款记录集合中剔除不满足筛选要求的记录、形成预选库预处理装置;
根据筛选条件生成数据库查询语句、利用所述查询语句由所述预选库中筛选出满足筛选条件的贷款记录、形成备选库的筛选器;
在所述备选库中提取用于随机分布控制的贷款指标的内容和用于集中度控制的贷款指标的内容的贷款指标提取装置;
根据随机分布控制贷款指标的内容执行随机分布控制、随机访问所述备选库中的贷款记录的随机分布控制器;
对于随机访问的每一条记录,根据集中度控制贷款指标的内容进行集中度控制,以控制该内容的贷款记录的贷款金额在用于证券化的目标贷款金额中的比例的集中度控制器;
判断目标贷款记录库中已有贷款记录的贷款金额总和与该贷款记录的贷款金额之和是否小于目标贷款金额、判断该贷款记录的贷款金额是否满足集中度控制要求的判断装置;
其中,所述贷款指标包括贷款金额、贷款合同期限、剩余期限、利率和/或担保方式。
CN2008100060740A 2008-02-01 2008-02-01 数据筛选的方法、装置以及证券化贷款的筛选方法、装置 Active CN101221578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100060740A CN101221578B (zh) 2008-02-01 2008-02-01 数据筛选的方法、装置以及证券化贷款的筛选方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100060740A CN101221578B (zh) 2008-02-01 2008-02-01 数据筛选的方法、装置以及证券化贷款的筛选方法、装置

Publications (2)

Publication Number Publication Date
CN101221578A true CN101221578A (zh) 2008-07-16
CN101221578B CN101221578B (zh) 2010-12-22

Family

ID=39631417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100060740A Active CN101221578B (zh) 2008-02-01 2008-02-01 数据筛选的方法、装置以及证券化贷款的筛选方法、装置

Country Status (1)

Country Link
CN (1) CN101221578B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016177027A1 (zh) * 2015-05-06 2016-11-10 华为技术有限公司 批量数据查询方法和装置
CN107025542A (zh) * 2016-10-27 2017-08-08 阿里巴巴集团控股有限公司 提供渠道组合的集成能力的方法和装置
CN107833133A (zh) * 2017-11-15 2018-03-23 中国光大银行股份有限公司信用卡中心 一种数据处理方法和装置
CN107862067A (zh) * 2017-11-17 2018-03-30 中国银行股份有限公司 一种银行贷款数据查询的筛选方法及装置
CN108389121A (zh) * 2018-02-07 2018-08-10 平安普惠企业管理有限公司 贷款数据处理方法、装置、计算机设备和存储介质
CN110019544A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 数据查询方法及系统
CN110866822A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 资产证券化的风控管理方法、装置、电子设备及存储介质
CN112258690A (zh) * 2020-10-23 2021-01-22 中车青岛四方机车车辆股份有限公司 数据存取方法及装置、数据存储方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL158363A0 (en) * 2001-04-27 2004-05-12 Associates Iteatial Inc Comp System and method of optimising queries in a database

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016177027A1 (zh) * 2015-05-06 2016-11-10 华为技术有限公司 批量数据查询方法和装置
US10678789B2 (en) 2015-05-06 2020-06-09 Huawei Technologies Co., Ltd. Batch data query method and apparatus
CN107025542A (zh) * 2016-10-27 2017-08-08 阿里巴巴集团控股有限公司 提供渠道组合的集成能力的方法和装置
CN110019544A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 数据查询方法及系统
CN107833133A (zh) * 2017-11-15 2018-03-23 中国光大银行股份有限公司信用卡中心 一种数据处理方法和装置
CN107862067A (zh) * 2017-11-17 2018-03-30 中国银行股份有限公司 一种银行贷款数据查询的筛选方法及装置
CN108389121A (zh) * 2018-02-07 2018-08-10 平安普惠企业管理有限公司 贷款数据处理方法、装置、计算机设备和存储介质
CN110866822A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 资产证券化的风控管理方法、装置、电子设备及存储介质
CN110866822B (zh) * 2019-11-14 2023-04-18 腾讯科技(深圳)有限公司 资产证券化的风控管理方法、装置、电子设备及存储介质
CN112258690A (zh) * 2020-10-23 2021-01-22 中车青岛四方机车车辆股份有限公司 数据存取方法及装置、数据存储方法及装置
CN112258690B (zh) * 2020-10-23 2022-09-06 中车青岛四方机车车辆股份有限公司 数据存取方法及装置、数据存储方法及装置

Also Published As

Publication number Publication date
CN101221578B (zh) 2010-12-22

Similar Documents

Publication Publication Date Title
CN101221578B (zh) 数据筛选的方法、装置以及证券化贷款的筛选方法、装置
CN107784517A (zh) 一种客户信息筛选方法及终端设备
CN110659388B (zh) 一种待推荐信息筛选方法、装置、电子设备及存储介质
CN106909689A (zh) 一种数据融合方法及装置
CN108694462B (zh) 专利检索结果的排序方法和计算机可读存储介质
JP2010039593A (ja) テーブル分類装置、テーブル分類方法及びテーブル分類プログラム
JP6494619B2 (ja) 知的財産権の評価の方法、システム、および、プログラム
Yao Financial accounting intelligence management of internet of things enterprises based on data mining algorithm
CN107909342A (zh) 一种工程项目管理与工程项目审计一体化系统
CN106934023A (zh) 一种数据管理方法及装置
Amess et al. What are the wage and employment consequences of leveraged buyouts, private equity and acquisitions in the UK?
CN107679065A (zh) 数据展示方法、装置及计算机可读存储介质
Braglia et al. Measuring and benchmarking productive systems performances using DEA: an industrial case
CN108009444A (zh) 全文搜索的权限控制方法、装置与计算机可读存储介质
Košovská et al. The digital economy in the context of digital transformation and their impact on the electronification of accounting processes in the Slovak Republic
CN105447117A (zh) 一种用户聚类的方法和装置
CN112734603A (zh) 一种专利技术价值度评估方法与系统
KR101658890B1 (ko) 온라인 특허 평가 방법
KR101456187B1 (ko) 복합 평가 요소에 기초한 특허 평가 방법
CN111026705B (zh) 建筑工程文件管理方法、系统及终端设备
Leamer A Bayesian perspective on inference from macroeconomic data
CN112861953A (zh) 特征快速筛选方法及系统、金融风控数学模型构建方法及系统
Li [Retracted] Research on the Social Security and Elderly Care System under the Background of Big Data
Neely et al. A Framework for Classification of the Data and Information Quality Literature and Preliminart Results (1996-2007)
CN112270523A (zh) 一种用于it资产的管理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant