CN110941753A - 应用于装修行业的征信信息采集系统 - Google Patents
应用于装修行业的征信信息采集系统 Download PDFInfo
- Publication number
- CN110941753A CN110941753A CN201911032495.5A CN201911032495A CN110941753A CN 110941753 A CN110941753 A CN 110941753A CN 201911032495 A CN201911032495 A CN 201911032495A CN 110941753 A CN110941753 A CN 110941753A
- Authority
- CN
- China
- Prior art keywords
- data
- credit investigation
- information
- investigation information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Abstract
本发明提供了一种应用于装修行业的征信信息采集系统,该征信信息采集系统包括:用于进行数据采集的数据抓取模块,以及用于进行无效数据剔除的数据剔除模块;所述数据抓取模块按照信息采集指令,执行信息采集任务,抓取所述信息采集指令映射的征信信息数据,并将抓取的征信信息数据发送至所述数据剔除模块,由所述数据剔除模块判断所采集的征信信息数据是否可用;所述数据剔除模块对所述数据抓取模块发送的所有征信信息数据进行分类,并按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除,提高了征信信息的采集效率和数据采集的精准度;另外,针对运行该征信信息采集系统的服务器的配置,也进一步提高了征信信息数据的安全性。
Description
技术领域
本发明涉及数据采集技术领域,特别涉及一种应用于装修行业的征信信息采集系统。
背景技术
由于征信数据在很大程度上能够反映出企业或者个人的信用记录,且目前为止,可靠的征信数据也被大众和众多信贷机构比如银行所认可,因此,征信数据在各行各业都具有至关重要的参考意义。
在装修行业,不管是银行为企业提供融资比如金融借贷服务,还是用户选择装修公司,都需要了解对应的装修公司的信誉和可靠性,比如该装修公司的是否靠谱。因此,在装修行业,对征信信息的采集也显得尤为关键,因为征信信息是企业或者个人的重要信用记录。
发明内容
本发明提供一种应用于装修行业的征信信息采集系统,用以采集分析目标的征信信息,提高征信信息的采集效率和精准度。
本发明提供了一种应用于装修行业的征信信息采集系统,所述征信信息采集系统包括:用于进行数据采集的数据抓取模块,以及用于进行无效数据剔除的数据剔除模块;其中:
所述数据抓取模块按照信息采集指令,执行信息采集任务,抓取所述信息采集指令映射的征信信息数据,并将抓取的征信信息数据发送至所述数据剔除模块,由所述数据剔除模块判断所采集的征信信息数据是否可用;
所述数据剔除模块对所述数据抓取模块发送的所有征信信息数据进行分类,并按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除。
进一步地,所述数据剔除模块对所述数据抓取模块发送的所有征信信息数据进行分类,包括:
所述数据剔除模块对输入的所有征信信息数据进行预处理操作,所述预处理操作包括中文分词和停用词处理;
采用基于权重的改进贝叶斯分类算法模型,对预处理后的征信信息数据进行分类;其中,所述分类算法模型对应的数学表达式(1)为:
所述数学表达式(1)中,j为类别个数变量,初始值为1,以1为单位递增,最大为类别的个数总量m;ej为第j个类,c为类别,i为征信信息个数变量,初始值为1,以1为单位递增,最大为征信信息个数的总数量n;k为第j类内属性个数的变量,初始值为1,以1为单位递增,最大为类内属性个数的总量g;v为选择概率最大类别的最大概率,xi为第i个预处理过的征信信息的特征向量,wjk为第j类第k个属性的权重,wj为第j类的权重,max表示取最大值;
所述数据剔除模块将获得的最大概率v与预设置信阈值χ进行比较;若v>χ,则结束对所述征信信息数据的分类;若v≤χ,则继续使用所述分类算法模型执行分类操作。
进一步地,所述数据剔除模块按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除时,判断所述征信信息数据为无效数据的判断公式(2)为:
所述判断公式(2)中,与xi有整体部分关系的征信信息集合为setu={μ1,μ2,...μr},与xi有同义关系的征信信息集合为setz={z1,z2,...zy},μq为第q个与xi有整体部分关系的征信信息,zv为第v个与xi有同义关系的征信信息,α、β为预设常数,ai为第i条征信信息数据为无效数据的判断值;
进一步地,所述数据抓取模块接收所述信息采集指令,对所述信息采集指令的合法性进行验证;
若所述信息采集指令为合法指令,则所述数据抓取模块执行所述信息采集指令映射的信息采集操作事件;
若所述信息采集指令为非法指令,则所述数据抓取模块返回采集指令不合法的提示信息,供用户确认。
进一步地,所述数据抓取模块对接收到的所述信息采集指令进行解析,根据解析结果,识别所述信息采集指令指向的目标对象为企业还是自然人;
若所述采集对象为企业,则按照企业特征,执行多维度的征信信息采集操作;
若所述采集对象为自然人,则按照自然人特征,执多维度的征信信息采集操作;
其中,所述企业特征对应的多维度征信信息包括:
历史违约概率、每次违约的违约期限以及违约金额、企业年营业额、企业年利润、企业员工数量、企业员工流失率、企业员工工资发放是否及时、大额借贷的次数以及每次的金额、逾期还款的次数以及每次逾期还款的金额、企业固定资产抵押情况;
所述自然人特征对应的多维度征信信息包括:
个人借贷平台的历史违约概率、每次违约的违约期限以及违约金额、年收入额、大额借贷的次数以及每次的金额、逾期还款的次数以及每次逾期还款的金额、家庭配置、家庭年收入额、家庭固定资产抵押情况、家庭年支出总额、家庭净资产情况。
进一步地,所述数据抓取模块对接收到的所述信息采集指令进行解析,判断所述信息采集指令所指向的信息采集任务是否为多线程采集事件;
若所述信息采集任务为多线程采集事件,则所述数据抓取模块启动多线程操作,采集目标对象的征信信息数据;
若所述信息采集任务对单线程采集事件,则所述数据抓取模块识别所述单线程采集事件中包含单个采集任务还是多个采集任务;
若仅包含单个采集任务,则所述数据抓取模块利用单线程执行所述单个采集任务;
若包含多个采集任务,则所述数据抓取模块判断所述信息采集指令中是否携带了所述多个采集任务的任务优先级信息;
若携带有优先级信息,则所述数据抓取模块按照携带的所述优先级信息,利用单线程方式执行所述多个采集任务;
若没有鞋底啊优先级信息,则所述数据抓取模块判断所述多个采集任务的重要程度和/或紧急程度,并根据判断结果,利用所述单线程方式执行所述多个采集任务。
进一步地,所述数据抓取模块利用爬虫程序抓取互联网及各借贷平台上公开的与目标对象相关联的征信信息数据。
进一步地,所述数据抓取模块采集的目标对象的每一条征信信息数据,均携带有所述征信信息数据的特征信息;
所述数据剔除模块提取每条征信信息数据的特征信息,根据所述特征信息,判断所述征信信息数据是否需要剔除;
其中,所述征信信息数据的特征信息包括:
所述征信信息数据的最早生成时间戳和最近更新时间戳,以及每次数据更新时分别对应的编辑对象。
进一步地,所述征信信息采集系统还包括数据验证模块;
所述数据验证模块用于:接收所述数据剔除模块剔除掉的所述征信信息数据,并对剔除掉的所述征信信息数据的有效性进行再次验证,识别剔除掉的所述征信信息数据是否符合所述预设剔除规则;
若所述数据验证模块验证被所述数据剔除模块剔除掉的征信信息数据符合所述预设剔除规则,则将剔除掉的征信信息数据丢弃;
若所述数据验证模块验证被所述数据剔除模块剔除掉的征信信息数据不符合所述预设剔除规则,则回收被所述数据剔除模块剔除掉的征信信息数据;或者,发送回收信息至客户端,供客户端确认是否需要回收。
进一步地,所述征信信息采集系统的运行服务器包括主服务器和备用服务器;且所述主服务器和备用服务器之间建立心跳连接机制;当主服务器节点因故障无法正常工作时,所述征信信息采集系统自动切换为备用服务器,直至所述主服务器恢复正常工作时,再由备用服务器自动切换回主服务器工作。
本发明提供的一种应用于装修行业的征信信息采集系统可以达到如下有益效果:
所述数据抓取模块按照信息采集指令,执行信息采集任务,抓取所述信息采集指令映射的征信信息数据,并将抓取的征信信息数据发送至所述数据剔除模块,由所述数据剔除模块判断所采集的征信信息数据是否可用;所述数据剔除模块对所述数据抓取模块发送的所有征信信息数据进行分类,并按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除,提高了征信信息的采集效率和数据采集的精准度;另外,针对运行该征信信息采集系统的服务器的配置,也进一步提高了征信信息数据的安全性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明应用于装修行业的征信信息采集系统的一种实施方式的功能模块示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种应用于装修行业的征信信息采集系统,用以采集分析目标的征信信息,提高征信信息的采集效率和精准度。
如图1所示,图1是本发明应用于装修行业的征信信息采集系统的一种实施方式的功能模块示意图;在一种实施方式中,仅从功能上划分,本发明一种应用于装修行业的征信信息采集系统包括图1所述实施例描述的数据抓取模块100和数据剔除模块200;其中:
所述数据抓取模块100用于:进行数据采集;
所述数据剔除模块200用于:进行无效数据的剔除操作。
所述数据抓取模块100接收到信息采集指令时,响应该信息采集指令,并按照所述信息采集指令,执行信息采集任务,抓取所述信息采集指令映射的征信信息数据。
为了防止数据丢失并提高征信信息采集的效率,所述数据抓取模块100将抓取的征信信息数据实时发送至所述数据剔除模块200,由所述数据剔除模块200判断所述数据抓取模块100采集的征信信息数据是否可用。
所述数据剔除模块200对所述数据抓取模块100发送的所有征信信息数据进行分类,并按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除。
本发明实施例中,所述预设剔除规则可以根据具体的应用场景和征信信息采集的具体需求进行配置,本发明实施例对剔除规则的具体内容不进行限定;比如,所述预设剔除规则包括:将超出预设时间范围内的征信数据进行剔除;将经过人为篡改过的征信数据进行剔除等。
所述数据剔除模块200对所述数据抓取模块100发送的所有征信信息数据进行分类时,在一个实施例中,可以按照如下方式实施:
所述数据剔除模块200首先对所述数据抓取模块100输入的所有征信信息数据进行预处理操作,获得输入向量X={x1,x2,...,xi,...xn};其中,所述预处理操作包括中文分词和停用词处理;
然后,所述数据剔除模块200采用基于权重的改进贝叶斯分类算法模型,对预处理后的征信信息数据进行分类;所述分类算法模型对应的数学表达式(1)为:
所述数学表达式(1)中,j为类别个数变量,初始值为1,以1为单位递增,最大为类别的个数总量m;ej为第j个类,c为类别,i为征信信息个数变量,初始值为1,以1为单位递增,最大为征信信息个数的总数量n;k为第j类内属性个数的变量,初始值为1,以1为单位递增,最大为类内属性个数的总量g;v为选择概率最大类别的最大概率,xi为第i个预处理过的征信信息的特征向量,wj为第j类的权重,max表示取最大值;
最后,所述数据剔除模块200将获得的最大概率v与预设置信阈值χ进行比较;比如,在一个具体的应用场景中,所述预设置信阈值χ取值为0.96;若,则结束对所述征信信息数据的分类;若v≤χ,则继续使用所述分类算法模型执行分类操作。
这种技术方案可以达到的有益效果为:
充分利用输入数据的属性与向量系数改进贝叶斯分类模型,取得更好的分类效果,正确地分类利于后续征信信息的处理。
进一步地,在一个实施例中,所述数据剔除模块200按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除时,判断所述征信信息数据为无效数据的判断公式(2)为:
所述判断公式(2)中,与xi有整体部分关系的征信信息集合为setu={μ1,μ2,...μr},与xi有同义关系的征信信息属性集合为setz={z1,z2,...zy},μq为第q个与xi有整体部分关系的征信信息,zv为第v个与xi有同义关系的征信信息,α为预设常数,β为预设常数,ai为第i条征信信息数据为无效数据的判断值;当ai大于预设阈值则认为xi征信信息数据不是无效数据;反之,当ai小于或者等于预设阈值则认为xi征信信息数据是无效数据。
这种技术方案可以达到的有益效果为:
考虑到所有的输入征信信息与不同类内可能存在关系的属性进行综合处理,获得更为全面的征信信息与类之间的关系,对于征信信息的判断更为精准。
进一步地,在一个实施例中,为了防止征信信息的恶意采集和非法盗用,所述数据抓取模块100接收到所述信息采集指令时,在执行信息采集任务之前,首先对所述信息采集指令的合法性进行验证;若所述信息采集指令为合法指令,则所述数据抓取模块100执行所述信息采集指令映射的信息采集操作事件;若所述信息采集指令为非法指令,则所述数据抓取模块100返回采集指令不合法的提示信息,供用户确认。
本发明实施例中,确认所述信息采集指令是否合法,可以通过验证触发所述信息采集指令的用户是否合法。比如,为该征信信息采集系统分配信息采集的触发权限,设置所述触发权要对应的用户账号和密码;当接收到信息采集指令时,所述数据抓取模块100先验证触发所述信息采集指令的用户账号和密码是否一致、用户账号是否具备触发权限等。
或者,在所述征信信息采集系统具备自动触发所述信息采集指令的功能时,为所述数据抓取模块100配置自动触发所述信息采集指令的触发规则,当所述数据抓取模块100识别出本次信息采集指令为系统自动触发时,判断其触发条件是否合法,若触发条件不合法,则不执行信息采集任务,同时返回提示信息至监控客户端。
进一步地,在一个实施例中,本发明征信信息采集系统将信息采集对应分为企业和自然人;当所述数据抓取模块100接收到信息采集指令时,对接收到的所述信息采集指令进行解析,根据解析结果,识别所述信息采集指令指向的目标对象为企业还是自然人;若所述采集对象为企业,则按照企业特征,执行多维度的征信信息采集操作;若所述采集对象为自然人,则按照自然人特征,执多维度的征信信息采集操作。
其中,所述企业特征对应的多维度征信信息包括但不限于:
历史违约概率、每次违约的违约期限以及违约金额、企业年营业额、企业年利润、企业员工数量、企业员工流失率、企业员工工资发放是否及时、大额借贷的次数以及每次的金额、逾期还款的次数以及每次逾期还款的金额、企业固定资产抵押情况、用户满意度、供应商满意度等。
所述自然人特征对应的多维度征信信息包括但不限于:
个人借贷平台的历史违约概率、每次违约的违约期限以及违约金额、年收入额、大额借贷的次数以及每次的金额、逾期还款的次数以及每次逾期还款的金额、家庭配置、家庭年收入额、家庭固定资产抵押情况、家庭年支出总额、家庭净资产情况等。
在一个实施例中,本发明应用于装修行业的征信信息采集系统支持单线程操作事件和多线程同时执行操作事件。
当所述数据抓取模块100接收到信息采集指令时,对接收到的所述信息采集指令进行解析,判断所述信息采集指令所指向的信息采集任务是否为多线程采集事件;若所述信息采集任务为多线程采集事件,则所述数据抓取模块启动多线程操作,采集目标对象的征信信息数据。
若所述信息采集任务对单线程采集事件,则所述数据抓取模块识别所述单线程采集事件中包含单个采集任务还是多个采集任务;
若仅包含单个采集任务,则所述数据抓取模块利用单线程执行所述单个采集任务;
若包含多个采集任务,则所述数据抓取模块判断所述信息采集指令中是否携带了所述多个采集任务的任务优先级信息;
若携带有优先级信息,则所述数据抓取模块按照携带的所述优先级信息,利用单线程方式执行所述多个采集任务;若没有鞋底啊优先级信息,则所述数据抓取模块判断所述多个采集任务的重要程度和/或紧急程度,并根据判断结果,利用所述单线程方式执行所述多个采集任务。
通过这种处理方式,提高了信息的采集效率。
进一步地,在一个实施例中,所述数据抓取模块100利用爬虫程序抓取互联网及各借贷平台上公开的与目标对象相关联的征信信息数据。当目标对象为装修企业时,对该目标对象相关联的所有用户满意度以及装修材料供应商满意度,一并列入爬虫程序的抓取目标数据中。
进一步地,在一个实施例中,所述数据抓取模块100采集的目标对象的每一条征信信息数据,均携带有所述征信信息数据的特征信息;
所述数据剔除模块200接收到所述数据抓取模块100采集的征信信息数据时,从每条征信信息数据中提取出对应的特征信息,根据所述特征信息,判断所述征信信息数据是否需要剔除。
其中,所述征信信息数据的特征信息包括但不限于:
所述征信信息数据的最早生成时间戳和最近更新时间戳,以及每次数据更新时分别对应的编辑对象。
进一步地,在一个实施例中,为了尽可能地避免征信信息数据的误剔除操作的发生概率,所述应用于装修行业的征信信息采集系统还具备对剔除后的数据进行二次验证的功能。
在本发明实施例中,所述征信信息采集系统还包括数据验证模块;所述数据验证模块用于:
接收所述数据剔除模块200剔除掉的所述征信信息数据,并对剔除掉的所述征信信息数据的有效性进行再次验证,识别剔除掉的所述征信信息数据是否符合所述预设剔除规则;
若所述数据验证模块验证被所述数据剔除模块剔除掉的征信信息数据符合所述预设剔除规则,则将剔除掉的征信信息数据丢弃;
若所述数据验证模块验证被所述数据剔除模块剔除掉的征信信息数据不符合所述预设剔除规则,则回收被所述数据剔除模块剔除掉的征信信息数据;或者,发送回收信息至客户端,供客户端确认是否需要回收。
通过对剔除后的数据进行再次验证和确认,降低了数据误删除操作的发生概率。
进一步地,在一个实施例中,为了避免因服务器故障而导致的数据丢失情况的发生,所述征信信息采集系统的运行服务器包括主服务器和备用服务器;且所述主服务器和备用服务器之间建立心跳连接机制;当主服务器节点因故障无法正常工作时,所述征信信息采集系统自动切换为备用服务器,直至所述主服务器恢复正常工作时,再由备用服务器自动切换回主服务器工作。
通过配置上述运行服务器的操作,提高了征信信息数据的安全性。
本发明提供的应用于装修行业的征信信息采集系统包括:用于进行数据采集的数据抓取模块,以及用于进行无效数据剔除的数据剔除模块;所述数据抓取模块按照信息采集指令,执行信息采集任务,抓取所述信息采集指令映射的征信信息数据,并将抓取的征信信息数据发送至所述数据剔除模块,由所述数据剔除模块判断所采集的征信信息数据是否可用;所述数据剔除模块对所述数据抓取模块发送的所有征信信息数据进行分类,并按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除,提高了征信信息的采集效率和数据采集的精准度;另外,针对运行该征信信息采集系统的服务器的配置,也进一步提高了征信信息数据的安全性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种应用于装修行业的征信信息采集系统,其特征在于,所述征信信息采集系统包括:用于进行数据采集的数据抓取模块,以及用于进行无效数据剔除的数据剔除模块;其中:
所述数据抓取模块按照信息采集指令,执行信息采集任务,抓取所述信息采集指令映射的征信信息数据,并将抓取的征信信息数据发送至所述数据剔除模块,由所述数据剔除模块判断所采集的征信信息数据是否可用;
所述数据剔除模块对所述数据抓取模块发送的所有征信信息数据进行分类,并按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除。
2.如权利要求1所述的应用于装修行业的征信信息采集系统,其特征在于,所述数据剔除模块对所述数据抓取模块发送的所有征信信息数据进行分类,包括:
所述数据剔除模块对输入的所有征信信息数据进行预处理操作,所述预处理操作包括中文分词和停用词处理;
采用基于权重的改进贝叶斯分类算法模型,对预处理后的征信信息数据进行分类;其中,所述分类算法模型对应的数学表达式(1)为:
所述数学表达式(1)中,j为类别个数变量,初始值为1,以1为单位递增,最大为类别的个数总量m;ej为第j个类,c为类别,i为征信信息个数变量,初始值为1,以1为单位递增,最大为征信信息个数的总数量n;k为第j类内属性个数的变量,初始值为1,以1为单位递增,最大为类内属性个数的总量g;v为选择概率最大类别的最大概率,xi为第i个预处理过的征信信息的特征向量,wjk为第j类第k个属性的权重,wj为第j类的权重,max表示取最大值;
所述数据剔除模块将获得的最大概率v与预设置信阈值χ进行比较;若v>χ,则结束对所述征信信息数据的分类;若v≤χ,则继续使用所述分类算法模型执行分类操作。
3.如权利要求1所述的应用于装修行业的征信信息采集系统,其特征在于,所述数据剔除模块按照预设剔除规则,将采集的征信信息数据中的无效数据进行筛选和剔除时,判断所述征信信息数据为无效数据的判断公式(2)为:
所述判断公式(2)中,与xi有整体部分关系的征信信息集合为setu={μ1,μ2,...μr},与xi有同义关系的征信信息集合为setz={z1,z2,...zy},μq为第q个与xi有整体部分关系的征信信息,zv为第v个与xi有同义关系的征信信息,α、β为预设常数,ai为第i条征信信息数据为无效数据的判断值;
4.如权利要求1至3任一项所述的应用于装修行业的征信信息采集系统,其特征在于,所述数据抓取模块接收所述信息采集指令,对所述信息采集指令的合法性进行验证;
若所述信息采集指令为合法指令,则所述数据抓取模块执行所述信息采集指令映射的信息采集操作事件;
若所述信息采集指令为非法指令,则所述数据抓取模块返回采集指令不合法的提示信息,供用户确认。
5.如权利要求1至3任一项所述的应用于装修行业的征信信息采集系统,其特征在于,所述数据抓取模块对接收到的所述信息采集指令进行解析,根据解析结果,识别所述信息采集指令指向的目标对象为企业还是自然人;
若所述采集对象为企业,则按照企业特征,执行多维度的征信信息采集操作;
若所述采集对象为自然人,则按照自然人特征,执多维度的征信信息采集操作;
其中:
所述企业特征对应的多维度征信信息包括:
历史违约概率、每次违约的违约期限以及违约金额、企业年营业额、企业年利润、企业员工数量、企业员工流失率、企业员工工资发放是否及时、大额借贷的次数以及每次的金额、逾期还款的次数以及每次逾期还款的金额、企业固定资产抵押情况;
所述自然人特征对应的多维度征信信息包括:
个人借贷平台的历史违约概率、每次违约的违约期限以及违约金额、年收入额、大额借贷的次数以及每次的金额、逾期还款的次数以及每次逾期还款的金额、家庭配置、家庭年收入额、家庭固定资产抵押情况、家庭年支出总额、家庭净资产情况。
6.如权利要求1至3任一项所述的应用于装修行业的征信信息采集系统,其特征在于,所述数据抓取模块对接收到的所述信息采集指令进行解析,判断所述信息采集指令所指向的信息采集任务是否为多线程采集事件;
若所述信息采集任务为多线程采集事件,则所述数据抓取模块启动多线程操作,采集目标对象的征信信息数据;
若所述信息采集任务对单线程采集事件,则所述数据抓取模块识别所述单线程采集事件中包含单个采集任务还是多个采集任务;
若仅包含单个采集任务,则所述数据抓取模块利用单线程执行所述单个采集任务;
若包含多个采集任务,则所述数据抓取模块判断所述信息采集指令中是否携带了所述多个采集任务的任务优先级信息;
若携带有优先级信息,则所述数据抓取模块按照携带的所述优先级信息,利用单线程方式执行所述多个采集任务;
若没有鞋底啊优先级信息,则所述数据抓取模块判断所述多个采集任务的重要程度和/或紧急程度,并根据判断结果,利用所述单线程方式执行所述多个采集任务。
7.如权利要求1至3任一项所述的应用于装修行业的征信信息采集系统,其特征在于,所述数据抓取模块利用爬虫程序抓取互联网及各借贷平台上公开的与目标对象相关联的征信信息数据。
8.如权利要求1至3任一项所述的应用于装修行业的征信信息采集系统,其特征在于,所述数据抓取模块采集的目标对象的每一条征信信息数据,均携带有所述征信信息数据的特征信息;
所述数据剔除模块提取每条征信信息数据的特征信息,根据所述特征信息,判断所述征信信息数据是否需要剔除;
其中,所述征信信息数据的特征信息包括:
所述征信信息数据的最早生成时间戳和最近更新时间戳,以及每次数据更新时分别对应的编辑对象。
9.如权利要求1至3任一项所述的应用于装修行业的征信信息采集系统,其特征在于,所述征信信息采集系统还包括数据验证模块;
所述数据验证模块用于:接收所述数据剔除模块剔除掉的所述征信信息数据,并对剔除掉的所述征信信息数据的有效性进行再次验证,识别剔除掉的所述征信信息数据是否符合所述预设剔除规则;
若所述数据验证模块验证被所述数据剔除模块剔除掉的征信信息数据符合所述预设剔除规则,则将剔除掉的征信信息数据丢弃;
若所述数据验证模块验证被所述数据剔除模块剔除掉的征信信息数据不符合所述预设剔除规则,则回收被所述数据剔除模块剔除掉的征信信息数据;或者,发送回收信息至客户端,供客户端确认是否需要回收。
10.如权利要求1至3任一项所述的应用于装修行业的征信信息采集系统,其特征在于,所述征信信息采集系统的运行服务器包括主服务器和备用服务器;且所述主服务器和备用服务器之间建立心跳连接机制;当主服务器节点因故障无法正常工作时,所述征信信息采集系统自动切换为备用服务器,直至所述主服务器恢复正常工作时,再由备用服务器自动切换回主服务器工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032495.5A CN110941753A (zh) | 2019-10-28 | 2019-10-28 | 应用于装修行业的征信信息采集系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032495.5A CN110941753A (zh) | 2019-10-28 | 2019-10-28 | 应用于装修行业的征信信息采集系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110941753A true CN110941753A (zh) | 2020-03-31 |
Family
ID=69906363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911032495.5A Pending CN110941753A (zh) | 2019-10-28 | 2019-10-28 | 应用于装修行业的征信信息采集系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941753A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833197A (zh) * | 2020-07-13 | 2020-10-27 | 北京逸风金科软件有限公司 | 一种征信协议的遥测数据处理方法和装置 |
-
2019
- 2019-10-28 CN CN201911032495.5A patent/CN110941753A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833197A (zh) * | 2020-07-13 | 2020-10-27 | 北京逸风金科软件有限公司 | 一种征信协议的遥测数据处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767322B (zh) | 基于大数据的可疑交易分析方法、装置和计算机设备 | |
CN102201061B (zh) | 基于多阶层过滤人脸识别的智能安全监控系统及方法 | |
US9779400B2 (en) | Biometric matching system using input biometric sample | |
CN109509093B (zh) | 一种基于主体画像的交易安全控制方法及系统 | |
US10395309B2 (en) | Detection of activity patterns | |
CA2791590A1 (en) | Biometric matching engine | |
US9652772B1 (en) | Systems and methods for fraud detection | |
CN111861748B (zh) | 一种基于人工智能的金融大数据分析平台 | |
CN111861240A (zh) | 可疑用户识别方法、装置、设备及可读存储介质 | |
CN101556717A (zh) | 一种atm智能安保系统及监测方法 | |
CN109284369B (zh) | 证券新闻资讯重要性的判定方法、系统、装置及介质 | |
CN111428572B (zh) | 信息处理方法、装置、电子设备和介质 | |
CN111862413A (zh) | 实现抗疫情非接触多维身份快速识别的方法及其系统 | |
CN113850183A (zh) | 一种基于人工智能技术判断视频中行为的方法 | |
CN110808995B (zh) | 安全防护方法和装置 | |
CN112200196A (zh) | 钓鱼网站检测方法、装置、设备及计算机可读存储介质 | |
CN110020939B (zh) | 建立违约损失率预测模型的装置、方法及存储介质 | |
CN111291912A (zh) | 一种使用人证核验的取号方法、取号机及取号系统 | |
CN110941753A (zh) | 应用于装修行业的征信信息采集系统 | |
CN112750038B (zh) | 交易风险的确定方法、装置和服务器 | |
CN113033404A (zh) | 人脸攻击事件检测方法、装置、设备及存储介质 | |
CN110852714A (zh) | 应用于装修业务平台的薪酬提成数据管理系统 | |
CN111582183A (zh) | 一种公共场所的口罩识别方法及系统 | |
CN114971638A (zh) | 基于风险识别的交易认证方法及装置 | |
US11798285B2 (en) | Frictionless and autonomous activity and behavioral monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |