CN107392217B - 计算机实现的信息处理方法及装置 - Google Patents
计算机实现的信息处理方法及装置 Download PDFInfo
- Publication number
- CN107392217B CN107392217B CN201610326891.9A CN201610326891A CN107392217B CN 107392217 B CN107392217 B CN 107392217B CN 201610326891 A CN201610326891 A CN 201610326891A CN 107392217 B CN107392217 B CN 107392217B
- Authority
- CN
- China
- Prior art keywords
- user
- event
- user events
- weight
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种计算机实现的数据处理方法和装置。方法包括:基于M个已完结用户事件各自的事件状态特征向量和各自的标签,构建权重模型,权重模型的输出权重值指示将预测的未完结用户事件的状态概率;响应于接收到N个未完结用户事件的数据,计算各自的事件状态特征向量,并利用权重模型分别计算N个未完结用户事件各自的权重值;基于M个已完结用户事件的预定权重值和计算的N个未完结用户事件各自的权重值,对这些用户事件进行样本扩展,构建扩展样本集合;获取扩展样本集合中的每个用户事件各自的评分特征向量和各自的标签,构建评分模型;以及接收新用户事件的数据,利用评分模型对新用户事件进行评分并根据评分进行相应的数据处理。
Description
技术领域
本公开涉及计算机信息处理领域,尤其涉及计算机实现的利用机器学习的用户事件预测方法和装置。
背景技术
在机器学习领域,要精确地学习一个模型,至少需要模型参数个数的数百倍的样本。机器学习需要的训练样本量是非常大的,而在很多应用情境中,可利用的训练样本数量不多。例如,在对用户事件进行评分的场景中,通常需要大量的训练样本以提高预测或评分模型的置信度。然而,现实中可使用的训练样本不足,影响了预测或评分模型的利用效果。
发明内容
为了解决上面所提出的问题,本公开提供一种利用机器学习来充分利用现有的正在进行中的用户事件,以改进对预测或评分模型的训练过程的技术方案。
根据本公开的第一方面,提供一种计算机实现的数据处理方法,包括:基于M个已完结用户事件各自的事件状态特征向量和各自的标签,构建权重模型,其中M是大于1的整数,权重模型的输出权重值指示将预测的未完结用户事件的状态概率;响应于接收到N个未完结用户事件的数据,计算N个未完结用户事件各自的事件状态特征向量,并利用权重模型分别计算N个未完结用户事件各自的权重值,其中N是大于1的整数;基于M个已完结用户事件的预定权重值和经计算的N个未完结用户事件各自的权重值,对M个已完结用户事件和N个未完结用户事件进行样本扩展,以构建扩展样本集合;获取扩展样本集合中的每个用户事件各自的评分特征向量和各自的标签,以构建评分模型;以及接收新用户事件的数据,利用评分模型对新用户事件进行评分,并根据评分对新用户事件进行相应的数据处理。
根据本公开的实施例,其中事件状态特征向量表征用户事件的行为数据特征,并且至少包括以下中的一项或多项:用户事件的不同行为状态的占比,用户事件的行为状态转移的占比。
根据本公开的实施例,其中基于M个已完结用户事件的预定权重值和经计算的N个未完结用户事件各自的权重值,对M个已完结用户事件和N个未完结用户事件进行样本扩展以构建扩展样本集合包括:将N个未完结用户事件各自的权重值划分区间;以及根据M个已完结用户事件的预定权重值和不同的区间,将M个已完结用户事件和N个未完结用户事件以相对应的预定比例扩展样本量,形成扩展样本集合。
根据本公开的实施例,方法还包括:调试权重模型,以获取合适的权重阈值;以及响应于N个未完结用户事件各自的权重值与权重阈值的比较结果,丢弃相应权重值小于权重阈值的未完结用户事件。
根据本公开的实施例,还通过以下步骤来构建权重模型:基于M个已完结用户事件各自的事件状态特征向量和各自的至少部分的评分特征向量以及各自的标签,构建权重模型。
根据本公开的实施例,其中构建权重模型的用户事件还包括Q个已进行进度超过第一阈值且相应的事件状态特征向量的值高于预定阈值的用户事件,其中Q是大于1的整数。
根据本公开的实施例,方法还包括:在将事件状态特征向量用于权重模型之前,对事件状态特征向量的值进行编码以投影到更高维度空间。
根据本公开的实施例,其中N个未完结用户事件包括用户事件已进行进度超过第二阈值的用户事件。
根据本公开的实施例,其中接收新用户事件的数据,利用评分模型对新用户事件进行评分,并根据评分对新用户事件进行相应的数据处理包括:基于接收的新用户事件的数据,计算新用户事件的评分特征向量,将新用户事件的评分特征向量输入评分模型,以对新用户事件进行评分;以及由计算机基于评分、根据预定准则执行新用户事件的审核操作。
根据本公开的第二方面,提供一种计算机实现的数据处理装置,包括:权重模型构建单元,被配置为基于M个已完结用户事件各自的事件状态特征向量和各自的标签,构建权重模型,其中M是大于1的整数,权重模型的输出权重值指示将预测的未完结用户事件的状态概率;计算单元,被配置为响应于接收到N个未完结用户事件的数据,计算N个未完结用户事件各自的事件状态特征向量,并利用权重模型分别计算N个未完结用户事件各自的权重值,其中N是大于1的整数;样本处理单元,被配置为基于M个已完结用户事件的预定权重值和经计算的N个未完结用户事件各自的权重值,对M个已完结用户事件和N个未完结用户事件进行样本扩展,以构建扩展样本集合;评分模型构建单元,被配置为获取扩展样本集合中的每个用户事件各自的评分特征向量和各自的标签,以构建评分模型;以及评分处理单元,被配置为接收新用户事件的数据,利用评分模型对新用户事件进行评分,并根据评分对新用户事件进行相应的数据处理。
根据本公开的实施例,其中事件状态特征向量表征用户事件的行为数据特征,并且至少包括以下中的一项或多项:用户事件的不同行为状态的占比,用户事件的行为状态转移的占比。
根据本公开的实施例,样本处理单元还被配置为:将N个未完结用户事件各自的权重值划分区间;以及根据M个已完结用户事件的预定权重值和不同的区间,将M个已完结用户事件和N个未完结用户事件以相对应的预定比例扩展样本量,形成扩展样本集合。
根据本公开的实施例,样本处理单元还被配置为:调试权重模型,以获取合适的权重阈值;以及响应于N个未完结用户事件各自的权重值与权重阈值的比较结果,丢弃相应权重值小于权重阈值的未完结用户事件。
根据本公开的实施例,权重模型构建单元还被配置为:基于M个已完结用户事件各自的事件状态特征向量和各自的至少部分的评分特征向量以及各自的标签,构建权重模型。
根据本公开的实施例,构建权重模型的用户事件还包括Q个已进行进度超过第一阈值且相应的事件状态特征向量的值高于预定阈值的用户事件,其中Q是大于1的整数。
根据本公开的实施例,装置还包括编码单元,被配置为:在将事件状态特征向量用于权重模型之前,对事件状态特征向量的值进行编码以投影到更高维度空间。
根据本公开的实施例,其中N个未完结用户事件包括用户事件已进行进度超过第二阈值的用户事件。
根据本公开的实施例,评分处理单元还被配置为:基于接收的新用户事件的数据,计算新用户事件的评分特征向量,将新用户事件的评分特征向量输入评分模型,以对新用户事件进行评分;以及由计算机基于评分、根据预定准则执行新用户事件的审核操作。
本公开通过将还未完结的、正在进行中的用户事件纳入训练样本,通过机器学习来获取这些样本的标签和可利用度,充分利用了数据挖掘和机器学习的优势,从而改善了样本的不均衡性以及增强了预测或评分模型的泛化能力和置信度。
附图说明
结合附图并参考以下详细说明,本公开的各实施例的特征、优点及其他方面将变得更加明显,现将仅通过示例而非限制性的方式示出了本公开的若干实施例,在附图中:
图1示出了现有技术中的对用户事件进行预测的信息处理示意框图;
图2示出了根据本公开的实施例的引入另一模型的信息处理过程的简要示意图;
图3示出了根据本公开实施例的方法流程图;
图4示出了根据本公开的一个实施例的信息处理过程示意图;以及
图5示出了根据本公开的实施例的装置示意图。
具体实施方式
以下参考附图详细描述本公开的各个示例性实施例。附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
本文所使用的术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”,表示还可以包括其他内容。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。
计算机实现的统计模型算法(即机器学习算法)是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。在本文中,术语“模型”(例如权重模型、评分模型等)为基于统计的数学模型,是从数据中学得的结果,其可被用于对对象进行预测或判断。术语“用户事件”为根据各种不同应用场景而确定的计算机需要进行预测或判断的事件对象,例如任何需要对用户的行为能力进行预测的事件,在本公开的一个实施例中,用户事件可以为用户的借款或贷款行为。术语“特征向量”表示根据从样本(例如,用户事件)所提取的特征信息而构建的多维向量,向量的维度等于特征信息类型的数目。术语“标签”为样本(例如,用户事件)所对应的模型的输出,在分类问题中标记就是样本的类别,而在回归问题中标记就是样本所对应的实值输出。术语“监督学习”为训练样本拥有标签信息的机器学习,而术语“无监督学习”为训练样本没有标签信息的机器学习。
可以理解,下文给出这些示例性实施例仅是为了使本领域技术人员能够更好地理解并实现本公开的实施例,而并非以任何方式限制本公开的范围。
图1示出了现有的对用户事件进行预测的信息处理示意框图100。应该指出,本公开提出的信息处理解决方案并不限定具体的应用场景,本领域技术人员可以理解,在需要对客户或用户信息或者客户或用户行为信息进行分析处理的适宜环境中,本公开的实施例均可得到应用。例如应用场景可以是信用卡发放,或者贷款审核,或者雇员稳定性分析等等。以下主要以需要对用户事件进行评分的应用场景为例进行详细说明。
通常,对于用户事件的预测,基于首先对统计模型(例如,评分模型等)的训练。在图1中,用户事件信息数据存储于数据库102中。用户信息数据可以是用户提供的信息、从第三方获取的用户相关数据、其他能够合法获取的数据等等。通过数据提取和抽取过程104,可以根据应用需要对现有数据进行“清洗”和处理,以在特征选择过程106中获取样本(例如用户事件)的特征向量。以上过程例如在信用卡发放应用场景中,可以根据用户注册信息提取用户身份特征数据;根据用户的银行流水数据以及个人征信数据,建立用户征信数据;然后基于抽取的数据选择特征,例如性别、年龄、职业、收入近六个月的银行流水、第三方征信数据等等。之后进行训练集和测试集划分过程108,将选取的已经标签的样本分为训练集和测试集,例如可以将样本的75%作为训练集,样本的25%作为测试集。然后可以进行模型训练和验证过程110,将训练集的样本数据输入统计模型(例如评分模型)中,构建统计模型,例如统计模型为逻辑回归模型等等,并在此过程中不断迭代样本,直到训练结束,这其中还可以进行模型验证,调整统计模型的参数。之后将测试样本输入构建的统计模型,进行模型测试112,最终完成模型构建得到例如评分模型。经过线上应用114及反馈数据116过程,对数据提取和抽取过程104可以进行进一步的调整,从而使得统计模型更适于应用场景。当有新用户事件需要进行评分时,经过对该新用户事件的数据分析和提取,将其特征向量输入评分模型,以计算得到其评分,从而能够预测该新用户事件的潜在“信用”或消费能力或贡献度等等(根据不同应用场景而不同)。
然而,在实际应用上述图1描述的信息处理过程中,通常由于行业特点,可利用的拥有标签的训练样本数量少;同时,数据分布不平衡,在测试集的效果远低于训练过程的期望,极大地影响到统计模型的置信度。对于没有标签的数据,传统的做法一般有两种:一种直接忽略这些没有标签的数据;另外一种就是利用无监督学习做聚类,给这些样本打标签,但这种无监督学习通常对异常值的处理不理想。如前所述,本公开的实施例旨在深入挖掘正在进行中的用户事件(即没有样本标签),利用这些事件的行为状态数据特征,通过机器学习来确定如何用于其他模型(例如评分模型)的“监督学习”的样本,进而提高其他模型的置信度和泛化能力。
为了更好地理解本公开这一目的,图2示出了根据本公开的实施例的引入另一模型的信息处理过程200的简要示意图。值得注意的是,由于本公开的实施例利用了正在进行中的用户事件(即没有样本标签),因此基础数据准备过程202和数据清洗与处理过程204与图1中的数据提取和抽取过程104及特征选择过程106是不同的。根据本公开的实施例,还提取用户事件的用户行为数据特征,例如已经完成的用户事件(本文中称为“已完结用户事件”)和正在进行中还未完成的用户事件(本文中称为“未完结用户事件”)所发生的行为状态记录、或者各种行为状态的转移等特征。从图2可以看出,信息处理过程200中包括了示意的两个统计模型,即第一模型206和第二模型210。第一模型206经过评测过程208,并且第一模型的输出数据将反馈至第二模型210,作为训练数据对第二模型进行训练,之后对第二模型评测212,最终得到可应用的第二模型。其中,引入的第一模型206本文中可以称为“权重模型”,权重模型用于预测未完结用户事件的状态概率,其也指示了用于第一模型的样本将用于第二模型的可利用度,第二模型210在本公开的具体实施例中可以称之为如上所述的评分模型,这一过程200将在下文结合具体实施例详细描述。
图3示出了根据本公开实施例的方法300流程图。在步骤302,基于M个已完结用户事件各自的事件状态特征向量和各自的标签,构建权重模型。在该步骤中,训练和构建权重模型。可以利用已完结用户事件的行为状态数据,从中提取事件状态特征向量,并且根据其标签,训练例如逻辑回归等模型算法,并得到权重模型。
在步骤304,响应于接收到N个未完结用户事件的数据,计算N个未完结用户事件各自的事件状态特征向量,并利用权重模型分别计算N个未完结用户事件各自的权重值。为了能够利用N个未完结用户事件作为第二模型(例如评分模型)的样本,以进行第二模型的“监督学习”,在该步骤中,对N个未完结用户事件利用已经构建的权重模型进行预测。
接着,方法300进行到步骤306。基于M个已完结用户事件的预定权重值和经计算的N个未完结用户事件各自的权重值,对M个已完结用户事件和N个未完结用户事件进行样本扩展,以构建扩展样本集合。在该步骤中,形成用于评分模型的训练样本集合。对于已完结用户事件,预先分配相应的权重值,而对未完结用户事件利用在步骤304中计算得到权重值,根据权重值分别确定用户事件的样本扩展度或可利用度,并进行样本扩展,得到扩展样本集合。
在步骤308,获取所述扩展样本集合中的每个用户事件各自的评分特征向量和各自的标签,以构建评分模型。在该步骤中,训练和构建评分模型。提取样本集合中每个样本(即用户事件)的评分特征向量及其标签,训练例如逻辑回归等模型算法,并得到评分模型。
在步骤310,接收新用户事件的数据,利用所述评分模型对所述新用户事件进行评分,并根据评分对新用户事件进行相应的数据处理。对于需要进行评分的新用户事件,根据其评分特征向量,利用在步骤308中得到的评分模型,得到评分,并利用计算机对新用户事件进行相应的数据处理,例如在审核的应用场景中,根据评分的分数与预定的分数准则,由计算机做出审核判断。
下面以具体示例对本公开进行进一步的详细描述。需要指出的是,以下仅是以示例方式,结合在需要进行信用或贷款评估的应用场景来描述,本领域技术人员可以理解,根据应用场景的不同,具体细节可以有多种变化形式,具体示例采用的具体术语,仅以一般且描述性的含义所使用而并非意在进行限制。
图4示出了根据本公开的一个具体实施例的信息处理过程400示意图。在该信息处理过程400中,对用户事件例如贷款事件进行处理,最终能够对新用户事件进行评分,并由计算机审核该新用户事件是否可以通过。用户事件相关的数据存储于数据库402和404中,数据库402和404中可以存储用户信息数据,例如个人基础信息类数据,诸如性别、年龄、教育背景、职业背景、收入、资产等等,银联信息类数据,诸如近六个月的银行流水、第三方征信数据等等;还可以存储事件相关的基础数据,例如借款或贷款的额度、期限、还款方式、抵押数据等等;还可以存储用户行为状态相关数据,例如贷款发放后的还款记录数据等。这里仅是示意为两个数据库,它们可以是不同产品的数据仓库,事实上它们可以物理存在为一个数据库或多个数据库。在数据提取和抽取过程中,针对每个样本抽取不同的样本属性数据,并对上述各种数据进行处理,以为了后续过程能够读取、调用等等。
对用户事件进行数据抽取之后,选择应用到不同模型的特征向量,这在图中408和410过程中完成。需要针对不同的模型应用即权重模型应用和/或评分模型应用,选择不同的样本特征向量。可以理解,特征选择408和410过程需要确保不丢失重要特征,以使“监督学习”获得良好的性能。
根据本公开的一个实施例,用于训练和验证权重模型的样本为已完结用户事件(诸如已经完结的贷款),在408过程中选择用于权重模型的样本的特征,该特征为表征用户事件的行为数据特征,并且至少包括以下中的一项或多项:用户事件的不同行为状态的占比,用户事件的行为状态转移的占比。例如,将样本(例如一条贷款)的行为状态(例如还款状态)记录按照某个比例进行划分,这样可以扩大样本数据量和防止过拟合,并从中选择样本属性或特征。假设贷款的期限是X个月,每个月的还款状态为Sx,Sx的值可以为正常、逾期30天(M1状态)、逾期60天(M2状态)等等,则可以选择处于每个还款状态的比例作为样本的一个特征。例如,正常还款的次数为6次,贷款的期限X为12个月,则正常还款状态值为0.5,以此类推。还可以计算状态转移的比例,并将其作为样本的一个特征。例如,前一个状态是M1,后面一个相邻的状态为M2,则M1-M2状态的转移次数加1,两两状态组合的转移次数进行计算之后,再计算每种状态转移占所有状态转移的比例。另外,还可以将逾期天数作为特征,对不同的逾期天数分配不同的值,等等。这里仅作为示例,给出权重模型的样本特征向量。
根据本公开的一个实施例,用于训练和验证权重模型的样本还可以为未完结用户事件(诸如正在还款中的贷款)但预期可以良好地完结的用户事件,例如已进行进度超过第一阈值且相应的事件状态特征向量的值高于预定阈值的用户事件。作为一个示例,可以将还款已经进行超过90%进度的并且之前还款记录良好的贷款也作为权重模型的训练样本,按照如上所述过程408提取用户事件的行为数据特征,并计算特征向量。在这样的实施例中,适当增加了权重模型的样本量。
在特征选择过程410中,选择用于评分模型的样本的特征,该特征为表征用户事件信息且适用于评分的特征(即评分特征向量),例如性别、年龄、最高学历、毕业院校、职业、收入、信用额度、近六个月的消费总额、借款或贷款的额度、期限、还款方式、抵押数据等等。在本公开的一个实施例中,在特征选择408中选择权重模型的特征向量也可以根据需要加入样本的某些评分特征。
在本公开的一个实施例中,权重模型采用逻辑回归(logistic regression)算法,也可以采用其他线性模型。在用于训练权重模型之前,还可以将样本的特征值进行编码,例如进行独热(one-hot)编码,将数据投影到更高维度的空间,为使用模型的线性假设提供了理论支持,并在一定程度上也起到了扩充特征的作用。另外,为了防止过拟合还可以采用L2正则化,提高泛化能力。
进行了特征选择后,在过程412中进行训练集合测试集划分,在414中训练和验证权重模型。对M个已完结用户事件或者还包括Q个接近完结且行为状态良好的用户事件,进行样本标签,例如可以选择6个月以上的且没有任何逾期的贷款作为正样本,反之作为负样本。将选取的已经标签的用于权重模型的样本分为训练集和测试集,进行模型训练和验证过程414,不断迭代样本,直到训练结束,这其中还可以进行模型验证,调整统计模型的参数,最终得到权重模型。
在得到权重模型之后,对未完结用户事件进行预测,以便将一些未完结用户事件用于评分模型的训练。在本公开的一个实施例中,可以选择N个已进行进度超过第二阈值的用户事件,例如还款进行超过50%进度的贷款。根据在过程408中提取的特征向量,利用权重模型对N个未完结用户事件进行预测,并得到模型的输出418。该输出指示将预测的未完结用户事件的状态概率,也指示了该用户事件的潜在样本标签。同时,该输出值还表征了该样本用于评分模型的可利用程度。
对现在已处理得到的M个已完结用户事件、Q个接近完结且行为状态良好的用户事件以及N个未完结用户事件,需要确定如何将其作为评分模型的训练样本。在本公开的一个实施例中,根据用户事件的权重值,对样本进行扩展,已得到扩展样本集合。具体地,对于M个已完结用户事件以及Q个接近完结且行为状态良好的用户事件以及N个未完结用户事件可以分别分配一个权重值。例如,M个已完结用户事件按照1:4的权重比例选入扩展样本集合,Q个接近完结且行为状态良好的用户事件以及N个未完结用户事件按照1:3的权重比例选入扩展样本集合。对于N个未完结用户事件,根据权重模型计算得到的输出值,进行区间划分,例如,权重在0.75-0.9的样本,按照1:1的比例选入扩展样本集合,0.9-0.95的样本按照1:2的权重比例选入扩展样本集合。对于权重值低于一个阈值的样本,丢弃而不选入扩展样本集合。由此可见,在没有利用权重模型计算后的样本前,由于训练数据集很少,特征选择的信息量也有限,利用了这些原来没有标签的样本后,扩展样本集合的使用能够改善评分模型的性能。
接下来,可以利用扩展样本集合中的用户事件样本训练评分模型。如在过程410中选择样本的特征向量,在过程412中进行训练集合测试集划分,在416中训练和验证评分模型。对扩展样本集合中的每个用户事件样本,基于各自的权重值,进行样本标签。
训练样本准备好之后,利用式(1)进行证据权重(Weight of Evidence)计算,
woe表示自变量取某个值的时候对违约比例的一种影响,也即在给定的某个特征中,违约的数量占所有违约的占比与非违约数量占所有非违约数量的占比的比值,取对数计算。woe处理之后,同一特征的不同区值之间可以进行比较,woe处理后的值在0到1之间,可以避免再进行归一化处理。
对每个特征进行woe计算之后,输入逻辑回归模型训练。具体的处理过程如下:设wi代表每个特征的权重,即为需要求出的参数,xi为每一维特征的取值,分类超平面的函数即为:
其中n为特征向量的维数。
对每个样本,利用sigmoid函数,将y的取值从有理数范围转化到0到1之间。为了得到给定样本属于某个标签的概率,即:
P(y=0|x)=1-P(y=1|x) (4)
根据式(3)和式(4)的概率值,通过极大似然估计,转化为无条件的最优化问题,可以利用梯度下降即可求出参数的值。
在训练评分模型过程中,将选取的已经标签的扩展样本集合中的样本分为训练集和测试集,进行模型训练和验证过程416,不断迭代样本,直到训练结束,这其中还可以进行模型验证,调整统计模型的参数,最终得到评分模型。
在测试框架420中,可以对评分模型进行测试。基于训练好的评分模型,选取不同时间段的数据进行测试,以评测模型的鲁棒性和泛化能力。由于更关注分类错误的损失,所以评测指标可以选用精确率(Precision)、召回率(Recall)、ROC曲线下的面积(AUC)以及KS值等,其中精确率指的是所有判断为正样本的样本中判断正确的比例,召回率则指的是正确检索出的正样本占全体正样本的比例,AUC指标能够较好的评测在不均衡样本下的分类器的综合表现,KS曲线则显示了分类器的区分能力。通过测试框架420后的评分模型,经过线上应用422及反馈数据424过程,对数据提取和抽取过程406可以进行进一步的调整,从而使得统计模型更适于应用场景。
当有新用户事件需要进行评分时,经过对该新用户事件的数据分析和提取,经过特征选择过程410,然后其特征向量输入评分模型,以计算得到其评分,根据预定准则例如某个阈值,对评分进行判断,大于该阈值,则审核通过。
根据本公开的实施例,还提供一种计算机实现的信息处理装置500。如图5所示,装置500包括:提供一种计算机实现的数据处理装置,包括:权重模型构建单元502,被配置为基于M个已完结用户事件各自的事件状态特征向量和各自的标签,构建权重模型,其中M是大于1的整数,权重模型的输出权重值指示将预测的未完结用户事件的状态概率;计算单元504,被配置为响应于接收到N个未完结用户事件的数据,计算N个未完结用户事件各自的事件状态特征向量,并利用权重模型分别计算N个未完结用户事件各自的权重值,其中N是大于1的整数;样本处理单元506,被配置为基于M个已完结用户事件的预定权重值和经计算的N个未完结用户事件各自的权重值,对M个已完结用户事件和N个未完结用户事件进行样本扩展,以构建扩展样本集合;评分模型构建单元508,被配置为获取扩展样本集合中的每个用户事件各自的评分特征向量和各自的标签,以构建评分模型;以及评分处理单元510,被配置为接收新用户事件的数据,利用评分模型对新用户事件进行评分,并根据评分对新用户事件进行相应的数据处理。
根据本公开的实施例,其中事件状态特征向量表征用户事件的行为数据特征,并且至少包括以下中的一项或多项:用户事件的不同行为状态的占比,用户事件的行为状态转移的占比。
根据本公开的实施例,样本处理单元506还被配置为:将N个未完结用户事件各自的权重值划分区间;以及根据M个已完结用户事件的预定权重值和不同的区间,将M个已完结用户事件和N个未完结用户事件以相对应的预定比例扩展样本量,形成扩展样本集合。
根据本公开的实施例,样本处理单元506还被配置为:调试权重模型,以获取合适的权重阈值;以及响应于N个未完结用户事件各自的权重值与权重阈值的比较结果,丢弃相应权重值小于权重阈值的未完结用户事件。
根据本公开的实施例,权重模型构建单元502还被配置为:基于M个已完结用户事件各自的事件状态特征向量和各自的至少部分的评分特征向量以及各自的标签,构建权重模型。
根据本公开的实施例,构建权重模型的用户事件还包括Q个已进行进度超过第一阈值且相应的事件状态特征向量的值高于预定阈值的用户事件,其中Q是大于1的整数。
根据本公开的实施例,装置还包括编码单元512,被配置为:在将事件状态特征向量用于权重模型之前,对事件状态特征向量的值进行编码以投影到更高维度空间。
根据本公开的实施例,其中N个未完结用户事件包括用户事件已进行进度超过第二阈值的用户事件。
根据本公开的实施例,评分处理单元510还被配置为:基于接收的新用户事件的数据,计算新用户事件的评分特征向量,将新用户事件的评分特征向量输入评分模型,以对新用户事件进行评分;以及由计算机基于评分、根据预定准则执行新用户事件的审核操作。
通过以上描述和相关附图中所给出的教导,这里所给出的本公开的许多修改形式和其它实施方式将被本公开相关领域的技术人员所意识到。因此,所要理解的是,本公开的实施方式并不局限于所公开的具体实施方式,并且修改形式和其它实施方式意在包括在本公开的范围之内。此外,虽然以上描述和相关附图在部件和/或功能的某些示例组合形式的背景下对示例实施方式进行了描述,但是应当意识到的是,可以由备选实施方式提供部件和/或功能的不同组合形式而并不背离本公开的范围。就这点而言,例如,与以上明确描述的有所不同的部件和/或功能的其它组合形式也被预期处于本公开的范围之内。虽然这里采用了具体术语,但是它们仅以一般且描述性的含义所使用而并非意在进行限制。
Claims (18)
1.一种计算机实现的数据处理方法,包括:
基于M个已完结用户事件各自的事件状态特征向量和各自的标签,构建权重模型,其中M是大于1的整数,所述权重模型的输出权重值指示将预测的未完结用户事件的状态概率,其中所述已完结用户事件为已经完成的用户事件;
响应于接收到N个未完结用户事件的数据,计算所述N个未完结用户事件各自的事件状态特征向量,并利用所述权重模型分别计算所述N个未完结用户事件各自的权重值,其中N是大于1的整数,其中所述未完结用户事件为正在进行中还未完成的用户事件;
基于所述M个已完结用户事件的预定权重值和经计算的所述N个未完结用户事件各自的所述权重值,对所述M个已完结用户事件和所述N个未完结用户事件进行样本扩展,以构建扩展样本集合;
获取所述扩展样本集合中的每个用户事件各自的评分特征向量和各自的标签,以构建评分模型;以及
接收新用户事件的数据,利用所述评分模型对所述新用户事件进行评分,并根据所述评分对所述新用户事件进行相应的数据处理。
2.根据权利要求1所述的方法,其中所述事件状态特征向量表征所述用户事件的行为数据特征,并且包括以下中的一项或多项:用户事件的不同行为状态的占比,用户事件的行为状态转移的占比。
3.根据权利要求1所述的方法,其中基于所述M个已完结用户事件的预定权重值和经计算的所述N个未完结用户事件各自的所述权重值,对所述M个已完结用户事件和所述N个未完结用户事件进行样本扩展以构建扩展样本集合包括:
将所述N个未完结用户事件各自的所述权重值划分区间;以及
根据所述M个已完结用户事件的预定权重值和不同的所述区间,将所述M个已完结用户事件和所述N个未完结用户事件以相对应的预定比例扩展样本量,形成所述扩展样本集合。
4.根据权利要求3所述的方法,还包括:
调试所述权重模型,以获取合适的权重阈值;以及
响应于所述N个未完结用户事件各自的权重值与所述权重阈值的比较结果,丢弃相应权重值小于所述权重阈值的未完结用户事件。
5.根据权利要求1所述的方法,其中还通过以下步骤来构建所述权重模型:
基于M个已完结用户事件各自的事件状态特征向量和各自的至少部分的评分特征向量以及各自的标签,构建所述权重模型。
6.根据权利要求1所述的方法,其中构建所述权重模型的用户事件还包括Q个已进行进度超过第一阈值且相应的事件状态特征向量的值高于预定阈值的用户事件,其中Q是大于1的整数。
7.根据前述权利要求1-6中任一项所述的方法,还包括:
在将所述事件状态特征向量用于所述权重模型之前,对所述事件状态特征向量的值进行编码以投影到更高维度空间。
8.根据权利要求1所述的方法,其中所述N个未完结用户事件包括用户事件已进行进度超过第二阈值的用户事件。
9.根据权利要求1所述的方法,其中接收新用户事件的数据,利用所述评分模型对所述新用户事件进行评分,并根据所述评分对所述新用户事件进行相应的数据处理包括:
基于接收的新用户事件的数据,计算所述新用户事件的评分特征向量,
将所述新用户事件的评分特征向量输入所述评分模型,以对所述新用户事件进行评分;以及
由所述计算机基于所述评分、根据预定准则执行所述新用户事件的审核操作。
10.一种计算机实现的数据处理装置,包括:
权重模型构建单元,被配置为基于M个已完结用户事件各自的事件状态特征向量和各自的标签,构建权重模型,其中M是大于1的整数,所述权重模型的输出权重值指示将预测的未完结用户事件的状态概率,其中所述已完结用户事件为已经完成的用户事件;
计算单元,被配置为响应于接收到N个未完结用户事件的数据,计算所述N个未完结用户事件各自的事件状态特征向量,并利用所述权重模型分别计算所述N个未完结用户事件各自的权重值,其中N是大于1的整数,其中所述未完结用户事件为正在进行中还未完成的用户事件;
样本处理单元,被配置为基于所述M个已完结用户事件的预定权重值和经计算的所述N个未完结用户事件各自的所述权重值,对所述M个已完结用户事件和所述N个未完结用户事件进行样本扩展,以构建扩展样本集合;
评分模型构建单元,被配置为获取所述扩展样本集合中的每个用户事件各自的评分特征向量和各自的标签,以构建评分模型;以及
评分处理单元,被配置为接收新用户事件的数据,利用所述评分模型对所述新用户事件进行评分,并根据所述评分对所述新用户事件进行相应的数据处理。
11.根据权利要求10所述的装置,其中所述事件状态特征向量表征所述用户事件的行为数据特征,并且包括以下中的一项或多项:用户事件的不同行为状态的占比,用户事件的行为状态转移的占比。
12.根据权利要求10所述的装置,其中样本处理单元还被配置为:
将所述N个未完结用户事件各自的所述权重值划分区间;以及
根据所述M个已完结用户事件的预定权重值和不同的所述区间,将所述M个已完结用户事件和所述N个未完结用户事件以相对应的预定比例扩展样本量,形成所述扩展样本集合。
13.根据权利要求12所述的装置,其中样本处理单元还被配置为:
调试所述权重模型,以获取合适的权重阈值;以及
响应于所述N个未完结用户事件各自的权重值与所述权重阈值的比较结果,丢弃相应权重值小于所述权重阈值的未完结用户事件。
14.根据权利要求10所述的装置,其中权重模型构建单元还被配置为:
基于M个已完结用户事件各自的事件状态特征向量和各自的至少部分的评分特征向量以及各自的标签,构建所述权重模型。
15.根据权利要求10所述的装置,其中构建所述权重模型的用户事件还包括Q个已进行进度超过第一阈值且相应的事件状态特征向量的值高于预定阈值的用户事件,其中Q是大于1的整数。
16.根据前述权利要求10-15中任一项所述的装置,还包括编码单元,被配置为:
在将所述事件状态特征向量用于所述权重模型之前,对所述事件状态特征向量的值进行编码以投影到更高维度空间。
17.根据权利要求10所述的装置,其中所述N个未完结用户事件包括用户事件已进行进度超过第二阈值的用户事件。
18.根据权利要求10所述的装置,其中评分处理单元还被配置为:
基于接收的新用户事件的数据,计算所述新用户事件的评分特征向量,
将所述新用户事件的评分特征向量输入所述评分模型,以对所述新用户事件进行评分;以及
由所述计算机基于所述评分、根据预定准则执行所述新用户事件的审核操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610326891.9A CN107392217B (zh) | 2016-05-17 | 2016-05-17 | 计算机实现的信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610326891.9A CN107392217B (zh) | 2016-05-17 | 2016-05-17 | 计算机实现的信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107392217A CN107392217A (zh) | 2017-11-24 |
CN107392217B true CN107392217B (zh) | 2021-01-01 |
Family
ID=60338586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610326891.9A Expired - Fee Related CN107392217B (zh) | 2016-05-17 | 2016-05-17 | 计算机实现的信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107392217B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110209A (zh) * | 2018-01-22 | 2019-08-09 | 青岛科技大学 | 一种基于局部加权线性回归模型的交叉推荐方法及系统 |
CN108734304B (zh) * | 2018-05-31 | 2022-04-19 | 创新先进技术有限公司 | 一种数据模型的训练方法、装置、及计算机设备 |
CN108875815A (zh) * | 2018-06-04 | 2018-11-23 | 深圳市研信小额贷款有限公司 | 特征工程变量确定方法及装置 |
CN110634060A (zh) * | 2018-06-21 | 2019-12-31 | 马上消费金融股份有限公司 | 一种用户信用风险的评估方法、系统、装置及存储介质 |
CN109559146B (zh) * | 2018-09-25 | 2022-11-04 | 国家电网有限公司客户服务中心 | 电力客服中心基于logistic模型预测潜在用户数量的省市接入数据中心优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
CN104462614A (zh) * | 2015-01-14 | 2015-03-25 | 苏州大学 | 一种基于网络数据的主动学习方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5495014B2 (ja) * | 2009-09-09 | 2014-05-21 | ソニー株式会社 | データ処理装置、データ処理方法、およびプログラム |
-
2016
- 2016-05-17 CN CN201610326891.9A patent/CN107392217B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
CN104462614A (zh) * | 2015-01-14 | 2015-03-25 | 苏州大学 | 一种基于网络数据的主动学习方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107392217A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dumitrescu et al. | Machine learning for credit scoring: Improving logistic regression with non-linear decision-tree effects | |
Song et al. | Multi-view ensemble learning based on distance-to-model and adaptive clustering for imbalanced credit risk assessment in P2P lending | |
CN107392217B (zh) | 计算机实现的信息处理方法及装置 | |
WO2018014786A1 (zh) | 评价模型的建模方法及装置 | |
WO2017140222A1 (zh) | 机器学习模型的建模方法及装置 | |
CN110998608B (zh) | 用于各种计算机应用程序的机器学习系统 | |
CN110751557B (zh) | 一种基于序列模型的异常资金交易行为分析方法及系统 | |
CN110866819A (zh) | 一种基于元学习的自动化信贷评分卡生成方法 | |
US20070255646A1 (en) | Methods and Systems for Multi-Credit Reporting Agency Data Modeling | |
WO2012018968A1 (en) | Method and system for quantifying and rating default risk of business enterprises | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN109726918A (zh) | 基于生成式对抗网络和半监督学习的个人信用确定方法 | |
Kozodoi et al. | Shallow self-learning for reject inference in credit scoring | |
Zhu et al. | Explainable prediction of loan default based on machine learning models | |
CN111914060B (zh) | 一种基于在线点评数据的商户多视图特征提取及模型构建方法 | |
CN116433333B (zh) | 基于机器学习的数字商品交易风险防控方法及装置 | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
CN116821688A (zh) | 基于聚类下采样技术处理信用卡欺诈交易中数据集的方法 | |
US20200160200A1 (en) | Method and System for Predictive Modeling of Geographic Income Distribution | |
CN113421154B (zh) | 基于控制图的信贷风险评估方法及系统 | |
CN114529063A (zh) | 一种基于机器学习的金融领域数据预测方法、设备及介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US11004156B2 (en) | Method and system for predicting and indexing probability of financial stress | |
Zeng | A comparison study on the era of internet finance China construction of credit scoring system model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1246448 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210101 Termination date: 20210517 |