CN110796482A - 用于机器学习模型的金融数据分类方法、装置及电子设备 - Google Patents

用于机器学习模型的金融数据分类方法、装置及电子设备 Download PDF

Info

Publication number
CN110796482A
CN110796482A CN201910934088.7A CN201910934088A CN110796482A CN 110796482 A CN110796482 A CN 110796482A CN 201910934088 A CN201910934088 A CN 201910934088A CN 110796482 A CN110796482 A CN 110796482A
Authority
CN
China
Prior art keywords
data
training
positive
classification
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910934088.7A
Other languages
English (en)
Inventor
王鹏
高明宇
张潮华
郑彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qilu Information Technology Co Ltd
Original Assignee
Beijing Qilu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qilu Information Technology Co Ltd filed Critical Beijing Qilu Information Technology Co Ltd
Priority to CN201910934088.7A priority Critical patent/CN110796482A/zh
Publication of CN110796482A publication Critical patent/CN110796482A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种用于机器学习模型的金融数据分类方法、装置、电子设备及计算机可读介质。该方法包括:基于正样本集合和未分类样本集合生成训练数据集合;基于所述训练数据集合和分类算法生成数据分类模型;通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。本公开涉及的用于机器学习模型的金融数据分类方法,能够将未分类样本中的正样本提取出来,将正样本和负样本进行准确分类,从而提高机器学习模型的计算效果和计算精度。

Description

用于机器学习模型的金融数据分类方法、装置及电子设备
技术领域
本公开涉及计算机数据处理领域,具体而言,涉及一种用于机器学习模型的金融数据分类方法、装置、电子设备及计算机可读介质。
背景技术
机器学习现如今在各个人工智能研究领域中已经得到了极大的发展。在当今大部分的应用场景中,人们都可以很方便的找到适合于自身问题的机器学习模型。对于机器学习模型的一般应用来说,用户首先确定某一个类别或者算法的机器学习模型,然后根据用户想解决的特定问题,用户输入特定的数据,机器学习模型建立特定的任务,然后通过特定的数据来对机器学习进行训练,在训练结束后,得到适用于某一个特定任务的机器学习模型。通常情况下,即使用同一个机器学习模型的算法,但是用不同的数据训练得到的机器学习模型是完全不同的。
通常情况下机器学习模型需要对正样本和负样本进行学习,正样本则是我们想要正确分类出的类别所对应的样本,例如,我们要对一张图片进行分类,以确定其是否属于汽车,那么在训练的时候,汽车的图片则为正样本,负样本原则上可以选取任何不是汽车的其他图片。但是对于金融领域或者其他领域而言,正样本的选取是较容易的,比如在金融领域,经常会碰到只拥有正样本和未标记样本的情况。例如在查找潜在违约客户的时候,只知道哪些用户是已经违约的(正样本),但是对于剩下的大量用户(未标记),当前是清楚还有谁是可能违约的用户。如果直接将未标记样本作为负样本训练机器学习模型中的二分类模型的话,由于未标记样本中存在大量正样本,会引入很多误差数据,可能导致训练出来的最终的模型效果不够理想。
因此,需要一种新的用于机器学习模型的金融数据分类方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种用于机器学习模型的金融数据分类方法、装置、电子设备及计算机可读介质,能够将未分类样本中的正样本提取出来,将正样本和负样本进行准确分类,从而提高机器学习模型的计算效果和计算精度。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种用于机器学习模型的金融数据分类方法,该方法包括:基于正样本集合和未分类样本集合生成训练数据集合,所述正样本集合和所述未分类样本集合中均包括多个用户金融数据;基于所述训练数据集合和分类算法生成数据分类模型;通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。
可选地,基于正样本集合和未分类样本集合生成训练数据集合包括:在所述正样本集合中提取多个用户金融数据生成正样本子集合;以及通过所述正样本子集合和所述未分类样本集合生成所述训练数据集合。
可选地,基于所述训练数据集合和分类算法生成数据分类模型包括:通过迭代算法对所述训练数据集合进行分类以生成第一数据集合和第二数据集合,所述第一数据集合中包括正样本子集合中全部的用户金融数据;以及通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型。
可选地,通过迭代算法对所述训练数据集合进行分类以生成第一数据集合和第二数据集合包括:通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止;以及在满足阈值要求时生成所述第一数据集合和所述第二数据集合。
可选地,通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止包括:通过期望最大化算法对所述训练数据集合进行分类;在分类后通过错误样本确定分类错误值;以及
在所述分类错误值大于阈值时,再次进行分类。
可选地,通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型包括:通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型。
可选地,通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型包括:为所述正样本集合中的多个用户金融数据指定正向标签;为所述第二数据集合中的多个用户金融数据指定负向标签;将具有正向标签荷负向标签的所述多个用户金融数据输入所述支持向量机模型中;以及所述支持向量机模型经过迭代计算,在满足参数要求时生成所述数据分类模型。
可选地,所述支持向量机模型通过Perl算法库实现。
可选地,通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合包括:通过所述数据分类模型对所述未分类样本集合中的多个用户金融数进行分类;在分类结束后为所述多个用户金融数据中的每一个用户金融数据指定正向标签或负向标签;通过所有具有正向标签的用户金融数据生成所述正样本集合;以及通过所有具有负向标签的用户金融数据生成所述负样本集合。
可选地,还包括:通过所述正样本金融数据和所述负样本金融数据对机器学习模型进行训练以生成用户违约风险模型。
根据本公开的一方面,提出一种用于机器学习模型的金融数据分类装置,该装置包括:训练数据模块,用于基于正样本集合和未分类样本集合生成训练数据集合,所述正样本集合和所述未分类样本集合中均包括多个用户金融数据;分类模型模块,用于基于所述训练数据集合和分类算法生成数据分类模型;样本分类模块,用于通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;正样本模块,用于通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及负样本模块,用于通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。
可选地,所述训练数据模块包括:提取单元,用于在所述正样本集合中提取多个用户金融数据生成正样本子集合;以及集合单元,用于通过所述正样本子集合和所述未分类样本集合生成所述训练数据集合。
可选地,所述分类模型模块包括:迭代单元,用于通过迭代算法对所述训练数据集合进行分类以生成第一数据集合和第二数据集合,所述第一数据集合中包括正样本子集合中全部的用户金融数据;以及训练单元,用于通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型。
可选地,所述迭代单元包括:迭代计算子单元,用于通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止;以及阈值判断子单元,用于在满足阈值要求时生成所述第一数据集合和所述第二数据集合。
可选地,所述迭代计算子单元,还用于通过期望最大化算法对所述训练数据集合进行分类;在分类后通过错误样本确定分类错误值;以及在所述分类错误值大于阈值时,再次进行分类。
可选地,所述训练单元,还用于通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型。
可选地,所述训练单元包括:设置子单元,用于为所述正样本集合和所述第一数据集合中的多个用户金融数据指定正向标签;数据输入子单元,用于将具有正向标签的所述多个用户金融数据输入所述支持向量机模型中;以及模型生成子单元,用于所述支持向量机模型经过迭代计算,在满足参数要求时生成所述数据分类模型。
可选地,所述支持向量机模型通过Perl算法库实现。
可选地,所述样本分类模块包括:分类单元,用于通过所述数据分类模型对所述未分类样本集合中的多个用户金融数进行分类;标签单元,用于在分类结束后为所述多个用户金融数据中的每一个用户金融数据指定正向标签或负向标签;正样本单元,用于通过所有具有正向标签的用户金融数据生成所述正样本集合;以及负样本单元,用于通过所有具有负向标签的用户金融数据生成所述负样本集合。
可选地,还包括:违约风险模块,用于通过所述正样本金融数据和所述负样本金融数据对机器学习模型进行训练以生成用户违约风险模型。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的用于机器学习模型的金融数据分类方法、装置、电子设备及计算机可读介质,基于正样本集合和未分类样本集合生成训练数据集合;基于所述训练数据集合和分类算法生成数据分类模型;通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及通过所述训练负样本集合生成用户机器学习模型的负样本金融数据的方式,能够将未分类样本中的正样本提取出来,将正样本和负样本进行准确分类,从而提高机器学习模型的计算效果和计算精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的流程图。
图2是根据另一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的示意图。
图3是根据另一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的流程图。
图4是根据另一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的流程图。
图5是根据一示例性实施例示出的一种用于机器学习模型的金融数据分类装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
图1是根据一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的流程图。用于机器学习模型的金融数据分类方法10至少包括步骤S102至S110。
如图1所示,在S102中,基于正样本集合和未分类样本集合生成训练数据集合,所述正样本集合和所述未分类样本集合中均包括多个用户金融数据。
其中,样本数据可为某金融服务公司的用户金融数据,更进一步的,正样本集合中可包含的是有过违约记录的用户的金融数据,未分类样本集合中可包含的是在当前没有发生过违约记录的用户的金融数据。
在一个实施例中,正样本集合中可包含的是发生过借贷记录的用户的金融数据,未分类样本集合中可包含的是在当前没有发生过借贷记录的用户的金融数据。
在其他的实施例中,正样本集合中还可包含其他的已经确定的某种金融特征的用户的金融数据,而负样本中可包含的是在当前没有发生某种金融特征的用户的金融数据,本申请不以此为限。
在一个实施例中,基于正样本集合和未分类样本集合生成训练数据集合包括:在所述正样本集合中提取多个用户金融数据生成正样本子集合;以及通过所述正样本子集合和所述未分类样本集合生成所述训练数据集合。
其中可通过随机抽取的方式,由正样本集合中提取多个用户金融数据生成正样本子集合。将正样本子集合中的多个用户金融数据和未分类样本集合中的多个用户金融数据放入训练数据集合中。
在S104中,基于所述训练数据集合和分类算法生成数据分类模型。可包括:通过迭代算法对所述训练数据集合进行分类以生成第一数据集合和第二数据集合,所述第一数据集合中包括正样本子集合中全部的用户金融数据;以及通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型。其中,迭代算法可为迭代的期望最大化算法迭代(EM算法)。
通过迭代的期望最大化算法对所述训练数据集合进行分类,生成第一数据集合和第二数据集合。其中,所述第一数据集合中包括正样本子集合中全部的用户金融数据,第一数据集合中还可能包括其他用户金融数据,可以理解的是,第一数据集合中包含的是具有正样本特征的用户数据,由于训练数据是由正样本子集合和未分类样本集合组成的,所以在第一数据集合中包含的是和正样本子集合中的用户金融数据具有相似特征的其他用户金融数据。而第二数据集合中包含的是和正样本集合中的金融数据不相似的用户金融数据,第二数据集合中的数据可称之为可信负样本(RN,reliable negative examples)。
在一个实施例中,通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型包括:通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型。
支持向量机(Support Vector Machine,SVM)是一种分类算法,其主要是按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。支持向量机模型通过训练可生成分类器模型,其中,正样本集合中的用户金融数据可作为支持向量机模型训练时候的正样本,而第二数据集合中的用户金融数据可作为支持向量机模型中的负样本。通过正样本和负样本对支持向量机模型进行训练,获取分类模型。
在S106中,通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合。通过训练获取的分类模型可认为其具有准确的分类能力,能准确地将具有正样本特征的用户金融数据和具有负样本特征的用户金融数据进行分类。将上文中的未分类样本集合中的用户数据输入分类模型中,生成训练正样本集合和训练负样本集合。
在S108中,通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据。将正样本集合和训练正样本集合中的用户金融数据进行数据处理,以生成正样本金融数据。数据处理可包括数据清洗等过程。
在S110中,通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。通过训练负样本集合中的用户金融数据进行数据处理,以生成正样本金融数据。
在一个实施例中,还包括:通过所述正样本金融数据和所述负样本金融数据对机器学习模型进行训练以生成用户违约风险模型。其中正样本金融数据和负样本金融数据均可认为是准确的样本数据,通过准确的样本数据对机器学习模型进行训练,能获得更准确的模型训练结果。
根据本公开的用于机器学习模型的金融数据分类方法,基于正样本集合和未分类样本集合生成训练数据集合;基于所述训练数据集合和分类算法生成数据分类模型;通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及通过所述训练负样本集合生成用户机器学习模型的负样本金融数据的方式,能够将未分类样本中的正样本提取出来,将正样本和负样本进行准确分类,从而提高机器学习模型的计算效果和计算精度。
图2是根据一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的示意图。
如图2所示,可对数据进行如下处理,其中P为正样本集合,U为未分类样本集合。从P中划分一个子集S,将S中的样本放到U中,得到新的正样本集P-S和未标识样本集U+S,利用迭代的EM算法进行分类,结束后,利用对那些分错了的样本,确定一个阈值,按照上述步骤重新训练,最终得到第一数据集合和第二数据集合(RN)。
可以采用常用的分类算法作为基分类器,以SVM为例,可以选择SVM直接对P和RN数据进行训练,得到分类器,利用SVM对P和RN训练,训练完的分类器再重新预测P,从P中将正样本和负样本分类,迭代至P中数据全部取完为止。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的流程图。图3所示的流程是对图1所示的流程中S104“基于所述训练数据集合和分类算法生成数据分类模型”的详细描述。
如图3所示,在S302中,通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止。
可包括:通过期望最大化算法对所述训练数据集合进行分类;在分类后通过错误样本确定分类错误值;以及在所述分类错误值大于阈值时,再次进行分类。
在S304中,在满足阈值要求时生成所述第一数据集合和所述第二数据集合。
在S306中,通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型。
可包括:为所述正样本集合中的多个用户金融数据指定正向标签;为所述第二数据集合中的多个用户金融数据指定负向标签;将具有正向标签荷负向标签的所述多个用户金融数据输入所述支持向量机模型中;以及所述支持向量机模型经过迭代计算,在满足参数要求时生成所述数据分类模型。其中,所述支持向量机模型通过Perl算法库实现。
其中,支持向量机(SVM)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机。
在一个实施例中,SVM模型可根据其输入的正样本集合、第二数据集合的数据特征,自动确定分类模型的最终函数状态。
图4是根据另一示例性实施例示出的一种用于机器学习模型的金融数据分类方法的流程图。图4所示的流程是对图3所示的流程中S302“通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止”的详细描述,
如图4所示,在S402中,通过期望最大化算法对所述训练数据集合进行分类。
在S404中,在分类后通过错误样本确定分类错误值。
在S406中,在所述分类错误值大于阈值时,再次进行分类。
最大期望算法(Expectation-Maximization algorithm,EM)是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation,MLE)的优化算法。
在一个实施例中,EM算法对所述训练数据集合进行分类的时候计算框架由E步(Expectation-step)和M步(Maximization step)交替组成,算法的收敛性可以确保迭代至少逼近局部极大值。EM算法是在依赖于无法观测的隐藏变量的概率模型中,寻找参数最大似然估计或者最大后验估计的算法。
在一个实施例中,本公开中的正样本和负样本均服从某种分布,而分布有参数,可通过抽样得到的样本进行分析,从而估计出一个较准确的正样本和负样本的相关参数。
具体的求解过程可如下:先根据经验为正样本集合和负样本集合赋予一个初始分布函数,这相当于是假定了分布参数。然后根据分布的参数可以求取每个数据元组的隐藏变量的期望;再根据归类结果计算分布参数(向量)的最大似然值,然后根据这个最大似然值在反过来重新计算每个元组的隐藏变量的期望。这样循环往复,最终如果隐藏变量的期望与参数的最大似然值趋于稳定了,EM算法就算是执行完毕了,得到可最终的分类结果。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种用于机器学习模型的金融数据分类装置的框图。如图5所示,用于机器学习模型的金融数据分类装置50包括:训练数据模块502,分类模型模块504,样本分类模块506,正样本模块508,负样本模块510。
训练数据模块502用于基于正样本集合和未分类样本集合生成训练数据集合,所述正样本集合和所述未分类样本集合中均包括多个用户金融数据;
所述训练数据模块502包括:提取单元,用于在所述正样本集合中提取多个用户金融数据生成正样本子集合;以及集合单元,用于通过所述正样本子集合和所述未分类样本集合生成所述训练数据集合。
分类模型模块504用于基于所述训练数据集合和分类算法生成数据分类模型;
所述分类模型模块504包括:迭代单元,用于通过迭代算法对所述训练数据集合进行分类以生成第一数据集合和第二数据集合,所述第一数据集合中包括正样本子集合中全部的用户金融数据;以及训练单元,用于通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型。
其中,所述迭代单元包括:迭代计算子单元,用于通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止;以及阈值判断子单元,用于在满足阈值要求时生成所述第一数据集合和所述第二数据集合。所述迭代计算子单元,还用于通过期望最大化算法对所述训练数据集合进行分类;在分类后通过错误样本确定分类错误值;以及在所述分类错误值大于阈值时,再次进行分类。
其中,所述训练单元,还用于通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型。
所述训练单元包括:设置子单元,用于为所述正样本集合和所述第一数据集合中的多个用户金融数据指定正向标签;数据输入子单元,用于将具有正向标签的所述多个用户金融数据输入所述支持向量机模型中;以及模型生成子单元,用于所述支持向量机模型经过迭代计算,在满足参数要求时生成所述数据分类模型。所述支持向量机模型通过Perl算法库实现。
样本分类模块506用于通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;所述样本分类模块506包括:分类单元,用于通过所述数据分类模型对所述未分类样本集合中的多个用户金融数进行分类;标签单元,用于在分类结束后为所述多个用户金融数据中的每一个用户金融数据指定正向标签或负向标签;正样本单元,用于通过所有具有正向标签的用户金融数据生成所述正样本集合;以及负样本单元,用于通过所有具有负向标签的用户金融数据生成所述负样本集合。
正样本模块508用于通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及
负样本模块510用于通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。
用于机器学习模型的金融数据分类装置50还可包括:违约风险模块,用于通过所述正样本金融数据和所述负样本金融数据对机器学习模型进行训练以生成用户违约风险模型。
根据本公开的用于机器学习模型的金融数据分类装置、电子设备及计算机可读介质,基于正样本集合和未分类样本集合生成训练数据集合;基于所述训练数据集合和分类算法生成数据分类模型;通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及通过所述训练负样本集合生成用户机器学习模型的负样本金融数据的方式,能够将未分类样本中的正样本提取出来,将正样本和负样本进行准确分类,从而提高机器学习模型的计算效果和计算精度。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本公开的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1,图3,图4中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备600’(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图7所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:基于正样本集合和未分类样本集合生成训练数据集合;基于所述训练数据集合和分类算法生成数据分类模型;通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种用于机器学习模型的金融数据分类方法,其特征在于,包括:
基于正样本集合和未分类样本集合生成训练数据集合,所述正样本集合和所述未分类样本集合中均包括多个用户金融数据;
基于所述训练数据集合和分类算法生成数据分类模型;
通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;
通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及
通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。
2.如权利要求1所述的方法,其特征在于,基于正样本集合和未分类样本集合生成训练数据集合包括:
在所述正样本集合中提取多个用户金融数据生成正样本子集合;以及
通过所述正样本子集合和所述未分类样本集合生成所述训练数据集合。
3.如权利要求1-2中任一所述的方法,其特征在于,基于所述训练数据集合和分类算法生成数据分类模型包括:
通过迭代算法对所述训练数据集合进行分类以生成第一数据集合和第二数据集合,所述第一数据集合中包括正样本子集合中全部的用户金融数据;以及
通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型。
4.如权利要求1-3中任一所述的方法,其特征在于,通过迭代算法对所述训练数据集合进行分类以生成第一数据集合和第二数据集合包括:
通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止;以及
在满足阈值要求时生成所述第一数据集合和所述第二数据集合。
5.如权利要求1-4中任一所述的方法,其特征在于,通过迭代的期望最大化算法对所述训练数据集合进行分类至满足阈值要求为止包括:
通过期望最大化算法对所述训练数据集合进行分类;
在分类后通过错误样本确定分类错误值;以及
在所述分类错误值大于阈值时,再次进行分类。
6.如权利要求1-5中任一所述的方法,其特征在于,通过所述正样本集合、所述第二数据集合和所述分类算法生成所述数据分类模型包括:
通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型。
7.如权利要求1-6中任一所述的方法,其特征在于,通过所述正样本集合、所述第二数据集合对支持向量机模型进行训练以生成所述数据分类模型包括:
为所述正样本集合中的多个用户金融数据指定正向标签;
为所述第二数据集合中的多个用户金融数据指定负向标签;
将具有正向标签荷负向标签的所述多个用户金融数据输入所述支持向量机模型中;以及
所述支持向量机模型经过迭代计算,在满足参数要求时生成所述数据分类模型。
8.一种用于机器学习模型的金融数据分类装置,其特征在于,包括:
训练数据模块,用于基于正样本集合和未分类样本集合生成训练数据集合,所述正样本集合和所述未分类样本集合中均包括多个用户金融数据;
分类模型模块,用于基于所述训练数据集合和分类算法生成数据分类模型;
样本分类模块,用于通过所述数据分类模型对所述未分类样本集合进行分类,生成训练正样本集合和训练负样本集合;
正样本模块,用于通过所述正样本集合和所述训练正样本集合生成用于机器学习模型的正样本金融数据;以及
负样本模块,用于通过所述训练负样本集合生成用户机器学习模型的负样本金融数据。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201910934088.7A 2019-09-27 2019-09-27 用于机器学习模型的金融数据分类方法、装置及电子设备 Pending CN110796482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910934088.7A CN110796482A (zh) 2019-09-27 2019-09-27 用于机器学习模型的金融数据分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910934088.7A CN110796482A (zh) 2019-09-27 2019-09-27 用于机器学习模型的金融数据分类方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN110796482A true CN110796482A (zh) 2020-02-14

Family

ID=69439943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910934088.7A Pending CN110796482A (zh) 2019-09-27 2019-09-27 用于机器学习模型的金融数据分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110796482A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985557A (zh) * 2020-08-19 2020-11-24 中国银行股份有限公司 基于区块链的客群分类模型训练方法、装置、设备及介质
CN112330055A (zh) * 2020-11-23 2021-02-05 广州杰赛科技股份有限公司 一种用户投诉预测方法和装置
CN113191812A (zh) * 2021-05-12 2021-07-30 深圳索信达数据技术有限公司 业务推荐方法、计算机设备及计算机可读存储介质
CN113792104A (zh) * 2021-09-16 2021-12-14 平安科技(深圳)有限公司 基于人工智能的医疗数据错误检测方法、装置及存储介质
WO2021262140A1 (en) * 2020-06-22 2021-12-30 Hewlett-Packard Development Company, L.P. Machine learning model training

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216436A (zh) * 2008-01-03 2008-07-09 东华大学 一种基于支持向量数据描述理论的织物瑕疵自动检测方法
CN106681688A (zh) * 2016-12-28 2017-05-17 北京酷云互动科技有限公司 一种基于minhash的集合相似度计算方法和系统
CN107273454A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 用户数据分类方法、装置、服务器和计算机可读存储介质
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN109871954A (zh) * 2018-12-24 2019-06-11 腾讯科技(深圳)有限公司 训练样本生成方法、异常检测方法及装置
CN110163261A (zh) * 2019-04-28 2019-08-23 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216436A (zh) * 2008-01-03 2008-07-09 东华大学 一种基于支持向量数据描述理论的织物瑕疵自动检测方法
CN106681688A (zh) * 2016-12-28 2017-05-17 北京酷云互动科技有限公司 一种基于minhash的集合相似度计算方法和系统
CN107273454A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 用户数据分类方法、装置、服务器和计算机可读存储介质
CN107507036A (zh) * 2017-08-28 2017-12-22 深圳市诚壹科技有限公司 一种数据预测的方法及终端
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN109871954A (zh) * 2018-12-24 2019-06-11 腾讯科技(深圳)有限公司 训练样本生成方法、异常检测方法及装置
CN110163261A (zh) * 2019-04-28 2019-08-23 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨震宇;: "基于机器学习的分类算法研究", 科学中国人, no. 06, 25 February 2017 (2017-02-25), pages 22 - 23 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021262140A1 (en) * 2020-06-22 2021-12-30 Hewlett-Packard Development Company, L.P. Machine learning model training
CN111985557A (zh) * 2020-08-19 2020-11-24 中国银行股份有限公司 基于区块链的客群分类模型训练方法、装置、设备及介质
CN112330055A (zh) * 2020-11-23 2021-02-05 广州杰赛科技股份有限公司 一种用户投诉预测方法和装置
CN113191812A (zh) * 2021-05-12 2021-07-30 深圳索信达数据技术有限公司 业务推荐方法、计算机设备及计算机可读存储介质
CN113191812B (zh) * 2021-05-12 2024-02-02 深圳索信达数据技术有限公司 业务推荐方法、计算机设备及计算机可读存储介质
CN113792104A (zh) * 2021-09-16 2021-12-14 平安科技(深圳)有限公司 基于人工智能的医疗数据错误检测方法、装置及存储介质
CN113792104B (zh) * 2021-09-16 2024-03-01 平安科技(深圳)有限公司 基于人工智能的医疗数据错误检测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108399228B (zh) 文章分类方法、装置、计算机设备及存储介质
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台系统
CN110796482A (zh) 用于机器学习模型的金融数据分类方法、装置及电子设备
US10824815B2 (en) Document classification using attention networks
US20210166150A1 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
CN110807086B (zh) 文本数据标注方法及装置、存储介质、电子设备
US20220092407A1 (en) Transfer learning with machine learning systems
US11373117B1 (en) Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors
US20210357776A1 (en) Data-analysis-based, noisy labeled and unlabeled datapoint detection and rectification for machine-learning
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
CN110781970B (zh) 分类器的生成方法、装置、设备及存储介质
CN112529481A (zh) 一种用户捞回方法、装置及电子设备
CN110796171A (zh) 机器学习模型的未分类样本处理方法、装置及电子设备
CN109657056B (zh) 目标样本获取方法、装置、存储介质及电子设备
US10783328B2 (en) Semi-automatic process for creating a natural language processing resource
CN111459898A (zh) 机器学习方法、计算机可读记录介质以及机器学习设备
US11164658B2 (en) Identifying salient features for instances of data
CN111178687A (zh) 金融风险分类方法、装置及电子设备
CN111190967B (zh) 用户多维度数据处理方法、装置及电子设备
US11989628B2 (en) Machine teaching complex concepts assisted by computer vision and knowledge reasoning
CN113298634A (zh) 基于时序特征和图神经网络的用户风险预测方法及装置
CN113011531A (zh) 分类模型训练方法、装置、终端设备及存储介质
CN112989050A (zh) 一种表格分类方法、装置、设备及存储介质
CN111199454B (zh) 实时用户转化评估方法、装置及电子设备
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination