CN109360052A - 一种基于机器学习算法的数据分类、数据处理方法及设备 - Google Patents
一种基于机器学习算法的数据分类、数据处理方法及设备 Download PDFInfo
- Publication number
- CN109360052A CN109360052A CN201811133198.5A CN201811133198A CN109360052A CN 109360052 A CN109360052 A CN 109360052A CN 201811133198 A CN201811133198 A CN 201811133198A CN 109360052 A CN109360052 A CN 109360052A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- quote
- financial business
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0611—Request for offers or quotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于机器学习算法的数据分类、数据处理方法及设备,包括:接收用户输入金融业务的报价数据;对所述报价数据进行处理,得到处理结果;根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。利用数据样本训练得到数据分类模型,在接收到用户输入的金融业务的报价数据时,可以利用该数据分类模型为金融业务报价确定对应的业务类型,能够精准处理未明确标识业务类型的报价数据,并有效避免报价数据发布者按照自己主观认识为金融业务报价确定业务类型的情形,进而保证系统平台中金融业务分类的一致性,为用户提供精准的金融业务的报价数据比较奠定基础,有效提升用户对系统平台的用户体验。
Description
技术领域
本申请涉及计算机处理领域,尤其涉及一种基于机器学习算法的数据分类、数据处理方法及设备。
背景技术
为了便于用户能够快速获取到满足自己需求的金融业务的报价信息,报价数据发布者在向系统平台提交待发布的金融业务的报价信息时,需要按照行业惯例为该金融业务确定一个业务类型。这样,系统平台可以采用分类显示的方式向用户展示已发布的金融业务的报价信息。基于正确的分类信息,系统平台能够对报价数据做进一步精准分析与处理。
对于用户来讲,在同一个业务类型的金融业务报价信息显示页面中,可以直观比较金融业务的报价信息,便于从大量数据中筛选出优质的报价。
但是,在实际应用中,报价数据发布者在为金融业务报价确定业务类型的时候,普遍并不明确给出报价数据的业务类型,或者指定业务类型时,出现针对相同金融业务报价,不同的发布者为其选择不同的业务类型的情况。这样系统平台很难给用户精准推送某种业务类型的金融业务报数据,用户使用业务类型条件查询数据时也不能查询到精准的数据,大大降低了用户对系统平台的体验。
发明内容
有鉴于此,本申请实施例提供了一种基于机器学习算法的数据分类、数据处理方法及设备,用于解决如何提升系统平台对金融业务报价数据的分类精度。
本申请实施例提供了一种基于机器学习算法的数据分类方法,包括:
接收用户输入金融业务的报价数据;
对所述报价数据进行处理,得到处理结果;
根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。
本申请实施例提供了一种数据处理方法,包括:
获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;
确定模型训练算法,所述模型训练算法中包含用于分类的算法;
根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
本申请实施例提供了一种基于机器学习算法的数据分类设备,包括:
接收单元,用于接收用户输入金融业务的报价数据;
处理单元,用于对所述报价数据进行处理,得到处理结果;
分类单元,用于根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。
本申请实施例提供了一种基于机器学习算法的数据处理设备,包括:
获取单元,用于获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;
确定单元,用于确定模型训练算法,所述模型训练算法中包含用于分类的算法;
处理单元,用于根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
本申请提供的至少一个实施例所能够达到的有益效果如下:
本申请实施例利用数据样本训练得到数据分类模型,在接收到用户输入的金融业务的报价数据时,可以利用该数据分类模型为金融业务报价确定对应的业务类型,能够精准处理未明确标识业务类型的报价数据,并有效避免信息发布者按照自己主观认识为金融业务报价确定业务类型的情形,进而保证系统平台中金融业务分类的一致性,为用户提供精准的同种金融业务的报价数据分析和比较奠定基础,有效提升用户对系统平台的用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供了一种数据分类方法的流程示意图;
图2为本申请实施例提供了一种数据处理方法的流程示意图;
图3为本申请实施例提供了一种数据分类设备的结构示意图;
图4为本申请实施例提供了一种数据处理设备的结构示意图。
具体实施方式
为了实现本申请的目的,本申请实施例提供了一种基于机器学习算法的数据分类、数据处理方法及设备,获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;确定模型训练算法,所述模型训练算法中包含用于分类的算法;根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。接收用户输入金融业务的报价数据;对所述报价数据进行处理,得到处理结果;根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型。
本申请实施例利用数据样本训练得到数据分类模型,在接收到用户输入的金融业务的报价数据时,可以利用该数据分类模型为金融业务报价确定对应的业务类型,能够精准处理未明确标识业务类型的报价数据,并有效避免报价数据发布者按照自己主观认识为金融业务报价确定业务类型的情形,进而保证互联网金融业务平台中金融业务分类的一致性,为用户提供精准的同种金融业务的报价数据比较奠定基础,有效提升用户对金融业务的用户体验。
下面结合说明书附图对本申请各个实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种数据分类方法的流程示意图。所述方法可以如下所示。
步骤101:接收用户输入金融业务的报价数据。
在本申请实施例中,金融业务发布者(后续可以称之为用户)登录系统平台,在金融业务的报价数据输入界面中输入待发布的金融业务的报价数据,触发金融业务的报价数据输入界面中的提交(或者确定)控件。此时,服务器(或者数据分类设备)接收到用户输入的金融业务的报价数据。
需要说明的是,服务器(或者数据分类设备)接收到用户输入的金融业务的报价数据的方式不限于上述记载的方式。
这里的报价数据包含但不限于时间数据、资金量数据、方式数据和条件数据。例如:输入的报价数据为“出2天0.95亿,押利率限银行”。
步骤102:对所述报价数据进行处理,得到处理结果。
在本申请实施例中,服务器(或者数据分类设备)在接收到用户输入的金融业务的报价数据的情况下,由于接收到的报价数据通常是自然语言形式的,因此需要对接收到的报价数据进行处理。例如:对所述报价数据进行分词处理,得到所述报价数据的特征向量。
具体地,假设报价数据为“出2天0.95亿,押利率限银行”,对其进行分词处理,得到的结果为:(1)出(2)2天(3)0.95亿(5)利率(6)限银行。
较优地,在得到处理结果的情况下,利用词频统计算法,对得到的处理结果进行词频统计,得到的统计结果为:方向1次、时间期间1次、数量1次、特殊条件2次。
进而,可以将得到的统计结果作为该报价数据的特征向量。
步骤103:根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。
在本申请实施例中,在得到所述报价数据的特征向量的情况下,利用所述数据分类模型中包含的分类算法,计算得到所述金融业务的所述报价数据对应的所述数据分类的分类参数。
进而,根据所述数据分类参数,确定所述金融业务报价对应的业务类型。
例如:通过比较该金融业务报价对应的各业务类型的分类参数,进而确定所述金融业务报价对应的业务类型。
需要说明的是,本申请实施例中记载的分类参数的参数值可以是概率值,也可以是其他形式的,这里不做具体限定。
下面详细描述数据分类模型是如何训练得到的。
图2为本申请实施例提供的一种数据处理方法的流程示意图。所述方法可以如下所示。
步骤201:获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据。
在本申请实施例中,可以采集大量的数据样本,这里记载的数据样本是针对各种不同类型的金融业务对应的原始报价数据。
本文所谓金融业务是指以金融机构资金融通为核心的各项业务,具体包括同业存放、债券投资、同业拆借、外汇买卖、衍生产品交易、代客资金交易和同业资产买卖回购、票据转贴现和再贴现等业务。
由于获取到的数据样本通常是自然语言形式的,为了便于计算机识别、处理,需要对获取到的各样本数据进行预处理。
具体地,针对各所述数据样本,分别执行以下操作:
选择其中一个数据样本,对该数据样本进行分词处理;
统计该数据样本对应的词频;
基于所述词频得到该数据样本的特征向量。
例如:从金融业务数据库中筛选出设定数量的报价数据,将这些报价数据作为数据样本。针对得到的每一个数据样本进行数据预处理。由于报价数据一般都是自然语言形式,那么需要利用专业词典对报价数据做分词处理并进行词频统计,并选择词频作为该数据样本的特征向量。
再例如:将数据样本中包含的字符串进行拆分,针对拆分得到的字符串与专业词典中包含的分词进行匹配,进而确定该数据样本中包含的分词。
针对该数据样本中包含的分词,统计该分词出现的次数。在得到该数据样本中包含的每一个分词出现的次数时,根据每一个分词出现的次数,统计得到该数据样本对应的词频,这里词频可以是数据样本中包含的各分词对应次数的集合。
在得到词频的情况下,基于该词频得到该数据样本的特征向量。
在本申请实施例中,可以基于现有技术,通过词频确定数据样本的特征向量,这里不再具体描述数据样本的特征向量的实现方式。
步骤202:确定模型训练算法,所述模型训练算法中包含用于分类的算法。
在本申请实施例中,为了保证分类的精确度,可以根据后续分类的产品的特点,选择合适的模型训练算法。需要说明的是,不同的分类算法训练出来的数据分类模型存在差异。
较优地,本申请实施例中所记载的所述模型训练算法包含但不限于朴素贝叶斯分类算法、决策树、Logistics Regression(LR)、神经网络算法等机器学习算法。
步骤203:根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
具体地,将各所述数据样本的特征向量和预先设定的分类信息作为输入数据,利用所述模型训练算法,对该输入数据执行训练操作,得到数据分类模型;
所述数据分类模型中包含用于分类的模型参数。
这里的模型训练算法优选朴素贝叶斯分类算法。
需要说明的是,模型训练算法不同,导致数据分类模型得到的模型参数也存在差异。
本申请实施例中记载的预先设定的分类信息,可以通过人工分类的方式得到,也可以通过机器进行分类得到,这里不做限定。
较优地,在本申请实施例中,在训练数据分类模型之前,还可以针对选择的数据样本进行人工分类标注,即确定每一个数据样本对应的产品类型(或者业务类型)。这里人工分类标注得到的分类信息可以称之为预先设定的分类信息(或者标注过的信息)。
具体地,首先,采集设定数量的金融业务的报价数据;其次,设定分类规则,由分类者根据设定分类规则和报价数据,对采集到的金融业务的报价数据进行分类,得到分类信息,这里的分类信息可以称之为预先设定的分类信息。需要说明的是,这里设定分类规则的目的使得分类者能够根据同一的分类规则对报价数据进行识别,为金融业务报价确定较精准的类型,进而为后续训练数据分类模型奠定基础。
假设数据样本为“出9天1.7亿,押利率限银行”,人工分类标注为“线上资金报价”。在本申请实施例中,使用专业词典对该数据样本进行分词后,得到的分词结果为“(1)出(2)9天(3)1.7亿(5)利率(6)限银行”。对得到的分词进行词频统计可以得到“方向1次、时间期间1次、数量1次、特殊条件2次”。此时,将“线上资金报价”和“方向1次、时间期间1次、数量1次、特殊条件2次”类似的全部样本作为参数,利用朴素贝叶斯算法进行模型训练。在进行模型训练时,随机选取样本重复上述过程,循环训练算法模型,实现在词频统计结果满足“方向1次、时间期间1次、数量1次、特殊条件2次”时,得到产品类型属于“线上资金报价”的概率最高。
具体地,在得到的特征向量为“方向1次、时间期间1次、数量1次、特殊条件2次”的情况下,利用所述数据分类模型中包含的分类算法,计算得到属于“线上资金报价”的概率最高,进而确定“出2天0.95亿,押利率限银行”对应的产品类型为“线上资金报价”。
通过本申请实施例提供的技术方案,利用数据样本训练得到数据分类模型,在接收到用户输入的金融业务的报价数据时,可以利用该数据分类模型为金融业务报价确定对应的业务类型,能够精准处理未明确标识业务类型的报价数据,并有效避免产品发布者按照自己主观认识为金融业务报价确定业务类型的情形,进而保证系统平台中金融业务分类的一致性,为用户提供精准的同种金融业务的报价数据比较奠定基础,有效提升用户对金融业务的用户体验。
图3为本申请实施例提供的一种数据分类设备的结构示意图。所述数据分类设备包括:接收单元301、处理单元302和分类单元303,其中:
接收单元301,用于接收用户输入金融业务的报价数据;
处理单元302,用于对所述报价数据进行处理,得到处理结果;
分类单元303,用于根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。
在本申请的另一个实施例中,所述处理单元302对所述报价数据进行处理,包括:
对所述报价数据进行分词处理,得到所述报价数据的特征向量。
在本申请的另一个实施例中,所述分类单元303根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,包括:
根据所述特征向量和所述数据分类模型中包含的分类算法,确定所述金融业务报价对应的业务类型。
在本申请的另一个实施例中,所述分类单元303根据所述处理结果,确定所述金融业务对应的产品类型,包括:
利用所述数据分类模型中包含的分类算法和所述特征向量,计算得到所述金融业务的所述报价数据对应的所述数据分类模型中包含的模型参数的参数值;
运行包含所述模型参数的参数值的数据分类模型,确定金融业务报价对应的业务类型。
在本申请的另一个实施例中,所述分类单元303通过以下方式训练得到数据分类模型:
获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;
确定模型训练算法,所述模型训练算法中包含用于分类的算法;
根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
在本申请的另一个实施例中,所述分类单元303确定各所述数据样本的特征向量,包括:
针对各所述数据样本,分别执行以下操作:
选择其中一个数据样本,对该数据样本进行分词处理;
统计该数据样本对应的词频;
基于所述词频得到该数据样本的特征向量。
在本申请的另一个实施例中,所述分类单元303根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,得到数据分类模型,包括:
将各所述数据样本的特征向量和预先设定的分类信息作为输入数据,利用所述模型训练算法,对该输入数据执行训练操作,得到数据分类模型;
所述数据分类模型中包含用于分类的模型参数。
在本申请的另一个实施例中,所述模型训练算法包含朴素贝叶斯分类算法。
需要说明的是,本申请实施例提供的数据处理设备可以通过软件方式实现,也可以通过硬件方式实现,这里不做具体限定。
本申请实施例提供的数据分类设备利用数据样本训练得到数据分类模型,在接收到用户输入的金融业务的报价数据时,可以利用该数据分类模型为金融业务报价确定对应的业务类型,能够精准处理未明确标识业务类型的报价数据,并有效避免产品发布者按照自己主观认识为金融业务报价确定业务类型的情形,进而保证系统平台中金融业务分类的一致性,为用户进行同种金融业务的报价数据比较奠定基础,有效提升用户对金融业务的用户体验。
基于同一个发明构思,本申请实施例还提供了一种数据分类设备,包括至少一个处理器及存储器,所述存储器存储有程序,并且被配置成由所述至少一个处理器执行以下步骤:
接收用户输入金融业务的报价数据;
对所述报价数据进行处理,得到处理结果;
根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。
图4为本申请实施例提供的一种数据处理设备的结构示意图。所述数据处理设备包括:获取单元401、确定单元402和处理单元403,其中:
获取单元401,用于获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;
确定单元402,用于确定模型训练算法,所述模型训练算法中包含用于分类的算法;
处理单元403,用于根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
本申请的另一个实施例中,所述确定单元302确定各所述数据样本的特征向量,包括:
针对各所述数据样本,分别执行以下操作:
选择其中一个数据样本,对该数据样本进行分词处理;
统计该数据样本对应的词频;
基于所述词频得到该数据样本的特征向量。
本申请的另一个实施例中,所述处理单元403根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,得到数据分类模型,包括:
将各所述数据样本的特征向量和预先设定的分类信息作为输入数据,利用所述模型训练算法,对该输入数据执行训练操作,得到数据分类模型;
所述数据分类模型中包含用于分类的模型参数。
本申请的另一个实施例中,所述模型训练算法包含朴素贝叶斯分类算法。
需要说明的是,本申请实施例提供的数据处理设备可以通过软件方式实现,也可以通过硬件方式实现,这里不做具体限定。数据处理设备利用数据样本训练得到数据分类模型,在接收到用户输入的金融业务的报价数据时,可以利用该数据分类模型为金融业务报价确定对应的业务类型,能够精准处理未明确标识业务类型的报价数据,并有效避免产品发布者按照自己主观认识为金融业务报价确定业务类型的情形,进而保证系统平台中金融业务分类的一致性,为用户进行同种金融业务的报价数据比较奠定基础,有效提升用户对金融业务的用户体验。
基于同一个发明构思,本申请实施例还提供了一种数据处理设备,包括至少一个处理器及存储器,所述存储器存储有程序,并且被配置成由所述至少一个处理器执行以下步骤:
获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;
确定模型训练算法,所述模型训练算法中包含用于分类的算法;
根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种基于机器学习算法的数据分类方法,其特征在于,包括:
接收用户输入金融业务的报价数据;
对所述报价数据进行处理,得到处理结果;
根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。
2.根据权利要求1所述的数据分类方法,其特征在于,对所述报价数据进行处理,包括:
对所述报价数据进行分词处理,得到所述报价数据的特征向量。
3.根据权利要求2所述的数据分类方法,其特征在于,根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,包括:
根据所述特征向量和所述数据分类模型中包含的分类算法,确定所述金融业务报价对应的业务类型。
4.根据权利要求1所述的数据分类方法,其特征在于,通过以下方式训练得到数据分类模型:
获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;
确定模型训练算法,所述模型训练算法中包含用于分类的算法;
根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
5.根据权利要求4所述的数据分类方法,其特征在于,确定各所述数据样本的特征向量,包括:
针对各所述数据样本,分别执行以下操作:
选择其中一个数据样本,对该数据样本进行分词处理;
统计该数据样本对应的词频;
基于所述词频得到该数据样本的特征向量。
6.根据权利要求4所述的数据分类方法,其特征在于,根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,得到数据分类模型,包括:
将各所述数据样本的特征向量和预先设定的分类信息作为输入数据,利用所述模型训练算法,对该输入数据执行训练操作,得到数据分类模型;
所述数据分类模型中包含用于分类的模型参数。
7.根据权利要求4所述的数据分类法,其特征在于,所述模型训练算法包含朴素贝叶斯分类算法。
8.一种基于机器学习算法的数据处理方法,其特征在于,包括:
获取数据样本,并确定各所述数据样本的特征向量,所述数据样本中包含金融业务的报价数据;
确定模型训练算法,所述模型训练算法中包含用于分类的算法;
根据所述模型训练算法、各所述数据样本的特征向量和预先设定的分类信息,训练得到数据分类模型,所述数据分类模型用于对输入的金融业务报价进行分类。
9.一种基于机器学习算法的数据分类设备,其特征在于,包括:
接收单元,用于接收用户输入金融业务的报价数据;
处理单元,用于对所述报价数据进行处理,得到处理结果;
分类单元,用于根据数据分类模型和所述处理结果,确定所述金融业务报价对应的业务类型,所述数据分类模型基于标注过的报价数据样本的特征向量训练得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811133198.5A CN109360052A (zh) | 2018-09-27 | 2018-09-27 | 一种基于机器学习算法的数据分类、数据处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811133198.5A CN109360052A (zh) | 2018-09-27 | 2018-09-27 | 一种基于机器学习算法的数据分类、数据处理方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109360052A true CN109360052A (zh) | 2019-02-19 |
Family
ID=65348010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811133198.5A Pending CN109360052A (zh) | 2018-09-27 | 2018-09-27 | 一种基于机器学习算法的数据分类、数据处理方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109360052A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951044A (zh) * | 2020-07-30 | 2020-11-17 | 中国工商银行股份有限公司 | 银行终端交互方法及系统 |
CN113112297A (zh) * | 2021-04-09 | 2021-07-13 | 上海中汇亿达金融信息技术有限公司 | 外汇做市商报价引擎 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294355A (zh) * | 2015-05-14 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种业务对象属性的确定方法及设备 |
US20180100784A1 (en) * | 2016-10-06 | 2018-04-12 | General Electric Company | Multi-layer anomaly detection framework |
CN108121824A (zh) * | 2018-01-12 | 2018-06-05 | 北京融快线科技有限公司 | 一种面向金融服务的聊天机器人及系统 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
-
2018
- 2018-09-27 CN CN201811133198.5A patent/CN109360052A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294355A (zh) * | 2015-05-14 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种业务对象属性的确定方法及设备 |
US20180100784A1 (en) * | 2016-10-06 | 2018-04-12 | General Electric Company | Multi-layer anomaly detection framework |
CN108121824A (zh) * | 2018-01-12 | 2018-06-05 | 北京融快线科技有限公司 | 一种面向金融服务的聊天机器人及系统 |
CN108364028A (zh) * | 2018-03-06 | 2018-08-03 | 中国科学院信息工程研究所 | 一种基于深度学习的互联网网站自动分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951044A (zh) * | 2020-07-30 | 2020-11-17 | 中国工商银行股份有限公司 | 银行终端交互方法及系统 |
CN113112297A (zh) * | 2021-04-09 | 2021-07-13 | 上海中汇亿达金融信息技术有限公司 | 外汇做市商报价引擎 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Credit risk Evaluation by hybrid data mining technique | |
EP3038025A1 (en) | Retention risk determiner | |
CN108509458B (zh) | 一种业务对象识别方法及装置 | |
CN113656558B (zh) | 基于机器学习对关联规则进行评估的方法及装置 | |
CN109685537B (zh) | 用户行为的分析方法、装置、介质和电子设备 | |
US20190392295A1 (en) | Information processing device, method, and program that use deep learning | |
CN106897931A (zh) | 一种异常交易数据的识别方法及装置 | |
CN112215696A (zh) | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
CN107368526A (zh) | 一种数据处理方法及装置 | |
CN112750029A (zh) | 信用风险预测方法、装置、电子设备及存储介质 | |
CN113095927A (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN109360052A (zh) | 一种基于机器学习算法的数据分类、数据处理方法及设备 | |
CN114037545A (zh) | 客户推荐方法、装置、设备及存储介质 | |
Eria et al. | Significance-based feature extraction for customer churn prediction data in the telecom sector | |
Aufar et al. | Web-based cnn application for arabica coffee leaf disease prediction in smart agriculture | |
Ding et al. | Bone age estimation from carpal radiography images using deep learning | |
CN115829722A (zh) | 信用风险评分模型的训练方法及信用风险评分方法 | |
CN114637917A (zh) | 基于人工智能的资讯头条推荐方法及装置 | |
CN108305172A (zh) | 投资标的选择方法、电子装置及计算机可读存储介质 | |
KR102160447B1 (ko) | 새플리 값을 이용한 실손보험금 자동지급심사 시스템 및 그 방법 | |
CN111400413B (zh) | 一种确定知识库中知识点类目的方法及系统 | |
CN115167965A (zh) | 交易进度条的处理方法及装置 | |
CN111008038B (zh) | 一种基于逻辑回归模型的pull request被合并概率的计算方法 | |
Nickerson et al. | Banksformer: A deep generative model for synthetic transaction sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200113 Address after: Room 0112-168, 01 Floor, 26 Shangdi Information Road, Haidian District, Beijing 100084 Applicant after: Asian Union Innovation Technology Co., Ltd Address before: 100088 Floor 1206, Block B, Building 8, Guanchengyuan, Haidian District, Beijing Applicant before: Beijing Asian Union Star Information Technology Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190219 |
|
RJ01 | Rejection of invention patent application after publication |