CN112348093A - 数据处理方法和装置、服务器及存储介质 - Google Patents

数据处理方法和装置、服务器及存储介质 Download PDF

Info

Publication number
CN112348093A
CN112348093A CN202011248082.3A CN202011248082A CN112348093A CN 112348093 A CN112348093 A CN 112348093A CN 202011248082 A CN202011248082 A CN 202011248082A CN 112348093 A CN112348093 A CN 112348093A
Authority
CN
China
Prior art keywords
data
model
label
data processing
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011248082.3A
Other languages
English (en)
Inventor
黎豪
陈海雯
张汉林
李立峰
柯学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gf Securities Co ltd
Original Assignee
Gf Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gf Securities Co ltd filed Critical Gf Securities Co ltd
Priority to CN202011248082.3A priority Critical patent/CN112348093A/zh
Publication of CN112348093A publication Critical patent/CN112348093A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供的数据处理方法和装置、服务器及存储介质,涉及数据处理技术领域。数据处理方法包括:首先,获取待处理产品的特征数据;其次,将特征数据输入预设标签模型,得到特征数据的标签。通过上述方法,可以实现根据特征数据和模型生成标签,改善了现有技术中人工根据金融产品的历史表现和单一规则进行定性分析得到标签,标签生成效率低下、标签数量和覆盖范围有限,导致的标签生成的可靠性低的问题。

Description

数据处理方法和装置、服务器及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据处理方法和装置、服务器及存储介质。
背景技术
在现有技术的金融产品标签生成过程中,一般是通过研究员根据金融产品的历史表现和单一规则进行定性分析得到的,标签生成效率低下、标签数量和覆盖范围有限,从而存在标签生成的可靠性低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理方法和装置、服务器及存储介质,以改善现有技术中存在的问题。
为实现上述目的,本申请实施例采用如下技术方案:
第一方面,本发明提供一种数据处理方法,包括:
获取待处理产品的特征数据;
将所述特征数据输入预设标签模型,得到所述特征数据的标签。
在可选的实施方式中,所述将所述特征数据输入预设标签模型,得到所述特征数据的标签的步骤,包括:
将所述特征数据输入所述预设标签模型,得到所述特征数据的预测收益率;
根据所述预测收益率确定所述特征数据的标签。
在可选的实施方式中,所述数据处理方法还包括得到所述预设标签模型的步骤,该步骤包括:
根据获取的训练数据对至少一个原始模型进行训练,得到所述预设标签模型。
在可选的实施方式中,所述训练数据包括训练特征数据和实际值,所述根据获取的训练数据对至少一个原始模型进行训练,得到所述预设标签模型的步骤,包括:
针对每一个原始模型,将所述训练特征数据输入该原始模型,得到所述训练特征数据的预测值;
根据所述预测值和实际值确定该原始模型的模型效果;
根据至少一个原始模型的模型效果选取预设标签模型。
在可选的实施方式中,所述根据所述预测值和实际值确定该原始模型的模型效果的步骤,包括:
根据所述预测值对所述实际值进行分组处理,得到实际值序列;
对所述实际值序列进行显著性分析处理,得到该原始模型的模型效果。
在可选的实施方式中,所述根据所述预测值对所述实际值进行分组处理,得到实际值序列的步骤,包括:
对所述预测值进行排序处理,得到分组数据;
根据所述分组数据对所述实际值进行分组处理,得到实际值序列。
在可选的实施方式中,所述获取待处理产品的特征数据的步骤,包括:
获取所述待处理产品的相关数据;
对所述相关数据进行特征处理,得到所述待处理产品的特征数据。
第二方面,本发明提供一种数据处理装置,包括:
数据获取模块,用于获取待处理产品的特征数据;
数据处理模块,用于将所述特征数据输入预设标签模型,得到所述特征数据的标签。
第三方面,本发明提供一种服务器,包括存储器和处理器,所述处理器用于执行所述存储器中存储的可执行的计算机程序,以实现前述实施方式任意一项所述的数据处理方法。
第四方面,本发明提供一种存储介质,其上存储有计算机程序,该程序被执行时实现前述实施方式任意一项所述数据处理方法的步骤。
本申请实施例提供的数据处理方法和装置、服务器及存储介质,通过将待处理产品的特征数据输入预设标签模型得到标签,实现了根据特征数据和模型生成标签,改善了现有技术中人工根据金融产品的历史表现和单一规则进行定性分析得到标签,标签生成效率低下、标签数量和覆盖范围有限,导致的标签生成的可靠性低的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据处理系统的结构框图。
图2为本申请实施例提供的数据处理方法的流程示意图。
图3为本申请实施例提供的数据处理方法的另一流程示意图。
图4为本申请实施例提供的数据处理方法的另一流程示意图。
图5为本申请实施例提供的数据处理方法的另一流程示意图。
图6为本申请实施例提供的数据处理方法的另一流程示意图。
图7为本申请实施例提供的数据处理方法的另一流程示意图。
图8为本申请实施例提供的数据处理方法的另一流程示意图。
图9为本申请实施例提供的数据处理装置的结构框图。
图标:10-数据处理系统;100-服务器;200-终端设备;900-数据处理装置;910-数据获取模块;920-数据处理模块。
具体实施方式
金融产品一般指有价证券、黄金、基金等在金融市场的买卖对象。随着金融市场和信息技术的迅速发展,金融产品数量以及金融产品的数据越来越多,投资者对金融产品的研究和分析难度有所增加。而通过对金融产品的数据进行分析,生成金融产品特征标签,对金融产品的突出特征属性形成定性或定量的标签形式描述,能够大大提高投资者对金融产品的研究和分析效率。
标签生成及应用在其他行业已有较多应用,如在互联网行业中,有较多对用户建立标签画像的案例,如对某一用户生成青年、上班族等标签。但对于金融产品,市场变化较快,且金融产品的主要研究内容是对未来收益和估值的预测,因此,金融产品的特征标签会与其他行业的标签有所不同,更注重实效性、预测性。
现有技术的金融产品标签生成一般是通过研究员根据金融产品的历史表现和单一规则进行定性分析得到的。现有技术标签生成效率低下、标签数量和覆盖范围有限,难以满足研究需求。
现有金融产品标签生成的技术主要可归纳为两类:
(1)人工分析得到定性标签。该方法通过研究员根据金融产品的历史表现进行定性分析得到,标签需要人工维护。该方法存在以下几个缺点:
1)标签标注效率低下,覆盖范围有限。研究员在研究分析后对每个金融产品逐一添加标签,研究员的研究范围有限,难以对全市场金融产品生成大量标签。
2)实效性差,维护成本高。由于人工标签主要为研究员一次性标注、人工进行维护,标签生成后有些标签可能与该金融产品的实际特征属性不符,但人工很难及时对标签进行剔除。
(2)配置标签规则系统生成定量标签,该方法通过研究员在系统中配置标签生成的规则,系统根据规则对符合规则的金融产品标注标签。该方法能够大批量生成金融产品的定量标签,但配置的规则大多数比较单一,通常为当金融产品的特征数值超过某一阈值就生成标签。但某些特征并不是越大越好,数值太大或太小反而未来收益率表现不佳,因此该标签的预测能力不佳,无法根据市场实际变化动态调整规则。
而随着机器学习等数据挖掘技术的发展,能够较好处理海量数据以及有较好的预测和动态调整能力。为了改善本申请所提出的上述至少一种技术问题,本申请实施例提供一种数据处理方法和装置、服务器及存储介质,运用机器学习等数据挖掘技术解决现有技术存在的缺陷,提高金融产品标签生成的实效性、动态适用性、预测能力。下面通过可能的实现方式对本申请的技术方案进行说明。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等,或其任意组合。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1为本申请实施例提供的数据处理系统10的结构框图,其提供了一种数据处理系统10可能的实现方式,参见图1,该数据处理系统10可以包括服务器100、终端设备200中的一种或多种。
其中,服务器100与终端设备200通信连接,以获取终端设备200发送的数据(可以包括用户导入金融产品的特征数据)进行处理,将特征数据的标签发送至终端设备200,终端设备200将标签可视化返回给用户。
对于服务器100,需要说明的是,在一些实施例中,服务器100可以是单个服务器100,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器100可以是分布式系统)。在一些实施例中,服务器100相对于终端设备200,可以是本地的、也可以是远程的。例如,服务器100可以经由网络访问存储在终端设备200中的信息和/或数据。作为另一示例,服务器100可以直接连接到终端设备200,以访问存储的信息和/或数据。在一些实施例中,服务器100可以在云平台上实现。仅作为示例,云平台可以包括私有云、公有云、混合云、弹性云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。在一些实施例中,服务器100可以在终端设备200上实现。
在一些实施例中,服务器100可以包括处理器。处理器可以处理终端设备200发送的信息和/或数据,以执行本申请中描述的一个或多个功能。在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)或微处理器等,或其任意组合。
网络可以用于信息和/或数据的交换。在一些实施例中,数据处理系统10中的一个或多个组件(例如,服务器100和终端设备200)可以向其他组件发送信息和/或数据。例如,服务器100可以经由网络从终端设备200获取数据。在一些实施例中,网络可以是任何类型的有线或者无线网络,或者是他们的结合。仅作为示例,网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(NearField Communication,NFC)网络等,或其任意组合。
在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,数据处理系统10的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
服务器100中可以包括数据库,数据库可以存储数据和/或指令。在一些实施例中,数据库可以存储从终端设备200获得的数据。在一些实施例中,数据库可以存储本申请中描述的示例性方法的数据和/或指令。在一些实施例中,数据库可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等,或其任意组合。作为举例,大容量存储器可以包括磁盘、光盘、固态驱动器等;可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等;易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM);RAM可以包括动态RAM(Dynamic Random Access Memory,DRAM),双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM,DDR SDRAM);静态RAM(Static Random-Access Memory,SRAM),晶闸管RAM(Thyristor-Based RandomAccess Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例,ROM可以包括掩模ROM(Mask Read-Only Memory,MROM)、可编程ROM(Programmable Read-Only Memory,PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory,PEROM)、电可擦除可编程ROM(Electrically Erasable Programmable read only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。在一些实施例中,数据库可以在云平台上实现。仅作为示例,云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云、弹性云或者其它类似的等,或其任意组合。
在一些实施例中,数据库可以连接到网络以与数据处理系统10(例如,服务器100和终端设备200)中的一个或多个组件通信。数据处理系统10中的一个或多个组件可以经由网络访问存储在数据库中的数据或指令。在一些实施例中,数据库可以直接连接到数据处理系统10中的一个或多个组件(例如,服务器100和终端设备200)。或者,在一些实施例中,数据库也可以是服务器100的一部分。在一些实施例中,数据处理系统10中的一个或多个组件(例如,服务器100和终端设备200)可以具有访问数据库的权限。
图2示出了本申请实施例所提供的数据处理方法的流程图之一,该方法可应用于图1所示的服务器100,由图1中的服务器100执行。应当理解,在其他实施例中,本实施例的数据处理方法中的部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。下面对图2所示的数据处理方法的流程进行详细描述。
步骤S210,获取待处理产品的特征数据。
步骤S220,将特征数据输入预设标签模型,得到特征数据的标签。
上述方法通过将待处理产品的特征数据输入预设标签模型得到标签,实现了根据特征数据和模型生成标签,改善了现有技术中人工根据金融产品的历史表现和单一规则进行定性分析得到标签,标签生成效率低下、标签数量和覆盖范围有限,导致的标签生成的可靠性低的问题。
对于步骤S210,需要说明的是,获取特征数据的步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S210可以包括进行特征处理的步骤。因此,在图2的基础上,图3为本申请实施例提供的另一种数据处理方法的流程示意图,参见图3,步骤S210可以包括:
步骤S211,获取待处理产品的相关数据。
详细地,在待处理产品为金融产品时,对需要分析的金融产品相关数据进行采集。可选地,可以由用户通过终端设备200自定义导入需要分析的金融产品相关数据,也可由服务器直接对所有金融产品的相关数据进行采集。相关数据涉及多个数据源,一般来自于wind、贝格等金融数据服务商,数据源一般存储在Oracle、postgreSQL等关系型数据库中。金融产品的相关数据表征金融产品历史表现的量化数值型指标,例如收益率、换手率、成交量、最大回撤、夏普比率等。
步骤S212,对相关数据进行特征处理,得到待处理产品的特征数据。
详细地,特征处理的步骤可以包括数据清洗和预处理。在数据清洗步骤,实现对脏数据的处理或剔除,包括缺失值、异常值等,处理方法有删除、替换等。在数据预处理步骤,实现将数据转化为模型使用的特征数据,具体步骤包括标准化、归一化等。
其中,缺失值是指数据中为空值的数据,常见的处理缺失值的方法有:删除缺失值、补全缺失值(如均值填补、中位数填补等)。
异常值是指数据值超出了合理范围的数据,异常值进行修正处理,修正公式可以如下所示:
Figure BDA0002770722510000101
其中,xij *表示异常值xij修正后的值,
Figure BDA0002770722510000102
表示xij所属数据的平均值,σj表示xij所属数据的标准差。
为了使不同量纲的特征具有可加性与可比性,需要对数据进行无量纲处理。具体地,可以对样本Xi的第j个特征Xij,取
Figure BDA0002770722510000103
其中
Figure BDA0002770722510000104
表示样本Xi第j个特征的均值,sj表示样本Xi第j个特征的标准差。
若特征的数值分布范围过大,不利于模型收敛,优化效率低下,且可能陷入局部最优解。因此,需要将特征数据进行归一化,将数值转换到0至1之间。具体公式可以如下所示:
Figure BDA0002770722510000105
其中,xij *表示xij经过归一化转换后的值,min(xj)表示xij所属特征xj的最小值,max(xj)表示xij所属特征xj的最大值。
在步骤S220之前,本申请实施例还可以包括得到预设标签模型的步骤。因此,在图2的基础上,图4为本申请实施例提供的另一种数据处理方法的流程示意图,参见图4,数据处理方法可以包括:
步骤S240,根据获取的训练数据对至少一个原始模型进行训练,得到预设标签模型。
详细地,该步骤为将金融产品的特征数据与其未来收益率生成关联关系,未来收益率作为模型的训练目标。该步骤涉及一个配置参数,为特征与未来收益率的时间间隔,一般有一个月、三个月、六个月等,关联关系可以如下所示:
Xi,j~ri+p,j
其中,Xi,j表示金融产品j第i天的特征数据矩阵,ri+p,j表示金融产品j第i+p天的收益率,p表示特征与未来收益率的时间间隔。
可选地,输入模型的特征数据的数量可以为一个,也可以为多个。根据特征数据的不同,构建模型方法可以包括多特征分析和单特征分析。
在多特征分析中,可以将多个特征看作一个特征组进行综合分析,将特征组作为自变量,未来收益率作为因变量,构建原始模型进行训练。原始模型可以包括但不限于,线性回归、SVM模型回归、深度学习模型等。
对于步骤S240,需要说明的是,进行训练的步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,在训练数据包括训练特征数据和实际值时,步骤S240可以包括根据原始模型的模型效果选取预设标签模型的步骤。因此,在图4的基础上,图5为本申请实施例提供的另一种数据处理方法的流程示意图,参见图5,步骤S240可以包括:
步骤S241,针对每一个原始模型,将训练特征数据输入该原始模型,得到训练特征数据的预测值。
步骤S242,根据预测值和实际值确定该原始模型的模型效果。
步骤S243,根据至少一个原始模型的模型效果选取预设标签模型。
对于步骤S241,需要说明的是,构建好模型后,可以根据特征组数据和构建好的原始模型,预测未来收益率,得到预测值
Figure BDA0002770722510000121
在单特征分析中,只涉及单一特征分析,可以将训练特征数据输入原始模型得到的值直接作为未来收益率的预测值
Figure BDA0002770722510000122
对于步骤S242,需要说明的是,确定模型效果的步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S242可以包括进行显著性分析处理的步骤。因此,在图5的基础上,图6为本申请实施例提供的另一种数据处理方法的流程示意图,参见图6,步骤S242可以包括:
步骤S2421,根据预测值对实际值进行分组处理,得到实际值序列。
步骤S2422,对实际值序列进行显著性分析处理,得到该原始模型的模型效果。
对于步骤S2421,需要说明的是,进行分组处理的步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S2421可以包括进行排序处理的步骤。因此,在图6的基础上,图7为本申请实施例提供的另一种数据处理方法的流程示意图,参见图7,步骤S2421可以包括:
步骤S2421-1,对预测值进行排序处理,得到分组数据。
详细地,可以对预测值(未来收益率序列
Figure BDA0002770722510000123
)按照数值大小排序,分成k组,分别为
Figure BDA0002770722510000124
步骤S2421-2,根据分组数据对实际值进行分组处理,得到实际值序列。
详细地,可以匹配预测值与实际值的关系,根据预测值的分组数据对实际值进行分组处理,获得每组的实际值序列,分别为Ri+p,j,1,...,Ri+p,j,k
对于步骤S2422,需要说明的是,可以对实际值序列Ri+p,j,1,...,Ri+p,j,k进行单因素方差分析(One Way ANOVA),单因素方差分析(显著性分析)的目的是检验各组别的实际收益率是否有显著差异,显著性分析如下:
Figure BDA0002770722510000131
其中,F表示构造的统计量指标,MSA表示各组均值与总均值的误差平方和,反映各组均值之间的差异程度,MSE表示每个水平或组的样本数据与其它组均值的误差平方和,反映组内均值之间的差异程度,k表示分组个数,n表示实际值样本的总数,ni表示第i组的样本总数,
Figure BDA0002770722510000132
表示第i组的样本均值,
Figure BDA0002770722510000133
表示全部样本的均值,rij表示每个样本的数值。
其中,F服从F(k-1,n-k)分布,在给定显著性水平α下,可以计算F(k-1,n-k)分布的Fα,如果F>Fα,表明自变量对因变量影响显著。
对于步骤S243,需要说明的是,若经过分组方差分析判断模型效果为显著,说明预测值
Figure BDA0002770722510000134
与实际值Ri+p,j,1,...,Ri+p,j,k有较大关联性,预测值分组能反映实际值的大小差异。可以择优将模型结果最好的原始模型进行保存得到预设标签模型,包括模型的参数、模型得到的组别及组别的划分区间等。根据每个组别对应实际收益率均值大小确定生成标签的区间,均值最大的组别生成正向特征标签(该特征标签的金融产品未来收益表现较好),均值最小的组别生成负向特征标签(该特征标签的金融产品未来收益表现不佳)。
对于步骤S220,需要说明的是,得到标签的步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S220可以包括根据预测收益率确定标签的步骤。因此,在图2的基础上,图8为本申请实施例提供的另一种数据处理方法的流程示意图,参见图8,步骤S220可以包括:
步骤S221,将特征数据输入预设标签模型,得到特征数据的预测收益率。
步骤S222,根据预测收益率确定特征数据的标签。
详细地,可以根据金融产品的预测收益率
Figure BDA0002770722510000141
所属组别区间生成金融产品的特征标签,若
Figure BDA0002770722510000142
在正向特征标签区间内,则生成正向特征标签,若
Figure BDA0002770722510000143
在负向特征标签区间内,则生成负向特征标签,其他情况则不生成标签。
进一步地,若经过分组方差分析判断模型效果为不显著,可选择重新优化模型。在模型训练中,采取其他可选的原始模型及其参数进行优化;在区间分组时,采取其他分组个数和分组方式进行优化,或者选择放弃模型,该特征或特征组不生成标签。
需要说明的是,本申请实施例提供的服务器100可以实现自动化标签生成模型(预设标签模型)的构建、根据市场变化调整标签生成规则、生成金融产品标签及标签更新等功能,实施过程和组成部分主要有以下几个模块:
(1)调度模块
该模块实现对标签生成模型构建流程(模块1,2,3,4,5)和金融产品标签生成流程(模块1,6,5,7)两个流程的触发和调度。具体触发历史数据获取及处理模块运行标签生成模型构建流程,触发最新数据获取及处理模块运行金融产品标签生成流程。一般地,标签生成模型构建流程的调度为不定期调度,一般为一个月到三个月调度一次,或根据市场情况和用户需求手动触发调度;金融产品标签生成流程为每日定时调度,实现对金融产品特征标签的生成和更新。
(2)历史数据获取及处理模块
该模块为对需要分析的金融产品历史特征数据进行采集。
(3)模型配置模块
该模块实现用户对标签生成模型的参数进行配置,配置的参数可以包括回归模型的选取及其参数、特征与未来收益率时间间隔、分组数量等等。
(4)标签模型构建模块
该模块实现本申请实施例提出的标签生成模型的构建。
(5)模型存储模块
该模块用于存储各金融产品各特征(组)的标签生成模型的模型参数和结果,可以包括模型的训练参数、配置参数、标签生成规则等。当输入金融产品的特征数据,通过存储的模型就能实现标签生成。
(6)最新数据获取及处理模块
该模块为对需要生成标签的金融产品最新特征数据进行采集,可以由用户自定义导入需要分析的金融产品特征数据,也可由系统调度实现对所有金融产品最新特征数据进行采集,采集的数据用于金融产品标签生成或更新。
(7)标签输出模块
该模块将标签生成结果可视化返回给终端设备200,或者将标签结果等数据保存到数据库,方便持续性使用。
本申请实施例相较于现有技术,具有以下优点:
(1)相较于人工分析的定性标签,本申请实施例能够实现大批量对全市场的金融产品生成标签,并根据金融产品的实际特征属性进行动态更新。
详细地,调度模块对标签生成模型构建流程(模块1,2,3,4,5)和金融产品标签生成流程(模块1,6,5,7)两个流程的触发和调度,实现金融产品特征标签能够根据最新的特征数据动态更新,且本申请实施例的标签生成方法适用于全市场金融产品,获取全市场金融产品特征数据后,能够实现大批量对全市场的金融产品生成标签。
(2)相较于配置标签规则系统生成定量标签,本申请实施例能够实现根据市场实际变化动态调整规则,生成与金融产品未来收益率关联性较大的标签,提高模型的实效性、动态适用性和预测能力。
详细地,在标签生成模型构建流程图,标签的生成规则是通过特征历史数据与未来收益率构建回归模型训练得到的,生成的标签与金融产品未来收益率关联性较大,具有预测能力;且模型会根据市场变化或者不定期调度对模型更新,提高模型的实效性和动态适用性。
结合图9,本申请实施例还提供了一种数据处理装置900,该数据处理装置900实现的功能对应上述方法执行的步骤。该数据处理装置900可以理解为上述服务器100的处理器,也可以理解为独立于上述服务器100或处理器之外的在服务器100控制下实现本申请功能的组件。其中,数据处理装置900可以包括数据获取模块910和数据处理模块920。
数据获取模块910,用于获取待处理产品的特征数据。在本申请实施例中,数据获取模块910可以用于执行图2所示的步骤S210,关于数据获取模块910的相关内容可以参照前文对步骤S210的描述。
数据处理模块920,用于将特征数据输入预设标签模型,得到特征数据的标签。在本申请实施例中,数据处理模块920可以用于执行图2所示的步骤S220,关于数据处理模块920的相关内容可以参照前文对步骤S220的描述。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据处理方法的步骤。
本申请实施例所提供的数据处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行上述方法实施例中的数据处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
综上所述,本申请实施例提供的数据处理方法和装置、服务器及存储介质,通过将待处理产品的特征数据输入预设标签模型得到标签,实现了根据特征数据和模型生成标签,改善了现有技术中人工根据金融产品的历史表现和单一规则进行定性分析得到标签,标签生成效率低下、标签数量和覆盖范围有限,导致的标签生成的可靠性低的问题。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器100,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待处理产品的特征数据;
将所述特征数据输入预设标签模型,得到所述特征数据的标签。
2.如权利要求1所述的数据处理方法,其特征在于,所述将所述特征数据输入预设标签模型,得到所述特征数据的标签的步骤,包括:
将所述特征数据输入所述预设标签模型,得到所述特征数据的预测收益率;
根据所述预测收益率确定所述特征数据的标签。
3.如权利要求1所述的数据处理方法,其特征在于,所述数据处理方法还包括得到所述预设标签模型的步骤,该步骤包括:
根据获取的训练数据对至少一个原始模型进行训练,得到所述预设标签模型。
4.如权利要求3所述的数据处理方法,其特征在于,所述训练数据包括训练特征数据和实际值,所述根据获取的训练数据对至少一个原始模型进行训练,得到所述预设标签模型的步骤,包括:
针对每一个原始模型,将所述训练特征数据输入该原始模型,得到所述训练特征数据的预测值;
根据所述预测值和实际值确定该原始模型的模型效果;
根据至少一个原始模型的模型效果选取预设标签模型。
5.如权利要求4所述的数据处理方法,其特征在于,所述根据所述预测值和实际值确定该原始模型的模型效果的步骤,包括:
根据所述预测值对所述实际值进行分组处理,得到实际值序列;
对所述实际值序列进行显著性分析处理,得到该原始模型的模型效果。
6.如权利要求5所述的数据处理方法,其特征在于,所述根据所述预测值对所述实际值进行分组处理,得到实际值序列的步骤,包括:
对所述预测值进行排序处理,得到分组数据;
根据所述分组数据对所述实际值进行分组处理,得到实际值序列。
7.如权利要求1所述的数据处理方法,其特征在于,所述获取待处理产品的特征数据的步骤,包括:
获取所述待处理产品的相关数据;
对所述相关数据进行特征处理,得到所述待处理产品的特征数据。
8.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取待处理产品的特征数据;
数据处理模块,用于将所述特征数据输入预设标签模型,得到所述特征数据的标签。
9.一种服务器,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的可执行的计算机程序,以实现权利要求1-7任意一项所述的数据处理方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,该程序被执行时实现权利要求1-7任意一项所述数据处理方法的步骤。
CN202011248082.3A 2020-11-10 2020-11-10 数据处理方法和装置、服务器及存储介质 Pending CN112348093A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011248082.3A CN112348093A (zh) 2020-11-10 2020-11-10 数据处理方法和装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011248082.3A CN112348093A (zh) 2020-11-10 2020-11-10 数据处理方法和装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN112348093A true CN112348093A (zh) 2021-02-09

Family

ID=74363203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011248082.3A Pending CN112348093A (zh) 2020-11-10 2020-11-10 数据处理方法和装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112348093A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836146A (zh) * 2021-09-29 2021-12-24 五八同城信息技术有限公司 一种特征标签生成方法、装置、电子设备及存储介质
CN115828977A (zh) * 2023-02-15 2023-03-21 深圳市玄羽科技有限公司 工业互联网标签编码方法、装置、介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836146A (zh) * 2021-09-29 2021-12-24 五八同城信息技术有限公司 一种特征标签生成方法、装置、电子设备及存储介质
CN113836146B (zh) * 2021-09-29 2024-04-26 五八同城信息技术有限公司 一种特征标签生成方法、装置、电子设备及存储介质
CN115828977A (zh) * 2023-02-15 2023-03-21 深圳市玄羽科技有限公司 工业互联网标签编码方法、装置、介质及电子设备
CN115828977B (zh) * 2023-02-15 2023-06-09 深圳市玄羽科技有限公司 工业互联网标签编码方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CA3088899C (en) Systems and methods for preparing data for use by machine learning algorithms
CN112348093A (zh) 数据处理方法和装置、服务器及存储介质
CN110175235A (zh) 基于神经网络的智能商品税分类编码方法及系统
CN110826617A (zh) 态势要素分类方法及其模型的训练方法、装置及服务器
Ahmed et al. DGStream: High quality and efficiency stream clustering algorithm
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN111581386A (zh) 多输出文本分类模型的构建方法、装置、设备及介质
CN113641654B (zh) 一种基于实时事件的营销处置规则引擎方法
CN113239272B (zh) 一种网络管控系统的意图预测方法和意图预测装置
CN115115119A (zh) 一种基于灰色关联的oa-gru的短期电力负荷预测方法
CN112348092A (zh) 数据处理方法和装置、服务器及存储介质
CN113469819A (zh) 基金产品的推荐方法、相关装置及计算机存储介质
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法
CN117350549B (zh) 计及出力相关性的配电网电压风险识别方法、装置及设备
WO2024001610A1 (zh) 目标规划问题的求解方法、选择节点的方法及装置
CN111026863A (zh) 客户行为预测方法、装置、设备及介质
Taneja Implementation of novel algorithm (SPruning Algorithm)
Wang et al. Traffic Flow Prediction Using Machine Learning Methods
US20240119470A1 (en) Systems and methods for generating a forecast of a timeseries
CN117455421B (zh) 科研项目的学科分类方法、装置、计算机设备及存储介质
CN111046902B (zh) 基于聚类算法的分类方法、装置、计算机设备及存储介质
CN116049666A (zh) 一种客户流失预测方法、装置、计算机设备和存储介质
Tripathy et al. Map-reduce based parallel support vector machine for risk analysis
CN114155016A (zh) 一种点击率预估方法、装置、设备及可读存储介质
Xu et al. Simplest Streaming Trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination