CN112364085B - 一种基于MapReduce思想的特征抽取计算方法 - Google Patents

一种基于MapReduce思想的特征抽取计算方法 Download PDF

Info

Publication number
CN112364085B
CN112364085B CN202011308425.0A CN202011308425A CN112364085B CN 112364085 B CN112364085 B CN 112364085B CN 202011308425 A CN202011308425 A CN 202011308425A CN 112364085 B CN112364085 B CN 112364085B
Authority
CN
China
Prior art keywords
data
calculation
chain
calculable
computable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011308425.0A
Other languages
English (en)
Other versions
CN112364085A (zh
Inventor
孙友波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN202011308425.0A priority Critical patent/CN112364085B/zh
Publication of CN112364085A publication Critical patent/CN112364085A/zh
Application granted granted Critical
Publication of CN112364085B publication Critical patent/CN112364085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于特征计算技术领域,特指一种基于MapReduce思想的特征抽取计算方法,包括如下步骤:转化数据:将原始数据进行转化使其成为可计算数据;封装特征计算过程:将若干个计算过程根据分别封装成函数使其成为通用标准计算过程;快速配置:通用标准计算过程用于计算相应的可计算数据,每个可计算数据可以快速的配置出与该可计算数据相对应的计算链;调用计算链:调用出相应的计算链,通过该计算链对相应的可计算数据进行计算出结果。与现有技术相比,本发明具有以下优点:复用特征的计算过程,大幅度的减少开发工作量和维护成本;使得特征的计算逻辑更加直观,通过特征的实现路径即可知道特征的计算过程,便于特征的理解和后期维护。

Description

一种基于MapReduce思想的特征抽取计算方法
技术领域
本发明属于特征计算技术领域,特指一种基于MapReduce思想的特征抽取计算方法。
背景技术
随着信息技术的不断普及和发展,数据在各个领域呈现爆发式增长,人们在研究的过程中通常需要对原始数据进行计算,现有一般采用计算机程序对数据进行计算。
传统的特征的抽取存在以下缺陷:1、通过对固定格式的输入数据源进行抽取,一旦输入数据有变动或者新增输入数据类型都会容易导致重新编码开发,数据的计算灵活性差;2、在现有特征的抽取过程中,每个特征的计算过程完全独立,代码重复度很高,造成计算资源的浪费;3、特征的计算过程集中在一起,不便于直观的理解整个计算过程经历了哪些处理环节;4、在大量特征计算时,开发成本和维护成本很高,随着特征数量增多,维护成本比开发成本陡增趋势更加明显;5、由于特征计算逻辑整体独立,很难再进行细粒度拆分的来提高并发计算。
发明内容
本发明的目的是针对现有的技术存在上述问题,提出了一种基于MapReduce思想的特征抽取计算方法,本发明所要解决的技术问题是:如何降低特征计算的成本。
本发明的目的可通过下列技术方案来实现:
一种基于MapReduce思想的特征抽取计算方法,其特征在于,包括如下步骤:
(1)、转化数据:将原始数据进行转化使其成为可计算数据;
(2)、封装特征计算过程:将若干个计算过程根据分别封装成函数使其成为通用标准计算过程;
(3)、快速配置:通用标准计算过程用于计算相应的可计算数据,每个可计算数据可以快速的配置出与该可计算数据相对应的计算链;
(4)、调用计算链:调用出相应的计算链,通过该计算链对相应的可计算数据进行计算出结果。
在上述的一种基于MapReduce思想的特征抽取计算方法中,在上述步骤(1)中,原始数据包括简单数据、JSON数据、文本数据和音频数据;简单数据和JSON数据通过直接获取或转换形成可计算数据;文本数据经过NLP处理形成可计算数据;音频数据能经过ASR处理形成可计算数据。
在上述的一种基于MapReduce思想的特征抽取计算方法中,在上述步骤(2)中,将过滤空值、过滤负值、过滤异常值、序列值类型转换、求序列最大值、求序列平均值、组合多个序列、求和多个序列和取TopN值分别封装成相应的通用标准计算过程。
在上述的一种基于MapReduce思想的特征抽取计算方法中,在上述步骤(2)中,对部分有特殊逻辑的可计算数据进行定制计算过程,该定制计算过程用于计算具有特殊逻辑的可计算数据,并将该定制计算过程封装成函数。
在上述的一种基于MapReduce思想的特征抽取计算方法中,在上述步骤(4)中,当需要用到某一个可计算数据时,加载与该计算数据相对应计算链,并将该计算链配置到内存中,计算链配置可以使用特殊符号链接起来作为字符串,加载的时候再切割成每个计算过程的函数相对应的字符串,接着根据程序语言的反射原理找到对应的计算链,再调用计算链,并将计算链输出的结构传入下一个计算过程或者结束计算并输出指标。
与现有技术相比,本发明的基于MapReduce思想的特征抽取计算方法具有以下优点:
1、复用特征的计算过程,大幅度的减少开发工作量和维护成本;
2、使得特征的计算逻辑更加直观,通过特征的实现路径即可知道特征的计算过程,便于特征的理解和后期维护;
3、使得特征并发粒度缩小到计算过程,提高特征并发计算效率。
附图说明
图1是本发明的特征计算流程图。
图2是本发明的特征平均值计算流程图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
如图1和图2所示,一种基于MapReduce思想的特征抽取计算方法,包括如下步骤:
(1)、转化数据:将原始数据进行转化使其成为可计算数据,原始数据包括简单数据、JSON数据、文本数据和音频数据等,简单数据和JSON数据通过直接获取或转换形成可计算数据,文本数据经过NLP处理形成可计算数据,音频数据能经过ASR处理形成可计算数据;
(2)、封装特征计算过程:将若干个计算过程根据分别封装成函数使其成为通用标准计算过程,如将过滤空值、过滤负值、过滤异常值、序列值类型转换、求序列最大值、求序列平均值、组合多个序列、求和多个序列和取TopN值分别封装成相应的通用标准计算过程;
(3)、快速配置:通用标准计算过程用于计算相应的可计算数据,每个可计算数据可以快速的配置出与该可计算数据相对应的计算链,这个调用计算链的配置可以存储到数据库也可以直接使用配置文件或代码配置;
(4)、调用计算链:调用出相应的计算链,通过该计算链对相应的可计算数据进行计算出结果,具体为,当需要用到某一个可计算数据时,加载与该计算数据相对应计算链,并将该计算链配置到内存中,计算链配置可以使用特殊符号链接起来作为字符串,加载的时候再切割成每个计算过程的函数相对应的字符串,接着根据程序语言的反射原理找到对应的计算链,再调用计算链,并将计算链输出的结构传入下一个计算过程或者结束计算并输出指标。
在步骤(2)中,对部分有特殊逻辑的可计算数据进行定制计算过程,该定制计算过程用于计算具有特殊逻辑的可计算数据,并将该定制计算过程封装成函数,和通用标准计算过程一样配置的可调用计算链中,只是定制计算过程其他特征计算不会使用到,而通用标准计算过程在其他特征可调用计算链中均可以配置,定制计算过程的计算链调用逻辑为一段通用的代码,包括特征的配置加载、解析、调用、输出等,每一个计算过程都会使用到。
本发明的特征的计算过程和计算链的调用逻辑都是复用的,大幅度减少了开发成本和维护成本,同时提高了特征的可管理性,可以较为直观的校验和理解特征的计算过程,将特征计算过程作为计算单位可以提高单机和分布式计算并发效率。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (2)

1.一种基于MapReduce思想的特征抽取计算方法,其特征在于,包括如下步骤:
(1)、转化数据:将原始数据进行转化使其成为可计算数据;原始数据包括简单数据、JSON数据、文本数据和音频数据;简单数据和JSON数据通过直接获取或转换形成可计算数据;文本数据经过NLP处理形成可计算数据;音频数据能经过ASR处理形成可计算数据;
(2)、封装特征计算过程:将若干个计算过程根据分别封装成函数使其成为通用标准计算过程;对部分有特殊逻辑的可计算数据进行定制计算过程,该定制计算过程用于计算具有特殊逻辑的可计算数据,并将该定制计算过程封装成函数;
(3)、快速配置:通用标准计算过程用于计算相应的可计算数据,每个可计算数据可以快速的配置出与该可计算数据相对应的计算链;
(4)、调用计算链:调用出相应的计算链,通过该计算链对相应的可计算数据进行计算出结果,当需要用到某一个可计算数据时,加载与该计算数据相对应计算链,并将该计算链配置到内存中,计算链配置可以使用特殊符号链接起来作为字符串,加载的时候再切割成每个计算过程的函数相对应的字符串,接着根据程序语言的反射原理找到对应的计算链,再调用计算链,并将计算链输出的结构传入下一个计算过程或者结束计算并输出指标。
2.根据权利要求1所述的一种基于MapReduce思想的特征抽取计算方法,其特征在于,
在上述步骤(2)中,将过滤空值、过滤负值、过滤异常值、序列值类型转换、求序列最大值、求序列平均值、组合多个序列、求和多个序列和取TopN值分别封装成相应的通用标准计算过程。
CN202011308425.0A 2020-11-20 2020-11-20 一种基于MapReduce思想的特征抽取计算方法 Active CN112364085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011308425.0A CN112364085B (zh) 2020-11-20 2020-11-20 一种基于MapReduce思想的特征抽取计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011308425.0A CN112364085B (zh) 2020-11-20 2020-11-20 一种基于MapReduce思想的特征抽取计算方法

Publications (2)

Publication Number Publication Date
CN112364085A CN112364085A (zh) 2021-02-12
CN112364085B true CN112364085B (zh) 2023-07-25

Family

ID=74533016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011308425.0A Active CN112364085B (zh) 2020-11-20 2020-11-20 一种基于MapReduce思想的特征抽取计算方法

Country Status (1)

Country Link
CN (1) CN112364085B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998028683A1 (en) * 1996-12-23 1998-07-02 Z-World, Inc. Function code chaining method
CN110865927A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 区块链调用链路异常检测方法、装置和计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9990223B2 (en) * 2015-08-10 2018-06-05 Salesforce.Com, Inc. Systems and methods of improving parallel functional processing
CN106547543A (zh) * 2016-10-13 2017-03-29 武汉斗鱼网络科技有限公司 基于SharedPreferences工具的数据处理方法及系统
CN107621934B (zh) * 2017-07-28 2020-11-03 中国人民解放军国防信息学院 基于组件化、图形化算子的评估指标计算方法及装置
CN115809275A (zh) * 2019-09-17 2023-03-17 第四范式(北京)技术有限公司 用于抽取特征的数据处理方法和系统
CN111832740A (zh) * 2019-12-30 2020-10-27 上海氪信信息技术有限公司 一种对结构化数据实时衍生机器学习用特征的方法
CN111459489B (zh) * 2020-02-27 2023-09-26 湖南大学 一种动态库自动服务化封装方法、系统及应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998028683A1 (en) * 1996-12-23 1998-07-02 Z-World, Inc. Function code chaining method
CN110865927A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 区块链调用链路异常检测方法、装置和计算机设备

Also Published As

Publication number Publication date
CN112364085A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN109710215B (zh) 分布式流计算的可视化流程处理引擎及其使用方法
US20120317591A1 (en) Implementation System for Business Applications
IL142366A0 (en) Conversational browser and conversational systems
CN105824974B (zh) 数据分析处理的方法和系统
CN109522008B (zh) 一种区块链智能合约构建方法
CN107169069B (zh) 分布式分级抽取多应用方法和数据抽取应用器
WO2018176822A1 (zh) 一种操作ElasticSearch的方法及装置
CN106959948A (zh) 针对分布式特性对大数据进行预处理的系统及其预处理方法
US20200210829A1 (en) Network off-line model processing method, artificial intelligence processing device and related products
CN111984256A (zh) 一种基于云原生架构的低代码应用流程系统和运行方法
CN108829884A (zh) 数据映射方法及装置
CN112559606A (zh) 用于json格式数据的转换方法及转换装置
CN101553779A (zh) 将主机系统应用程序转换为开放系统应用程序的转换装置和方法
CN112364085B (zh) 一种基于MapReduce思想的特征抽取计算方法
CN103514026A (zh) 一种通过javascript直接调用java api的方法
CN114173355B (zh) 一种设计运行态分离的网络指令动态执行方法及系统
CN106682258B (zh) 一种高层次综合工具中的多操作数加法优化方法及系统
CN108153896B (zh) 针对输入数据、输出数据的处理方法及装置
CN114089956A (zh) 一种基于需求模型的微服务拆分方法
CN116579300A (zh) 多源异构数据的自动化转换方法和装置
CN110941463A (zh) 一种遥感卫星数据预处理多级产品自驱动系统
CN109408577B (zh) Oracle数据库json解析方法、系统、装置及可存储介质
CN116795861A (zh) 数据的校验方法、系统和电子设备
CN112395302A (zh) Sql指令的执行方法、装置、电子设备及计算机可读介质
CN112230895B (zh) 一种el表达式解析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant