CN110119763B - 基于默克尔树思想的逻辑回归数据优化方法、存储介质 - Google Patents

基于默克尔树思想的逻辑回归数据优化方法、存储介质 Download PDF

Info

Publication number
CN110119763B
CN110119763B CN201910304415.0A CN201910304415A CN110119763B CN 110119763 B CN110119763 B CN 110119763B CN 201910304415 A CN201910304415 A CN 201910304415A CN 110119763 B CN110119763 B CN 110119763B
Authority
CN
China
Prior art keywords
data
tree
logistic regression
regression
root node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910304415.0A
Other languages
English (en)
Other versions
CN110119763A (zh
Inventor
刘德建
于恩涛
陈伟
林剑锋
林琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian TQ Digital Co Ltd
Original Assignee
Fujian TQ Digital Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian TQ Digital Co Ltd filed Critical Fujian TQ Digital Co Ltd
Priority to CN201910304415.0A priority Critical patent/CN110119763B/zh
Publication of CN110119763A publication Critical patent/CN110119763A/zh
Application granted granted Critical
Publication of CN110119763B publication Critical patent/CN110119763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Abstract

本发明提供基于默克尔树思想的逻辑回归数据优化方法、存储介质,方法包括:依据预设的两个以上的类别标签,对待传入回归逻辑算法的数据进行分类,获取所述类别标签各自对应的数据集;创建与各个类别标签一一对应,且以对应的类别标签为根节点标识的默克尔树;依据类别标签存储数据集至对应的默克尔树;依据默克尔树的根节点标识确定传入回归逻辑算法的数据集。本发明能够确保传入回归逻辑算法之前的数据同时具备高度正确性和线性特性;并且不会对学习效率产生影响,还能提高计算速度;同时又能为后续基于计算结果的练习提供操作便利性。

Description

基于默克尔树思想的逻辑回归数据优化方法、存储介质
技术领域
本发明涉及深度学习领域,具体涉及基于默克尔树思想的逻辑回归数据优化方法、存储介质。
背景技术
目前深度学习数据选择有很多算法,其中的Logistic算法也叫作逻辑回归算法,是一种计算量小、速度快、存储资源低的线性分类算法。逻辑回归算法通过已经存在的Logistic函数估计概率,来预测结果。在深度学习过程中,需要在逻辑回归任务中把线性数据进行二分类,且要求传入的数据是线性的,期望数据是准确的。在逻辑回归算法二分类后的数据会根据神经网络需求传入进行深度学习。
通过上述介绍的现有的逻辑回归算法可以知道,该算法所能依赖的数据是需要高度正确的,且在逻辑回归算法的功能上,它只会对数据二分类,而并不会对数据进行校验,那么如果传入的数据噪音(脏数据)比较多时,它也只会进行分类,而无法排除掉错误的数据,虽然逻辑回归算法的计算速度快、数据量要求少、所占资源低等优点,它也会把错误的数据混合在正确数据中,从而显著降低学习结果的准确性。同时,由于逻辑回归算法需要的数据为线性数据,当数据为离散时,逻辑回归算法无法有效的进行数据二分类。
因此,有必要提供一种能够优化逻辑回归数据校验的方案。
发明内容
本发明所要解决的技术问题是:提供基于默克尔树思想的逻辑回归数据优化方法、存储介质,能够确保校验前的数据同时符合高度正确和具备线性特征的要求,从而显著提高学习结果的准确性。
为了解决上述技术问题,本发明采用的技术方案为:
基于默克尔树思想的逻辑回归数据优化方法,包括:
依据预设的两个以上的类别标签,对待传入回归逻辑算法的数据进行分类,获取所述类别标签各自对应的数据集;
创建与各个类别标签一一对应,且以对应的类别标签为根节点标识的默克尔树;
依据类别标签存储数据集至对应的默克尔树;
依据默克尔树的根节点标识确定传入回归逻辑算法的数据集。
本发明提供的另一个技术方案为:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,能够实现上述基于默克尔树思想的逻辑回归数据优化方法所包含的步骤。
本发明的有益效果在于:本发明基于默克尔树在区块链中的运用对回归逻辑算法数据进行优化,能够确保传入回归逻辑算法之前的数据同时具备高度正确性和线性特性。具体的,本发明首先对数据进行分类,不仅能滤除无效数据,提高数据准确性,而且还能起到对有效数据按照特征属性进行概括归整的作用;然后,将分类后的数据集存储在以其对应的类别标签为根节点标识的默克尔树上,这样,每棵默克尔树上存储的都是具备相似特征的数据,由此保证数据具有线性特征;最后,基于默克尔树在区块链中的应用,只需验证根节点标识便可确认对应数据集的特性是否符合逻辑回归算法的要求,由此进一步保证计算数据的高度准确性。
附图说明
图1为本发明实施例一种基于默克尔树思想的逻辑回归数据优化方法的流程示意图;
图2为本发明实施例二的优化方法流程示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:将逻辑回归计算前的数据进行线性分类和存储尽可能多的正确数据在同一棵默克尔树上;在传入计算前,便可通过判断默克尔树的根节点标识确定待计算数据,确保传入回归逻辑算法之前的数据同时具备高度正确性和线性特性。
请参照图1,本发明提供基于默克尔树思想的逻辑回归数据优化方法,包括:
依据预设的两个以上的类别标签,对待传入回归逻辑算法的数据进行分类,获取所述类别标签各自对应的数据集;
创建与各个类别标签一一对应,且以对应的类别标签为根节点标识的默克尔树;
依据类别标签存储数据集至对应的默克尔树;
依据默克尔树的根节点标识确定传入回归逻辑算法的数据集。
从上述描述可知,本发明的有益效果在于:通过本发明进行逻辑回归算法数据校验优化后,能实现在数据进入算法之前,先基于默克尔树在区块链中的应用,通过校验默克尔树的父节点确认数据的正确性,此举不会占用太多资源,依旧能保证逻辑回归算法的速度;而且在校验父节点正确后,其下的所有子节点数据的正确性也将被认可,即可直接在逻辑回归算法中使用,由此提高了计算速度,同时又能确保数据的高度正确性;同时,基于树形结构特性,通过默克尔树输出进行计算的数据是线性的,保证了传入逻辑回归算法的数据为线性数据。
进一步的,通过tensorflow训练对所述数据进行分类。
由上述描述可知,通过tensorflow训练数据实现自动且高效地对数据进行分类。
进一步的,还包括:
将待传入回归逻辑算法的一默克尔树上的数据集通过单线程传入回归逻辑算法中。
由上述描述可知,将每棵默克尔树通过单线程送入算法中进行计算,能确保计算数据符合算法量小且速度快的要求,从而不对计算流程和计算速度造成影响。
进一步的,还包括:
一默克尔树上的数据集经过回归逻辑算法计算后输出数据结果,所述数据结果具有所述一默克尔树的根节点标识。
由上述描述可知,每一棵默克尔树的数据集经过计算后的数据结果都将继承对应的根节点标识,以便在后续的深度学习中,能更容易地找到对应的数据结果进行练习,进而提高学习效率。
本发明提供的另一个技术方案为:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,能够实现上述基于默克尔树思想的逻辑回归数据优化方法所包含的步骤。具体的步骤在此不进行复述,详情请参阅上述各方法的记载。
从上述描述可知,对应本领域普通技术人员可以理解实现上述技术方案中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来实现的,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时,可包括如上述各方法的流程。所述流程在被执行后,同样能获取上述各方法对应的效果。
其中,所述的存储介质可以是磁盘、光碟、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
实施例一
本实施例提供基于默克尔树思想对进行逻辑回归计算之前的数据进行优化的方法,能够确保计算前的数据同时符合高正确性和线性特性两个要求。
请参阅图1,本实施例的方法包括:
S1:依据预设的两个以上的类别标签,对待传入回归逻辑算法的数据进行分类,获取所述类别标签各自对应的数据集。
首先,依据待传入回归逻辑算法的数据的特征,预设两个以上的类别标签。例如,所述数据为动物图片,则可以预设包括眼睛、嘴巴、鼻子等的类别标签。然后,在大量无规则、未分类的数据传入神经网络中以后,将存储在CNN网络上。之后,依据预设的类别标签对存储在CNN网络上的数据进行分类归整。在此,不属于任意一个类别标签的数据将会被过滤掉,这些数据往往是一些无效数据,如图片的边缘数据或噪声(复杂的背景数据)等。
在一具体实例中,通过tensorflow训练实现对所述数据进行分类,具有易于实现且效率高、精度高等特点。
S2:创建与各个类别标签一一对应,且以对应的类别标签为根节点标识的默克尔树;
假设上一步骤预设了8个类别标签,则在此将创建8棵默克尔树;然后,逐个将类别标签安排给每一棵默克尔树作为其根节点标识。也就是说,8棵默克尔树的根节点标识分别对应8个类别标签。
S3:依据类别标签存储数据集至对应的默克尔树;
具体而言,即将S1分类后的各个数据集,依据各自对应的类别标签,存储到对应的默克尔树上。类别标签与默克尔树的根节点标识是完全对应的。
由此,通过以默克尔树的形式来归类存储具备相同特性的数据,且能通过每一棵默克尔树的根节点标识起到标识这棵树上存储的数据特征(数据类型)的作用。实现了通过树与树之间的差异,相当于对数据进行分类存储,保证每一棵默克尔树下的所有子节点存储的数据都具有相同/相似的数据特征,且这样的数据是具有线性特征的。
S4:依据默克尔树的根节点标识确定传入回归逻辑算法的数据集。
由于之前通过步骤S1-S3进行了数据的分类存储,且分类存储的过程中对数据进行了一次筛选和线性归类。因此,当逻辑回归算法要开始计算,需要获取待计算数据的时候,只需根据计算需求验证每棵默克尔树的根节点标识便可确定整棵默克尔树上存储的所有数据是否是本次回归算法计算所需要的数据(符合本次计算要求的具有特定特征的数据)。当确认该棵树的数据是我们需要的,便可基于默克尔树在区块链中的运用,无需逐一对默克尔树下存储的每个数据都进行验证,而直接认定这棵默克尔树下的每个数据都是我们需要的数据,直接传入到回归逻辑算法中。
需要说明的是,默克尔树本身的特征是根节点代表了整棵树的所有节点。而默克尔树在在区块链中的应用,具体指的是,默克尔树根节点代表了该块的交易,指根节点存储了交易,子节点存储了交易具体信息。相当于说根节点存储了子节点的标识信息,通过根节点可以找到子节点内容。例如根节点存储的是“氵”,那么子节点存储的都是以这个为偏旁部首的字。将上述默克尔树在区块链中的应用转用到本申请的方案中,则只需校验默克尔树的父节点(根节点)即可确认其下所有数据的特性,因此通过分类存储步骤即已经把正确数据存储在一个正确的默克尔树中。
在本实施例中,经过默克尔树分类的数据可以保证它是线性的;同时,由于分类进行了无效数据的过滤,且每棵默克尔树的数据具有高度相似性,并以父节点标识数据特性。相当于在数据进入回归逻辑算法函数计算之前,对数据同时进行了线性分类和统一存储尽可能多的正确数据在同一棵默克尔树上。这样,在数据传入计算之前,可通过判断树的根节点标识是否满足要求,便可间接性且快速地判定树下所有数据是否符合计算要求,从而实现在逻辑回归算法数据选取时,同时获得大量与结果相似的学习数据,以此保证了传入计算的数据的具备高度准确性,与此同时,该数据又具备线性特征。
实施例二
请参照图2,本实施例对应上述实施例一,提供一具体运用场景:
基于默克尔树思想的逻辑回归数据校验优化,针对数据在传入逻辑回归算法前需要进行线性分类和逻辑回归算法高度依赖正确数据问题进行优化。
以学习任务是分辨图片是否为一张狗的图像为例进行说明,我们选取各种狗的图片传入作为数据。神经网络在经过卷积、池化等等操作后,会产生大量特征数据,比如金毛的眼睛、嘴巴、鼻子;哈士奇的眼睛、嘴巴、鼻子等等这样具有识别信息的数据。但是,在神经网络中,这些数据是揉在一起的,没有经过任何分类。这时,运用实施例一的方案,将新建一些默克尔树,这些默克尔树就是用于存储从图片中卷积、池化后的数据,这些数据经过了初步的分类,分类依据为预设的包括“眼睛”、“嘴巴”、“鼻子”等的类别标识。默克尔树的根节点就是眼睛、鼻子、嘴巴、耳朵等具有概括性的类别标识,所以每棵默克尔树都是一个单独的标识信息,他们不会重复,也不会把卷积、池化等操作后的数据遗漏掉。这时会把所有经过卷积、池化后的数据片段对应根节点的标识存储在每个默克尔树的子节点上,比如鼻子标识的默克尔树存储的就是金毛的、哈士奇的、边牧的鼻子信息。虽然无法保证每个子节点存储的都是完全对应该根节点标识的数据,但是我们把所有的数据进行了线性的分类,保证每种相似的数据全都存储在同样的默克尔树上,相比于现有技术全部进入到Logistic函数这样的问题,做出了线性分类的优化。
同时,部分图片的边缘数据或者噪音(复杂的背景数据)数据,它们是无法找到对应标识的默克尔树,所以它们会被丢弃在一旁,无法存储在默克尔树上,这些数据最终也并不会进入到Logistic函数进行运算,由此又保证了数据是具有一定准确性的,减少了大量的噪音数据。
鉴于逻辑回归算法是以计算量小、速度快闻名的,在此将每棵默克尔树通过单线程送入到Logistic函数中,Logistic函数只需要去识别这个默克尔树的根节点标识就可以将计算后的数据输出。同时这些数据输出后,会打上他们存在默克尔树中的标识,比如鼻子标识的默克尔树在经过Logistic函数后,得出的数据会继承鼻子的标识,这些标识并不会丢掉,它们在后面的深度学习中,会更加容易的找到对应的结果数据进行练习。
通过本实施例的方案进行逻辑回归算法数据校验优化时,当数据准备进入到算法,先在默克尔树上进行一次数据校验。基于默克尔树的特性,会把符合根节点标识的数据挂在自己的子节点上。而校验父节点,这样不会占用很多资源,依旧保证逻辑回归算法的速度;而且在校验父节点的正确时,下面的子节点数据也可认为为正确数据,即可直接在逻辑回归算法中使用。同时,基于树形结构特性,在默克尔树输出的数据是线性的,保证了传入逻辑回归算法的数据为线性数据。
实施例三
本实施例对应实施例一和实施例二,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,能够实现上述实施例一或实施例二所述的基于默克尔树思想的逻辑回归数据优化方法所包含的步骤。具体的步骤内容在此不进行复述,详情请参阅实施例一或实施例二的记载。
综上所述,本发明提供的基于默克尔树思想的逻辑回归数据优化方法、存储介质,能够确保传入回归逻辑算法之前的数据同时具备高度正确性和线性特性;并且不会对学习效率产生影响,还能提高计算速度;同时又能为后续基于计算结果的练习提供操作便利性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.基于默克尔树思想的逻辑回归数据优化方法,其特征在于,包括:
依据预设的两个以上的类别标签,对待传入回归逻辑算法的图片数据进行分类,获取所述类别标签各自对应的数据集;
创建与各个类别标签一一对应,且以对应的类别标签为根节点标识的默克尔树;
依据类别标签存储数据集至对应的默克尔树;
依据默克尔树的根节点标识确定传入回归逻辑算法的数据集;
所述图片数据为神经网络中经过卷积及池化操作后的特征数据。
2.如权利要求1所述的基于默克尔树思想的逻辑回归数据优化方法,其特征在于,通过tensorflow训练对所述数据进行分类。
3.如权利要求1所述的基于默克尔树思想的逻辑回归数据优化方法,其特征在于,还包括:
将待传入回归逻辑算法的一默克尔树上的数据集通过单线程传入回归逻辑算法中。
4.如权利要求1所述的基于默克尔树思想的逻辑回归数据优化方法,其特征在于,还包括:
一默克尔树上的数据集经过回归逻辑算法计算后输出数据结果,所述数据结果具有所述一默克尔树的根节点标识。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时,能够实现上述权利要求1-4任意一项所述的基于默克尔树思想的逻辑回归数据优化方法所包含的步骤。
CN201910304415.0A 2019-04-16 2019-04-16 基于默克尔树思想的逻辑回归数据优化方法、存储介质 Active CN110119763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910304415.0A CN110119763B (zh) 2019-04-16 2019-04-16 基于默克尔树思想的逻辑回归数据优化方法、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304415.0A CN110119763B (zh) 2019-04-16 2019-04-16 基于默克尔树思想的逻辑回归数据优化方法、存储介质

Publications (2)

Publication Number Publication Date
CN110119763A CN110119763A (zh) 2019-08-13
CN110119763B true CN110119763B (zh) 2021-06-29

Family

ID=67521126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910304415.0A Active CN110119763B (zh) 2019-04-16 2019-04-16 基于默克尔树思想的逻辑回归数据优化方法、存储介质

Country Status (1)

Country Link
CN (1) CN110119763B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046337B2 (en) * 2008-10-15 2011-10-25 International Business Machines Corporation Preservation aware fixity in digital preservation
US8706701B1 (en) * 2010-11-18 2014-04-22 Emc Corporation Scalable cloud file system with efficient integrity checks
CN103324954B (zh) * 2013-05-31 2017-02-08 中国科学院计算技术研究所 一种基于树结构的图像分类方法及其系统
US10237249B2 (en) * 2016-12-23 2019-03-19 Amazon Technologies, Inc. Key revocation
CN108595980B (zh) * 2018-05-02 2023-01-24 广州品唯软件有限公司 一种商品溯源信息的保护方法及装置
CN109040082B (zh) * 2018-08-10 2020-04-21 阿里巴巴集团控股有限公司 用户的身份内容信息的认证、验证方法和装置
CN109165221A (zh) * 2018-08-16 2019-01-08 北京京东尚科信息技术有限公司 区块链的数据存储方法、装置、区块链节点及存储介质
CN109410043B (zh) * 2018-08-20 2022-02-18 中山大学 一种基于分层树状结构的区块链信息高效存储方法及装置
CN109583917A (zh) * 2018-11-27 2019-04-05 重庆文理学院 一种基于区块链的二维码溯源方法及系统

Also Published As

Publication number Publication date
CN110119763A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
US10474713B1 (en) Learning method and learning device using multiple labeled databases with different label sets and testing method and testing device using the same
CN108595157B (zh) 区块链数据的处理方法、装置、设备和存储介质
US8209741B2 (en) Human performance in human interactive proofs using partial credit
CN107958272B (zh) 图片数据集更新方法、装置、系统及计算机存储介质
US20180089271A1 (en) Database query classification
CN110310114B (zh) 对象分类方法、装置、服务器及存储介质
KR20210108319A (ko) 기계학습 기반 적응형 자동분류 방법 및 시스템
CN111597374B (zh) 图像分类方法、装置及电子设备
JP7448562B2 (ja) 人工知能のための希な訓練データへの対処
CN108491866A (zh) 色情图片鉴定方法、电子装置及可读存储介质
US20200387497A1 (en) Detecting inconsistencies in semantics of business vocabulary and business rules (sbvr) using many-sorted logic
CN115810135A (zh) 样本分析的方法、电子设备、存储介质和程序产品
WO2017039684A1 (en) Classifier
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
CN109800776A (zh) 素材标注方法、装置、终端和计算机可读存储介质
CN110119763B (zh) 基于默克尔树思想的逻辑回归数据优化方法、存储介质
CN111459774B (zh) 一种应用程序的流量的获取方法、装置、设备及存储介质
CN115563069B (zh) 基于人工智能的数据共享处理方法、系统及云平台
CN116186257A (zh) 一种基于混合特征对短文本进行分类的方法及系统
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
US11449789B2 (en) System and method for hierarchical classification
JP2010072876A (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN109670554B (zh) 深度学习系统中数据集标注的管理方法和装置
CN114662568A (zh) 数据分类方法、装置、设备和存储介质
CN113284141A (zh) 用于缺陷检测的模型确定方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant