CN110442568A - 字段标签的获取方法及装置、存储介质、电子装置 - Google Patents
字段标签的获取方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN110442568A CN110442568A CN201910697323.3A CN201910697323A CN110442568A CN 110442568 A CN110442568 A CN 110442568A CN 201910697323 A CN201910697323 A CN 201910697323A CN 110442568 A CN110442568 A CN 110442568A
- Authority
- CN
- China
- Prior art keywords
- field
- label
- network model
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供了一种字段标签的获取方法及装置、存储介质、电子装置,所述方法包括:获取训练样本集,其中,训练样本集中包括用于训练初始网络模型的样本字段以及标签,样本字段与标签的映射关系已知,标签用于表征样本字段的类别;将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,目标网络模型用于根据字段输出对应的标签,多个目标网络模型对应的训练算法不同;使用测试样本集对多个目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的目标网络模型为应用模型,其中,测试样本集中包括用于测试目标网络模型的测试字段以及标签;将待分类字段输入到应用模型,得到待分类字段对应的标签。
Description
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种字段标签的获取方法及装置、存储介质、电子装置。
背景技术
数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。数据质量差,是IT项目失败的主要原因,也是客户流逝背后的驱动因素之一。
质量好的数据意味着有准确及时的信息来管理从研发到销售的产品和服务。质量差的数据导致错误的洞察力,从而做出错误的决策。决策的错误,公司会付出沉重的代价。因此大数据时代数据质量的管理变得尤为重要。
数据质量的检查,一般的流程是为表字段配置相应的检测规则,然后根据规则进行字段质量的检测,打分,最终得出数据质量的综合得分,配置规则往往是人工根据字段的类型,选择需要的检查规则,但目前的数据质量工具大多只能人工的识别字段类型,这样会有很大的工作量,且效率低。
针对现有技术中人工识别字段类型导致工作量大且效率低的问题,尚未有合理的解决方案。
发明内容
本公开实施例提供了一种字段标签的获取方法及装置、存储介质、电子装置,以至少解决相关技术中人工识别字段类型导致工作量大且效率低的问题。
根据本公开的一个实施例,提供了一种字段标签的获取方法,包括:获取训练样本集,其中,所述训练样本集中包括用于训练初始网络模型的样本字段以及标签,所述样本字段与所述标签的映射关系已知,所述标签用于表征所述样本字段的类别;将所述训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,所述目标网络模型用于根据字段输出对应的标签,多个所述目标网络模型对应的训练算法不同;使用测试样本集对多个所述目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的所述目标网络模型为应用模型,其中,所述测试样本集中包括用于测试目标网络模型的测试字段以及标签,所述测试字段与所述标签的映射关系已知;将待分类字段输入到所述应用模型,得到所述待分类字段对应的标签。
可选地,将所述训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型包括:将所述训练样本集输入第一初始网络模型,使用逻辑回归算法训练所述第一初始网络模型,得到第一目标网络模型;将所述训练样本集输入第二初始网络模型,使用朴素贝叶斯算法训练所述第二初始网络模型,得到第二目标网络模型;将所述训练样本集输入第三初始网络模型,使用KNN最邻近规则算法训练所述第三初始网络模型,得到第三目标网络模型;将所述训练样本集输入第四初始网络模型,使用决策树算法训练所述第四初始网络模型,得到第四目标网络模型。
可选地,将待分类字段输入到所述应用模型,得到所述待分类字段对应的标签包括:将待分类字段输入到所述应用模型,得到所述待分类字段相对于各标签的得分;将得分大于预设分数阈值的标签确定为所述待分类字段的标签。
可选地,将得分大于预设分数阈值的标签确定为所述待分类字段的标签之后,所述方法还包括:根据预设的标签与字段优先级的映射关系、以及所述待分类字段对应的标签,确定所述待分类字段的优先级。
可选地,获取训练样本集之后,所述方法还包括:获取所述样本字段的字段特征,并建立所述字段特征与所述标签的映射关系,其中,所述字段特征至少包括以下之一:字段的语义特征,字段的内容特征,字段的统计特征;将所述训练样本集输入多个初始网络模型进行训练包括:将所述样本字段的字段特征输入多个所述初始网络模型进行训练。
根据本公开实施例的另一个方面,还提供了一种字段标签的获取装置,包括:获取模块,用于获取训练样本集,其中,所述训练样本集中包括用于训练初始网络模型的样本字段以及标签,所述样本字段与所述标签的映射关系已知,所述标签用于表征所述样本字段的类别;训练模块,用于将所述训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,所述目标网络模型用于根据字段输出对应的标签,多个所述目标网络模型对应的训练算法不同;测试模块,用于使用测试样本集对多个所述目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的所述目标网络模型为应用模型,其中,所述测试样本集中包括用于测试目标网络模型的测试字段以及标签,所述测试字段与所述标签的映射关系已知;输入模块,用于将待分类字段输入到所述应用模型,得到所述待分类字段对应的标签。
可选地,所述训练模块包括:第一训练单元,用于将所述训练样本集输入第一初始网络模型,使用逻辑回归算法训练所述第一初始网络模型,得到第一目标网络模型;第二训练单元,用于将所述训练样本集输入第二初始网络模型,使用朴素贝叶斯算法训练所述第二初始网络模型,得到第二目标网络模型;第三训练单元,用于将所述训练样本集输入第三初始网络模型,使用KNN最邻近规则算法训练所述第三初始网络模型,得到第三目标网络模型;第四训练单元,用于将所述训练样本集输入第四初始网络模型,使用决策树算法训练所述第四初始网络模型,得到第四目标网络模型。
可选地,所述输入摸块包括:输入单元,用于将待分类字段输入到所述应用模型,得到所述待分类字段相对于各标签的得分;确定单元,用于将得分大于预设分数阈值的标签确定为所述待分类字段的标签。
根据本公开实施例的另一个方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本公开的另一个实施例,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本公开实施例,获取训练样本集,其中,训练样本集中包括用于训练初始网络模型的样本字段以及标签,样本字段与标签的映射关系已知,标签用于表征样本字段的类别;将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,目标网络模型用于根据字段输出对应的标签,多个目标网络模型对应的训练算法不同;使用测试样本集对多个目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的目标网络模型为应用模型,其中,测试样本集中包括用于测试目标网络模型的测试字段以及标签,测试字段与标签的映射关系已知;将待分类字段输入到应用模型,得到待分类字段对应的标签,解决了现有技术中人工识别字段类型导致工作量大且效率低的问题,通过最优的网络模型对待识别字段进行机器自动识别分类,大大提高了数据质量管理的管理效率以及管理质量。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是本公开实施例的一种字段标签的获取方法的移动终端的硬件结构框图;
图2是根据本公开实施例中字段标签的获取方法的流程图;
图3是根据本公开实施例的字段标签的获取装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本公开。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
深度学习:深度学习(Deep Learning,DL)是机器学习的技术和研究领域之一,通过建立具有阶层结构的人工神经网络(Artifitial Neural Networks,ANNs),在计算系统中实现人工智能。由于阶层ANN能够对输入信息进行逐层提取和筛选,因此深度学习具有表征学习(representation learning)能力,可以实现端到端的监督学习和非监督学习。此外,深度学习也可参与构建强化学习(reinforcement learning)系统,形成深度强化学习。深度学习所使用的阶层ANN具有多种形态,其阶层的复杂度被通称为“深度”。按构筑类型,深度学习的形式包括多层感知器、卷积神经网络、循环神经网络、深度置信网络和其它混合构筑。深度学习使用数据对其构筑中的参数进行更新以达成训练目标,该过程被通称为“学习”。学习的常见方法为梯度下降算法及其变体,一些统计学习理论被用于学习过程的优化。
NLP(自然语言处理):自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。NLP是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
实施例1
本公开实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本公开实施例的一种字段标签的获取方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本公开实施例中的数据信息的获取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本公开实施例提供了一种字段标签的获取方法。图2是根据本公开实施例一种可选的字段标签的获取方法的流程图,如图2所示,该方法包括:
步骤S201,获取训练样本集,其中,训练样本集中包括用于训练初始网络模型的样本字段以及标签,样本字段与标签的映射关系已知,标签用于表征样本字段的类别;
步骤S203,将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,目标网络模型用于根据字段输出对应的标签,多个目标网络模型对应的训练算法不同;
步骤S205,使用测试样本集对多个目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的目标网络模型为应用模型,其中,测试样本集中包括用于测试目标网络模型的测试字段以及标签,测试字段与标签的映射关系已知;
步骤S207,将待分类字段输入到应用模型,得到待分类字段对应的标签。
通过上述方法,获取训练样本集,其中,训练样本集中包括用于训练初始网络模型的样本字段以及标签,样本字段与标签的映射关系已知,标签用于表征样本字段的类别;将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,目标网络模型用于根据字段输出对应的标签,多个目标网络模型对应的训练算法不同;使用测试样本集对多个目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的目标网络模型为应用模型,其中,测试样本集中包括用于测试目标网络模型的测试字段以及标签,测试字段与标签的映射关系已知;将待分类字段输入到应用模型,得到待分类字段对应的标签,解决了现有技术中人工识别字段类型导致工作量大且效率低的问题,通过最优的网络模型对待识别字段进行机器自动识别分类,大大提高了数据质量管理的管理效率以及管理质量。
可选地,将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型包括:将训练样本集输入第一初始网络模型,使用逻辑回归算法训练第一初始网络模型,得到第一目标网络模型;将训练样本集输入第二初始网络模型,使用朴素贝叶斯算法训练第二初始网络模型,得到第二目标网络模型;将训练样本集输入第三初始网络模型,使用KNN最邻近规则算法训练第三初始网络模型,得到第三目标网络模型;将训练样本集输入第四初始网络模型,使用决策树算法训练第四初始网络模型,得到第四目标网络模型。
可选地,将待分类字段输入到应用模型,得到待分类字段对应的标签包括:将待分类字段输入到应用模型,得到待分类字段相对于各标签的得分;将得分大于预设分数阈值的标签确定为待分类字段的标签。
可选地,将得分大于预设分数阈值的标签确定为所述待分类字段的标签之后,所述方法还包括:根据预设的标签与字段优先级的映射关系、以及待分类字段对应的标签,确定待分类字段的优先级。通过确定字段的优先级可以在子弹分类过程中标注高优先级的字段,具有优先处理的属性。
可选地,获取训练样本集之后,所述方法还包括:获取样本字段的字段特征,并建立字段特征与标签的映射关系,其中,字段特征至少包括以下之一:字段的语义特征,字段的内容特征,字段的统计特征;将训练样本集输入多个初始网络模型进行训练包括:将样本字段的字段特征输入多个初始网络模型进行训练。
可选地,获取所述样本字段的字段特征,包括:获取所述样本字段的访问记录、以及所述样本字段所处数据库的数据分布情况;根据所述样本字段的访问记录,确定目标用户访问过的字段的标签分布情况,其中,所述目标用户为访问过所述样本字段的用户;根据所述目标用户访问过的字段的标签分布情况,确定目标数据表中字段的标签分布情况、以及邻近数据表中字段的标签分布情况,其中,所述目标数据表为所述样本字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;确定以下至少之一为所述样本字段的统计特征:所述目标用户访问过的字段的标签分布情况、所述目标数据表中字段的标签分布情况、所述邻近数据表中字段的标签分布情况。
可选地,获取所述样本字段的字段特征,包括:获取所述样本字段对应的内容;确定所述样本字段对应内容的字段类型以及所述样本字段对应内容的分布特征;确定以下至少之一为所述样本字段的内容特征:所述样本字段对应的内容、所述样本字段对应内容的字段类型、所述样本字段对应内容的分布特征。
可选地,获取所述样本字段的字段特征,包括:对所述样本字段进行分词处理,得到所述样本字段的第一词组集合;对所述第一词组集合进行词频统计、去停用词、去重复词处理,得到第二词组集合;根据word2vect模型和所述第二词组集合,确定所述样本字段的语义特征。
在本实施例中还提供了一种字段标签的获取装置,用于执行上述任一方法实施例中的步骤,已经描述过的内容此处不再赘述。图3是根据本公开实施例的字段标签的获取装置的结构框图,如图3所示,该装置包括:
获取模块302,用于获取训练样本集,其中,训练样本集中包括用于训练初始网络模型的样本字段以及标签,样本字段与标签的映射关系已知,标签用于表征样本字段的类别;
训练模块304,用于将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,目标网络模型用于根据字段输出对应的标签,多个目标网络模型对应的训练算法不同;
测试模块306,用于使用测试样本集对多个目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的目标网络模型为应用模型,其中,测试样本集中包括用于测试目标网络模型的测试字段以及标签,测试字段与标签的映射关系已知;
输入模块308,用于将待分类字段输入到应用模型,得到待分类字段对应的标签。
可选地,所述训练模块包括:第一训练单元,用于将所述训练样本集输入第一初始网络模型,使用逻辑回归算法训练所述第一初始网络模型,得到第一目标网络模型;第二训练单元,用于将所述训练样本集输入第二初始网络模型,使用朴素贝叶斯算法训练所述第二初始网络模型,得到第二目标网络模型;第三训练单元,用于将所述训练样本集输入第三初始网络模型,使用KNN最邻近规则算法训练所述第三初始网络模型,得到第三目标网络模型;第四训练单元,用于将所述训练样本集输入第四初始网络模型,使用决策树算法训练所述第四初始网络模型,得到第四目标网络模型。
可选地,所述输入摸块包括:输入单元,用于将待分类字段输入到所述应用模型,得到所述待分类字段相对于各标签的得分;第一确定单元,用于将得分大于预设分数阈值的标签确定为所述待分类字段的标签。
可选地,所述输入模块还包括:第二确定单元,用于根据预设的标签与字段优先级的映射关系、以及待分类字段对应的标签,确定待分类字段的优先级。通过确定字段的优先级可以在子弹分类过程中标注高优先级的字段,具有优先处理的属性。
可选地,所述获取模块还用于:获取样本字段的字段特征,并建立字段特征与标签的映射关系,其中,字段特征至少包括以下之一:字段的语义特征,字段的内容特征,字段的统计特征;所述训练模块还用于:将样本字段的字段特征输入多个初始网络模型进行训练。
可选地,所述获取模块包括第一获取单元,用于:获取所述样本字段的访问记录、以及所述样本字段所处数据库的数据分布情况;根据所述样本字段的访问记录,确定目标用户访问过的字段的标签分布情况,其中,所述目标用户为访问过所述样本字段的用户;根据所述目标用户访问过的字段的标签分布情况,确定目标数据表中字段的标签分布情况、以及邻近数据表中字段的标签分布情况,其中,所述目标数据表为所述样本字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;确定以下至少之一为所述样本字段的统计特征:所述目标用户访问过的字段的标签分布情况、所述目标数据表中字段的标签分布情况、所述邻近数据表中字段的标签分布情况。
可选地,所述获取模块包括第二获取单元,用于:获取所述样本字段对应的内容;确定所述样本字段对应内容的字段类型以及所述样本字段对应内容的分布特征;确定以下至少之一为所述样本字段的内容特征:所述样本字段对应的内容、所述样本字段对应内容的字段类型、所述样本字段对应内容的分布特征。
可选地,获所述获取模块包括第三获取单元,用于:对所述样本字段进行分词处理,得到所述样本字段的第一词组集合;对所述第一词组集合进行词频统计、去停用词、去重复词处理,得到第二词组集合;根据word2vect模型和所述第二词组集合,确定所述样本字段的语义特征。
需要说明的是,KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的特征最接近;
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成正比(组合函数)。
该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。
简单来说,K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。算法步骤如下:
step.1---初始化距离为最大值;
step.2---计算未知样本和每个训练样本的距离dist;
step.3---得到目前K个最临近样本中的最大距离maxdist;
step.4---如果dist小于maxdist,则将该训练样本作为K-最近邻样本;
step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完;
step.6---统计K-最近邻样本中每个类标号出现的次数;
step.7---选择出现频率最大的类标号作为未知样本的类标号。
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。
1.算法思想——基于概率的预测
逻辑回归通过拟合曲线(或者学习超平面)实现分类,决策树通过寻找最佳划分特征进而学习样本路径实现分类,支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下,朴素贝叶斯独辟蹊径,通过考虑特征概率来预测分类。
2.理论基础——条件概率,词集模型、词袋模型
条件概率:朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。
词集模型:对于给定文档,只统计某个侮辱性词汇(准确说是词条)是否在本文档出现词袋模型:对于给定文档,统计某个侮辱性词汇在本文当中出现的频率,除此之外,往往还需要剔除重要性极低的高频词和停用词。因此,词袋模型更精炼,也更有效。
3.数据预处理——向量化
向量化、矩阵化操作是机器学习的追求。从数学表达式上看,向量化、矩阵化表示更加简洁;在实际操作中,矩阵化(向量是特殊的矩阵)更高效。仍然以侮辱性文档识别为例:
首先,我们需要一张词典,该词典囊括了训练文档集中的所有必要词汇(无用高频词和停用词除外),还需要把每个文档剔除高频词和停用词;
其次,根据词典向量化每个处理后的文档。具体的,每个文档都定义为词典大小,分别遍历某类(侮辱性和非侮辱性)文档中的每个词汇并统计出现次数;最后,得到一个个跟词典一样大小的向量,这些向量有一个个整数组成,每个整数代表了词典上一个对应位置的词在当下文档中的出现频率。
最后,统计每一类处理过的文档中词汇总个数,某一个文档的词频向量除以相应类别的词汇总个数,即得到相应的条件概率,如P(x,y|C0)。有了P(x,y|C0)和P(C0),P(C0|x,y)就得到了,用完全一样的方法可以获得P(C1|x,y)。比较它们的大小,即可知道某人是不是大坏蛋,某篇文档是不是侮辱性文档了。
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有w'x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w'x+b作为因变量,即y=w'x+b,而logistic回归则通过函数L将w'x+b对应一个隐状态p,p=L(w'x+b),然后根据p与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。[2]
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。[2]
Logistic回归模型的适用条件
1因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。
2残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
3自变量和Logistic概率是线性关系。
4各观测对象间相互独立。
原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概率作为方程的因变量估计值取值范围为0-1,但是,方程右边取值范围是无穷大或者无穷小。所以,才引入Logistic回归。[1]
Logistic回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因,是发生和未发生的概率成为了比值,这个比值就是一个缓冲,将取值范围扩大,再进行对数变换,整个因变量改变。不仅如此,这种变换往往使得因变量和自变量之间呈线性关系,这是根据大量实践而总结。所以,Logistic回归从根本上解决因变量要不是连续变量怎么办的问题。还有,Logistic应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。[1]
注意:如果自变量为字符型,就需要进行重新编码。一般如果自变量有三个水平就非常难对付,所以,如果自变量有更多水平就太复杂。这里只讨论自变量只有三个水平。非常麻烦,需要再设二个新变量。共有三个变量,第一个变量编码1为高水平,其他水平为0。第二个变量编码1为中间水平,0为其他水平。第三个变量,所有水平都为0。实在是麻烦,而且不容易理解。最好不要这样做,也就是,最好自变量都为连续变量。[1]
spss操作:进入Logistic回归主对话框,通用操作不赘述。
发现没有自变量这个说法,只有协变量,其实协变量就是自变量。旁边的块就是可以设置很多模型。
"方法"栏:这个根据词语理解不容易明白,需要说明。
共有7种方法。但是都是有规律可寻的。
"向前"和"向后":向前是事先用一步一步的方法筛选自变量,也就是先设立门槛。称作"前"。而向后,是先把所有的自变量都进来,然后再筛选自变量。也就是先不设置门槛,等进来了再一个一个淘汰。
"LR"和"Wald",LR指的是极大偏似然估计的似然比统计量概率值,有一点长。但是其中重要的词语就是似然。
Wald指Wald统计量概率值。
"条件"指条件参数似然比统计量概率值。
"进入"就是所有自变量都进来,不进行任何筛选
将所有的关键词组合在一起就是7种方法,分别是"进入""向前LR""向前Wald""向后LR""向后Wald""向后条件""向前条件"
下一步:一旦选定协变量,也就是自变量,"分类"按钮就会被激活。其中,当选择完分类协变量以后,"更改对比"选项组就会被激活。一共有7种更改对比的方法。
"指示符"和"偏差",都是选择最后一个和第一个个案作为对比标准,也就是这二种方法能够激活"参考类别"栏。"指示符"是默认选项。"偏差"表示分类变量每个水平和总平均值进行对比,总平均值的上下界就是"最后一个"和"第一个"在"参考类别"的设置。
"简单"也能激活"参考类别"设置。表示对分类变量各个水平和第一个水平或者最后一个水平的均值进行比较。
"差值"对分类变量各个水平都和前面的水平进行作差比较。第一个水平除外,因为不能作差。
"Helmert"跟"差值"正好相反。是每一个水平和后面水平进行作差比较。最后一个水平除外。仍然是因为不能做差。
"重复"表示对分类变量各个水平进行重复对比。
"多项式"对每一个水平按分类变量顺序进行趋势分析,常用的趋势分析方法有线性,二次式。
本公开的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取训练样本集,其中,训练样本集中包括用于训练初始网络模型的样本字段以及标签,样本字段与标签的映射关系已知,标签用于表征样本字段的类别;
S2,将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,目标网络模型用于根据字段输出对应的标签,多个目标网络模型对应的训练算法不同;
S3,使用测试样本集对多个目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的目标网络模型为应用模型,其中,测试样本集中包括用于测试目标网络模型的测试字段以及标签,测试字段与标签的映射关系已知;
S4,将待分类字段输入到应用模型,得到待分类字段对应的标签。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本公开的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取训练样本集,其中,训练样本集中包括用于训练初始网络模型的样本字段以及标签,样本字段与标签的映射关系已知,标签用于表征样本字段的类别;
S2,将训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,目标网络模型用于根据字段输出对应的标签,多个目标网络模型对应的训练算法不同;
S3,使用测试样本集对多个目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的目标网络模型为应用模型,其中,测试样本集中包括用于测试目标网络模型的测试字段以及标签,测试字段与标签的映射关系已知;
S4,将待分类字段输入到应用模型,得到待分类字段对应的标签。
本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本公开的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种字段标签的获取方法,其特征在于,包括:
获取训练样本集,其中,所述训练样本集中包括用于训练初始网络模型的样本字段以及标签,所述样本字段与所述标签的映射关系已知,所述标签用于表征所述样本字段的类别;
将所述训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,所述目标网络模型用于根据字段输出对应的标签,多个所述目标网络模型对应的训练算法不同;
使用测试样本集对多个所述目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的所述目标网络模型为应用模型,其中,所述测试样本集中包括用于测试目标网络模型的测试字段以及标签,所述测试字段与所述标签的映射关系已知;
将待分类字段输入到所述应用模型,得到所述待分类字段对应的标签。
2.根据权利要求1所述的方法,其特征在于,将所述训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型包括:
将所述训练样本集输入第一初始网络模型,使用逻辑回归算法训练所述第一初始网络模型,得到第一目标网络模型;
将所述训练样本集输入第二初始网络模型,使用朴素贝叶斯算法训练所述第二初始网络模型,得到第二目标网络模型;
将所述训练样本集输入第三初始网络模型,使用KNN最邻近规则算法训练所述第三初始网络模型,得到第三目标网络模型;
将所述训练样本集输入第四初始网络模型,使用决策树算法训练所述第四初始网络模型,得到第四目标网络模型。
3.根据权利要求1所述的方法,其特征在于,将待分类字段输入到所述应用模型,得到所述待分类字段对应的标签包括:
将待分类字段输入到所述应用模型,得到所述待分类字段相对于各标签的得分;
将得分大于预设分数阈值的标签确定为所述待分类字段的标签。
4.根据权利要求3所述的方法,其特征在于,将得分大于预设分数阈值的标签确定为所述待分类字段的标签之后,所述方法还包括:
根据预设的标签与字段优先级的映射关系、以及所述待分类字段对应的标签,确定所述待分类字段的优先级。
5.根据权利要求1所述的方法,其特征在于,
获取训练样本集之后,所述方法还包括:
获取所述样本字段的字段特征,并建立所述字段特征与所述标签的映射关系,其中,所述字段特征至少包括以下之一:字段的语义特征,字段的内容特征,字段的统计特征;
将所述训练样本集输入多个初始网络模型进行训练包括:
将所述样本字段的字段特征输入多个所述初始网络模型进行训练。
6.一种字段标签的获取装置,其特征在于,包括:
获取模块,用于获取训练样本集,其中,所述训练样本集中包括用于训练初始网络模型的样本字段以及标签,所述样本字段与所述标签的映射关系已知,所述标签用于表征所述样本字段的类别;
训练模块,用于将所述训练样本集输入多个初始网络模型进行训练,得到多个目标网络模型,其中,所述目标网络模型用于根据字段输出对应的标签,多个所述目标网络模型对应的训练算法不同;
测试模块,用于使用测试样本集对多个所述目标网络模型进行测试,确定输出的标签与预先设定的标签误差最小的所述目标网络模型为应用模型,其中,所述测试样本集中包括用于测试目标网络模型的测试字段以及标签,所述测试字段与所述标签的映射关系已知;
输入模块,用于将待分类字段输入到所述应用模型,得到所述待分类字段对应的标签。
7.根据权利要求6所述的装置,其特征在于,所述训练模块包括:
第一训练单元,用于将所述训练样本集输入第一初始网络模型,使用逻辑回归算法训练所述第一初始网络模型,得到第一目标网络模型;
第二训练单元,用于将所述训练样本集输入第二初始网络模型,使用朴素贝叶斯算法训练所述第二初始网络模型,得到第二目标网络模型;
第三训练单元,用于将所述训练样本集输入第三初始网络模型,使用KNN最邻近规则算法训练所述第三初始网络模型,得到第三目标网络模型;
第四训练单元,用于将所述训练样本集输入第四初始网络模型,使用决策树算法训练所述第四初始网络模型,得到第四目标网络模型。
8.根据权利要求6所述的装置,其特征在于,所述输入摸块包括:
输入单元,用于将待分类字段输入到所述应用模型,得到所述待分类字段相对于各标签的得分;
确定单元,用于将得分大于预设分数阈值的标签确定为所述待分类字段的标签。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910697323.3A CN110442568A (zh) | 2019-07-30 | 2019-07-30 | 字段标签的获取方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910697323.3A CN110442568A (zh) | 2019-07-30 | 2019-07-30 | 字段标签的获取方法及装置、存储介质、电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110442568A true CN110442568A (zh) | 2019-11-12 |
Family
ID=68432402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910697323.3A Withdrawn CN110442568A (zh) | 2019-07-30 | 2019-07-30 | 字段标签的获取方法及装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442568A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941717A (zh) * | 2019-11-22 | 2020-03-31 | 深圳马可孛罗科技有限公司 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
CN111199244A (zh) * | 2019-12-19 | 2020-05-26 | 北京航天测控技术有限公司 | 一种数据的分类方法、装置、存储介质及电子装置 |
CN111506731A (zh) * | 2020-04-17 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 一种训练字段分类模型的方法、装置及设备 |
CN111985896A (zh) * | 2020-08-19 | 2020-11-24 | 中国银行股份有限公司 | 邮件过滤方法及装置 |
CN112036492A (zh) * | 2020-09-01 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 样本集处理方法、装置、设备及存储介质 |
CN112199372A (zh) * | 2020-09-24 | 2021-01-08 | 中国建设银行股份有限公司 | 映射关系匹配方法和装置以及计算机可读介质 |
CN113220801A (zh) * | 2021-05-17 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种结构化数据分类方法、装置、设备及介质 |
CN117216668A (zh) * | 2023-11-09 | 2023-12-12 | 北京安华金和科技有限公司 | 一种基于机器学习的数据分类分级处理方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3017646A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Label and field identification without optical character recognition (ocr) |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN108345958A (zh) * | 2018-01-10 | 2018-07-31 | 拉扎斯网络科技(上海)有限公司 | 一种订单出餐时间预测模型构建、预测方法、模型和装置 |
CN108763952A (zh) * | 2018-05-03 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种数据分类方法、装置及电子设备 |
-
2019
- 2019-07-30 CN CN201910697323.3A patent/CN110442568A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3017646A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Label and field identification without optical character recognition (ocr) |
CN107943865A (zh) * | 2017-11-10 | 2018-04-20 | 阿基米德(上海)传媒有限公司 | 一种适用于多场景、多类型的音频分类标签方法及系统 |
CN108345958A (zh) * | 2018-01-10 | 2018-07-31 | 拉扎斯网络科技(上海)有限公司 | 一种订单出餐时间预测模型构建、预测方法、模型和装置 |
CN108763952A (zh) * | 2018-05-03 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种数据分类方法、装置及电子设备 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941717B (zh) * | 2019-11-22 | 2023-08-11 | 深圳马可孛罗科技有限公司 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
CN110941717A (zh) * | 2019-11-22 | 2020-03-31 | 深圳马可孛罗科技有限公司 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
CN111199244A (zh) * | 2019-12-19 | 2020-05-26 | 北京航天测控技术有限公司 | 一种数据的分类方法、装置、存储介质及电子装置 |
CN111199244B (zh) * | 2019-12-19 | 2024-04-09 | 北京航天测控技术有限公司 | 一种数据的分类方法、装置、存储介质及电子装置 |
CN111506731A (zh) * | 2020-04-17 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 一种训练字段分类模型的方法、装置及设备 |
CN111506731B (zh) * | 2020-04-17 | 2023-10-20 | 支付宝(杭州)信息技术有限公司 | 一种训练字段分类模型的方法、装置及设备 |
CN111985896B (zh) * | 2020-08-19 | 2023-08-18 | 中国银行股份有限公司 | 邮件过滤方法及装置 |
CN111985896A (zh) * | 2020-08-19 | 2020-11-24 | 中国银行股份有限公司 | 邮件过滤方法及装置 |
CN112036492A (zh) * | 2020-09-01 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 样本集处理方法、装置、设备及存储介质 |
CN112036492B (zh) * | 2020-09-01 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 样本集处理方法、装置、设备及存储介质 |
CN112199372A (zh) * | 2020-09-24 | 2021-01-08 | 中国建设银行股份有限公司 | 映射关系匹配方法和装置以及计算机可读介质 |
CN113220801B (zh) * | 2021-05-17 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 一种结构化数据分类方法、装置、设备及介质 |
CN113220801A (zh) * | 2021-05-17 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种结构化数据分类方法、装置、设备及介质 |
CN117216668A (zh) * | 2023-11-09 | 2023-12-12 | 北京安华金和科技有限公司 | 一种基于机器学习的数据分类分级处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442568A (zh) | 字段标签的获取方法及装置、存储介质、电子装置 | |
CN111181939B (zh) | 一种基于集成学习的网络入侵检测方法及装置 | |
Wang et al. | How many software metrics should be selected for defect prediction? | |
CN105589806B (zh) | 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法 | |
CN103166830B (zh) | 一种智能选择训练样本的垃圾邮件过滤系统和方法 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN106453033A (zh) | 基于邮件内容的多层次邮件分类方法 | |
Utari et al. | Implementation of data mining for drop-out prediction using random forest method | |
CN101876987A (zh) | 一种面向类间交叠的两类文本分类方法 | |
CN103092975A (zh) | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN109598307A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN106204053A (zh) | 信息类目错放识别方法和装置 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
Barandela et al. | Restricted decontamination for the imbalanced training sample problem | |
CN117272204A (zh) | 异常数据检测方法、装置、存储介质和电子设备 | |
CN112181814A (zh) | 一种针对于缺陷报告的多标签标记方法 | |
Hamza et al. | An end-to-end administrative document analysis system | |
CN104468276A (zh) | 基于随机抽样多分类器的网络流量识别方法 | |
CN103886007A (zh) | 一种基于相互约束的模糊数据分类方法 | |
Van Truong et al. | A Coevolutionary approach for classification problems: Preliminary results | |
CN108694202A (zh) | 基于分类算法的可配置垃圾邮件过滤系统及过滤方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191112 |