CN116089808A - 一种特征选择方法及装置 - Google Patents

一种特征选择方法及装置 Download PDF

Info

Publication number
CN116089808A
CN116089808A CN202310068572.2A CN202310068572A CN116089808A CN 116089808 A CN116089808 A CN 116089808A CN 202310068572 A CN202310068572 A CN 202310068572A CN 116089808 A CN116089808 A CN 116089808A
Authority
CN
China
Prior art keywords
numerical
feature
label
value
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310068572.2A
Other languages
English (en)
Inventor
梁铮
杜渂
石健文
何之栋
侯俊丞
王聚全
杨博
刘琦
鲁神恩
夏禹鹏
杨中文
郑佳
穆青
周倡弘
程铭翰
王衍海
符承鹏
赵福旺
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ds Information Technology Co ltd
Original Assignee
Ds Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ds Information Technology Co ltd filed Critical Ds Information Technology Co ltd
Priority to CN202310068572.2A priority Critical patent/CN116089808A/zh
Publication of CN116089808A publication Critical patent/CN116089808A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种特征选择方法及装置,方法包括:获取多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个离散型文本特征对应的多个数值型特征;将每个离散型文本特征对应的数值型特征划分成若干个数值子区间;根据每个数值型特征所在的数值子区间对应的标签数值,得到每个离散型文本特征对应的文本标签数值和数值标签数值;利用文本标签数值和数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。本发明同时考虑了其中一个是数值型、另一个是离散型的两个相关特征,对这两个相关特征分别重新分箱,根据分箱结果进行特征选择,得到一个更优的特征。

Description

一种特征选择方法及装置
技术领域
本发明涉及特征工程技术领域,尤其涉及一种特征选择方法及装置。
背景技术
在机器学习中一个常见的现象是:数据中的某个属性同时被一个或多个特征描述和表示。例如,在表示距离的远近时,既使用了数值化的特征(0m,23m,120m,78m,1000m等),又同时使用自然语言描述(“较近”,“较远”,“远”等),但是这种现象通常存在一个问题,这些数值型特征和离散型特征虽然同时表示了数据的同一个属性,但是由于各自表示的标准有可能存在差异或者数据来源不同,如果同时使用,容易造成相互干扰;如果只选用其中一个特征,容易丢失另外一个特征所包含的信息。
现有特征工程技术对两个相关的特征常采用下述方案,要么是通过特征筛选方法来评估,去掉相对比较不明显的特征,这种方式可能会丢失一些重要的信息;要么是都保留下来参与后续的模型训练学习,这种方式会一方面可能会引入噪音,不利于模型的稳定。现有技术对一个是数值型、另一个是离散型的两个相关特征的处理方法仍然较少。
发明内容
为了解决上述技术问题,本发明提供一种特征选择方法及装置,既能保留相关特征中有价值的信息,还可以防止模型过拟合。
具体的,本发明的技术方案如下:
一方面,本发明提供一种特征选择方法,包括:
获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个所述离散型文本特征对应的多个数值型特征;
将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值;
根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值;
根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述数值型特征对应的数值标签数值;
利用所述文本标签数值和所述数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。
在一些实施方式中,所述的将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值,包括:
将所述输入数据中所有的数值型特征划分成多组分箱方案;每组所述分箱方案包括若干个数值子区间,且每个所述数值子区间对应设置一个标签数值;
计算一组所述分箱方案中所有所述离散型文本特征对应的若干个所述标签数值的方差之和;
遍历所有所述分箱方案,采用启发式算法,求解所述方差之和的极小值;
将所述极小值对应的一组所述分箱方案中的若干个所述数值子区间作为所述离散型文本特征对应的数值型特征所对应的若干个数值子区间,且每个所述数值子区间对应一个所述标签数值。
在一些实施方式中,所述的根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值,包括:
根据每个所述离散型文本特征对应的多个数值型特征,分别统计各个所述数值型特征在所述数值子区间下的分布情况,得到所述数值型特征分布最密集的数值子区间;
将分布最密集的数值区子间对应的所述标签数值作为所述离散型文本特征对应的文本标签数值。
在一些实施方式中,所述的利用所述文本标签数值和所述数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练,包括:
分别计算所述文本标签数据的第一特征重要度以及所述数值标签数据的第二特征重要度;
当所述第一特征重要度高于所述第二特征重要度时,选择所述文本标签数值对所述预测模型进行训练;
当所述第一特征重要度低于所述第二特征重要度时,选择所述数值标签数值对所述预测模型进行训练。
在一些实施方式中,所述的利用所述特征选择结果对预测模型进行训练之后,包括:接收一报警信息,并根据所述特征选择的结果以及所述极小值对应的一组所述分箱方案,得到所述报警信息的对应标签数值;将所述对应标签数值输入训练好的所述预测模型中,预测得到所述报警信息对应的报警类型和/或报警级别。
另一方面,本发明提供一种特征选择装置,包括:
第一获取模块,用于获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个所述离散型文本特征对应的多个数值型特征;
分箱模块,用于将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值;
第二获取模块,用于根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值;
所述第二获取模块,还用于根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述数值型特征对应的数值标签数值;
特征选择模块,用于利用所述文本标签数值和所述数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。
在一些实施方式中,所述的分箱模块,包括:
分箱单元,用于将所述输入数据中所有的数值型特征划分成多组分箱方案;每组所述分箱方案包括若干个数值子区间,且每个所述数值子区间对应设置一个标签数值;
计算单元,用于计算一组所述分箱方案中所有所述离散型文本特征对应的若干个所述标签数值的方差之和;
所述计算单元,还用于遍历所有所述分箱方案,采用启发式算法,求解所述方差之和的极小值;
第一选取单元,用于将所述极小值对应的一组所述分箱方案中的若干个所述数值子区间作为所述离散型文本特征对应的数值型特征所对应的若干个数值子区间,且每个所述数值子区间对应一个所述标签数值。
在一些实施方式中,所述第二获取模块,包括:
统计单元,用于根据每个所述离散型文本特征对应的多个数值型特征,分别统计各个所述数值型特征在所述数值子区间下的分布情况,得到所述数值型特征分布最密集的数值子区间;
第二选取单元,用于将分布最密集的数值区子间对应的所述标签数值作为所述离散型文本特征对应的文本标签数值。
在一些实施方式中,所述特征选择模块,包括:
第三计算单元,用于分别计算所述文本标签数据的第一特征重要度以及所述数值标签数据的第二特征重要度;
比较单元,用于将所述第一特征重要度和所述第二特征重要度进行比较;
训练单元,用于当所述第一特征重要度高于所述第二特征重要度时,选择所述第一标签数据对所述预测模型进行训练;
所述训练单元,还用于当所述第一特征重要度低于所述第二特征重要度时,选择所述第二标签数据对所述预测模型进行训练。
在一些实施方式中,还包括:接收模块,用于接收一报警信息,并根据所述特征选择的结果,得到所述报警信息的对应标签数值;
预测模块,用于将所述对应标签数值输入训练好的所述预测模型中,预测得到所述报警信息对应的报警类型和/或报警级别。
与现有技术相比,本发明的有益效果在于:
现有特征工程技术,对于两个相关的特征,要么是通过筛选的方式,去掉相对比较不明显的特征,这种方式可能会丢失一些重要的信息;或者将两者都保留下来,都用于后续的模型训练学习,但是这种方式可能会引入噪音,不利于模型的稳定,而本发明能够充分考虑到数值型特征和离散型特征的信息,生成对应的标签数值,并对标签数值进行特征选择,选择两个相关特征中更优的特征进行模型训练,从而避免引入噪声和模型过拟合。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的特征选择方法的一个实施例的流程图;
图2是本发明的特征选择方法的另一个实施例的流程图;
图3是本发明的特征选择装置的一个实施例的结构示意图。
附图标号说明:
第一获取模块10,分箱模块20,第二获取模块30,特征选择模块40。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在机器学习中一个常见的现象是:数据中的某个属性同时被一个或多个特征描述和表示。例如,在表示距离的远近时,既使用了数值化的特征(0m,23m,120m,78m,1000m等),又同时使用自然语言描述(“较近”,“较远”,“远”等);在表示与金额的大小时,既使用了数值化的特征(100¥,1000¥,10000¥等),又使用了级别描述(“小额”,“中额”,“大额”等);在表示温度的高低时,既使用了数值化的特征(10度,23度,70度等),又使用了级别描述(“小额”,“中额”,“大额”等);诸如此类的情况不一而足。
但是这种现象通常存在一个问题,这些数值化特征和自然语言描述特征虽然同时表示了数据的同一个属性,但是由于各自表示的标准有可能存在差异或者数据来源不同,如果同时使用,容易造成相互干扰;如果只选用其中一个特征,容易丢失另外一个特征所包含的信息。
为了解决上述问题,本发明提出了一种同事考虑离散型特征和离散型特征的特征选择方法和装置。以下结合消防力量调派的应用场景来具体阐述本发明。但需要说明的是,本发明提供的特征选择方法及装置除了应用于消防、公安、应急管理领域,还可以应用于涉及机器学习的其他领域。
本发明的一个实施例,参考说明书附图1,一种特征选择方法,包括步骤:
S100获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个离散型文本特征对应的多个数值型特征。
具体的,输入数据是指一个多维向量,其中向量的每一个维度可以用数值、类别值、自然语言文本表示。特征是指输入数据的向量的每一个维度对应于输入数据的一个特征,可以分为数值型特征和离散型文本特征。
数值型特征包括定量的描述,用整数值或实数值来表示,这是可以进行数学运算的一类属性,是真正意义上的数值,例如火灾现场的起火面积(10m2、33m2、100m2)和紧急救援时的伤亡人数。离散型特征包括定性的描述,例如对火势(火很大、火很小)、金额(小额、大额、巨额)的自然语言描述。
当数值型特征和离散型特征对应于数据的同一个属性或同一类属性时,例如,向量中有两个特征都对应温度,其中一个用具体数值表示,另一个用自然语言或类别字符串(高温、中温、低温、热、凉、冷等等)表示,则这两个特征为相关特征。
S200将每个离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个数值子区间对应一个标签数值。
具体的,每个离散型文本特征通常对应多个数值型特征,例如,“火很大”为一个离散型文本特征,而“火很大”是一个主观的描述,可能对应不同的起火面积(10平米、50平米、103平米等等),所以“火很大”这一离散型文本特征就对应多个数值型特征。以起火面积为例,将“火很大”所对应的最小起火面积作为最小值以及对应的最大起火面积作为最大值,确定一个数值区间,在该数值区间内对“火很大”所对应其他数值型特征进行区间划分,得到若干个数值子区间,并将每个数值子区间与一个标签数值对应。
S300根据每个数值型特征所在的数值子区间对应的标签数值,得到每个离散型文本特征对应的文本标签数值。
S400根据每个数值型特征所在的数值子区间对应的标签数值,得到每个数值型特征对应的数值标签数值。
S500利用文本标签数值和数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。
具体的,通过上述步骤S300-S500分别将离散型文本特征和数值型特征转化为标签数值,并通过对标签数值进行特征选择,得到更优的标签数值,利用该标签数值进行模型训练。
本实施例,同时考虑了其中同时考虑了其中一个是数值型、另一个是离散型的两个相关特征,通过区间划分的方式,分别将这两个相关特征转化为对应的标签数值,根据标签数值进行特征选择,利用其中更优的标签数值进行预测模型的训练,防止过拟合、避免引入噪音。
在一些实施例中,步骤S200包括:
S210将输入数据中所有的数值型特征划分成多组分箱方案;每组分箱方案包括若干个数值子区间,且每个数值子区间对应设置一个标签数值。
具体的,假设所有数据中,一共有K个不同的离散型文本特征(例如,小额、中额、巨额),第i个(i=1...K)离散型文本特征在所有数据中出现了Mi次,每一次对应的数值特征(例如,金额的数值)为di,β,其中β=1,…,Mi
令x1,x2,…,xN-1是在(dmin,dmax)内随机生成的用来划分区间的N-1个从小到大排列的数,我们把金额数值划分成N个数值子区间,其中dmin代表所有数值金额di,β的最小值,dmax代表所有数值金额di,β的最大值:
(dmin,x1],(x1,x2],…,(xN-2,xN-1],(xN-1,dmax];
设置标签数值:Label=1,2,…,N,分别与上述各个子区间一一对应。
以上为一组分箱方案的划分方法,多次随机生成x1,x2,…,xN-1,得到多组x1,x2,…,xN-1,从而得到多组分箱方案。
S220计算一组分箱方案中所有离散型文本特征对应的若干个标签数值的方差之和。
S230遍历所有分箱方案,采用启发式算法,求解所述方差之和的极小值。
具体的,以第i个(i=1...K)离散型文本特征为例,任取它对应的一个数值型特征di,β,这个数值di,β对应的标签数值,即Label为:
L(x1,x2,…,xN-1,di,β)=1,或2,…,或N-1;
比如,以火灾现场待救援人数为例,假设dmin=3,dmax=100,以x1=10,x2=20,x3=50将区间(3,100)划分为以下四个数值子区间:(3,10],(10,20],(20,50],(50,100]。每个区间分别对应Label:1,2,3,4。任取“很多人”对应的一个数值型特征di,β=56,那么数值型特征“56”对应的标签数值为Label=4。
上述L函数可以用阶跃函数线性组合精确表示出来,也可以用sigmoid函数的线性组合近似表示。
通过步骤S210,可以得到多组分箱方案,即获得由多组x1,x2,…,xN-1划分的多组数值子区间,以及每组数值子区间中各个子区间所对应的标签数值。
为了从多组分箱方案中选取一个最优的区间划分,设置如下目标函数:
U(x1,x2,…,xN-1)=K个词的Label方差之和=D1+D2+…+DK,其中,Di是第i个离散特征词的Label的方差。
当目标函数U(x1,x2,…,xN-1)取最小值时,目标函数对应的一组数值子区间即为最优的区间划分。然而,求解最优的区间划分比较困难,所以通过获取目标函数的极小值来获得一个次优的区间划分。通常采用启发式算法来获取极小值,例如蚁群算法、遗传算法等,通过启发式算法,经过多次迭代得到的最优解,作为目标函数的次优解,即前述的极小值。另外,上述目标函数U也可以有其他的函数形式。
S240将极小值对应的一组分箱方案中的若干个数值子区间作为离散型文本特征对应的数值型特征所对应的若干个数值子区间,且每个数值子区间对应一个标签数值。
本实施例,多次随机生成不同的分箱方案,并通过计算标签数值的方差和,从多组分箱方案中筛选出一组最优的分箱方案,得到其对应的若干个数值子区间,以及每个数值子区间对应的标签数值。
在一个实施例中,步骤S300包括:
S310根据每个离散型文本特征对应的多个数值型特征,分别统计各个数值型特征在数值子区间下的分布情况,得到数值型特征分布最密集的数值子区间。
S320将分布最密集的数值区子间对应的标签数值作为离散型文本特征对应的文本标签数值。
具体的,分别考察每个离散型文本特征(定性描述词),其对应的数值型特征(具体数值)落在哪个区间内最密集,那么就使用该区间所对应的Label作为该离散型文本特征的文本标签数值。
本实施例,通过上述步骤,将离散型文本特征从自然语言描述词转化为标签数值。
在一个实施例中,参考说明书附图图2,一种特征选择的方法,包括步骤:
S600获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个离散型文本特征对应的多个数值型特征。
S601将每个离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个数值子区间对应一个标签数值。
S602根据每个离散型文本特征对应的多个数值型特征,分别统计各个数值型特征在数值子区间下的分布情况,得到数值型特征分布最密集的数值子区间。
S603将分布最密集的数值区子间对应的标签数值作为离散型文本特征对应的文本标签数值。
具体的,通过步骤S601分别考察每个离散型文本特征,其对应的数值型特征落在哪个数值子区间内最密集,那么就使用该数值子区间所对应的标签数值作为该离散特征值的文本标签数值。
比如,以起火面积为例,假设所有数值型特征中,最小值dmin=3,最大值dmax=100,以x1=10,x2=20,x3=50将区间(3,100)划分为以下四个数值子区间:(3,10],(10,20],(20,50],(50,100]。每个区间分别对应Label:1,2,3,4。
假设离散型文本特征分别为:小火、中火、大火,当离散性特征为“小火”时,统计“小火”对应的各个起火面积的具体数值在上述四个数值子区间中的分布情况,分布最密集的数值子区间的标签数值,即为“小火”对应的文本标签数值。同样地,可以得到其他离散型文本特征对应的文本标签数值。
S604根据每个数值型特征所在的数值子区间对应的标签数值,得到每个数值型特征对应的数值标签数值。
具体的,分别考察每个数值型特征,其对应的区间作为其数值标签数值。例如,以步骤S603中的四个数值子区间为例,数值型特征“56”位于区间(50,100],该区间对应的标签数值Label=4,即“56”对应的数值标签数值为“4”。
S605分别计算文本标签数据的第一特征重要度以及数值标签数据的第二特征重要度;当第一特征重要度高于第二特征重要度时,选择第一标签数据对预测模型进行训练;当第一特征重要度低于第二特征重要度时,选择第二标签数据对预测模型进行训练。
具体的,通过步骤S604和步骤S605,离散型文本特征和数值型特征都可以用对应的标签数值表示。采用特征选择算法,分别计算文本标签数值和数值标签数值的特征重要度,将两者中特征重要度较高的的标签数值作为最终训练模型时所用的特征。
本实施例,通过上述步骤,分别将原来的离散型文本特征和数值型特征转化为对应的标签数值,并根据特征重要度选择其中更优的一个标签数值用于模型训练。
在一个实施例中,在前述实施例的基础上,还包括:接收一报警信息,并根据所述特征选择的结果以及所述极小值对应的一组所述分箱方案,得到所述报警信息的对应标签数值;将所述对应标签数值输入训练好的所述预测模型中,预测得到所述报警信息对应的报警类型和/或报警级别。
具体的,通过前述方法实施例中描述的特征选择方法,对两个相关特征进行处理,将特征对应的标签数值作为用于模型训练的新的特征。模型训练好后,采用该模型进行预测推理。报警信息同时包含离散型文本特征和数值型特征,在接收到新的报警信息后,根据特征选择的结果,采用其中一个更优的特征所对应的标签数值进行预测。
比如,依旧以起火面积为例,接收到的火警信息中离散型文本特征为“火很大”、数值型特征为“35.5平米”。假设输入数据的所有数值型特征中,最小值dmin=3,最大值dmax=100,以x1=10,x2=20,x3=50将区间(3,100)划分为以下四个数值子区间:(3,10],(10,20],(20,50],(50,100]。每个区间分别对应Label:1,2,3,4。如果特征选择的结果为数值型特征更优,那么根据数值型特征“35.5平米”进行预测:“35.5”对应的区间为(20,50],该区间的标签数值Label=3,即Label=3为对应标签数值。因此,将该对应标签数值输入预测模型中,预测得到所需的报警类型和/或报警级别。报警信息包括消防警情信息、公安报警信息以及应急管理领域的各类报警信息。
本发明的一个实施例,参考说明书附图图3,一种特征选择装置,包括第一获取模块10、分箱模块20、第二获取模块30、特征选择模块40,其中:
第一获取模块10,用于获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个离散型文本特征对应的多个数值型特征。
分箱模块20,用于将每个离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个数值子区间对应一个标签数值。
第二获取模块30,用于根据每个数值型特征所在的数值子区间对应的标签数值,得到每个离散型文本特征对应的文本标签数值。
第二获取模块30,还用于根据每个数值型特征所在的数值子区间对应的标签数值,得到每个数值型特征对应的数值标签数值。
特征选择模块40,用于利用文本标签数值和数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。
本发明同时考虑了其中一个是数值型、另一个是离散型的两个相关特征,通过设置数值子区间及其对应的标签数值,分别将数值型特征和离散型文本特征用标签数值表示,实现了对这两个相关特征的重新分箱;并利用重新分箱得到的标签数值进行特征选择,得到两个相关特征中更优的特征,选用该特征对应的标签数值进行预测模型的训练。
在一些实施例中,分箱模块20包括:
分箱单元21,用于将每个离散型文本特征对应的多个数值型特征划分成一组分箱方案,并得到多个离散型文本特征对应的多组分箱分案;其中,每组分箱方案包括若干个数值子区间,且每个数值子区间对应设置一个标签数值。
第一计算单元22,用于计算一组分箱方案中一个离散型文本特征对应的若干个标签数值的方差。
第二计算单元23,用于遍历多组分箱方案,计算多组分箱方案中若干个标签数值的方差之和,并采用启发式算法,求解方差之和的极小值。
第一选取单元24,用于将极小值对应的一组分箱方案中的若干个数值子区间作为离散型文本特征对应的数值型特征所对应的若干个数值子区间,且每个数值子区间对应一个标签数值。
在一个实施例中,在上述实施例的基础上,还包括:
接收模块,用于接收一报警信息,并根据所述特征选择的结果,得到所述报警信息的对应标签数值;
预测模块,用于将所述对应标签数值输入训练好的所述预测模型中,预测得到所述报警信息对应的报警类型和/或报警级别。
在一些实施例中,第二获取模块30包括:
统计单元31,用于根据每个离散型文本特征对应的多个数值型特征,分别统计各个数值型特征在数值子区间下的分布情况,得到数值型特征分布最密集的数值子区间。
第二选取单元32,用于将分布最密集的数值区子间对应的标签数值作为离散型文本特征对应的文本标签数值。
在一些实施例中,特征选择模块40包括:
第三计算单元41,用于分别计算文本标签数据的第一特征重要度以及数值标签数据的第二特征重要度。
比较单元42,用于将第一特征重要度和第二特征重要度进行比较。
训练单元43,用于当第一特征重要度高于第二特征重要度时,选择第一标签数据对预测模型进行训练。
训练单元43,还用于当第一特征重要度低于第二特征重要度时,选择第二标签数据对预测模型进行训练。
需要说明的是,本发明提供的特征选择装置的实施例与前述提供的特征选择方法的实施例均基于同一发明构思,能够取得相同的技术效果。因而,特征选择装置的实施例的其它具体内容可以参照前述特征选择方法的实施例内容的记载。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
应当说明的是,上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种特征选择方法,其特征在于,包括:
获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个所述离散型文本特征对应的多个数值型特征;
将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值;
根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值;
根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述数值型特征对应的数值标签数值;
利用所述文本标签数值和所述数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。
2.根据权利要求1所述一种特征选择方法,其特征在于,所述的将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值,包括:
将所述输入数据中所有的数值型特征划分成多组分箱方案;每组所述分箱方案包括若干个数值子区间,且每个所述数值子区间对应设置一个标签数值;
计算一组所述分箱方案中所有所述离散型文本特征对应的若干个所述标签数值的方差之和;
遍历所有所述分箱方案,采用启发式算法,求解所述方差之和的极小值;
将所述极小值对应的一组所述分箱方案中的若干个所述数值子区间作为所述离散型文本特征对应的数值型特征所对应的若干个数值子区间,且每个所述数值子区间对应一个所述标签数值。
3.根据权利要求1所述一种特征选择方法,其特征在于,所述的根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值,包括:
根据每个所述离散型文本特征对应的多个数值型特征,分别统计各个所述数值型特征在所述数值子区间下的分布情况,得到所述数值型特征分布最密集的数值子区间;
将分布最密集的数值区子间对应的所述标签数值作为所述离散型文本特征对应的文本标签数值。
4.根据权利要求1-3任一所述一种特征选择方法,其特征在于,所述的利用所述文本标签数值和所述数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练,包括:
分别计算所述文本标签数据的第一特征重要度以及所述数值标签数据的第二特征重要度;
当所述第一特征重要度高于所述第二特征重要度时,选择所述文本标签数值对所述预测模型进行训练;
当所述第一特征重要度低于所述第二特征重要度时,选择所述数值标签数值对所述预测模型进行训练。
5.根据权利要求2所述的一种特征选择方法,其特征在于,所述的利用所述特征选择结果对预测模型进行训练之后,包括:
接收一报警信息,并根据所述特征选择的结果以及所述极小值对应的一组所述分箱方案,得到所述报警信息的对应标签数值;
将所述对应标签数值输入训练好的所述预测模型中,预测得到所述报警信息对应的报警类型和/或报警级别。
6.一种特征选择装置,其特征在于,包括:
第一获取模块,用于获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个所述离散型文本特征对应的多个数值型特征;
分箱模块,用于将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值;
第二获取模块,用于根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值;
所述第二获取模块,还用于根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述数值型特征对应的数值标签数值;
特征选择模块,用于利用所述文本标签数值和所述数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。
7.根据权利要求6所述一种特征选择装置,其特征在于,所述的分箱模块,包括:
分箱单元,用于将所述输入数据中所有的数值型特征划分成多组分箱方案;每组所述分箱方案包括若干个数值子区间,且每个所述数值子区间对应设置一个标签数值;
计算单元,用于计算一组所述分箱方案中所有所述离散型文本特征对应的若干个所述标签数值的方差之和;
所述计算单元,还用于遍历所有所述分箱方案,采用启发式算法,求解所述方差之和的极小值;
第一选取单元,用于将所述极小值对应的一组所述分箱方案中的若干个所述数值子区间作为所述离散型文本特征对应的数值型特征所对应的若干个数值子区间,且每个所述数值子区间对应一个所述标签数值。
8.根据权利要求6所述一种特征选择装置,其特征在于,所述第二获取模块,包括:
统计单元,用于根据每个所述离散型文本特征对应的多个数值型特征,分别统计各个所述数值型特征在所述数值子区间下的分布情况,得到所述数值型特征分布最密集的数值子区间;
第二选取单元,用于将分布最密集的数值区子间对应的所述标签数值作为所述离散型文本特征对应的文本标签数值。
9.根据权利要求6-8任一所述一种特征选择装置,其特征在于,所述特征选择模块,包括:
第三计算单元,用于分别计算所述文本标签数据的第一特征重要度以及所述数值标签数据的第二特征重要度;
比较单元,用于将所述第一特征重要度和所述第二特征重要度进行比较;
训练单元,用于当所述第一特征重要度高于所述第二特征重要度时,选择所述第一标签数据对所述预测模型进行训练;
所述训练单元,还用于当所述第一特征重要度低于所述第二特征重要度时,选择所述第二标签数据对所述预测模型进行训练。
10.根据权利要求7所述的一种特征选择装置,其特征在于,还包括:
接收模块,用于接收一报警信息,并根据所述特征选择的结果,得到所述报警信息的对应标签数值;
预测模块,用于将所述对应标签数值输入训练好的所述预测模型中,预测得到所述报警信息对应的报警类型和/或报警级别。
CN202310068572.2A 2023-02-06 2023-02-06 一种特征选择方法及装置 Pending CN116089808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310068572.2A CN116089808A (zh) 2023-02-06 2023-02-06 一种特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310068572.2A CN116089808A (zh) 2023-02-06 2023-02-06 一种特征选择方法及装置

Publications (1)

Publication Number Publication Date
CN116089808A true CN116089808A (zh) 2023-05-09

Family

ID=86209989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310068572.2A Pending CN116089808A (zh) 2023-02-06 2023-02-06 一种特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN116089808A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862089A (zh) * 2017-12-02 2018-03-30 北京工业大学 一种基于感知数据的标签提取方法
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法
CN111047051A (zh) * 2019-12-20 2020-04-21 支付宝(杭州)信息技术有限公司 机器学习模型的训练样本的筛选方法及其系统
CN111815485A (zh) * 2020-06-12 2020-10-23 中国司法大数据研究院有限公司 一种基于深度学习bert模型的量刑预测方法和装置
CN112288455A (zh) * 2020-01-09 2021-01-29 北京沃东天骏信息技术有限公司 标签生成方法及装置、计算机可读存储介质、电子设备
CN112819085A (zh) * 2021-02-10 2021-05-18 中国银联股份有限公司 基于机器学习的模型优化方法、装置及存储介质
CN114418175A (zh) * 2021-12-13 2022-04-29 重庆紫光华山智安科技有限公司 一种人员管理方法、装置、电子设备及存储介质
CN114547552A (zh) * 2022-04-25 2022-05-27 粤港澳大湾区数字经济研究院(福田) 模拟数据的生成方法、装置、智能终端及存储介质
CN114637782A (zh) * 2022-04-02 2022-06-17 筏渡(上海)科技有限公司 一种针对结构化数值型数据生成文本的方法及装置
CN115114937A (zh) * 2022-05-30 2022-09-27 腾讯科技(深圳)有限公司 文本获取方法、装置、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862089A (zh) * 2017-12-02 2018-03-30 北京工业大学 一种基于感知数据的标签提取方法
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法
CN111047051A (zh) * 2019-12-20 2020-04-21 支付宝(杭州)信息技术有限公司 机器学习模型的训练样本的筛选方法及其系统
CN112288455A (zh) * 2020-01-09 2021-01-29 北京沃东天骏信息技术有限公司 标签生成方法及装置、计算机可读存储介质、电子设备
CN111815485A (zh) * 2020-06-12 2020-10-23 中国司法大数据研究院有限公司 一种基于深度学习bert模型的量刑预测方法和装置
CN112819085A (zh) * 2021-02-10 2021-05-18 中国银联股份有限公司 基于机器学习的模型优化方法、装置及存储介质
CN114418175A (zh) * 2021-12-13 2022-04-29 重庆紫光华山智安科技有限公司 一种人员管理方法、装置、电子设备及存储介质
CN114637782A (zh) * 2022-04-02 2022-06-17 筏渡(上海)科技有限公司 一种针对结构化数值型数据生成文本的方法及装置
CN114547552A (zh) * 2022-04-25 2022-05-27 粤港澳大湾区数字经济研究院(福田) 模拟数据的生成方法、装置、智能终端及存储介质
CN115114937A (zh) * 2022-05-30 2022-09-27 腾讯科技(深圳)有限公司 文本获取方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Betzel et al. Specificity and robustness of long-distance connections in weighted, interareal connectomes
Hassanien Rough set approach for attribute reduction and rule generation: a case of patients with suspected breast cancer
Li et al. Analysis of attribute weighting heuristics for analogy-based software effort estimation method AQUA+
Low et al. Predicting commercial vehicle parking duration using generative adversarial multiple imputation networks
Catak et al. Fuzzy analytic hierarchy based DBMS selection in Turkish national identity card management project
CN115879829B (zh) 一种应用于平台创新能力审核的评审专家筛选方法
CN112241494A (zh) 基于用户行为数据的关键信息推送方法及装置
Zhang et al. A fast online learning algorithm for distributed mining of bigdata
Hongjiu et al. An Evaluating Method with Combined Assigning‐Weight Based on Maximizing Variance
Zheng et al. A granular computing-driving hesitant fuzzy linguistic method for supporting large-scale group decision making
CN111368911A (zh) 一种图像分类方法、装置和计算机可读存储介质
Mu et al. On solving large p-median problems
Varshney et al. Decision making with quantized priors leads to discrimination
Maihami et al. Proposing a novel method for improving the performance of collaborative filtering systems regarding the priority of similar users
Abolghasemi et al. Predicting missing pairwise preferences from similarity features in group decision making
Hu et al. Correlation degree analysis of arterial adjacent intersections for coordinated control subunit partition
Greenberg Criminal careers: Discrete or continuous?
Cheng et al. A new e‐learning achievement evaluation model based on rough set and similarity filter
CN116089808A (zh) 一种特征选择方法及装置
Zhang et al. An improved multi-objective particle swarm optimization and its application in raw ore dispatching
Chae et al. Structural determinants of Human Resource Development research collaboration networks: A Social‐Network Analysis of publications Between 1990 to 2014
Hemsley et al. Call to retweet: Negotiated diffusion of strategic political messages
Sherwani et al. [Retracted] A New Neutrosophic Negative Binomial Distribution: Properties and Applications
Aryuni et al. Comparison of Nutritional Status Prediction Models of Children Under 5 Years of Age Using Supervised Machine Learning
CN114417159A (zh) 内容质量评估方法、模型训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination