CN116304036A - 特征确定方法、装置、设备、介质及产品 - Google Patents

特征确定方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN116304036A
CN116304036A CN202310183515.9A CN202310183515A CN116304036A CN 116304036 A CN116304036 A CN 116304036A CN 202310183515 A CN202310183515 A CN 202310183515A CN 116304036 A CN116304036 A CN 116304036A
Authority
CN
China
Prior art keywords
feature
input
neighborhood
preset
mutual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310183515.9A
Other languages
English (en)
Inventor
张毅
赵康辉
黄彩云
周佳
白国涛
孙昊
程小磊
肖阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310183515.9A priority Critical patent/CN116304036A/zh
Publication of CN116304036A publication Critical patent/CN116304036A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种特征确定方法、装置、设备、介质及产品,包括:获取当前时刻的输入特征以及与输入特征对应的决策特征,输入特征是基于第一文本样本中的至少一个维度数据确定的;基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集包括多个第二文本样本,第二文本样本包括第一文本样本,预设特征集包括多个第一特征;在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。本申请实施例,提高了现有技术中特征确定的准确性。

Description

特征确定方法、装置、设备、介质及产品
技术领域
本申请属于人工智能技术领域,尤其涉及一种特征确定方法、装置、设备、介质及产品。
背景技术
特征选择也称特征子集选择,是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中决策特征的数据预处理步骤。
在文本分类中,特征选择的目的是针对特征空间的高维性选出最能反映文本类别的特征。因此,如何从特征空间的高维性中确定更为准确的特征,从而可以准确地进行文本分类是一个亟待解决的技术问题,然而,现有技术中的特征确定的准确性较低。
发明内容
本申请实施例提供一种特征确定方法、装置、设备、介质及产品,提高了现有技术中特征确定的准确性。
第一方面,本申请实施例提供一种特征确定方法,方法包括:
获取当前时刻的输入特征以及与输入特征对应的决策特征,输入特征是基于第一文本样本中的至少一个维度数据确定的;
基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集包括多个第二文本样本,第二文本样本包括第一文本样本,预设特征集包括多个第一特征;
在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。
在第一方面的一种可选的实施方式中,基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,包括:
基于输入特征、决策特征和多个第二文本样本,计算第一邻域互信息,第一邻域互信息表征输入特征与决策特征之间的相关性;
基于输入特征、第二特征和多个第二文本样本,计算第二邻域互信息,第二邻域互信息表征输入特征与第二特征之间的冗余性,第二特征为多个第一特征中的任一个;
基于输入特征、决策特征、第二特征和多个第二文本样本,计算邻域条件互信息,邻域条件互信息表征输入特征与第二特征之间的交互性。
在第一方面的一种可选的实施方式中,第一预设条件包括目标数值处于第一预设范围内,其中,目标数值等于目标差值与邻域条件互信息之和,目标差值为第一邻域互信息和第二邻域互信息之差。
在第一方面的一种可选的实施方式中,方法还包括:
在特征关联信息满足第二预设条件的情况下,删除当前时刻的输入特征,第二预设条件为目标数值处于第二预设范围内,且第一邻域互信息大于或等于邻域条件互信息。
在第一方面的一种可选的实施方式中,方法还包括:
在特征关联关系满足第三预设条件的情况下,从预设特征集中删除第二特征,第三预设条件为目标数值处于第二预设范围内,且第一邻域互信息小于邻域条件互信息。
第二方面,本申请实施例提供了一种特征确定装置,该装置包括:
获取模块,用于获取当前时刻的输入特征以及与输入特征对应的决策特征,输入特征是基于第一文本样本中的至少一个维度数据确定的;
确定模块,用于基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集包括多个第二文本样本,第二文本样本包括第一文本样本,预设特征集包括多个第一特征;
确定模块,用于在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。
在第二方面的一种可选的实施方式中,装置包括:
计算模块,用于基于输入特征、决策特征和多个第二文本样本,计算第一邻域互信息,第一邻域互信息表征输入特征与决策特征之间的相关性;
计算模块,用于基于输入特征、第二特征和多个第二文本样本,计算第二邻域互信息,第二邻域互信息表征输入特征与第二特征之间的冗余性,第二特征为多个第一特征中的任一个;
计算模块,还用于基于输入特征、决策特征、第二特征和多个第二文本样本,计算邻域条件互信息,邻域条件互信息表征输入特征与第二特征之间的交互性。
第三方面,提供一种电子设备,包括:存储器,用于存储计算机程序指令;处理器,用于读取并运行存储器中存储的计算机程序指令,以执行第一方面中任一可选的实施方式提供的特征确定方法。
第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面中的任一可选的实施方式提供的特征确定方法。
第五方面,提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行实现第一方面中的任一可选的实施方式提供的特征确定方法。
在本申请实施例中,通过获取当前时刻的输入特征以及与该输入特征对应的决策特征,进而可以基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据确定关联信息,进而可以在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。由于特征关联信息用于反映特征间的相关性、冗余性和交互性,进而可以更好地确定目标特征,提高了特征确定的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种特征确定方法的流程示意图;
图2是本申请实施例提供的一种特征确定装置的结构示意图;
图3是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
现有技术中,随着人工智能技术的不断发展,人们对自然语言处理也越来越重视,其中,尤为重视文本分类。然而,由于文本所包括的有效特征一般较少,且特征维度过高,以致于会对分类算法的时间复杂度和空间复杂度造成较大影响。另外,文本分类一般是使用向量空间模型作为分类器载体,该载体可以包括特征、特征权重等概念,另外,由于特征对文本分类的结果的影响较大,因此,若不对文本中词条进行处理,会导致向量空间模型的维数会较高,进而会影响分类性能和分类效率。
针对上述问题,现有技术一般使用建立在已知样本和标签的基础上的特征选择算法,通过分析特征间的一种关联关系,构建评价函数,以确定更好的特征,然而,该方法由于仅考虑单一的特征间的关系,以致于特征确定的准确度较低。
为了解决上述现有技术中存在特征确定的准确性较低的问题,本申请实施例提供一种特征确定方法、装置、设备、介质及产品,在本申请实施例中,通过获取当前时刻的输入特征以及与该输入特征对应的决策特征,进而可以基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据确定特征关联信息,进而可以在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。由于特征关联信息用于反映特征间的相关性、冗余性和交互性,进而可以更好地确定目标特征,提高了特征确定的准确性,以便于后续提高文本分类的准确度以及效率。
需要说明的是本申请实施例提供的特征确定方法,执行主体可以为特征确定装置,或者特征确定装置中用于执行特征确定方法的控制模块。本申请实施例中以特征确定装置执行特征确定方法为例,说明本申请实施例提供的特征确定方法。
下面结合附图,通过具体的实施例对本申请实施例提供的特征确定方法进行详细说明。
图1是本申请实施例提供的一种特征确定方法的流程示意图。
如图1所示,该特征确定方法的执行主体可以是特征确定装置,该方法具体可以包括以下步骤:
S110,获取当前时刻的输入特征以及与输入特征对应的决策特征。
其中,第一文本样本中可以包括多个维度数据,输入特征可以是基于第一文本样本中的至少一个维度数据确定的。决策特征与输入特征相对应,可以理解为是输入特征的标签,用于表征该输入特征是正向样本或反向样本等,在此不作具体限定。
S120,基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息。
具体地,特征确定装置可以在获取输入特征和决策特征之后,基于输入特征、决策特征以及预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息。其中,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集可以包括多个第二文本样本,第二文本样本可以包括第一文本样本,预设特征集可以包括多个第一特征。
需要说明的是,上述涉及到的预设文本样本集可以是从文本集系统中获取的,具体地,该文本集系统IS=<U,C∪{d}>,U={u1,u2,…,ut}是非空文本样本集,其中的每个ui表示一篇文章;C={f1,f2,…,fs}是非空有限特征流,fi表示相应的词项;{d}是决策特征,f(ui)是特征f在样本ui上的值。
S130,在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。
其中,第一预设条件可以是基于实际经验或实际情况预先设置的条件,在此不作具体限定。
具体地,特征确定装置可以在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征,以便后续可以将该目标特征加入预设特征集,以得到最优特征子集。需要说明的是,本申请实施例提供的特征确定方法可以实时对输入特征进行分析,直至下一时刻没有新的输入特征输入,可以输出最优特征集。
在本申请实施例中,通过获取当前时刻的输入特征以及与该输入特征对应的决策特征,进而可以基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据确定关联信息,进而可以在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。由于特征关联信息用于反映特征间的相关性、冗余性和交互性,进而可以更好地确定目标特征,提高了特征确定的准确性。
为了更加准确地描述本申请实施例提供的特征确定方法,在一个实施例中,上述涉及到的特征关联信息可以包括第一邻域互信息、第二邻域互信息和邻域条件互信息,基于此,上述涉及到的S120具体可以包括如下步骤:
基于所述输入特征、所述决策特征和所述多个第二文本样本,计算第一邻域互信息,所述第一邻域互信息表征所述输入特征与所述决策特征之间的相关性;
基于所述输入特征、所述第二特征和多个第二文本样本,计算第二邻域互信息,所述第二邻域互信息表征所述输入特征与第二特征之间的冗余性,所述第二特征为所述多个第一特征中的任一个;
基于所述输入特征、所述决策特征、所述第二特征和多个第二文本样本,计算邻域条件互信息,所述邻域条件互信息表征所述输入特征与所述第二特征之间的交互性。
具体地,特征确定装置在获取输入特征和决策特征之后,可以基于输入特征、决策特征和多个第二文本样本,计算第一邻域互信息,另外,基于输入特征、第二特征和多个第二人文本样本,计算第二邻域互信息,还可以基于输入特征、决策特征、第二特征和多个第二文本样本,计算邻域条件互信息。如此,可以准确得到特征关联信息,进而可以基于特征关联信息所反映的特征间的相关性、冗余性和交互性,提高特征确定的准确性。
在一个示例中,假设输入特征为f,计算f的多邻域半径θf和多邻域类
Figure BDA0004103413590000071
具体如下公式所示:
Figure BDA0004103413590000072
其中,
Figure BDA0004103413590000073
可以是输入特征在预设文本样本集所包括的每一个第二文本样本上的特征值之和的平均值。U可以是预设文本样本集所包括的第二文本样本的数量。
基于此,使用欧氏距离(p=2)计算f中样本间的相似性:
τf(ui,uj)=(∑|f(ui)-f(uj)|p)1/p (2)
其中,ui可以是预设文本样本集中的第i个第二文本样本,相应的,uj可以是预设文本样本集中的第j个第二文本样本。其中,i不等于j。
基于上述公式(1)和公式(2),可以得到如下公式(3)所表示的多邻域类:
Figure BDA0004103413590000074
基于上述公式得到的θf和τf(ui,uj),计算邻域关系矩阵R(f)和R(d)以及R(f∪d):
1、计算f的关系矩阵:
Figure BDA0004103413590000081
Figure BDA0004103413590000082
2、计算d的关系矩阵:
Figure BDA0004103413590000083
Figure BDA0004103413590000084
其中,τd(ui,uj)与上述τf(ui,uj)的计算方式一致,θd与上述θf的计算方式一致,此处不作过多赘述。
3、计算(f∪d)关系矩阵:
R(f∪d)=R(f)∧R(d) (6)
利用上述步骤得到f的多邻域类
Figure BDA0004103413590000085
以及关于f,d,f∪d的邻域关系矩阵R(f)和R(d)以及R(f∪d),计算第一邻域互信息、第二邻域互信息以及邻域条件互信息。
1、计算邻域互信息cor(f;d)以表示f与d的性:
Figure BDA0004103413590000086
2、对每一个特征a′j∈Red,Red为预设特征集,使用邻域互信息rdd(f;a′j)计算任意两个特征间的冗余性:
Figure BDA0004103413590000087
3、对每一个特征a′j∈Red,使用邻域条件互信息intr(f;d|a′j)计算任意两个特征间的交互性:
Figure BDA0004103413590000091
基于此,可以通过如上公式计算得到第一邻域互信息、第二邻域互信息以及邻域条件互信息,以准确得到特征关联信息,进而提高特征确定的准确性。
在一些实施例中,上述涉及到的第一预设条件可以包括目标数值处于第一预设范围内,其中,所述目标数值等于目标差值与邻域条件互信息之和,所述目标差值为所述第一邻域互信息和所述第二邻域互信息之差。第一预设范围可以是基于实际经验或情况预先设置的,在此不作具体限定。
基于此,可以通过如下公式(10)计算得到目标数值μ:
Figure BDA0004103413590000092
在一个示例中,上述涉及到的第一预设范围可以是[λ,+∞],即μ≥
λ。基于此,在μ≥λ的情况下,可以确定输入特征为目标特征。
为了更加详细地描述本申请实施例提供的方法,在一个实施例中,上述涉及到的特征确定方法还可以包括如下步骤:
在所述特征关联信息满足第二预设条件的情况下,删除当前时刻的输入特征,所述第二预设条件为目标数值处于第二预设范围内,且第一邻域互信息大于或等于邻域条件互信息。
其中,第二预设范围可以是基于实际经验或情况预先设置,例如,可以是(0,λ),在此不作具体限定。
在该实施例中,在特征关联信息满足第二预设条件的情况下,可以删除当前时刻的输入特征,由于特征关联信息可以包括第一邻域互信息、第二邻域互信息以及邻域条件互信息,基于此,当基于特征关联信息所包括的第一邻域互信息、第二邻域互信息以及邻域条件互信息确定目标数值,在该目标数值处于第二预设范围内,且第一邻域互信息大于或等于邻域条件互信息时,可以删除输入特征。
在另一个实施例中,在所述特征关联关系满足第三预设条件的情况下,从预设特征集中删除第二特征,所述第三预设条件为目标数值处于第二预设范围内,且第一邻域互信息小于邻域条件互信息。
在该实施例中,在特征关联信息满足第三预设条件的情况下,可以从预设特征集中删除第二特征,即表明第二特征不是最优特征,进而可以得到更加准确的最优特征子集。
本申请实施例提供的特征确定方法,主要是针对模型训练前特征筛选过程的。在通常情况下,模型会对输入的全部特征进行训练,但该训练方式对训练实时传输进来的数据有很大限制,因此,本申请实施例提出一种特征确定方法,对实时输入的数据特征进行实时筛选,摒弃信息含量少的文本特征,从而达到模型对有效实时数据流进行训练的目的。
需要说明的是,本申请实施例提供的特征确定方法可在智能对话的场景分类、意图分类模型中使用。加入该方法后,通过进行有效特征信息筛选,可大幅度提升增量模型训练速度。经试验表明,相同数据量下,使用该方法进行模型训练时间可缩短17%~35%(缩短时间与输入信息有效性相关)。该提案方法使用至智能对话系统后,用户在场景工坊模式下设置对话流程后,可快速进行场景分类和意图分类一键式训练,提升用户体验感,极大改善了用户等待模型训练时间过长问题。
基于相同的发明构思,本申请实施例还提供了一种特征确定装置。该特征确定装置可以应用于被访设备。具体结合图2对本申请实施例提供的特征确定装置进行详细说明。
图2是本申请实施例提供的一种特征确定装置的结构示意图。
如图2所示,该特征确定装置200可以包括:获取模块210和确定模块220。
获取模块210,用于获取当前时刻的输入特征以及与输入特征对应的决策特征,输入特征是基于第一文本样本中的至少一个维度数据确定的;
确定模块220,用于基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,特征关联信息用于反映特征间的相关性、冗余性和交互性,预设文本样本集包括多个第二文本样本,第二文本样本包括第一文本样本,预设特征集包括多个第一特征;
确定模块220,用于在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。
在一个实施例中,装置包括:
计算模块,用于基于输入特征、决策特征和多个第二文本样本,计算第一邻域互信息,第一邻域互信息表征输入特征与决策特征特征之间的相关性;
计算模块,用于基于输入特征、第二特征和多个第二文本样本,计算第二邻域互信息,第二邻域互信息表征输入特征与第二特征之间的冗余性,第二特征为多个第一特征中的任一个;
计算模块,还用于基于输入特征、决策特征、第二特征和多个第二文本样本,计算邻域条件互信息,邻域条件互信息表征输入特征与第二特征之间的交互性。
在一个实施例中,第一预设条件包括目标数值处于第一预设范围内,其中,目标数值等于目标差值与邻域条件互信息之和,目标差值为第一邻域互信息和第二邻域互信息之差。
在一个实施例中,上述涉及到的特征确定装置还可以包括删除模块。
删除模块,用于在特征关联信息满足第二预设条件的情况下,删除当前时刻的输入特征,第二预设条件为目标数值处于第二预设范围内,且第一邻域互信息大于或等于邻域条件互信息。
在一个实施例中,删除模块,用于在特征关联关系满足第三预设条件的情况下,从预设特征集中删除第二特征,第三预设条件为目标数值处于第二预设范围内,且第一邻域互信息小于邻域条件互信息。
在本申请实施例中,通过获取当前时刻的输入特征以及与该输入特征对应的决策特征,进而可以基于输入特征、决策特征、预设文本样本集和预设特征集中的至少三个数据确定关联信息,进而可以在特征关联信息满足第一预设条件的情况下,确定输入特征为目标特征。由于特征关联信息用于反映特征间的相关性、冗余性和交互性,进而可以更好地确定目标特征,提高了特征确定的准确性。
本申请实施例提供的特征确定装置中的各个模块可以实现图1所示实施例的方法步骤,并能达到与其相应的技术效果,为简洁描述,在此不再赘述。
图3示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种特征确定方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的特征确定方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本申请实施例提供的特征确定方法。
本申请实施例还提供一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如本申请实施例提供的科技创新成果评价方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程特征确定装置的处理器,以产生一种机器,使得经由计算机或其它可编程特征确定装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种特征确定方法,其特征在于,所述方法包括:
获取当前时刻的输入特征以及与所述输入特征对应的决策特征,所述输入特征是基于第一文本样本中的至少一个维度数据确定的;
基于所述输入特征、所述决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,所述特征关联信息用于反映特征间的相关性、冗余性和交互性,所述预设文本样本集包括多个第二文本样本,所述第二文本样本包括第一文本样本,所述预设特征集包括多个第一特征;
在所述特征关联信息满足第一预设条件的情况下,确定所述输入特征为目标特征。
2.根据权利要求1所述的方法,其特征在于,所述基于所述输入特征、所述决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,包括:
基于所述输入特征、所述决策特征和所述多个第二文本样本,计算第一邻域互信息,所述第一邻域互信息表征所述输入特征与所述决策特征特征之间的相关性;
基于所述输入特征、所述第二特征和多个第二文本样本,计算第二邻域互信息,所述第二邻域互信息表征所述输入特征与第二特征之间的冗余性,所述第二特征为所述多个第一特征中的任一个;
基于所述输入特征、所述决策特征、所述第二特征和多个第二文本样本,计算邻域条件互信息,所述邻域条件互信息表征所述输入特征与所述第二特征之间的交互性。
3.根据权利要求2所述的方法,其特征在于,第一预设条件包括目标数值处于第一预设范围内,其中,所述目标数值等于目标差值与邻域条件互信息之和,所述目标差值为所述第一邻域互信息和所述第二邻域互信息之差。
4.根据权利要求3所述的方法,特征在于,所述方法还包括:
在所述特征关联信息满足第二预设条件的情况下,删除当前时刻的输入特征,所述第二预设条件为目标数值处于第二预设范围内,且第一邻域互信息大于或等于邻域条件互信息。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述特征关联关系满足第三预设条件的情况下,从预设特征集中删除第二特征,所述第三预设条件为目标数值处于第二预设范围内,且第一邻域互信息小于邻域条件互信息。
6.一种特征确定装置,其特征在于,所述装置包括:
获取模块,用于获取当前时刻的输入特征以及与所述输入特征对应的决策特征,所述输入特征是基于第一文本样本中的至少一个维度数据确定的;
确定模块,用于基于所述输入特征、所述决策特征、预设文本样本集和预设特征集中的至少三个数据,确定特征关联信息,所述特征关联信息用于反映特征间的相关性、冗余性和交互性,所述预设文本样本集包括多个第二文本样本,所述第二文本样本包括第一文本样本,所述预设特征集包括多个第一特征;
所述确定模块,用于在所述特征关联信息满足第一预设条件的情况下,确定所述输入特征为目标特征。
7.根据权利要求6所述的装置,其特征在于,所述装置包括:
计算模块,用于基于所述输入特征、所述决策特征和所述多个第二文本样本,计算第一邻域互信息,所述第一邻域互信息表征所述输入特征与所述决策特征之间的相关性;
所述计算模块,用于基于所述输入特征、所述第二特征和多个第二文本样本,计算第二邻域互信息,所述第二邻域互信息表征所述输入特征与第二特征之间的冗余性,所述第二特征为所述多个第一特征中的任一个;
所述计算模块,还用于基于所述输入特征、所述决策特征、所述第二特征和多个第二文本样本,计算邻域条件互信息,所述邻域条件互信息表征所述输入特征与所述第二特征之间的交互性。
8.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-5任意一项所述的特征确定方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的特征确定方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-5任意一项所述的特征确定方法。
CN202310183515.9A 2023-02-20 2023-02-20 特征确定方法、装置、设备、介质及产品 Pending CN116304036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310183515.9A CN116304036A (zh) 2023-02-20 2023-02-20 特征确定方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310183515.9A CN116304036A (zh) 2023-02-20 2023-02-20 特征确定方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN116304036A true CN116304036A (zh) 2023-06-23

Family

ID=86782798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310183515.9A Pending CN116304036A (zh) 2023-02-20 2023-02-20 特征确定方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN116304036A (zh)

Similar Documents

Publication Publication Date Title
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN116052061B (zh) 事件监测方法、装置、电子设备及存储介质
CN111538823A (zh) 信息处理方法、模型训练方法、装置、设备及介质
CN113255828B (zh) 特征检索方法、装置、设备及计算机存储介质
CN116310713B (zh) 红外图像识别方法、装置、电子设备及存储介质
CN115309891A (zh) 一种文本分类方法、装置、设备及计算机存储介质
CN116304036A (zh) 特征确定方法、装置、设备、介质及产品
CN110688880A (zh) 一种基于精简ResNet残差网络的车牌识别方法
CN112950652B (zh) 机器人及其手部图像分割方法和装置
CN114417830A (zh) 风险评价方法、装置、设备及计算机可读存储介质
CN113283450A (zh) 图像识别方法、装置、设备及计算机存储介质
CN114565759A (zh) 图像语义分割模型优化方法、装置、电子设备及存储介质
CN116030134B (zh) 定位方法、装置、设备、可读存储介质及程序产品
CN116629315B (zh) 感知模型的训练方法、装置、设备和介质
CN118227768B (zh) 基于人工智能的视觉问答方法和装置
CN116206282A (zh) 数据处理方法、装置、设备及计算机存储介质
CN117093845A (zh) 模型训练方法、数据处理方法、装置、设备、介质和产品
CN117792700A (zh) 接口资产分类方法、装置、电子设备及介质
CN118822244A (zh) 用户业务风险识别方法、装置、设备及存储介质
CN118170988A (zh) 信息推荐方法、装置、设备及介质
CN118802026A (zh) 信道质量的预测方法、装置、设备及存储介质
CN118628165A (zh) 基于Kano-IPA模型的新能源汽车产品需求优先级排序方法和系统
CN117609447A (zh) 问答背景信息的生成方法、装置、设备及存储介质
CN115410054A (zh) 场景生成方法、模型测试方法及模型训练方法
CN116383371A (zh) 摘要生成模型的训练方法和摘要生成方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination