CN111309850A - 一种数据特征提取方法、装置、终端设备及介质 - Google Patents

一种数据特征提取方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN111309850A
CN111309850A CN202010083952.XA CN202010083952A CN111309850A CN 111309850 A CN111309850 A CN 111309850A CN 202010083952 A CN202010083952 A CN 202010083952A CN 111309850 A CN111309850 A CN 111309850A
Authority
CN
China
Prior art keywords
vector
support point
dimensional sparse
sample data
point vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010083952.XA
Other languages
English (en)
Other versions
CN111309850B (zh
Inventor
余晓填
杨天宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Intellifusion Technologies Co Ltd
Original Assignee
Shenzhen Intellifusion Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Intellifusion Technologies Co Ltd filed Critical Shenzhen Intellifusion Technologies Co Ltd
Priority to CN202010083952.XA priority Critical patent/CN111309850B/zh
Publication of CN111309850A publication Critical patent/CN111309850A/zh
Application granted granted Critical
Publication of CN111309850B publication Critical patent/CN111309850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请适用于大数据处理技术领域,提供了一种数据特征提取方法、数据特征提取装置、终端设备及介质,数据特征提取方法包括:根据样本数据构建高维稀疏向量;基于预设函数对高维稀疏向量进行迭代求解,得到高维稀疏向量的支撑点向量;基于约束条件对支撑点向量进行约束映射,以修正支撑点向量;基于目标函数对修正后的支撑点向量进行验证,验证通过则将修正后的支撑点向量确定为目标特征向量,通过对高维稀疏向量进行迭代求解,能够快速确定出该高维稀疏向量的支撑点向量,进而基于约束条件修正支撑点向量,进而实现对高维稀疏向量的优化问题的求解,能够有效地提取出高维稀疏向量中的目标特征向量,能够有效地提高数据特征提取的效率。

Description

一种数据特征提取方法、装置、终端设备及介质
技术领域
本申请属于大数据处理技术领域,尤其涉及一种数据特征提取方法、装置、终端设备及计算机可读存储介质。
背景技术
文本特征指的是最能代表文本主旨的词汇集合,文本特征不仅可以很好的概括文本主要内容和主旨,而且可以降低文本处理的复杂程度。而文本特征学习包含了高维的词库信息,因此,根据样本信息学习文本的特征表达就是一个高维稀疏向量的优化问题。对于时空数据的地图特征学习问题中,地图数据的表达往往也是一个高维稀疏向量,根据样本信息学习地图的特征也是一个高维稀疏向量的优化问题。因此,高维稀疏向量的优化问题的求解是机器学习应用中特征提取的一个关键应用。
目前对高维稀疏向量的优化算法主要有梯度下降方法和经验方法(例如模拟退火算法和蚁群算法等等)。然而现有的求解方法存在求解效率低的缺陷。且在很多高维稀疏向量的优化问题中,求解的向量是带有约束条件的,因此高维稀疏向量的优化问题的求解的难度较高。可见,现有的特征提取过程中,存在特征提取效率较低的问题。
发明内容
有鉴于此,本申请提供了一种数据特征提取方法、装置、终端设备及计算机可读存储介质,以解决现有的特征提取过程中,存在特征提取效率较低的问题。
本申请实施例的第一方面提供了一种数据特征提取方法,包括:
根据样本数据构建高维稀疏向量;
基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;
基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量;其中,所述约束条件为单流形约束条件;
基于目标函数对修正后的支撑点向量进行验证,若验证通过,则将修正后的支撑点向量确定为目标特征向量。
进一步的,所述基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量,包括:
将所述高维稀疏向量输入所述预设函数中进行计算,以获取预支撑点向量;
基于各预支撑点向量的属性对各预支撑点向量的权重进行权重映射;
基于映射后的支撑点向量的权重以及支撑点向量出现的次数确定各个支撑点向量的向量系数;
基于各个支撑点向量的向量系数及上一次迭代的求解结果确定本次迭代的支撑点向量。
进一步的,所述预设函数基于支撑函数构建。
示例性的,上述预设函数表示为:
S=sup port(Project(pt));
其中,pt为迭代算法中第t步的向量解,S为支撑点向量,而对于support函数,其对应的求解即为如下子问题:
Figure BDA0002381345060000021
即是将第t步的向量解投影在欧式空间中,并确定使得投影的变动最小化的点,该点即为支撑点向量。
进一步的,所述基于目标函数对修正后的支撑点向量进行验证,包括:
根据修正后的支撑点向量求解所述目标函数;
若所述目标函数的求解值小于求解精度,则验证通过。
进一步的,所述样本数据为文本样本数据,所述根据样本数据构建高维稀疏向量,包括:
基于文本样本数据的字数确定高维稀疏向量的维度;
基于预先构建的字典将所述文本样本数据映射到与所述维度对应的向量中,得到与所述文本样本数据对应的高维稀疏向量。
进一步的,所述样本数据为地图样本数据,所述根据样本数据构建高维稀疏向量,包括:
基于地图样本数据的分辨率确定高维稀疏向量的维度;
基于预先构建的字典将所述地图样本数据映射到与所述维度对应的向量中,得到与所述地图样本数据对应的高维稀疏向量。
进一步的,上述数据特征提取方法还包括:
若验证不通过,则重复执行基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量的步骤,直至验证通过。
本申请实施例的第二方面提供了一种数据特征提取装置,包括:
构建单元,用于根据样本数据构建高维稀疏向量;
迭代单元,用于基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;
约束单元,用于基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量;其中,所述约束条件为单流形约束条件;
验证单元,用于基于目标函数对修正后的支撑点向量进行验证,若验证通过,则将修正后的支撑点向量确定为目标特征向量。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的数据特征提取方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的数据特征提取方法的各步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的数据特征提取方法的各步骤。
实施本申请实施例提供的一种数据特征提取方法、装置、终端设备及计算机可读存储介质具有以下有益效果:
本申请提供的一种数据特征提取方法,通过对高维稀疏向量进行迭代求解,能够快速确定出该高维稀疏向量的支撑点向量,进而基于约束条件修正支撑点向量,进而实现对高维稀疏向量的优化问题的求解,能够有效地提取出高维稀疏向量中的目标特征向量,提高数据特征提取的效率,减少计算量,降低数据特征提取过程中系统资源的占用率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据特征提取方法的实现流程图;
图2是本申请另一实施例提供的一种数据特征提取方法中S12的实现流程图;
图3是本申请实施例提供的一种数据特征提取装置的结构示意图;
图4是本申请另一实施例提供的一种终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
请参阅图1,图1是本申请实施例提供的一种数据特征提取方法的实现流程图。本实施例中,数据特征提取方法用于对文本特征提取或地图特征提取,其执行主体为计算机终端设备,例如,用于进行处理文本数据或地图数据的计算机或服务器等。
上述计算机终端包括但不限于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等终端设备。
需要说明的是,在本申请所有实施例中,上述数据特征提取方法可以是基于已有的机器学习模型、神经网络模型以及深度学习网络模型的模型基础上,通过优化已有的高维稀疏向量的优化求解算法,进而得到与该算法对应的新的模型结构,通过新的模型结构来实现对高维稀疏向量进行求解,以获取高维稀疏向量所包含的目标特征向量,进而有效地提取出样本数据中包含的数据特征,能够有效地提高特征提取的效率,进而在保证应用模型目的性不变的情况下,提升计算机运行的效率,减少计算机资源的占用。
请参阅图1,图1示出了本申请一实施例提供的数据特征提取方法的实现流程示意图,如图1所示,上述数据特征提取方法包括以下步骤:
S11:根据样本数据构建高维稀疏向量。
在步骤S11中,高维稀疏向量指的是模型向量的维度高于用作训练的样本数据的维度的稀疏向量,稀疏向量指的是在该向量中很多维度的值为0。在实际应用中,上述样本数据可以包括文本样本数据和地图样本数据。在根据样本数据构建高维稀疏向量的过程,可以预先根据样本数据确定高维稀疏向量的维度。例如对于地图样本数据,可以根据地图分辨率确定维度,如地图的分辨率为1000像素*1000像素,则该高维稀疏向量的维度为1000*1000维;又如,对于文本样本数据,可以基于文本样本数据的字数来确定维度,如文本样本数据包含50000字,则构建的高维稀疏向量的维度为50000维。
在预先根据样本数据确定高维稀疏向量的维度后,再根据确定好的维度构建相应的高维稀疏向量。
具体地,可以基于样本数据构建字典,并将样本数据中的各个数据基于字典确定对应的值,进而构建出与该样本数据对应的高维稀疏向量。
具体地,可以基于训练好的机器学习模型来构建高维稀疏向量,即将样本数据输入到训练好的机器学习模型中进行处理,训练好的机器学习模型会自动输出与该样本数据对应的高维稀疏向量。需要说明的是,上述训练好的机器学习模型,用于对样本数据进行字典分析,并构建出对应的高维稀疏向量。训练好的机器学习模型是利用训练集合数据对原始的机器学习模型进行训练后得到的模型,在未对原始的机器学习模型进行训练时,原始的人脸识别模型是基于神经网络构建得到的用于进行字典构造和稀疏表示的功能性模型,通过利用训练集合数据对该功能性模型进行训练,进而得到的训练好的机器学习模型。
作为本实施例一种可能实现的方式,上述样本数据为文本样本数据,相应的,S11可以包括:
基于文本样本数据的字数确定高维稀疏向量的维度;
基于预先构建的字典将所述文本样本数据映射到与所述维度对应的向量中,得到与所述文本样本数据对应的高维稀疏向量。
在本实施例中,文本样本数据可以包含很多个字,例如文本样本数据是一本书、一份论文、一封信件的内容等,对于文本样本数据,通过统计该文本样本数据的字数,进而构建出于该样本文本数据的字数相同维度的向量。由于文本样本数据的字数很多,因此构建出的向量就是高维向量。
再基于预先构建的字典将数据转换为对应的向量,然后写入到该高维向量中,进而得到对应的高维稀疏向量。需要说明的是,基于预先构建的字典将文本样本数据进行映射是本领域已知的技术手段,因此不再对此加以赘述。
需要说明的是,上述预先构建的字典可以设置在上述机器学习模型中,通过训练集合数据进行训练后得到该预先构建的字典。
作为本实施例一种可能实现的方式,上述样本数据为地图样本数据,相应的,S11可以包括:
基于地图样本数据的分辨率确定高维稀疏向量的维度;
基于预先构建的字典将所述地图样本数据映射到与所述维度对应的向量中,得到与所述地图样本数据对应的高维稀疏向量。
在本实施例中,地图样本数据可以设置不同的分辨率,例如分辨率为10000像素*10000像素,上述地图样本数据可以是目标用户在一段时间内的移动轨迹,该地图样本数据包含该目标用户出现的地点的坐标数据。通过获取地图样本数据的分辨率进而构建出于地图样本数据的分辨率相同维度的向量。由于地图数据的维度很高,因此构建出的向量就是高维向量。
再基于预先构建的字典将数据转换为对应的向量,然后写入到该高维向量中,进而得到对应的高维稀疏向量。需要说明的是,基于预先构建的字典将地图样本数据进行映射是本领域已知的技术手段,因此不再对此加以赘述。
S12:基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量。
在步骤S12中,预设函数为基于支撑函数构建的函数,具体地,上述预设函数可以表示为:
S=sup port(Project(pt));
其中,pt为迭代算法中第t步的向量解,S为支撑点向量,而对于support函数,其对应的求解即为如下子问题:
Figure BDA0002381345060000071
即上述求解的子问题可以表示为将第t步的向量解投影在欧式空间中,并确定使得投影的变动最小化的点,该点即为支撑点向量。通过上述预设函数就能够快速寻找到该高维稀疏向量p的支撑点向量。
示例性的,以样本数据是样本文本数据为例,上述支撑点向量的确定过程就是确定出样本文本数据中具有代表性的文字和/或词汇,例如摘要等。
示例性的,以样本数据时地图样本数据为例,上述支撑点向量的确定过程就是确定出该地图样本数据中具有代表性的位置坐标,例如家庭住址的位置坐标、办公地点的位置坐标等。
作为本实施例一种可能实现的方式,S12可以包括:
将所述高维稀疏向量输入所述预设函数中进行计算,以获取预支撑点向量;
基于各预支撑点向量的属性对各预支撑点向量的权重进行权重映射;
基于映射后的支撑点向量的权重以及支撑点向量出现的次数确定各个支撑点向量的向量系数;
基于各个支撑点向量的向量系数及上一次迭代的求解结果确定本次迭代的支撑点向量。
具体地,将高维稀疏向量输入到S=sup port(Project(pt))中,获取到S(即预支撑点向量)。可以理解的是,样本数据中存在多个能够代表样本数据的预支撑点向量。在获取到多个预支撑点向量后,基于各个预支撑点向量的属性来对各个预支撑点向量的权重进行映射,然后确定出各个支撑点向量的权重,再根据其出现的次数,最终确定各个支撑点向量的向量系数。
而由于只进行一次求解得到的支撑点向量并不一定十分准确,因此根据上述各个预支撑点向量的向量系数和上一次迭代的求解结果才能准确地确定出本次迭代的求解结果,即确定出支撑点向量。
具体地,可以将各个预支撑点向量的向量系数与预设系数阈值进行比较,将向量系数大于预设系数阈值的预支撑向量选出来,然后再基于上一次迭代的结果进行比较,避免两次迭代出现较大的差异,进而保证确定出的支撑点向量的准确性。
具体地,根据上一次迭代的求解结果确定本次迭代的支撑点向量,可以表征为:
pt+1=ProjectN(S)。
其中,ProjectN表述的是进行权重映射之后,再对向量进行归一化处理后的第t次迭代的向量解。这样能够保证求解得到的向量解仍然满足单流形的等式约束。
示例性的,以样本数据为文本样本数据为例。且以该文本样本数据是一本书为例,第一次迭代时,将只出现一次(或出现次数小于某个预设值)的字进行删除,只保留出现次数较多(例如出现次数大于某个预设值)的字,以挑选出本次迭代的关键词,然后进行第二次迭代,同样将出现次数较少的字进行删除,保留出现次数较多的字,同样就能挑选出本次迭代的关键词。而选出的关键词由于词的属性不同,因此需要给予不同的权重。例如虚词“的”在一本书中的出现次数肯定很多,然而其并不具备实际含义,因此将其权重设置得很低,进而将该次删除掉。对于名词类等具备实际意义的次,例如某个中药的名字在本书中出现了10次,则该名词可能是较为重要的关键信息,因此增加其权重,使得该词得以保留。此时为了避免误删除,就需要将第一次迭代和第二次迭代的结果进行比较,以避免两次迭代结果存在较大的差别。
S13:基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量。
具体地,所述约束条件为单流形约束条件。
在S13中,基于约束条件不断对支撑点向量进行约束映射,以使得确定到的支撑点向量是满足约束条件的。
具体地,上述约束条件为单流形约束条件,上述单流形约束条件可以表示为:
∑pj=1。
示例性的,对于文本样本数据,其约束条件可以为以不超过一千个字来表征该文本样本数据。因此通过该约束条件对提取出的支撑点向量进行约束,如果提取出的支撑点向量大于1000个,则不满足约束条件,因此重复修正该支撑点向量,使得最终的支撑点向量的个数小于1000个。
S14:基于目标函数对修正后的支撑点向量进行验证,若验证通过,则将修正后的支撑点向量确定为目标特征向量。
在S14中,上述目标函数用于衡量优化后的向量的效果和质量。通过该目标函数来验证提取到的支撑点向量是否是能够标准该样本数据的目标特征向量。
具体地,对于优化问题,实际上就是指最小化或最大化目标函数的问题,因此,优化问题的实际工程问题可以表述为:
min f(p);
其中,f(·)是目标函数。对于样本数据:xi,i=1,…,m,目标函数可进一步表述为f(p,xi|i=1,…,m)。
具体地,通过设置求解精度,通过求解上述目标函数,然后基于得到的求解值与求解精度进行比较,若所述目标函数的求解值小于求解精度,则验证通过。
一般而言,设定的求解精度的二范数残差为10-3。在实际应用中,具体的求解精度根据应用场景进行设置。
作为本实施例一种可能实现的方式,上述S14可以包括:
根据修正后的支撑点向量求解所述目标函数;
若所述目标函数的求解值小于求解精度,则验证通过。
作为本实施例一种可能实现的方式,上述数据特征提取方法还包括以下步骤:
若验证不通过,则重复执行基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量的步骤,直至验证通过。
示例性的,对于在人像时空数据的地图样本数据,可以将对应的高维稀疏向量的优化问题的目标函数定义如下:
Figure BDA0002381345060000101
请参阅图2,L1是不带约束条件求解高维稀疏向量的优化问题的求解过程,L2是带单流形约束条件求解高维稀疏向量的优化问题的求解过程。其中,横轴代表迭代次数,纵轴代表目标函数的值,由此可知,基于本申请提供的数据特征提取方法,能够达到快速求解的目的,尤其能够快速求解带单流形约束条件的高维稀疏向量的优化问题,使得目标函数快速收敛,继而提取出相应的目标特征向量。
以上可以看出,本实施例提供的一种数据特征提取方法,通过对高维稀疏向量进行迭代求解,能够快速确定出该高维稀疏向量的支撑点向量,进而基于约束条件修正支撑点向量,进而实现对高维稀疏向量的优化问题的求解,能够有效地提取出高维稀疏向量中的目标特征向量,提高数据特征提取的效率,减少计算量,降低数据特征提取过程中系统资源的占用率。
请参阅图3,图3是本申请实施例提供的一种数据特征提取装置的结构框图。本实施例中该数据特征提取装置包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1以及图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,数据特征提取装置300包括:构建单元31、迭代单元32、约束单元33以及验证单元34。其中:
构建单元31,用于根据样本数据构建高维稀疏向量。
迭代单元32,用于基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量。
约束单元33,用于基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量;其中,所述约束条件为单流形约束条件。
验证单元34,用于基于目标函数对修正后的支撑点向量进行验证,若验证通过,则将修正后的支撑点向量确定为目标特征向量。
作为本申请一实施例,上述数据特征提取装置300,还包括重复执行单元。其中:
重复执行单元,用于若验证不通过,则重复执行基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量的步骤,直至验证通过。
作为本申请一实施例,上述迭代单元32包括。其中:
计算单元,用于将所述高维稀疏向量输入所述预设函数中进行计算,以获取预支撑点向量;
权重映射单元,用于基于各预支撑点向量的属性对各预支撑点向量的权重进行权重映射;
系数确定单元,用于基于映射后的支撑点向量的权重以及支撑点向量出现的次数确定各个支撑点向量的向量系数;
向量确定单元,用于基于各个支撑点向量的向量系数及上一次迭代的求解结果确定本次迭代的支撑点向量。
作为本申请一实施例,所述预设函数基于支撑函数构建。
作为本申请一实施例,所述验证单元34具体包括求解单元和比较单元。其中:
求解单元,用于根据修正后的支撑点向量求解所述目标函数。
比较单元,用于若所述目标函数的求解值小于求解精度,则验证通过。
作为本申请一实施例,所述样本数据为文本样本数据,则构建单元31包括基于文本样本数据的字数确定高维稀疏向量的维度;
基于预先构建的字典将所述文本样本数据映射到与所述维度对应的向量中,得到与所述文本样本数据对应的高维稀疏向量。
作为本申请一实施例,所述样本数据为地图样本数据,则构建单元32包括:
基于地图样本数据的分辨率确定高维稀疏向量的维度;
基于预先构建的字典将所述地图样本数据映射到与所述维度对应的向量中,得到与所述地图样本数据对应的高维稀疏向量。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上可以看出,本实施例提供的数据特征提取装置,同样能够通过对高维稀疏向量进行迭代求解,能够快速确定出该高维稀疏向量的支撑点向量,进而基于约束条件修正支撑点向量,进而实现对高维稀疏向量的优化问题的求解,能够有效地提取出高维稀疏向量中的目标特征向量,提高数据特征提取的效率,减少计算量,降低数据特征提取过程中系统资源的占用率。
图4是本申请另一实施例提供的一种终端设备的结构框图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42,例如数据特征提取方法的程序。处理器40执行所述计算机程序42时实现上述各个数据特征提取方法各实施例中的步骤,例如图1所示的S11至S14。或者,所述处理器40执行所述计算机程序42时实现上述图3对应的实施例中各单元的功能,例如,图3所示的单元31至34的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序42可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。例如,所述计算机程序42可以被分割成确定单元和执行单元,还可以被分成获取单元、缩放单元、映射单元及训练单元,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据特征提取方法,其特征在于,包括:
根据样本数据构建高维稀疏向量;
基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;
基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量;其中,所述约束条件为单流形约束条件;
基于目标函数对修正后的支撑点向量进行验证,若验证通过,则将修正后的支撑点向量确定为目标特征向量。
2.根据权利要求1所述的数据特征提取方法,其特征在于,所述基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量,包括:
将所述高维稀疏向量输入所述预设函数中进行计算,以获取预支撑点向量;
基于各预支撑点向量的属性对各预支撑点向量的权重进行权重映射;
基于映射后的支撑点向量的权重以及支撑点向量出现的次数确定各个支撑点向量的向量系数;
基于各个支撑点向量的向量系数及上一次迭代的求解结果确定本次迭代的支撑点向量。
3.根据权利要求1或2所述的数据特征提取方法,其特征在于,所述预设函数基于支撑函数构建。
4.根据权利要求1所述的数据特征提取方法,其特征在于,所述基于目标函数对修正后的支撑点向量进行验证,包括:
根据修正后的支撑点向量求解所述目标函数;
若所述目标函数的求解值小于求解精度,则验证通过。
5.根据权利要求1所述的数据特征提取方法,其特征在于,所述样本数据为文本样本数据,所述根据样本数据构建高维稀疏向量,包括:
基于文本样本数据的字数确定高维稀疏向量的维度;
基于预先构建的字典将所述文本样本数据映射到与所述维度对应的向量中,得到与所述文本样本数据对应的高维稀疏向量。
6.根据权利要求2所述的数据特征提取方法,其特征在于,所述样本数据为地图样本数据,所述根据样本数据构建高维稀疏向量,包括:
基于地图样本数据的分辨率确定高维稀疏向量的维度;
基于预先构建的字典将所述地图样本数据映射到与所述维度对应的向量中,得到与所述地图样本数据对应的高维稀疏向量。
7.根据权利要求1所述的数据特征提取方法,其特征在于,还包括:
若验证不通过,则重复执行基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量的步骤,直至验证通过。
8.一种数据特征提取装置,其特征在于,包括:
构建单元,用于根据样本数据构建高维稀疏向量;
迭代单元,用于基于预设函数对所述高维稀疏向量进行迭代求解,得到所述高维稀疏向量的支撑点向量;
约束单元,用于基于约束条件对所述支撑点向量进行约束映射,以修正所述支撑点向量;其中,所述约束条件为单流形约束条件;
验证单元,用于基于目标函数对修正后的支撑点向量进行验证,若验证通过,则将修正后的支撑点向量确定为目标特征向量。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202010083952.XA 2020-02-10 2020-02-10 一种数据特征提取方法、装置、终端设备及介质 Active CN111309850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010083952.XA CN111309850B (zh) 2020-02-10 2020-02-10 一种数据特征提取方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010083952.XA CN111309850B (zh) 2020-02-10 2020-02-10 一种数据特征提取方法、装置、终端设备及介质

Publications (2)

Publication Number Publication Date
CN111309850A true CN111309850A (zh) 2020-06-19
CN111309850B CN111309850B (zh) 2022-03-25

Family

ID=71146947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010083952.XA Active CN111309850B (zh) 2020-02-10 2020-02-10 一种数据特征提取方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN111309850B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093855A (zh) * 2023-10-19 2023-11-21 中电科新型智慧城市研究院有限公司 一种特征提取方法、装置、终端设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209756A1 (en) * 2011-02-10 2012-08-16 Hani El-Sakkout Method and system for providing a decision support framework relating to financial trades
CN104574555A (zh) * 2015-01-14 2015-04-29 四川大学 基于稀疏表示的人脸分类算法的远距离考勤方法
CN106604229A (zh) * 2016-12-27 2017-04-26 东南大学 一种基于流形学习与改进支持向量机的室内定位方法
CN109815357A (zh) * 2019-01-28 2019-05-28 辽宁工程技术大学 一种基于非线性降维及稀疏表示的遥感图像检索方法
CN110378423A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 特征提取方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209756A1 (en) * 2011-02-10 2012-08-16 Hani El-Sakkout Method and system for providing a decision support framework relating to financial trades
US20150278950A1 (en) * 2011-02-10 2015-10-01 Tradelegs, LLC Method and system for providing a decision support framework relating to financial trades
CN104574555A (zh) * 2015-01-14 2015-04-29 四川大学 基于稀疏表示的人脸分类算法的远距离考勤方法
CN106604229A (zh) * 2016-12-27 2017-04-26 东南大学 一种基于流形学习与改进支持向量机的室内定位方法
CN109815357A (zh) * 2019-01-28 2019-05-28 辽宁工程技术大学 一种基于非线性降维及稀疏表示的遥感图像检索方法
CN110378423A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 特征提取方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093855A (zh) * 2023-10-19 2023-11-21 中电科新型智慧城市研究院有限公司 一种特征提取方法、装置、终端设备及介质
CN117093855B (zh) * 2023-10-19 2024-06-07 中电科新型智慧城市研究院有限公司 一种特征提取方法、装置、终端设备及介质

Also Published As

Publication number Publication date
CN111309850B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
US11816710B2 (en) Identifying key-value pairs in documents
EP3640847A1 (en) Systems and methods for identifying form fields
US20240012846A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
WO2017160340A1 (en) Automatic content-based append detection
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
US10699112B1 (en) Identification of key segments in document images
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN114078008A (zh) 异常行为检测方法、装置、设备及计算机可读存储介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN111309850B (zh) 一种数据特征提取方法、装置、终端设备及介质
WO2022126917A1 (zh) 基于深度学习的人脸图像评估方法、装置、设备及介质
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN112464927B (zh) 一种信息提取方法、装置及系统
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
US20230023636A1 (en) Methods and systems for preparing unstructured data for statistical analysis using electronic characters
CN113342977B (zh) 发票图像分类方法、装置、设备及存储介质
CN113343700B (zh) 数据处理方法、装置、设备及存储介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 1/F, 17 Building, Shenzhen Dayun Software Town, 8288 Longgang Avenue, Henggang Street, Longgang District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Yuntian lifeI Technology Co., Ltd

Address before: 518000 1/F, 17 Building, Shenzhen Dayun Software Town, 8288 Longgang Avenue, Henggang Street, Longgang District, Shenzhen City, Guangdong Province

Applicant before: SHENZHEN INTELLIFUSION TECHNOLOGIES Co.,Ltd.

GR01 Patent grant
GR01 Patent grant