CN105760406A - 用于在数据挖掘技术中提取特征数据的方法 - Google Patents

用于在数据挖掘技术中提取特征数据的方法 Download PDF

Info

Publication number
CN105760406A
CN105760406A CN201410805743.6A CN201410805743A CN105760406A CN 105760406 A CN105760406 A CN 105760406A CN 201410805743 A CN201410805743 A CN 201410805743A CN 105760406 A CN105760406 A CN 105760406A
Authority
CN
China
Prior art keywords
data
vector
characteristic
attribute
critical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410805743.6A
Other languages
English (en)
Other versions
CN105760406B (zh
Inventor
权奕铭
李栋
李栋一
姜青山
党鹏珍
陈会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410805743.6A priority Critical patent/CN105760406B/zh
Publication of CN105760406A publication Critical patent/CN105760406A/zh
Application granted granted Critical
Publication of CN105760406B publication Critical patent/CN105760406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用于在数据挖掘技术中提取特征数据的方法,包括:(A)获取多组数据,其中,每组数据包括分别与预定个数据属性相应的数据元素;(B)确定所述预定个数据属性中用于提取特征数据的关键数据属性;(C)根据关键数据属性的数据元素值域和特征数据的关键数据元素的取值范围来建立模板向量,其中,关键数据元素是指特征数据中与关键数据属性相应的数据元素;(D)通过将建立的模板向量应用于所述多组数据中与关键数据属性相应的数据元素来提取特征数据。根据所述方法,可快速地从大量数据中提取特征数据,而不必进行大量的逻辑判断,从而能够有效地提高提取特征数据的效率,节省提取特征数据的时间。

Description

用于在数据挖掘技术中提取特征数据的方法
技术领域
本发明涉及数据处理领域,更具体地讲,涉及一种用于在数据挖掘技术中提取特征数据的方法。
背景技术
数据挖掘(DataMining,DM)是目前人工智能和数据库领域研究的热点问题。所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。由于数据挖掘可高度自动化地分析各种类型的数据,进而做出归纳性的推理并挖掘出潜在的模式,因而被广泛使用。数据挖掘主要有数据准备、规律寻找和规律表示三个步骤。
数据准备阶段的任务包括从原始数据中提取出符合要求的数据。由于原始数据的不一致性,在现有技术中,提取数据时一般先对大量的原始数据进行分割,形成小块的数据文件,然后使用编程语言中的分支选择方法进一步提取符合要求的数据。
然而,使用编程语言中的分支选择方法提取符合要求的数据时,要进行大量的逻辑判断。在目前的计算机体系结构中,中央处理器(CPU)的硬件结构特征决定了逻辑判断操作是非常耗时的。尤其在原始数据非常庞大时,使用编程语言中的分支选择方法来提取数据将带来很大的时间成本。
因此,现有的提取数据的方法不能快速地提取数据。
发明内容
本发明的示例性实施例在于提供一种用于在数据挖掘技术中提取特征数据的方法,其中,所述方法能够克服现有技术中提取数据消耗时间长的缺陷。
根据本发明示例性实施例,提供一种用于在数据挖掘技术中提取特征数据的方法,包括:(A)获取多组数据,其中,每组数据包括分别与预定个数据属性相应的数据元素;(B)确定所述预定个数据属性中用于提取特征数据的关键数据属性;(C)根据关键数据属性的数据元素值域和特征数据的关键数据元素的取值范围来建立模板向量,其中,关键数据元素是指特征数据中与关键数据属性相应的数据元素;(D)通过将建立的模板向量应用于所述多组数据中与关键数据属性相应的数据元素来提取特征数据。
在所述方法中,步骤(C)可包括:(C1)分析关键数据属性的数据元素值域和特征数据的关键数据元素的取值范围;(C2)根据所述数据元素值域来建立取值向量;(C3)根据取值向量和所述取值范围来建立模板向量。
在所述方法中,所述模板向量中的元素可与所述取值向量中的元素一一对应,并且,步骤(D)可包括:(D1)将所述多组数据中与关键数据属性相应的数据元素组成数据向量,并建立所述数据元素值域与取值向量的一一映射函数;(D2)利用所述一一映射函数将数据向量中的每个数据元素映射为相应的取值向量中的元素,并由所映射的元素组成映射向量;(D3)利用映射向量以及所述取值向量的元素与所述模板向量的元素之间的对应关系来建立提取向量;(D4)利用提取向量从所述多组数据中提取特征数据。
在所述方法中,所述多组数据可用下面的矩阵T来表示:
T = C 1,1 C 1,2 . . . C 1 , n C 2,1 C 2,2 . . . C 2 , n · · · · · · · · · · · · C m , 1 C m , 2 . . . C m , n ,
其中,m为T的行数,n为T的列数,Ci,j为T中的任意第i行第j列的数据元素,其中,i∈[1,m],j∈[1,n],m为正整数,n为正整数,并且,矩阵T的每一行表示一组数据,矩阵T的每一列与一个数据属性相应。
在所述方法中,所述关键数据属性可为与矩阵T的第t列相应的数据属性,其中,在步骤(C1)中,所述值域可为:{a1,a2,a3,…,ak},其中,al表示值域中的第l个值,在步骤(C2)中,所述取值向量可用下面的向量K来表示:K=[1,2,3,…,k],其中,l为向量K中的第l个元素,且l与al相对应,在步骤(C3)中,所述模板向量可用下面的向量M来表示:M=[m1,m2,m3,…,mk],ml为向量M中的第l个元素,且当al在取值范围内时,ml=1,当al不在取值范围内时,ml=0,其中,k为正整数,l∈[1,k],t∈[1,n]。
在所述方法中,在步骤(D1)中,所述数据向量可用下面的向量Ct来表示:Ct=[C1,t,C2,t,C3,t,…,Cm,t],其中,Ci,t表示向量中的第i个元素,并且,l=f(al),其中,f为所述一一映射函数;其中,当函数f的自变量为al时,映射函数的映射值为l;在步骤(D2)中,所述映射向量可用下面的向量F来表示:F=[f(C1,t),f(C2,t),f(C3,t),…,f(Cm,t)],在步骤(D3)中,所述提取向量可用下面的向量S来表示: S = [ S t 1 = m f ( C 1 , t ) , S t 2 = m f ( C 2 , t ) , S t 3 = m f ( C 3 , t ) , . . . S tm = m f ( C m , t ) ] , 其中,sti表示向量S中的第i个元素,其中,在步骤(D4)中,可将矩阵T中的第i行中的元素与向量S中的第i个元素相乘,以从所述多组数据中提取特征数据。
在所述方法中,所述关键数据属性可包括多个数据属性,所述关键数据属性中的每个数据属性对应一个提取向量,其中,在步骤(D4)中,可将矩阵T中的与关键数据属性相应的每个列中的第i行数据元素与对应于所述列的数据属性的提取向量中的第i个元素相乘,以从所述多组数据中提取特征数据。
在根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法中,中央处理器(CPU)可使用本发明的方法快速地从大量数据中提取特征数据,而不必进行大量的逻辑判断,从而能够有效地提高提取特征数据的效率,节省提取特征数据的时间。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法的流程图;
图2示出根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法中建立模板向量步骤的流程图;
图3示出根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法中提取特征数据步骤的流程图。
具体实施方式
以下,将参照附图更充分地描述本发明的示例性实施例,示例性实施例在附图中示出。然而,可以以许多不同的形式实施示例性实施例,并且不应被解释为局限于在此阐述的示例性实施例。相反,提供这些实施例从而本公开将会彻底和完整,并将完全地将示例性实施例的范围传达给本领域的技术人员。
根据本发明的示例性实施例的用于在数据挖掘技术中提取特征数据的方法可以由相应的设备来实施,也可通过计算机程序来实施。例如,所述方法可通过用于执行数据挖掘的专用设备或专用程序来执行。
图1示出根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法的流程图。
具体说来,在步骤S100,获取多组数据,其中,每组数据包括分别与预定个数据属性相应的数据元素。
例如,所述多组数据可以是涉及企业中的员工信息的相关数据,数据属性可包括诸如姓名、年龄、入职时间、工资、奖金等与员工相关的属性。每个员工可具有一组数据,该组数据可由与其姓名、年龄、入职时间、工资、奖金等数据属性相应的至少一个数据元素组成。
作为示例,为了方便地表示所述多组数据,可将所述多组数据用下面的矩阵T来表示:
T = C 1,1 C 1,2 . . . C 1 , n C 2,1 C 2,2 . . . C 2 , n · · · · · · · · · · · · C m , 1 C m , 2 . . . C m , n ,
其中,m为T的行数,n为T的列数,Ci,j为T中的任意第i行第j列的数据元素,其中,i∈[1,m],j∈[1,n],m为正整数,n为正整数。
并且,矩阵T的每一行表示一组数据(例如,每一行表示一位员工的相关数据),矩阵T的每一列与一个数据属性相应(例如第1列可与员工的姓名相应、第2列可与员工的入职时间相应、第3列可与员工的工资相应等)。换句话说,m为获取的多组数据所包括的组数,n为数据属性的个数。
在步骤S200,确定所述预定个数据属性中用于提取特征数据的关键数据属性。这里,特征数据是指由于其特定数据属性的数据元素符合关注条件而被选取的数据组的集合,其中,所述特定数据属性即可作为关键数据属性。也就是说,特征数据可指至少一个数据组的集合,其中,在所述至少一个数据组中,与关键数据属性相应的数据元素符合相应的关注条件。例如,当需要关注特定工资范围内的员工的相关信息(例如,入职时间、年龄、奖金等)时,可将工资作为关键数据属性,而工资的数据元素落入所述特定工资范围内的数据组的集合即为特征数据。
在步骤S300,根据关键数据属性的数据元素值域和特征数据的关键数据元素的取值范围来建立模板向量,其中,关键数据元素是指特征数据中与关键数据属性相应的数据元素。
作为示例,所建立的模板向量可以是利用硬件逻辑运算的思想构建的由0和1组成的向量。
图2示出根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法中建立模板向量步骤S300的流程图。
在步骤S310,分析关键数据属性的数据元素值域和特征数据的关键数据元素的取值范围。
这里,关键数据属性的数据元素的值域是根据关键数据属性预先确定的。作为示例,假设所述关键数据属性为与矩阵T的第t列相应的数据属性,则所述关键数据属性的数据元素值域为:{a1,a2,a3,…,ak},其中,al表示值域中的第l个值,这里,k为正整数,l∈[1,k],t∈[1,n]。例如,当确定前述示例中的关键数据属性为工资时,由于工资的下限为1000元,上限为5000元,提升幅度为100元,因此,可将工资的数据元素的值域表示为{1000,1100,1200,…,5000},其中,值域中的第l个值al=1000+(l-1)u100。
另外,特征数据的关键数据元素的取值范围可根据对关键数据属性的关注需要来确定,例如,当需要关注3000元至4000元的工资范围时,特征数据的关键数据元素的取值范围则为:[3000,4000],其中,该取值范围中的数据间隔为100。
应该理解,关键数据属性的数据元素值域不限于上述值域,也可以是根据实际情况而确定的其他值域;特征数据的关键数据元素的取值范围不限于上述范围,也可以是根据实际情况而确定的其他取值范围;取值间隔不限于上述间隔,也可以是根据实际情况而确定的其他取值间隔。
在步骤S320,根据所述数据元素值域来建立取值向量。
具体说来,由于关键数据属性的值域中的数据元素通常比较复杂,为了便于后期的运算,可将关键数据属性的值域中的各个数值按照一定的规律排序为一个序列(例如,按照从大到小的顺序),并建立对应于这个序列的一个简单的数字序列,即,建立对应所述数据元素的值域的取值向量。也可以理解为,取值向量中的元素为值域中与之对应的元素在值域中的位置编号。
作为示例,所述取值向量可用下面的向量K来表示:
K=[1,2,3,…,k],
其中,l为向量K中的第l个元素,且l与值域中的第l个值al相对应。例如,1对应上述示例中的1000,2对应上述示例中的1100,3对应上述示例中的1200,k对应上述示例中的5000。
在步骤S330,根据取值向量和所述取值范围来建立模板向量。
这里,根据对关键数据属性的关注需要(即,取值范围)的不同来建立不同的模板向量。作为示例,所述模板向量用下面的向量M来表示:
M=[m1,m2,m3,…,mk],
ml为向量M中的第l个元素,并且,当al在取值范围内时,ml=1,当al不在取值范围内时,ml=0。并且,k为正整数,l∈[1,k],t∈[1,n]。例如,当上述示例中取值范围设为[3000,4000]时,3000与取值向量K中的元素21相对应,4000与取值向量K中的元素31相对应。则在模板向量中,第21至第31个元素均为1,其余元素均为0。
再次参照图1,在步骤S400,通过将建立的模板向量应用于所述多组数据中与关键数据属性相应的数据元素来提取特征数据。
具体说来,模板向量M中的元素与所述取值向量K中的元素一一对应,取值向量K中的元素与值域中的元素一一对应,而多组数据中与关键数据属性相应的数据元素均包含在值域中,因此,可建立模板向量M与多组数据中与关键数据属性相应的数据元素的对应关系,并通过模板向量M与多组数据中与关键数据属性相应的数据元素的对应关系来提取特征数据。
图3示出根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法中提取特征数据步骤S400的流程图。
在步骤S410,将所述多组数据中与关键数据属性相应的数据元素组成数据向量,并建立所述数据元素值域与取值向量的一一映射函数。
作为示例,当所述关键数据属性为与矩阵T的第t列相应的数据属性时,将所述多组数据中与关键数据属性相应的数据元素组成的数据向量可用下面的向量Ct来表示:
Ct=[C1,t,C2,t,C3,t,…,Cm,t],
其中,Ci,t表示向量中的第i个元素。换句话说,Ci,t为矩阵T中的第i行第t列的元素。例如,当上述示例中确定的关键数据属性为工资时,向量Ct表示所有员工的工资,Ci,t为获取的第i位员工的工资。
并且,l=f(al),其中,f为所述一一映射函数,其中,当函数f的自变量为al时,映射函数的映射值为l。通过所述一一映射函数f可将值域中的元素与取值向量中的元素相对应。
在步骤S420,利用所述一一映射函数将数据向量中的每个数据元素映射为相应的取值向量中的元素,并由所映射的元素组成映射向量。
这里,由于数据向量中的元素均包含在值域中,因此,当建立了所述值域与取值向量的一一映射函数后,可通过该一一映射函数将所述数据向量中的元素映射为取值向量中的元素。
作为示例,所述映射向量用下面的向量F来表示:
F=[f(C1,t),f(C2,t),f(C3,t),…,f(Cm,t)],
其中,f(Ci,t)表示数据向量中的第i个元素的映射值,即,与数据向量中的元素Ci,t相对应的取值向量中的元素。这里,所述映射值可理解为:数据向量中的第i个元素Ci,t在值域中的位置编号。例如,如果C1,t=a3,则f(C1,t)=f(a3)=3。
在步骤S430,利用映射向量以及所述取值向量的元素与所述模板向量的元素之间的对应关系来建立提取向量。
这里,由于模板向量M中的元素与取值向量K中的元素是一一对应的,即,模板向量中的第l个元素对应取值向量中的第l个元素。也就是说,模板向量M与取值向量K中,位置相同的元素互相对应。而映射向量F反映的是数据向量Ct中的相应位置的元素与取值向量K中的元素的位置对应关系,那么,映射向量F也可用来表示数据向量Ct中的相应位置的元素与模板向量M中的元素的位置的对应关系。
作为示例,所建立的提取向量用下面的向量S来表示:
S = [ S t 1 = m f ( C 1 , t ) , S t 2 = m f ( C 2 , t ) , S t 3 = m f ( C 3 , t ) , . . . S tm = m f ( C m , t ) ] ,
其中,sti表示向量S中的第i个元素。即,表示数据向量Ct中的第i个元素Ci,t对应模板向量M中的第f(Ci,t)个元素时,sti=0,当时,sti=1。
在步骤S440,利用提取向量从所述多组数据中提取特征数据。
具体地说,当提取向量S中的第i个元素sti=0时,说明与数据向量Ct中的第i个元素Ci,t对应的模板向量M中的元素也就是Ci,t不在特征数据的关键数据元素的取值范围内;当sti=1时,说明与数据向量Ct中的第i个元素Ci,t对应的模板向量M中的元素也就是Ci,t在特征数据的关键数据元素的取值范围内。
接下来,可将矩阵T中的第i行中的元素与向量S中的第i个元素相乘,以从所述多组数据中提取特征数据。
作为示例,可用下面的矩阵V来表示提取的特征数据:
V ′ = C 1,1 × s 1,1 C 1,2 × s 1,2 . . . C 1 , n × s 1 , n C 2,1 × s 2,1 C 2,2 × s 2,2 . . . C 2 , n × s 2 , n · · · · · · · · · · · · C m , 1 × s m , 1 C m , 2 × s m . . . C m , n × s m ,
不难理解,矩阵V的不在提取范围内的行中的元素均是0,在提取范围内的行中的元素将保留原数值。通过这种方法,可一次提取出与关键数据属性相关的特征数据。而不必将多组数据中的每个元素都进行逻辑运算,从而大大提高了数据提取的效率。
此外,当多组数据中包含大量的数据时,可能需要关注的数据属性会有很多个,即,关键数据属性可能包括多个数据属性。为了同时提取与多个数据属性相关的特征数据,可通过建立与关键数据属性中的每个数据属性相对应的一个提取向量。将矩阵T中的与关键数据属性相应的每个列中的第i行数据元素与对应于所述列的数据属性的提取向量中的第i个元素相乘,以从所述多组数据中提取特征数据。
作为示例,所述关键数据属性中的其中一个数据属性为与矩阵T的第j列相应的数据属性时,该关键数据属性的值域为:ap,j表示值域中的第p个值,kj为正整数,p∈[1,kj]。
与该关键数据属性相应的取值向量用下面的向量Kj来表示:
Kj=[1,2,3,…,kj],
其中,p为向量Kj中的第p个元素,且p与ap,j相对应;
与该关键数据属性相应的模板向量用下面的向量Mj来表示:
M j = [ m 1 , j , m 2 , j , m 3 , j , . . . , m k j , j ] ,
其中,mp,j为向量Mj中的第p个元素,并且,当ap,j在取值范围内时,mp,j=1,当ap,j不在取值范围内时,mp,j=0;
与该关键数据属性相应的数据向量用下面的向量Cj来表示:
Cj=[C1,j,C2,j,C3,j,…,Cm,j],
其中,Ci,j表示向量中的第i个元素,
并且,p=fj(ap,j),其中,fj为值域与取值向量的一一映射函数;
与该关键数据属性相应的映射向量用下面的向量Fj来表示:
Fj=[fj(C1,j),fj(C2,j),fj(C3,j),…,fj(Cm,j)],
所述提取向量用下面的向量Sj来表示:
S j = [ s 1 , j = m f i ( C 1 , j ) , s 2 , j = m f i ( C 2 , j ) , s 3 , j = m f i ( C 3 , j ) , . . . , s m , j = m f i ( C m , j ) ] ,
其中,si,j表示向量Sj中的第i个元素;
相应地,可用下面的矩阵V'来表示提取的特征数据:
V ′ = C 1,1 × s 1,1 C 1,2 × s 1,2 . . . C 1 , n × s 1 , n C 2,1 × s 2,1 C 2,2 × s 2,2 . . . C 2 , n × s 2 , n · · · · · · · · · · · · C m , 1 × s m , 1 C m , 2 × s m , 2 . . . C m , n × s m , n ,
这里,当与矩阵T的第q(q∈[1,n])列相应的数据属性不是关键数据属性时,可令与该关键数据属性相应的提取向量中的元素全部为1。通过这种方法,可一次提取出与多个数据属性相关的特征数据。
在根据本发明示例性实施例的用于在数据挖掘技术中提取特征数据的方法中,中央处理器(CPU)可使用本发明的方法快速地从大量数据中提取特征数据,而不必进行大量的逻辑判断,从而能够有效地提高提取特征数据的效率,节省提取特征数据的时间。
应注意,本发明的以上各个实施例仅仅是示例性的,而本发明并不受限于此。本领域技术人员应该理解:在不脱离本发明的原理和精神的情况下,可对这些实施例进行改变,其中,本发明的范围在权利要求及其等同物中限定。

Claims (7)

1.一种用于在数据挖掘技术中提取特征数据的方法,包括:
(A)获取多组数据,其中,每组数据包括分别与预定个数据属性相应的数据元素;
(B)确定所述预定个数据属性中用于提取特征数据的关键数据属性;
(C)根据关键数据属性的数据元素值域和特征数据的关键数据元素的取值范围来建立模板向量,其中,关键数据元素是指特征数据中与关键数据属性相应的数据元素;
(D)通过将建立的模板向量应用于所述多组数据中与关键数据属性相应的数据元素来提取特征数据。
2.如权利要求1所述的方法,其中,步骤(C)包括:
(C1)分析关键数据属性的数据元素值域和特征数据的关键数据元素的取值范围;
(C2)根据所述数据元素值域来建立取值向量;
(C3)根据取值向量和所述取值范围来建立模板向量。
3.如权利要求2所述的方法,其中,所述模板向量中的元素与所述取值向量中的元素一一对应,
并且,步骤(D)包括:
(D1)将所述多组数据中与关键数据属性相应的数据元素组成数据向量,并建立所述数据元素值域与取值向量的一一映射函数;
(D2)利用所述一一映射函数将数据向量中的每个数据元素映射为相应的取值向量中的元素,并由所映射的元素组成映射向量;
(D3)利用映射向量以及所述取值向量的元素与所述模板向量的元素之间的对应关系来建立提取向量;
(D4)利用提取向量从所述多组数据中提取特征数据。
4.如权利要求3所述的方法,其中,所述多组数据用下面的矩阵T来表示:
T = C 1,1 C 1,2 . . . C 1 , n C 2,1 C 2,2 . . . C 2 , n . . . . . . . . . . . . C m , 1 C m , 2 . . . C m , n ,
其中,m为T的行数,n为T的列数,Ci,j为T中的任意第i行第j列的数据元素,其中,i∈[1,m],j∈[1,n],m为正整数,n为正整数,
并且,矩阵T的每一行表示一组数据,矩阵T的每一列与一个数据属性相应。
5.如权利要求4所述的方法,其中,所述关键数据属性为与矩阵T的第t列相应的数据属性,
其中,在步骤(C1)中,所述值域为:{a1,a2,a3,…,ak},其中,al表示值域中的第l个值,
在步骤(C2)中,所述取值向量用下面的向量K来表示:
K=[1,2,3,…,k],
其中,l为向量K中的第l个元素,且l与al相对应,
在步骤(C3)中,所述模板向量用下面的向量M来表示:
M=[m1,m2,m3,…,mk],
ml为向量M中的第l个元素,且当al在取值范围内时,ml=1,当al不在取值范围内时,ml=0,
其中,k为正整数,l∈[1,k],t∈[1,n]。
6.如权利要求5所述的方法,其中,在步骤(D1)中,所述数据向量用下面的向量Ct来表示:
Ct=[C1,t,C2,t,C3,t,…,Cm,t],
其中,Ci,t表示向量中的第i个元素,
并且,l=f(al),其中,f为所述一一映射函数;
其中,当函数f的自变量为al时,映射函数的映射值为l;
在步骤(D2)中,所述映射向量用下面的向量F来表示:
F=[f(C1,t),f(C2,t),f(C3,t),…,f(Cm,t)],
在步骤(D3)中,所述提取向量用下面的向量S来表示:
S = [ s t 1 = m f ( C 1 , t ) , s t 2 = m f ( C 2 , t ) , s t 3 = m f ( C 3 , t ) , · · · s tm = m f ( C m , t ) ] ,
其中,sti表示向量S中的第i个元素,
其中,在步骤(D4)中,将矩阵T中的第i行中的元素与向量S中的第i个元素相乘,以从所述多组数据中提取特征数据。
7.如权利要求6所述的方法,其中,所述关键数据属性包括多个数据属性,所述关键数据属性中的每个数据属性对应一个提取向量,
其中,在步骤(D4)中,将矩阵T中的与关键数据属性相应的每个列中的第i行数据元素与对应于所述列的数据属性的提取向量中的第i个元素相乘,以从所述多组数据中提取特征数据。
CN201410805743.6A 2014-12-19 2014-12-19 用于在数据挖掘技术中提取特征数据的方法 Active CN105760406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410805743.6A CN105760406B (zh) 2014-12-19 2014-12-19 用于在数据挖掘技术中提取特征数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410805743.6A CN105760406B (zh) 2014-12-19 2014-12-19 用于在数据挖掘技术中提取特征数据的方法

Publications (2)

Publication Number Publication Date
CN105760406A true CN105760406A (zh) 2016-07-13
CN105760406B CN105760406B (zh) 2019-01-22

Family

ID=56341268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410805743.6A Active CN105760406B (zh) 2014-12-19 2014-12-19 用于在数据挖掘技术中提取特征数据的方法

Country Status (1)

Country Link
CN (1) CN105760406B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527851A (zh) * 2021-02-05 2021-03-19 北京淇瑀信息科技有限公司 用户特征数据筛选方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521414A (zh) * 2011-12-28 2012-06-27 畅捷通信息技术股份有限公司 数据钻取装置和数据钻取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521414A (zh) * 2011-12-28 2012-06-27 畅捷通信息技术股份有限公司 数据钻取装置和数据钻取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱伟春: "认知网络QoS评价方法研究", 《中国优秀硕士学位论文全文数据库》 *
朱伟春: "认知网络分布式业务感知模型研究", 《南京大学学报》 *
林睿: "基于人工神经网络的银行客户流失分析模型", 《电脑知识与技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527851A (zh) * 2021-02-05 2021-03-19 北京淇瑀信息科技有限公司 用户特征数据筛选方法、装置及电子设备
CN112527851B (zh) * 2021-02-05 2022-02-08 北京淇瑀信息科技有限公司 用户特征数据筛选方法、装置及电子设备

Also Published As

Publication number Publication date
CN105760406B (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN106776538A (zh) 企业非标准格式文档的信息提取方法
Wang et al. Cracking classification using minimum rectangular cover–based support vector machine
CN110597870A (zh) 一种企业关系挖掘方法
CN104572449A (zh) 一种基于用例库的自动化测试方法
Zheng et al. Fault diagnosis system of bridge crane equipment based on fault tree and Bayesian network
CN107317725A (zh) 一种区块链的可视化方法及系统
CN103942220A (zh) 一种适用于it运维系统的工单智能关联知识库知识的方法
CN106709017A (zh) 一种基于大数据的辅助决策方法
CN104679827A (zh) 一种基于大数据的公开信息关联方法及挖掘引擎
CN102033965A (zh) 一种基于分类模型的数据分类方法及系统
Wang et al. A computer vision based machine learning approach for fatigue crack initiation sites recognition
CN106202380A (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
US9286361B2 (en) Extract-transform-load processor controller
CN104484410A (zh) 应用于大数据系统的数据融合方法及系统
CN104574141A (zh) 一种业务影响度分析方法
CN104748757B (zh) 一种导航电子地图数据更新方法及装置
CN103226728A (zh) 高密度聚乙烯串级聚合反应过程智能检测与收率优化方法
CN107329770A (zh) 针对软件安全性bug修复的个性化推荐方法
CN111159241A (zh) 一种点击转化预估方法及装置
Adetayo et al. A scientometric review of bim in facility management research
Subrahmanya et al. Advanced machine learning methods for production data pattern recognition
Zhai et al. Feature representation improved Faster R-CNN model for high-efficiency pavement crack detection
Westerlund A sequential test for pair-wise convergence in Chinese provincial income
CN105760406A (zh) 用于在数据挖掘技术中提取特征数据的方法
Oliveira et al. Supply Chain Management 4.0: perspectives and insights from a bibliometric analysis and literature review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant