CN106021299B - 文本的降维特征向量确定方法及装置 - Google Patents

文本的降维特征向量确定方法及装置 Download PDF

Info

Publication number
CN106021299B
CN106021299B CN201610289966.0A CN201610289966A CN106021299B CN 106021299 B CN106021299 B CN 106021299B CN 201610289966 A CN201610289966 A CN 201610289966A CN 106021299 B CN106021299 B CN 106021299B
Authority
CN
China
Prior art keywords
text
feature vector
determining
rkhs
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610289966.0A
Other languages
English (en)
Other versions
CN106021299A (zh
Inventor
吴成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Technology Group Co Ltd
Original Assignee
TCL Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Technology Group Co Ltd filed Critical TCL Technology Group Co Ltd
Priority to CN201610289966.0A priority Critical patent/CN106021299B/zh
Publication of CN106021299A publication Critical patent/CN106021299A/zh
Application granted granted Critical
Publication of CN106021299B publication Critical patent/CN106021299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于文本特征处理领域,提供了一种文本的降维特征向量确定方法及装置。所述方法包括:确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;确定所述RKHS的特征向量;根据所述RKHS的特征向量确定文本的降维特征向量。通过上述方法,减少重要信息的损失,增加了后续文本处理算法的选择面。

Description

文本的降维特征向量确定方法及装置
技术领域
本发明实施例属于文本特征处理领域,尤其涉及一种文本的降维特征向量确定方法及装置。
背景技术
现今的时代是信息的时代,每天的信息都在不断增长,为更好地过滤信息,需要对信息(如文本的信息)进行一定的处理。
现有方法中,对文本进行处理的步骤通常为:选取文本的特征,再通过对选取的特征的处理来实现对文本的处理。常用的特征选取方法主要有,词频-逆向文件频率(termfrequency–inverse document frequency,TF-IDF),信息增益,卡方检验,互信息等,其中IF-IDF方法形式简洁、结构简单,并且准确率较高,应用较广。但传统的TF-IDF方法仍有以下不足:
(1)直接通过计算文本的各个特征的权重值,再选取权重较大的特征,丢弃权重较小的特征,但由于直接丢弃部分权重较小的特征,因此损失了部分特征的重要信息。
(2)当选取的特征个数大于样本个数时,导致有些算法(如要求特征个数小于样本个数的算法)不适用于后续的文本处理。
发明内容
本发明实施例提供了一种文本的降维特征向量确定方法及装置,旨在解决现有方法选取的特征损失了部分特征的重要信息,以及选取的特征的个数过大所导致的适用的文本处理算法过少的问题。
本发明实施例是这样实现的,一种文本的降维特征向量确定方法,所述方法包括:
确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;
将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;
确定所述RKHS的特征向量;
根据所述RKHS的特征向量确定文本的降维特征向量。
本发明实施例的另一目的在于提供一种文本的降维特征向量确定装置,所述装置包括:
文本特征向量确定单元,用于确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;
文本特征向量映射单元,用于将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;
RKHS的特征向量确定单元,用于确定所述RKHS的特征向量;
降维特征向量确定单元,用于根据所述RKHS的特征向量确定文本的降维特征向量。
在本发明实施例中,由于文本特征向量是根据文本语料库中的特征确定,因此,确定的文本特征向量更全面,减少重要信息的损失,并且,由于将文本特征向量映射到RKHS后,再确定该RKHS的特征向量,进而根据该RKHS的特征向量确定文本的降维特征向量,因此,使得确定的降维特征向量更准确,从而提高后续文本处理的准确性,增加了后续文本处理算法的选择面。
附图说明
图1是本发明第一实施例提供的一种文本的降维特征向量确定方法的流程图;
图2是本发明第二实施例提供的一种文本的降维特征向量确定装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量,将转换后的文本特征向量映射到再生核希尔伯特空间RKHS,确定所述RKHS的特征向量,根据所述RKHS的特征向量确定文本的降维特征向量。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的一种文本的降维特征向量确定方法的流程图,详述如下:
步骤S11,确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量。
其中,文本语料库包括多个文本。
可选地,在步骤S11之前,包括:对文本语料库进行分词及去停用词的处理。在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。停用词在文本中没有显著作用的词,如“啊”,“的”等词。通过该步骤,能够对文本语料库进行初步清洗,减少后续的工作量。
在步骤S11中,将文本语料库进行向量空间模型(Vector space model,VSM)处理,以把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度。例如,对文本语料库进行分词及去停用词的处理后,文本语料库中的全部特征为w1,w2,...,wm,其中w1,w2,wm分别表示不同的字、词或者词组,则每个文本可以表示为如表1所示:
表1:
w<sub>1</sub> w<sub>2</sub> w<sub>m</sub>
x<sub>1</sub> x<sub>11</sub> x<sub>12</sub> x<sub>1m</sub>
x<sub>n</sub> x<sub>n1</sub> x<sub>n2</sub> x<sub>nm</sub>
其中,xij表示文本的权重,1≤i≤n,1≤j≤m,文本的权重可通过TF-IDF、信息增益,卡方检验,互信息等确定。x1…xn表示n个文本。
步骤S12,将转换后的文本特征向量映射到再生核希尔伯特空间RKHS。
其中,所述将转换后的文本特征向量映射到再生核希尔伯特空间RKHS,具体包括:
A1、确定文本语料库中各个文本的特征权重向量,再根据各个文本的特征权重向量确定信息矩阵。
A2、确定所述信息矩阵所在的空间,根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。
上述A1和A2中,假设文档Di的特征权重向量为xi=(xi1,,...,xim),于是可得信息矩阵
Figure BDA0000980538540000041
属于空间l2,且分类的训练样本记为响应变量
Figure BDA0000980538540000042
例如,y1对应的分类为新闻类别,响应变量中的每个参数都对应不同的类别。设再生核希尔伯特空间为H,与其为一对应的核函数为K(xi,xj)。其中再生核的核函数可为:高斯核函数:
Figure BDA0000980538540000051
为核函数的宽度参数,用于调节高斯核函数的径向作用范围;或者,为多项式核函数:
Figure BDA0000980538540000052
scale,offset,degree>0,其中,degree为多项式的项次,“·”表示乘法运算,“|||”表示求取向量的模长,当参数不同时,可得到不同的核函数,即通过调节参数可以选取不同的再生核。
假设空间l2到H的映射为:
Figure BDA0000980538540000055
φ(x)∈H映射为:
Figure BDA0000980538540000056
满足x∈l2时,φ(x)∈H,则根据映射规则将转换后的文本特征向量映射到RKHS。
步骤S13,确定所述RKHS的特征向量。
其中,所述确定所述RKHS的特征向量包括:
B1、对文本特征向量进行k邻近平均处理。其中,该k邻近平均处理的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
B2、根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择,以确定所述RKHS的特征向量。
上述B1和B2中,假设x为l2中(此处x属于l2空间,并且l2本质上也是一个RKHS,然后x通过映射φ,将x映射成φ(x)属于H)的文本特征向量,且φ(x)∈H,K为再生核的核函数,则<φ(xi),φ(xj)>H=K(xi,xj),格拉姆矩阵G,
Figure BDA0000980538540000053
n为文本的个数;
对文本特征向量进行k邻近平均处理具体为:
Figure BDA0000980538540000054
Li={j:xj与xi类别相同,且是xi的k个邻近点(即与xi距离最近的k个样本的下标对应的文本特征向量)},ei=(0,..,1,..,1,..0,..0),当j∈Li时,向量ei的第j个元素为1,否则为0(表示:当xj和xi类别相同,并且xj属于与xi距离最近的k个样本中,那么向量ei的第j个元素为1,否则为0)。其中,
Figure BDA0000980538540000061
表示求取j∈Li的xj的均值,XT表示X的转置,通过对文本的特征向量采用k邻近平均处理,解决了文本特征在类间分布不均的情况。
例如,假设文本总共有C个类,这C个类采用如下的X表示,类别号记为1,..,c,.,C时,第c类样本为:
{(xi,yi):yi=c},将样本按样本记号从小到大排列,经过处理后的C个类的文本用
Figure BDA0000980538540000062
表示,得到:
Figure BDA0000980538540000063
处理后得到:
Figure BDA0000980538540000064
令:
Figure BDA0000980538540000065
Figure BDA0000980538540000071
假设α是一个n维向量,且有β=(φ(x1),...,φ(xn))α=φ(X)α,于是
Figure BDA0000980538540000072
通过求解上式的λ,α,α为RKHS的特征向量。
步骤S14,根据所述RKHS的特征向量确定文本的降维特征向量。
其中,所述根据所述RKHS的特征向量确定文本的降维特征向量,具体包括:
C1、对所述RKHS的特征向量的维度进行排序。
C2、选取预设个数的高维特征向量作为文本的降维特征向量,预设个数小于文本的总个数。
上述C1和C2中,当求出λ,α后,由于λss一一对应,因此将λs从大到小排列,取前p个αs作为最终的降维特征(α1,...,αp)。当然,也可将λs从小到大排列,取后p个αs作为最终的降维特征,此处不作限定。
可选地,在所述根据所述RKHS的特征向量确定文本的降维特征向量之后,包括:
D1、获取新的文本特征向量。这里新的文本特征向量为需降维的文本特征向量。
D2、根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。
上述D1和D2中,假设新的文本特征向量为(xnew,ynew),ynew∈{1,...,C},则根据下式确定新的文本的降维特征向量:
x′new=(K(xnew,x1),...,K(xnew,xn))1×n1,...,αp)n×p
通过上述步骤,可将新的文本特征向量从m维特征降为p维,且p<m,因此,解决后续文本处理由于高维特征而产生的稀疏性的问题。
需要指出的是,该新的文本特征向量的个数应与文本语料库中的文本的总个数相等,否则,应保证选取的文本的降维特征向量的个数应小于该新的文本特征向量的个数。
本发明第一实施例中,确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量,将转换后的文本特征向量映射到再生核希尔伯特空间RKHS,确定所述RKHS的特征向量,根据所述RKHS的特征向量确定文本的降维特征向量。由于文本特征向量是根据文本语料库中的特征确定,因此,确定的文本特征向量更全面,减少重要信息的损失,并且,由于将文本特征向量映射到RKHS后,再确定该RKHS的特征向量,进而根据该RKHS的特征向量确定文本的降维特征向量,因此,使得确定的降维特征向量更准确,从而提高后续文本处理的准确性,增加了后续文本处理算法的选择面。
应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二:
图2示出了本发明第二实施例提供的一种文本的降维特征向量确定装置的结构图,该文本的降维特征向量确定装置可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备,该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等,例如,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。又例如,该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明,仅示出了与本发明实施例相关的部分。
该文本的降维特征向量确定装置包括:
文本特征向量确定单元21,用于确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量。
可选地,该文本的降维特征向量确定装置包括:初步清洗单元,用于对文本语料库进行分词及去停用词的处理。
文本特征向量映射单元22,用于将转换后的文本特征向量映射到再生核希尔伯特空间RKHS。
其中,所述文本特征向量映射单元22包括:
信息矩阵确定模块,用于确定文本语料库中各个文本的特征权重向量,再根据各个文本的特征权重向量确定信息矩阵。
信息矩阵所在的空间确定模块,用于确定所述信息矩阵所在的空间,根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。
上述信息矩阵确定模块和信息矩阵所在的空间确定模块中,假设文档Di的特征权重向量为xi=(xi1,,...,xim),于是可得信息矩阵
Figure BDA0000980538540000091
属于空间l2,且分类的训练样本记为响应变量
Figure BDA0000980538540000092
设再生核希尔伯特空间为H,与其为一对应的核函数为K(xi,xj)。其中再生核的核函数可为:高斯核函数:
Figure BDA0000980538540000093
或者,为多项式核函数:
K(xi,xj)=(scale·||xi-xj 2+offset)dgree,scale,offset,degree>0,当参数不同时,可得到不同的核函数,即通过调节参数可以选取不同的再生核。假设空间l2到H的映射为:
Figure BDA0000980538540000094
φ(x)∈H,则根据映射规则将转换后的文本特征向量映射到RKHS。
RKHS的特征向量确定单元23,用于确定所述RKHS的特征向量。
其中,所述RKHS的特征向量确定单元23包括:
k邻近平均处理模块,用于对文本特征向量进行k邻近平均处理。其中,对文本特征向量进行k邻近平均处理具体为:
Figure BDA0000980538540000101
Li={j:xj与xi类别相同,且是xi的k个邻近点},ei=(0,..,1,..,1,..0,..0),当j∈Li时,向量ei的第j个元素为1,否则为0。
非线性特征选择模块,用于根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择,以确定所述RKHS的特征向量。具体地,令:
Figure BDA0000980538540000102
Figure BDA0000980538540000103
假设α是一个n维向量,且有β=(φ(x1),...,φ(xn))α=φ(X)α,于是
Figure BDA0000980538540000104
通过求解上式的λ,α,α为RKHS的特征向量。
降维特征向量确定单元24,用于根据所述RKHS的特征向量确定文本的降维特征向量。
其中,所述降维特征向量确定单元24具体包括:
特征向量的维度排序模块,用于对所述RKHS的特征向量的维度进行排序。
高维特征向量选取模块,用于选取预设个数的高维特征向量作为文本的降维特征向量,所述预设个数小于文本的总个数。
当求出λ,α后,由于λss一一对应,因此将λs从大到小排列,取前p个αs作为最终的降维特征(α1,...,αp)。当然,也可将λs从小到大排列,取后p个αs作为最终的降维特征,此处不作限定。
可选地,所述文本的降维特征向量确定装置包括:
新的文本特征向量获取单元,用于获取新的文本特征向量。
新的文本的降维特征向量确定单元,用于根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。
假设新的文本特征向量为(xnew,ynew),ynew∈{1,...,C},则根据下式确定新的文本的降维特征向量:
x′new=(K(xnew,x1),...,K(xnew,xn))1×n1,...,αp)n×p
通过上述步骤,可将新的文本特征向量从m维特征降为p维,且p<m,因此,解决后续文本处理由于高维特征而产生的稀疏性的问题。
在第二实施例中,各个参数表示的含义与第一实施例中相同,此处不再赘述。
本发明第二实施例中,由于文本特征向量是根据文本语料库中的特征确定,因此,确定的文本特征向量更全面,减少重要信息的损失,并且,由于将文本特征向量映射到RKHS后,再确定该RKHS的特征向量,进而根据该RKHS的特征向量确定文本的降维特征向量,因此,使得确定的降维特征向量更准确,从而提高后续文本处理的准确性,增加了后续文本处理算法的选择面。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种文本的降维特征向量确定方法,其特征在于,所述方法包括:
确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;
将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;
确定所述RKHS的特征向量,包括:对文本特征向量进行k邻近平均处理,具体为:
Figure FDA0002484591500000011
Li={j:xj与xi类别相同,且是xi的k个邻近点},文本的特征权重向量为xi=(xi1,…,xim),所述i表示为第i个文本,所述m表示权重数量,所述
Figure FDA0002484591500000012
所述n表示文本数量,所述ei为只包含0和1的向量,当j∈Li时,向量ei的第j个元素为1,否则为0;根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择,以确定所述RKHS的特征向量;
根据所述RKHS的特征向量确定文本的降维特征向量。
2.根据权利要求1所述的方法,其特征在于,所述将转换后的文本特征向量映射到再生核希尔伯特空间RKHS,具体包括:
确定文本语料库中各个文本的特征权重向量,再根据各个文本的特征权重向量确定信息矩阵;
确定所述信息矩阵所在的空间,根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。
3.根据权利要求1所述的方法,其特征在于,所述根据所述RKHS的特征向量确定文本的降维特征向量,具体包括:
对所述RKHS的特征向量的维度进行排序;
选取预设个数的高维特征向量作为文本的降维特征向量,所述预设个数小于文本的总个数。
4.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据所述RKHS的特征向量确定文本的降维特征向量之后,包括:
获取新的文本特征向量;
根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。
5.一种文本的降维特征向量确定装置,其特征在于,所述装置包括:
文本特征向量确定单元,用于确定文本语料库中的特征,并确定所述特征在不同文本的权重,以将文本语料库中的特征转换为文本特征向量;
文本特征向量映射单元,用于将转换后的文本特征向量映射到再生核希尔伯特空间RKHS;
RKHS的特征向量确定单元,用于确定所述RKHS的特征向量;所述RKHS的特征向量确定单元包括:k邻近平均处理模块,用于对文本特征向量进行k邻近平均处理,具体为:
Figure FDA0002484591500000021
Li={j:xj与xi类别相同,且是xi的k个邻近点},文本的特征权重向量为xi=(xi1,…,xim),所述i表示为第i个文本,所述m表示权重数量,所述
Figure FDA0002484591500000022
所述n表示文本数量,所述ei为只包含0和1的向量,当j∈Li时,向量ei的第j个元素为1,否则为0;非线性特征选择模块,用于根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择,以确定所述RKHS的特征向量;
降维特征向量确定单元,用于根据所述RKHS的特征向量确定文本的降维特征向量。
6.根据权利要求5所述的装置,其特征在于,所述文本特征向量映射单元包括:
信息矩阵确定模块,用于确定文本语料库中各个文本的特征权重向量,再根据各个文本的特征权重向量确定信息矩阵;
信息矩阵所在的空间确定模块,用于确定所述信息矩阵所在的空间,根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。
7.根据权利要求5所述的装置,其特征在于,所述降维特征向量确定单元具体包括:
特征向量的维度排序模块,用于对所述RKHS的特征向量的维度进行排序;
高维特征向量选取模块,用于选取预设个数的高维特征向量作为文本的降维特征向量,所述预设个数小于文本的总个数。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述装置包括:
新的文本特征向量获取单元,用于获取新的文本特征向量;
新的文本的降维特征向量确定单元,用于根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。
CN201610289966.0A 2016-05-03 2016-05-03 文本的降维特征向量确定方法及装置 Active CN106021299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610289966.0A CN106021299B (zh) 2016-05-03 2016-05-03 文本的降维特征向量确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610289966.0A CN106021299B (zh) 2016-05-03 2016-05-03 文本的降维特征向量确定方法及装置

Publications (2)

Publication Number Publication Date
CN106021299A CN106021299A (zh) 2016-10-12
CN106021299B true CN106021299B (zh) 2020-07-10

Family

ID=57081080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610289966.0A Active CN106021299B (zh) 2016-05-03 2016-05-03 文本的降维特征向量确定方法及装置

Country Status (1)

Country Link
CN (1) CN106021299B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599856A (zh) * 2016-12-19 2017-04-26 四川长虹电器股份有限公司 一种联合人脸检测、定位和识别的方法
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495901A (zh) * 2011-12-16 2012-06-13 山东师范大学 通过局部均值保持实现类数据平衡的方法
CN105163182A (zh) * 2015-08-24 2015-12-16 Tcl集团股份有限公司 基于例外挖掘算法的智能电视用户行为获取方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100561988C (zh) * 2006-02-23 2009-11-18 腾讯科技(深圳)有限公司 一种反垃圾邮件的方法及系统
US20130064423A1 (en) * 2011-09-09 2013-03-14 Sony Corporation Feature extraction and processing from signals of sensor arrays

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495901A (zh) * 2011-12-16 2012-06-13 山东师范大学 通过局部均值保持实现类数据平衡的方法
CN105163182A (zh) * 2015-08-24 2015-12-16 Tcl集团股份有限公司 基于例外挖掘算法的智能电视用户行为获取方法及系统

Also Published As

Publication number Publication date
CN106021299A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN107786943B (zh) 一种用户分群方法及计算设备
CN113255370B (zh) 基于语义相似度的行业类型推荐方法、装置、设备及介质
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN109299246B (zh) 一种文本分类方法及装置
WO2019085332A1 (zh) 金融数据分析方法、应用服务器及计算机可读存储介质
CN109726291B (zh) 分类模型的损失函数优化方法、装置及样本分类方法
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN109791570B (zh) 高效且精确的命名实体识别方法和装置
Kuhamanee et al. Sentiment analysis of foreign tourists to Bangkok using data mining through online social network
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN106021299B (zh) 文本的降维特征向量确定方法及装置
CN109885831B (zh) 关键术语抽取方法、装置、设备及计算机可读存储介质
CN111062440A (zh) 一种样本选择方法、装置、设备及存储介质
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN111353514A (zh) 模型训练方法、图像识别方法、装置及终端设备
CN107622048B (zh) 一种文本模式识别方法及系统
CN115422000A (zh) 异常日志处理方法及装置
CN109726222B (zh) 一种数据流主题特征提取方法、装置、设备及存储介质
CN109902169B (zh) 基于电影字幕信息提升电影推荐系统性能的方法
CN109344252B (zh) 基于优质主题扩展的微博文本分类方法及系统
CN115048345A (zh) 异常日志检测方法、装置、电子设备和存储介质
CN113392208A (zh) It运维故障处理经验积累的方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 516006 TCL technology building, No.17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co.,Ltd.

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL RESEARCH AMERICA Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant