CN106021299A

CN106021299A - 文本的降维特征向量确定方法及装置

Info

Publication number: CN106021299A
Application number: CN201610289966.0A
Authority: CN
Inventors: 吴成龙
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-05-03
Filing date: 2016-05-03
Publication date: 2016-10-12
Anticipated expiration: 2036-05-03
Also published as: CN106021299B

Abstract

本发明适用于文本特征处理领域，提供了一种文本的降维特征向量确定方法及装置。所述方法包括：确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量；将转换后的文本特征向量映射到再生核希尔伯特空间RKHS；确定所述RKHS的特征向量；根据所述RKHS的特征向量确定文本的降维特征向量。通过上述方法，减少重要信息的损失，增加了后续文本处理算法的选择面。

Description

文本的降维特征向量确定方法及装置

技术领域

本发明实施例属于文本特征处理领域，尤其涉及一种文本的降维特征向量确定方法及装置。

背景技术

现今的时代是信息的时代，每天的信息都在不断增长，为更好地过滤信息，需要对信息(如文本的信息)进行一定的处理。

现有方法中，对文本进行处理的步骤通常为：选取文本的特征，再通过对选取的特征的处理来实现对文本的处理。常用的特征选取方法主要有，词频-逆向文件频率(termfrequency–inverse document frequency，TF-IDF)，信息增益，卡方检验，互信息等，其中IF-IDF方法形式简洁、结构简单，并且准确率较高，应用较广。但传统的TF-IDF方法仍有以下不足：

(1)直接通过计算文本的各个特征的权重值，再选取权重较大的特征，丢弃权重较小的特征，但由于直接丢弃部分权重较小的特征，因此损失了部分特征的重要信息。

(2)当选取的特征个数大于样本个数时，导致有些算法(如要求特征个数小于样本个数的算法)不适用于后续的文本处理。

发明内容

本发明实施例提供了一种文本的降维特征向量确定方法及装置，旨在解决现有方法选取的特征损失了部分特征的重要信息，以及选取的特征的个数过大所导致的适用的文本处理算法过少的问题。

本发明实施例是这样实现的，一种文本的降维特征向量确定方法，所述方法包括：

确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量；

将转换后的文本特征向量映射到再生核希尔伯特空间RKHS；

确定所述RKHS的特征向量；

根据所述RKHS的特征向量确定文本的降维特征向量。

本发明实施例的另一目的在于提供一种文本的降维特征向量确定装置，所述装置包括：

文本特征向量确定单元，用于确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量；

文本特征向量映射单元，用于将转换后的文本特征向量映射到再生核希尔伯特空间RKHS；

RKHS的特征向量确定单元，用于确定所述RKHS的特征向量；

降维特征向量确定单元，用于根据所述RKHS的特征向量确定文本的降维特征向量。

在本发明实施例中，由于文本特征向量是根据文本语料库中的特征确定，因此，确定的文本特征向量更全面，减少重要信息的损失，并且，由于将文本特征向量映射到RKHS后，再确定该RKHS的特征向量，进而根据该RKHS的特征向量确定文本的降维特征向量，因此，使得确定的降维特征向量更准确，从而提高后续文本处理的准确性，增加了后续文本处理算法的选择面。

附图说明

图1是本发明第一实施例提供的一种文本的降维特征向量确定方法的流程图；

图2是本发明第二实施例提供的一种文本的降维特征向量确定装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量，将转换后的文本特征向量映射到再生核希尔伯特空间RKHS，确定所述RKHS的特征向量，根据所述RKHS的特征向量确定文本的降维特征向量。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种文本的降维特征向量确定方法的流程图，详述如下：

步骤S11，确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量。

其中，文本语料库包括多个文本。

可选地，在步骤S11之前，包括：对文本语料库进行分词及去停用词的处理。在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为StopWords(停用词)。停用词在文本中没有显著作用的词，如“啊”，“的”等词。通过该步骤，能够对文本语料库进行初步清洗，减少后续的工作量。

在步骤S11中，将文本语料库进行向量空间模型(Vector space model，VSM)处理，以把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度。例如，对文本语料库进行分词及去停用词的处理后，文本语料库中的全部特征为w₁，w₂,...,w_m,其中w₁,w₂,w_m分别表示不同的字、词或者词组，则每个文本可以表示为如表1所示：

表1：

	w₁	w₂	…	w_m
					x₁	x₁₁	x₁₂	…	x_1m
…			…	…
					x_n	x_n1	x_n2	…	x_nm

其中，x_ij表示文本的权重，1≤i≤n,1≤j≤m，文本的权重可通过TF-IDF、信息增益，卡方检验，互信息等确定。x₁…x_n表示n个文本。

步骤S12，将转换后的文本特征向量映射到再生核希尔伯特空间RKHS。

其中，所述将转换后的文本特征向量映射到再生核希尔伯特空间RKHS，具体包括：

A1、确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵。

A2、确定所述信息矩阵所在的空间，根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。

上述A1和A2中，假设文档D_i的特征权重向量为x_i＝(x_i1,,...,x_im)，于是可得信息矩阵属于空间l₂，且分类的训练样本记为响应变量例如，y₁对应的分类为新闻类别，响应变量中的每个参数都对应不同的类别。设再生核希尔伯特空间为H，与其为一对应的核函数为K(x_i,x_j)。其中再生核的核函数可为：高斯核函数：为核函数的宽度参数，用于调节高斯核函数的径向作用范围；或者，为多项式核函数：

scale,offset,degree>0，其中，degree为多项式的项次，“·”表示乘法运算，“|||”表示求取向量的模长，当参数不同时，可得到不同的核函数，即通过调节参数可以选取不同的再生核。

假设空间l₂到H的映射为：φ(x)∈H映射为：满足x∈l₂时，φ(x)∈H，则根据映射规则将转换后的文本特征向量映射到RKHS。

步骤S13，确定所述RKHS的特征向量。

其中，所述确定所述RKHS的特征向量包括：

B1、对文本特征向量进行k邻近平均处理。其中，该k邻近平均处理的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

B2、根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择，以确定所述RKHS的特征向量。

上述B1和B2中，假设x为l2中(此处x属于l2空间，并且l2本质上也是一个RKHS，然后x通过映射φ，将x映射成φ(x)属于H)的文本特征向量，且φ(x)∈H，K为再生核的核函数，则<φ(x_i),φ(x_j)>_H＝K(x_i,x_j)，格拉姆矩阵G，

n为文本的个数；

对文本特征向量进行k邻近平均处理具体为：L_i＝{j：x_j与x_i类别相同，且是x_i的k个邻近点(即与x_i距离最近的k个样本的下标对应的文本特征向量)}，e_i＝(0,..,1,..,1,..0,..0)，当j∈L_i时，向量e_i的第j个元素为1，否则为0(表示：当x_j和x_i类别相同，并且x_j属于与x_i距离最近的k个样本中，那么向量e_i的第j个元素为1，否则为0)。其中，表示求取j∈L_i的x_j的均值，X^T表示X的转置，通过对文本的特征向量采用k邻近平均处理，解决了文本特征在类间分布不均的情况。

例如，假设文本总共有C个类，这C个类采用如下的X表示，类别号记为1,..,c,.,C时，第c类样本为：

{(x_i,y_i):y_i＝c}，将样本按样本记号从小到大排列，经过处理后的C个类的文本用表示，得到：

处理后得到：

令：

\begin{matrix} \tilde{Γ} = \frac{1}{n} Σ_{i = 1}^{n} ({\tilde{x}}_{i} - \overset{&OverBar;}{x}) {({\tilde{x}}_{i} - \overset{&OverBar;}{x})}^{T} \\ = \frac{1}{n} Σ_{i = 1}^{n} X^{T} (\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}) {((\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}))}^{T} X \\ = X^{T} {Σ_{i = 1}^{n} \frac{1}{n} X^{T} (\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}) {((\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}))}^{T}} X \\ = X^{T} K X \end{matrix}

\begin{matrix} \hat{Σ} = \frac{1}{n} Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) {(x_{i} - \overset{&OverBar;}{x})}^{T} \\ = X^{T} D X \end{matrix}

假设α是一个n维向量，且有β＝(φ(x₁),...,φ(x_n))α＝φ(X)α，于是

通过求解上式的λ,α，α为RKHS的特征向量。

步骤S14，根据所述RKHS的特征向量确定文本的降维特征向量。

其中，所述根据所述RKHS的特征向量确定文本的降维特征向量，具体包括：

C1、对所述RKHS的特征向量的维度进行排序。

C2、选取预设个数的高维特征向量作为文本的降维特征向量，预设个数小于文本的总个数。

上述C1和C2中，当求出λ,α后，由于λ_s,α_s一一对应，因此将λ_s从大到小排列，取前p个α_s作为最终的降维特征(α₁,...,α_p)。当然，也可将λ_s从小到大排列，取后p个α_s作为最终的降维特征，此处不作限定。

可选地，在所述根据所述RKHS的特征向量确定文本的降维特征向量之后，包括：

D1、获取新的文本特征向量。这里新的文本特征向量为需降维的文本特征向量。

D2、根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。

上述D1和D2中，假设新的文本特征向量为(x_new,y_new)，y_new∈{1,...,C}，则根据下式确定新的文本的降维特征向量：

x′_new＝(K(x_new,x₁),...,K(x_new,x_n))_1×n(α₁,...,α_p)_n×p

通过上述步骤，可将新的文本特征向量从m维特征降为p维，且p<m，因此，解决后续文本处理由于高维特征而产生的稀疏性的问题。

需要指出的是，该新的文本特征向量的个数应与文本语料库中的文本的总个数相等，否则，应保证选取的文本的降维特征向量的个数应小于该新的文本特征向量的个数。

本发明第一实施例中，确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量，将转换后的文本特征向量映射到再生核希尔伯特空间RKHS，确定所述RKHS的特征向量，根据所述RKHS的特征向量确定文本的降维特征向量。由于文本特征向量是根据文本语料库中的特征确定，因此，确定的文本特征向量更全面，减少重要信息的损失，并且，由于将文本特征向量映射到RKHS后，再确定该RKHS的特征向量，进而根据该RKHS的特征向量确定文本的降维特征向量，因此，使得确定的降维特征向量更准确，从而提高后续文本处理的准确性，增加了后续文本处理算法的选择面。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例二：

图2示出了本发明第二实施例提供的一种文本的降维特征向量确定装置的结构图，该文本的降维特征向量确定装置可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备，该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等，例如，用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。又例如，该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明，仅示出了与本发明实施例相关的部分。

该文本的降维特征向量确定装置包括：

文本特征向量确定单元21，用于确定文本语料库中的特征，并确定所述特征在不同文本的权重，以将文本语料库中的特征转换为文本特征向量。

可选地，该文本的降维特征向量确定装置包括：初步清洗单元，用于对文本语料库进行分词及去停用词的处理。

文本特征向量映射单元22，用于将转换后的文本特征向量映射到再生核希尔伯特空间RKHS。

其中，所述文本特征向量映射单元22包括：

信息矩阵确定模块，用于确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵。

信息矩阵所在的空间确定模块，用于确定所述信息矩阵所在的空间，根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。

上述信息矩阵确定模块和信息矩阵所在的空间确定模块中，假设文档D_i的特征权重向量为x_i＝(x_i1,,...,x_im)，于是可得信息矩阵属于空间l₂，且分类的训练样本记为响应变量设再生核希尔伯特空间为H，与其为一对应的核函数为K(x_i,x_j)。其中再生核的核函数可为：高斯核函数：或者，为多项式核函数：

K(x_i,x_j)＝(scale·||x_i-x_j ²+offset)^dgree，scale,offset,degree>0，当参数不同时，可得到不同的核函数，即通过调节参数可以选取不同的再生核。假设空间l₂到H的映射为：φ(x)∈H，则根据映射规则将转换后的文本特征向量映射到RKHS。

RKHS的特征向量确定单元23，用于确定所述RKHS的特征向量。

其中，所述RKHS的特征向量确定单元23包括：

k邻近平均处理模块，用于对文本特征向量进行k邻近平均处理。其中，对文本特征向量进行k邻近平均处理具体为：L_i＝{j：x_j与x_i类别相同，且是x_i的k个邻近点}，e_i＝(0,..,1,..,1,..0,..0)，当j∈L_i时，向量e_i的第j个元素为1，否则为0。

非线性特征选择模块，用于根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择，以确定所述RKHS的特征向量。具体地，令：

\begin{matrix} \tilde{Γ} = \frac{1}{n} Σ_{i = 1}^{n} ({\tilde{x}}_{i} - \overset{&OverBar;}{x}) {({\tilde{x}}_{i} - \overset{&OverBar;}{x})}^{T} \\ = \frac{1}{n} Σ_{i = 1}^{n} X^{T} (\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}) {((\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}))}^{T} X \\ = X^{T} {Σ_{i = 1}^{n} \frac{1}{n} X^{T} (\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}) {((\frac{1}{k} e_{i} - \frac{1}{n} 1_{n}))}^{T}} X \\ = X^{T} K X \end{matrix}

\begin{matrix} \hat{Σ} = \frac{1}{n} Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) {(x_{i} - \overset{&OverBar;}{x})}^{T} \\ = X^{T} D X \end{matrix}

通过求解上式的λ,α，α为RKHS的特征向量。

降维特征向量确定单元24，用于根据所述RKHS的特征向量确定文本的降维特征向量。

其中，所述降维特征向量确定单元24具体包括：

特征向量的维度排序模块，用于对所述RKHS的特征向量的维度进行排序。

高维特征向量选取模块，用于选取预设个数的高维特征向量作为文本的降维特征向量，所述预设个数小于文本的总个数。

当求出λ,α后，由于λ_s,α_s一一对应，因此将λ_s从大到小排列，取前p个α_s作为最终的降维特征(α₁,...,α_p)。当然，也可将λ_s从小到大排列，取后p个α_s作为最终的降维特征，此处不作限定。

可选地，所述文本的降维特征向量确定装置包括：

新的文本特征向量获取单元，用于获取新的文本特征向量。

新的文本的降维特征向量确定单元，用于根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。

假设新的文本特征向量为(x_new,y_new)，y_new∈{1,...,C}，则根据下式确定新的文本的降维特征向量：

x′_new＝(K(x_new,x₁),...,K(x_new,x_n))_1×n(α₁,...,α_p)_n×p

在第二实施例中，各个参数表示的含义与第一实施例中相同，此处不再赘述。

本发明第二实施例中，由于文本特征向量是根据文本语料库中的特征确定，因此，确定的文本特征向量更全面，减少重要信息的损失，并且，由于将文本特征向量映射到RKHS后，再确定该RKHS的特征向量，进而根据该RKHS的特征向量确定文本的降维特征向量，因此，使得确定的降维特征向量更准确，从而提高后续文本处理的准确性，增加了后续文本处理算法的选择面。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本的降维特征向量确定方法，其特征在于，所述方法包括：

将转换后的文本特征向量映射到再生核希尔伯特空间RKHS；

确定所述RKHS的特征向量；

根据所述RKHS的特征向量确定文本的降维特征向量。

2.根据权利要求1所述的方法，其特征在于，所述将转换后的文本特征向量映射到再生核希尔伯特空间RKHS，具体包括：

确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵；

确定所述信息矩阵所在的空间，根据所述信息矩阵所在的空间以及映射规则将转换后的文本特征向量映射到RKHS。

3.根据权利要求1所述的方法，其特征在于，所述确定所述RKHS的特征向量包括：

对文本特征向量进行k邻近平均处理；

根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择，以确定所述RKHS的特征向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述RKHS的特征向量确定文本的降维特征向量，具体包括：

对所述RKHS的特征向量的维度进行排序；

选取预设个数的高维特征向量作为文本的降维特征向量，所述预设个数小于文本的总个数。

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述根据所述RKHS的特征向量确定文本的降维特征向量之后，包括：

获取新的文本特征向量；

根据所述新的文本特征向量和文本的降维特征向量确定新的文本的降维特征向量。

6.一种文本的降维特征向量确定装置，其特征在于，所述装置包括：

RKHS的特征向量确定单元，用于确定所述RKHS的特征向量；

7.根据权利要求6所述的装置，其特征在于，所述文本特征向量映射单元包括：

信息矩阵确定模块，用于确定文本语料库中各个文本的特征权重向量，再根据各个文本的特征权重向量确定信息矩阵；

8.根据权利要求6所述的装置，其特征在于，所述RKHS的特征向量确定单元包括：

k邻近平均处理模块，用于对文本特征向量进行k邻近平均处理；

非线性特征选择模块，用于根据k邻近平均处理的处理结果、文本特征向量本身以及文本平均特征向量对文本高维特征向量进行非线性特征选择，以确定所述RKHS的特征向量。

9.根据权利要求6所述的装置，其特征在于，所述降维特征向量确定单元具体包括：

特征向量的维度排序模块，用于对所述RKHS的特征向量的维度进行排序；

10.根据权利要求6至9任一项所述的装置，其特征在于，所述装置包括：

新的文本特征向量获取单元，用于获取新的文本特征向量；