CN103324708A

CN103324708A - 一种长文本到短文本的迁移学习方法

Info

Publication number: CN103324708A
Application number: CN2013102414280A
Authority: CN
Inventors: 初妍; 陈曼; 夏琳琳; 沈洁; 王勇; 杨悦; 张健沛; 杨静; 赵芳丹
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2013-06-18
Filing date: 2013-06-18
Publication date: 2013-09-25
Anticipated expiration: 2033-06-18
Also published as: CN103324708B

Abstract

本发明涉及一种长文本到短文本的迁移学习方法，其特征在于：步骤1：根据目标领域短文本中提取的标签，通过搜索引擎获得源领域数据，提取源领域的种子特征集；步骤2：根据目标领域短文本的标签集和源领域的种子特征集，构建社交媒体无向图，从无向图中提取包含所有目标领域标签集和种子特征集节点的子图；步骤3：基于拉普拉斯特征映射算法，获得源领域数据新的特征表示；步骤:4：根据源领域数据新的特征表示，对源领域数据进行分类。

Description

一种长文本到短文本的迁移学习方法

技术领域

本发明涉及一种长文本到短文本的迁移学习方法。

背景技术

随着科技的飞速发展，互联网信息越来越多样化，短文本如微博、QQ消息、在线广告等在网络应用中扮演着越来越重要的角色。短文本数据具有关键词少、缺少上下文信息、文本表示高维稀疏、很难对文本特征完整准确表达等特点。当目标领域为短文本数据且只有少量标记数据时，对短文本数据库信息进行统计、分类则成为一大难题。与短文本相比，由于长文本篇幅较长，上下文中会携带较多与文本主题相关的关键词，并且长文本在网络中出现的时间比较早，其分类技术已较为成熟。若能将长文本领域的分类方法迁移到短文本领域，则会对解决短文本分类问题提供了很大帮助。

目前，有一些对从长文本到短文本迁移学习方法的研究，但其往往要求给出与目标领域短文本相关的源领域数据，这样在数据的获取及领域相关性衡量方面则会由于人的主观性产生一些误差，从而对目标任务造成负面影响；也有一些研究要求在长文本到短文本的迁移学习之前要知道数据的先验概率分布，而这在实际中很难获得。

发明内容

本发明目的在于提供一种无需提供源领域数据、无需知道数据的先验概率分布的长文本到短文本的迁移学习方法。

实现本发明目的技术方案：

一种长文本到短文本的迁移学习方法，其特征在于：

步骤1：根据目标领域短文本中提取的标签，通过搜索引擎获得源领域数据，提取源领域的种子特征集；

步骤2：根据目标领域短文本的标签集和源领域的种子特征集，构建社交媒体无向图，从无向图中提取包含所有目标领域标签集和种子特征集节点的子图；

步骤3：基于拉普拉斯特征映射算法，获得源领域数据新的特征表示；

步骤:4：根据源领域数据新的特征表示，对源领域数据进行分类。

优选地，步骤3中，通过如下步骤获得源领域新的种子特征表示：

步骤3.1:构造邻近图；

对于未标记数据采用无监督学习的距离度量，采用欧式距离计算；对于带分类标签数据的采用监督学习的距离度量,通过如下公式计算获得：

D (x_{i}, x_{j}) = \{\begin{matrix} \sqrt{1 - \exp ({- d}^{2} (x_{i}, x_{j}) / β)} (c_{i} = c_{j}) \\ \sqrt{\exp (d^{2} (x_{i}, x_{j}) / β)} (c_{i} &NotEqual; c_{j}) \end{matrix}

式中：c_i、c_j是目标数据类别C的子类,分别表示样本x_i、x_j的类别，d(x_i,x_j)表示x_i、x_j的欧氏距离，β为参数。

如果样本点x_i、x_j之间的距离小于特征项阈值ε，则为近邻点；

步骤3.2:计算权值矩阵W；

若x_i、x_j为近邻点，两点之间的权值W_ij=1，否则为0。

步骤3.3：计算拉普拉斯算子的广义特征向量，求得低维嵌入；

\{\begin{matrix} \arg \min tr (Y^{T} LY) \\ {s . t . Y}^{T} DY = I \end{matrix}

式中，D为对角矩阵，

L=D-W，I为单位矩阵；

通过上式求得矩阵Y，将邻近图中节点映射到一个低维空间y中，得到源领域数据新的特征表示。

优选地，步骤1中，通过如下步骤获得源领域的种子特征集：

步骤1.1:将目标领域短文本中提取的标签作为关键词输入到搜索引擎中，提取网页文本作为与目标领域短文本语义相关的源领域数据；

步骤1.2:构造单词文本矩阵：M=[a_ij]_m×n，其中a_ij取值为第i个单词在第j个文本中出现次数的对数;

步骤1.3:通过奇异值分解方法，把单词和文本从高维空间降至低维潜在语义空间，得到一个新的矩阵

步骤1.4:在矩阵中，第i行第j列上的权重代表该行单词与该列文本的相关度，设置一个种子特征阈值λ，当源领域中长文本的关键词与目标领域短文本的相关度大于λ，则将该单词作为源领域数据的种子特征。

优选地，步骤4中，根据如下公式对源领域数据进行分类：

{\min I}_{j} (y_{i}, c_{j}) = \min \underset{y_{i} &Element; Y}{Σ} \underset{c_{j} &Element; C}{Σ} p (y_{i}, c_{j}) \frac{p (y_{i}, c_{j})}{p (y_{i}) p (c_{j})}

式中y_i代表数据新的特征表示，c_j代表第j类标签。p(y_i,c_j)为y_i、c_j共同出现的概率，p(y_i)为y_i在新的特征空间中出现概率；p(c_j)为c_j在类别C中出现的概率。

本发明具有的有益效果：

本发明为一种FSFP（Free Source selection Free Priori probability distribution）——无需提供源领域数据、无需知道数据的先验概率分布的长文本到短文本的迁移学习方法，减小了由于主观因素对迁移学习效果的影响，并且根据语义及文本之间的数据结构来提取的特征项质量较高，从而能有效地提高目标分类器的分类精度；本发明以在线信息为辅助数据，其有数据丰富、全面、易得等优点；本发明中的算法可扩展性较强，当目标领域数据或任务改变时仍可使用本发明算法完成目标任务。

本发明可以应用到网络短文本分类当中，如对淘宝等购物网站的售后评价、在线广告、微博等数据进行分类；本发明可以应用到推荐系统中，根据用户浏览商品信息，结合网站售后评价分类，对用户的喜好、兴趣做出预测，从而对用户推荐相应好评或促销商品等；本发明可以应用到短文本聚类中，因为短文本关键词少，有时不能将文本内容完整地、准确的表达出来，此时可以使用本发明中所提算法从长文本领域迁移部分有用特征项到短文本领域，帮助其完成聚类任务。

附图说明

图1为本发明长文本到短文本的迁移学习方法的流程图。

具体实施方式

由于目标领域数据简短，只能提供少量的标签，所以本发明首先要做的就是扩充目标文本的标签集，称之为种子特征集。

步骤1：根据目标领域短文本中提取的标签，通过搜索引擎获得源领域数据，提取源领域的种子特征集，具体包括以下步骤：

步骤1.1:本发明并不需要提前准备源领域数据，而是充分利用网络在线信息，将目标领域中提取的标签作为关键词输入到某搜索引擎中，提取前几页网页文本作为与目标领域语义相关的源领域数据集。

步骤1.2:构造单词—文本矩阵：M=[a_ij]_m×n，其中a_ij取值为第i个单词在第j个文本中出现次数的对数。由于每个单词只会出现在少量文本中，故M通常为高阶稀疏矩阵。

步骤1.3:应用奇异值分解(SVD)技术，把单词和文本从高维空间降到了低维潜在语义空间，最后得到一个新的矩阵

步骤1.4:在矩阵

中，第i行第j列上的权重代表该行单词与该列文本的相关度，设置一个种子特征阈值λ，当源领域中长文本的关键词与目标领域短文本的相关度大于λ，则将该单词作为源领域数据的种子特征。

步骤2：根据目标领域短文本的标签集和源领域的种子特征集，构建社交媒体无向图，从无向图中提取包含所有目标领域标签集和种子特征集节点的子图。

社交媒体可以被视为一个标签云，共同出现的标签携带有丰富的信息。本发明以社交媒体为辅助工具，搭建源领域标签与目标领域标签之间的桥梁。首先把每个标签视为一个节点，共同出现的标签连线，这样社交媒体中的所有标签可以用无向图表示。然后从无向图中提取包含所有目标领域标签集和种子特征集节点的子图，这样就可以建立起源领域标签到目标领域标签之间的桥梁。

步骤3：基于拉普拉斯特征映射算法，获得源领域数据新的特征表示。

改进拉普拉斯特征映射算法，充分考虑样本的类别信息，对类内和类外节点距离使用不同方法计算权重，将子图中所有节点映射到一个低维空间，获得源领域数据新的特征表示，具体包括以下步骤：

步骤3.1:构造邻近图；

对于未标记数据采用无监督学习的距离度量。因为数据之间都没有类别标号，所以直接采用欧式距离计算；对于带分类标签数据的采用监督学习的距离度量。方法如下：

D (x_{i}, x_{j}) = \{\begin{matrix} \sqrt{1 - \exp ({- d}^{2} (x_{i}, x_{j}) / β)} (c_{i} = c_{j}) \\ \sqrt{\exp (d^{2} (x_{i}, x_{j}) / β)} (c_{i} &NotEqual; c_{j}) \end{matrix} - - - (1)

式中：c_i、c_j是目标数据类别C的子类,分别表示样本x_i、x_j的类别，d(x_i,x_j)表示x_i、x_j的欧氏距离，参数β防止d(x_i,x_j)取值较大时，D(x_i,x_j)增长过快，从而能有效地实现对噪声的抑制，本发明中β=2。

如果样本点x_i、x_j之间的距离小于特征项阈值ε，则为近邻点。

步骤3.2:计算权值矩阵W；

若x_i、x_j为近邻点，两点之间的权值W_ij=1，否则为0。

步骤3.3：计算拉普拉斯算子的广义特征向量，求得低维嵌入，该问题即为求解：

\{\begin{matrix} \min \underset{i, j}{Σ} | | Y_{i} - Y_{j} | | w_{ij} \\ {s . t . Y}^{T} DY = I \end{matrix} - - - (2)

式中，I为单位矩阵，D为对角矩阵，

式（2）可转化为：

\{\begin{matrix} \arg \min tr (Y^{T} LY) \\ {s . t . Y}^{T} DY = I \end{matrix} - - - (3)

其中，L=D-W。

通过改进的拉普拉斯特征映射算法求的矩阵Y，可以将邻近图中节点映射到一个低维空间y中，这样就可以得到每个数据新的特征表示。

本发明借助互信息概念，数据新的特征表示与分类标签之间的互信息越小代表该数据与该类的相关度越大，那么该数据属于该类的可能性就越大，所以目标函数为：

{\min I}_{j} (y_{i}, c_{j}) = \min \underset{y_{i} &Element; Y}{Σ} \underset{c_{j} &Element; C}{Σ} p (y_{i}, c_{j}) \frac{p (y_{i}, c_{j})}{p (y_{i}) p (c_{j})} - - - (4)

式中y_i代表数据新的特征表示，c_j代表第j类标签。p(y_i,c_j)为y_i、c_j共同出现的概率，p(y_i)为y_i在新的特征特征空间中出现概率，具体实施时取值为

p(c_j)为c_j在类别C中出现的概率，具体实施时取值为

下面结合具体实验，进一步对本发明方法进行说明。为了使实验结果更具真实性，本发明采用从网络中抓取的实际数据作为本实验的数据集。从C2C（cousumer to consumer）购物网站随机抓取30个网页，共包含9753个在线广告；从新浪网站随机抓取了50个网页，共包含2404条微博；随机抓取3518条QQ信息；在淘宝购物网站比较全面的选取了5854条商品评论。将这些短文本信息混合作为本实验的目标领域数据，其中带分类标签的数据只占总数据的5%。

首先定义一下本发明中出现的符号所代表的含义。给定目标领域数据集T=Tⁱ∪T^u，其中Tⁱ={(x_i,y_i)|i=1,2,...,m}为带有分类标签的数据，x_i为目标领域数据实例，y_j为类别特征表示，总类别数为|C|。T^u={x_j|j=m+1,m+2,...,m+n}为未标记数据，m和n为样本数量，m<<n；近邻值k、种子特征阈值λ、参数β、特征项阈值ε。

具体步骤如下：

1.初始化k、λ、β、ε。

2.提取目标领域标签，将其作为关键词输入到某搜索引擎，提取前10页网页信息作为与目标领域数据关联度比较大的数据。

3.根据潜在语义分析方法及k、λ值，从网页信息中筛选种子特征集。

4.构建社交媒体无向图，搭建标签间桥梁。

5.根据种子特征集，从社交媒体无向图中提取包含所有种子特征集的子图。

6.根据上述公式（1）、（3）及β、ε值，筛选目标领域数据特征表示。

7.根据上述公式（4）对目标领域数据进行分类。

实验证明，当目标领域只有少量标记的短文本时，本发明方法可在不给出特定源领域数据、不知道数据先验概率分布的情况下，利用在线信息完成对目标领域数据精确数据分类。

Claims

1.一种长文本到短文本的迁移学习方法，其特征在于：

2.根据权利要求1所述的长文本到短文本的迁移学习方法，其特征在于：步骤3中，通过如下步骤获得源领域新的种子特征表示：

步骤3.1:构造邻近图；

D (x_{i}, x_{j}) = \{\begin{matrix} \sqrt{1 - \exp ({- d}^{2} (x_{i}, x_{j}) / β)} (c_{i} = c_{j}) \\ \sqrt{\exp (d^{2} (x_{i}, x_{j}) / β)} (c_{i} &NotEqual; c_{j}) \end{matrix}

步骤3.2:计算权值矩阵W；

若x_i、x_j为近邻点，两点之间的权值W_ij=1，否则为0。

\{\begin{matrix} \arg \min tr (Y^{T} LY) \\ {s . t . Y}^{T} DY = I \end{matrix}

式中，D为对角矩阵，

L=D-W，I为单位矩阵；

3.根据权利要求2所述的长文本到短文本的迁移学习方法，其特征在于：步骤1中，通过如下步骤获得源领域的种子特征集：

步骤1.2:构造单词文本矩阵：M=[a_ij]_m×n，其中a_ij取值为第i个单词在第j个文本中出现次数的对数；

步骤1.4:在矩阵

4.根据权利要求3所述的长文本到短文本的迁移学习方法，其特征在于：步骤4中，根据如下公式对源领域数据进行分类：

{\min I}_{j} (y_{i}, c_{j}) = \min \underset{y_{i} &Element; Y}{Σ} \underset{c_{j} &Element; C}{Σ} p (y_{i}, c_{j}) \frac{p (y_{i}, c_{j})}{p (y_{i}) p (c_{j})}