CN103176961B

CN103176961B - 一种基于潜在语义分析的迁移学习方法

Info

Publication number: CN103176961B
Application number: CN201310069560.8A
Authority: CN
Inventors: 初妍; 陈曼; 夏琳琳; 沈洁; 张健沛; 杨静; 王勇; 高迪; 王兴梅; 李丽洁
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2017-02-08
Anticipated expiration: 2033-03-05
Also published as: CN103176961A

Abstract

本发明的目的在于提供一种基于潜在语义分析的迁移学习方法，包括以下步骤：对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇‑文本矩阵M，对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间，去除源领域中同义词噪音影响，调整矩阵M结构，从源领域中找出与目标领域文本关联度较大的词汇作为迁移词，再对矩阵M结构进行调整，分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，在训数据集中得到最终分类器，对测试数据集S进行分类。

Description

一种基于潜在语义分析的迁移学习方法

技术领域

本发明涉及的是一种机器学习方法。

背景技术

随着互联网的发展，有越来越多的信息以文本的方式存储在网络上，成为人们获取信息的来源。面对巨大的文本库，人们急需一种高效的技术手段来对文本库中的数据进行整理分类。机器学习通过研究计算机如何模拟人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构达到不断改善自身的性能的目的。但是机器学习有一个很重要的假设前提，就是训练数据和测试数据必须服从相同的分布。这给实际应用带来了很大的麻烦。当出现一个新的领域时，样本空间的数据往往较少、特征稀疏，此时再利用传统的机器学习对数据分类就会产生较大泛化误差。而迁移学习放松了对训练数据和测试数据同分布假设的要求，是一种跨领域、跨任务的学习方法。迁移学习具有识别和应用先前领域、任务中学习到的知识和技巧到新的领域、任务中的能力。如先学会骑自行车，再学骑摩托车就比较容易；学会C语言，再学习Java语言也变得相对容易。

目前有一些对迁移学习方法的研究，大多只是从词汇表层对数据进行分析并没有考虑到源领域与目标领域之间的语义相关性问题，一些“噪音”因素很可能会影响迁移学习的效果。此外一些迁移学习方法或者对训练数据要求独立性假设，或者预先知道数据先验概率，这都不符合实际。

发明内容

本发明的目的在于提供无需对训练数据进行独立性假设、无需预先知道数据先验概率分布，自动地捕捉文本中深层的语义关系的一种基于潜在语义分析的迁移学习方法。

本发明的目的是这样实现的：

本发明一种基于潜在语义分析的迁移学习方法，其特征是：

（1）对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇-文本矩阵M；

（2）对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间：

矩阵M可表示为：

M＝UΣV^T

U、V是正交阵（UU^T＝VV^T＝I），Σ＝diag(a₁,a₂,...,a_k,...,a_v)是对角阵，(a₁,a₂,...,a_v为M的奇异值)，潜在语义分析只取前k个最大的奇异值，而将剩余的值设为零，

\tilde{M} = U \tilde{Σ} V^{T} \approx UΣ V^{T} = M;

（3）去除源领域中同义词噪音影响，调整矩阵M结构：

计算词汇与词汇之间的相似度，即对矩阵做正向乘法：

\tilde{M} {\tilde{M}}^{T} = (U \tilde{Σ} V^{T}) {(U \tilde{Σ} V^{T})}^{T}

所求得的结果中，第i行第j列表明了词汇i与词汇j之间的相似程度，设定阈值θ₁，从源领域中找出与目标领域词汇相似度大于θ₁的词汇，记为目标领域词汇的同义词汇，将源领域该词汇用目标领域词汇替换，调整矩阵M结构；

从源领域中找出与目标领域文本关联度较大的词汇作为迁移词，再对矩阵M结构进行调整：

在M矩阵中，第i行第j列上的权重即代表该行词汇与该列文本的关联度，设置阈值θ₂，从在源领域词汇中，筛选出与目标领域文本相关度大于θ₂的词汇作为目标领域的迁移词，将该词汇放到描述目标领域数据的词汇行中，调整矩阵结构；

（4）分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，在训数据集中得到最终分类器，对测试数据集S进行分类。

本发明还可以包括：

1、所述的词汇-文本矩阵M的获得方法为：

词汇权重W(i,j)的计算方法包括文本贡献权重LW(i,j)和类标签贡献权重GET(i)两部分，将两个权重相乘，得到最终词汇权重：

取词汇频率的对数定义文本贡献权重：

LW(i,j)＝log(Tf(i,j)+1)

其中Tf(i,j)代表词汇i在文本j中出现的频率；

借助熵的概念来表示词汇的类标签贡献权重，熵(H(X))是对信源X不确定的度量，条件熵H(X|Y)表示在Y发生的情况下X的熵，即当Y确定时，对X的不确定程度，H(X)-H(X|Y)即为当Y发生时，对X的确程度，由此定义类标签贡献权重可表示为：

CET (i) = H (K) - H (K | i)

= - Σ_{k = 1}^{k = m} p (k) \log p (k) + Σ_{k = 1}^{k = m} p (k, i) \log (k, i)

= \log m + Σ_{k = 1}^{k = m} \frac{Cf (k, i)}{Gf (k)} \log \frac{Cf (k, i)}{Gf (k)}

其中K代表类标签k＝{1,2,...,m}集合，i代表第i个词汇，Cf(k,i)代表在类别k中，i词汇出现的次数，Gf(k)所有词汇出现次数的总和；

分别计算源领域与目标领域词汇的类标签贡献权重：

其中n为训练数据中源领域数据数量是目标领域数据数目的倍数值；

由此得到训练数据的词汇—文本矩阵M，其中M的值m（i，j）即为W（i，j）：

W(i,j)＝LW(i,j)×GET(i)。

本发明的优势在于：

1.本发明中词汇的权重是根据其对文本和类标签的贡献度计算而得，并没有对文本所属类标签的条件概率及先验概率进行假设。

2.对于没有在目标文本中出现的源领域词汇，也可以根据本发明中的算法挖掘其深层语义，计算词汇与目标文本的关联度，可实现跨度较大的迁移学习。

3.对词汇和文本的处理都是在低维空间中计算的，所以在一定程度上提高了算法的时间效率。另外当训练数据不断增多，算法的时间复杂度与空间复杂度并不会明显增加。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图举例对本发明做更详细地描述：

结合图1，本发明包括以下步骤：

（1）对训练数据做去停用词、词干化等处理，分别计算源领域与目标领域词汇权重，得到词汇-文本矩阵。

词汇权重（用W(i,j)表示）的计算方法包括文本贡献权重（用LW(i,j)表示）和类标签贡献权重（用GET(i)表示）两部分。最后将两个权重相乘，得到最终词汇权重。

文本贡献权重它强调某一词汇在某一文本中的重要性。为了有效消减高频词汇对潜在语义分析产生的影响，可以取词汇频率的对数定义文本贡献权重：

LW(i,j)＝log(Tf(i,j)+1) （1）

其中Tf(i,j)代表词汇i在文本j中出现的频率。

类标签贡献权重，，它体现了某一词汇对分类标签的贡献度，在一定程度上代表了某一词汇在区分和分辨类标签时所扮演角色的重要程度。此处借助熵的概念来表示词汇的类标签贡献权重。在信息论中，熵(H(X))是对信源X不确定的度量。条件熵H(X|Y)表示在Y发生的情况下X的熵，即当Y确定时，对X的不确定程度。H(X)-H(X|Y)即为当Y发生时，对X的确程度。由此定义类标签贡献权重可表示为：

CET (i) = H (K) - H (K | i)

= - Σ_{k = 1}^{k = m} p (k) \log p (k) + Σ_{k = 1}^{k = m} p (k, i) \log (k, i)

= \log m + Σ_{k = 1}^{k = m} \frac{Cf (k, i)}{Gf (k)} \log \frac{Cf (k, i)}{Gf (k)} - - - (2)

其中K代表类标签k＝{1,2,...,m}集合，i代表第i个词汇。Cf(k,i)代表在类别k中，i词汇出现的次数，Gf(k)所有词汇出现次数的总和。由此可知当词汇i确定时，对类标签的确定程度，即可得到词汇i对类标签的贡献程度。

虽然训练数据中源领域数据的数量远远大于目标领域数据，但对于目标分类器而言，目标领域数据是对其最有用的。虽然目标领域词汇少，但对目标分类器的贡献却大。按公式（2）得到矩阵的元素中，由于源领域数据是大量的，可能大部分源领域的元素值会大于目标领域的元素值。为了使结果更接近实际，本发明分别计算源领域与目标领域词汇的类标签贡献权重。

其中n为训练数据中源领域数据数量是目标领域数据数目的倍数值。

求得两部分权重，由此可获得矩阵各元素的权重，即可得到训练数据的词汇—文本的矩阵表示，记为M，其中M的值m（i，j）即为W（i，j）。

W(i,j)＝LW(i,j)×GET(i) （4）

（2）对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间，建立联系源领域与目标领域之间的桥梁。

任何一个矩阵可以表示成3个矩阵乘积的形式。所以矩阵M可表示为：

M＝UΣV^T （5）

在公式（5）当中，U、V是正交阵（UU^T＝VV^T＝I）。Σ＝diag(a₁,a₂,...,a_k,...,a_v)(a₁,a₂,...,a_v为M的奇异值)是对角阵。潜在语义分析只取前k个最大的奇异值，而将剩余的值设为零。

\tilde{M} = U \tilde{Σ} V^{T} \approx UΣ V^{T} = M - - - (6)

是M对的一种近似，这种近似保持了典型词汇与文本含义之间的内在联系。

（3）去除源领域中同义词“噪音”影响，调整矩阵M结构；从源领域中找出与目标领域文本关联度较大的词汇作为迁移词，再对矩阵M结构进行调整。

计算词汇与词汇之间的相似度，即对矩阵做“正向”乘法：

\tilde{M} {\tilde{M}}^{T} = (U \tilde{Σ} V^{T}) {(U \tilde{Σ} V^{T})}^{T} - - - (7)

所求得的结果中，第i行第j列表明了词汇i与词汇j之间的相似程度。设定一个阈值θ₁，从源领域中找出与目标领域词汇相似度大于θ₁的词汇，记为目标领域词汇的同义词汇。将源领域该词汇用目标领域词汇替换，调整矩阵M结构。

在M矩阵中，第i行第j列上的权重即代表该行词汇与该列文本的关联度。从源领域中查找有用词汇，即与目标文本关联度较大的词汇。在M矩阵中，第i行第j列上的权重即代表该行词汇与该列文本的关联度。设置一个阈值θ₂，从在源领域词汇中，筛选出与目标领域文本相关度大于θ₂的词汇作为目标领域的迁移词。将该词汇放到描述目标领域数据的词汇行中，调整矩阵结构。

（4）分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，利用传统分类器，在训数据集中得到一个最终分类器，对测试数据集S进行分类。

本发明所提出的学习方法具体实现步骤如下：

首先定义一下本发明中出现的符号所代表的含义。源领域训练数据集

Ta = {(x_{i}^{a}, c (x_{i}^{a}))},

其中为源领域数据，为的标签。

Tb = {(x_{i}^{b}, c (x_{i}^{b}))},

其中为目标领域数据，为的标签。Ta的数量远远大于Tb。目标领域未标记的测试数据集训练数据的词汇-文本矩阵表示为M。同义词阈值θ₁，迁移词阈值θ₂。

1.对训练数据T做去停用词、词干化等处理，根据公式（1）（3）（4），计算的权重，得到词汇-文本矩阵M。

2.根据公式（5)（6)，对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间，建立联系Ta与Tb之间的桥梁。

3.根据公式(7)及阈值θ₁去除”噪音”，从Ta中找出Tb中词汇的同义词，调整矩阵M结构；根据调整后的矩阵M及阈值θ₂，从Ta中找出迁移词，再对矩阵M结构进行调整。

4.分析调整后的矩阵M，得到目标领域数据新的特征表示，利用传统分类器，在训练数据集中得到一个最终分类器，对测试数据集S进行分类。

本发明的应用：

1.本发明可以应用到网络文本分类当中。互联网络信息更新十分迅速，当出现新的领域时，不必再像以前对新领域数据进行人工标记、分类，可以使用本发明中方法迁移其他领域中的方法、技巧到新的领域中，帮助其分析、整理数据，最终完成分类任务。

2.本发明可以应用到推荐系统中。根据用户上网浏览的一些信息，可以使用本发明中的方法对这些信息进行分析、判断用户喜好、预测用户需求，并从其它领域中寻找与其类似的信息推荐给用户，为用户提供一定帮助。

3.本发明可以应用到聚类中。当某一领域数据（称为目标领域）特别少，特征稀疏，不足以完成聚类任务，可以使用本发明从其他相关领域中迁移对目标领域有用信息，丰富目标领域特征，帮助其完成聚类任务。

4.本发明可以应用在垃圾邮件过滤中。垃圾邮件过滤其实也是一个二分类问题，即把邮件分类正常邮件和垃圾邮件。当过滤模型过期时，可以使用本发明从旧的过滤模型中，迁移有用信息帮助形成新的过滤器，高速、高效地完成过滤任务。

Claims

1.一种基于潜在语义分析的迁移学习方法，其特征是：

(1)对训练数据做去停用词、词干化处理，分别计算源领域与目标领域词汇权重，得到词汇-文本矩阵M；

(2)对矩阵M进行奇异值分解，将M中词汇与文本映射到低维潜在语义空间：

矩阵M可表示为：

M＝UΣV^T

U、V是正交阵，UU^T＝VV^T＝I，Σ＝diag(a₁,a₂,...,a_k,...,a_v)是对角阵，a₁,a₂,···,a_v为M的奇异值，潜在语义分析只取前k个最大的奇异值，而将剩余的值设为零，

\tilde{M} = U \tilde{Σ} V^{T} \approx U Σ V^{T} = M;

(3)去除源领域中同义词噪音影响，调整矩阵M结构：

计算词汇与词汇之间的相似度，即对矩阵做正向乘法：

\tilde{M} {\tilde{M}}^{T} = (U \tilde{Σ} V^{T}) {(U \tilde{Σ} V^{T})}^{T}

(4)分析调整后的矩阵M中目标领域词汇，得到目标领域数据新的特征表示，在训数据集中得到最终分类器，对测试数据集S进行分类；

所述的词汇-文本矩阵M的获得方法为：

取词汇频率的对数定义文本贡献权重：

LW(i,j)＝log(Tf(i,j)+1)

其中Tf(i,j)代表词汇i在文本j中出现的频率；

借助熵的概念来表示词汇的类标签贡献权重，熵(H(X))是对信源X不确定的度量，条件熵H(X|Y)表示在Y发生的情况下X的熵，即当Y确定时，对X的不确定程度，H(X)-H(X|Y)即为当Y发生时，对X的确定程度，由此定义类标签贡献权重可表示为：

\begin{matrix} G E T (i) H (K) - H (K | i) \\ = - Σ_{k = 1}^{k = m} p (k) \log p (k) + Σ_{k = 1}^{k = m} p (k, i) \log (k, i) \\ = \log m + Σ_{k = 1}^{k = m} \frac{C f (k, i)}{G f (k)} \log \frac{C f (k, i)}{G f (k)} \end{matrix}

分别计算源领域与目标领域词汇的类标签贡献权重：

由此得到训练数据的词汇—文本矩阵M，其中M的值m(i，j)即为W(i，j)：

W(i,j)＝LW(i,j)×GET(i)。