CN103176961A - 一种基于潜在语义分析的迁移学习方法 - Google Patents
一种基于潜在语义分析的迁移学习方法 Download PDFInfo
- Publication number
- CN103176961A CN103176961A CN2013100695608A CN201310069560A CN103176961A CN 103176961 A CN103176961 A CN 103176961A CN 2013100695608 A CN2013100695608 A CN 2013100695608A CN 201310069560 A CN201310069560 A CN 201310069560A CN 103176961 A CN103176961 A CN 103176961A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- matrix
- text
- target domain
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明的目的在于提供一种基于潜在语义分析的迁移学习方法,包括以下步骤:对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M,对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,去除源领域中同义词噪音影响,调整矩阵M结构,从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整,分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。
Description
技术领域
本发明涉及的是一种机器学习方法。
背景技术
随着互联网的发展,有越来越多的信息以文本的方式存储在网络上,成为人们获取信息的来源。面对巨大的文本库,人们急需一种高效的技术手段来对文本库中的数据进行整理分类。机器学习通过研究计算机如何模拟人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构达到不断改善自身的性能的目的。但是机器学习有一个很重要的假设前提,就是训练数据和测试数据必须服从相同的分布。这给实际应用带来了很大的麻烦。当出现一个新的领域时,样本空间的数据往往较少、特征稀疏,此时再利用传统的机器学习对数据分类就会产生较大泛化误差。而迁移学习放松了对训练数据和测试数据同分布假设的要求,是一种跨领域、跨任务的学习方法。迁移学习具有识别和应用先前领域、任务中学习到的知识和技巧到新的领域、任务中的能力。如先学会骑自行车,再学骑摩托车就比较容易;学会C语言,再学习Java语言也变得相对容易。
目前有一些对迁移学习方法的研究,大多只是从词汇表层对数据进行分析并没有考虑到源领域与目标领域之间的语义相关性问题,一些“噪音”因素很可能会影响迁移学习的效果。此外一些迁移学习方法或者对训练数据要求独立性假设,或者预先知道数据先验概率,这都不符合实际。
发明内容
本发明的目的在于提供无需对训练数据进行独立性假设、无需预先知道数据先验概率分布,自动地捕捉文本中深层的语义关系的一种基于潜在语义分析的迁移学习方法。
本发明的目的是这样实现的:
本发明一种基于潜在语义分析的迁移学习方法,其特征是:
(1)对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M;
(2)对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间:
矩阵M可表示为:
M=UΣVT
U、V是正交阵(UUT=VVT=I),Σ=diag(a1,a2,...,ak,...,av)是对角阵,(a1,a2,...,av为M的奇异值),潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零,
(3)去除源领域中同义词噪音影响,调整矩阵M结构:
计算词汇与词汇之间的相似度,即对矩阵做正向乘法:
所求得的结果中,第i行第j列表明了词汇i与词汇j之间的相似程度,设定阈值θ1,从源领域中找出与目标领域词汇相似度大于θ1的词汇,记为目标领域词汇的同义词汇,将源领域该词汇用目标领域词汇替换,调整矩阵M结构;
从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整:
在M矩阵中,第i行第j列上的权重即代表该行词汇与该列文本的关联度,设置阈值θ2,从在源领域词汇中,筛选出与目标领域文本相关度大于θ2的词汇作为目标领域的迁移词,将该词汇放到描述目标领域数据的词汇行中,调整矩阵结构;
(4)分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。
本发明还可以包括:
1、所述的词汇-文本矩阵M的获得方法为:
词汇权重W(i,j)的计算方法包括文本贡献权重LW(i,j)和类标签贡献权重GET(i)两部分,将两个权重相乘,得到最终词汇权重:
取词汇频率的对数定义文本贡献权重:
LW(i,j)=log(Tf(i,j)+1)
其中Tf(i,j)代表词汇i在文本j中出现的频率;
借助熵的概念来表示词汇的类标签贡献权重,熵(H(X))是对信源X不确定的度量,条件熵H(X|Y)表示在Y发生的情况下X的熵,即当Y确定时,对X的不确定程度,H(X)-H(X|Y)即为当Y发生时,对X的确程度,由此定义类标签贡献权重可表示为:
其中K代表类标签k={1,2,...,m}集合,i代表第i个词汇,Cf(k,i)代表在类别k中,i词汇出现的次数,Gf(k)所有词汇出现次数的总和;
分别计算源领域与目标领域词汇的类标签贡献权重:
其中n为训练数据中源领域数据数量是目标领域数据数目的倍数值;
由此得到训练数据的词汇—文本矩阵M,其中M的值m(i,j)即为W(i,j):
W(i,j)=LW(i,j)×GET(i)。
本发明的优势在于:
1.本发明中词汇的权重是根据其对文本和类标签的贡献度计算而得,并没有对文本所属类标签的条件概率及先验概率进行假设。
2.对于没有在目标文本中出现的源领域词汇,也可以根据本发明中的算法挖掘其深层语义,计算词汇与目标文本的关联度,可实现跨度较大的迁移学习。
3.对词汇和文本的处理都是在低维空间中计算的,所以在一定程度上提高了算法的时间效率。另外当训练数据不断增多,算法的时间复杂度与空间复杂度并不会明显增加。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图举例对本发明做更详细地描述:
结合图1,本发明包括以下步骤:
(1)对训练数据做去停用词、词干化等处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵。
词汇权重(用W(i,j)表示)的计算方法包括文本贡献权重(用LW(i,j)表示)和类标签贡献权重(用GET(i)表示)两部分。最后将两个权重相乘,得到最终词汇权重。
文本贡献权重它强调某一词汇在某一文本中的重要性。为了有效消减高频词汇对潜在语义分析产生的影响,可以取词汇频率的对数定义文本贡献权重:
LW(i,j)=log(Tf(i,j)+1) (1)
其中Tf(i,j)代表词汇i在文本j中出现的频率。
类标签贡献权重,,它体现了某一词汇对分类标签的贡献度,在一定程度上代表了某一词汇在区分和分辨类标签时所扮演角色的重要程度。此处借助熵的概念来表示词汇的类标签贡献权重。在信息论中,熵(H(X))是对信源X不确定的度量。条件熵H(X|Y)表示在Y发生的情况下X的熵,即当Y确定时,对X的不确定程度。H(X)-H(X|Y)即为当Y发生时,对X的确程度。由此定义类标签贡献权重可表示为:
其中K代表类标签k={1,2,...,m}集合,i代表第i个词汇。Cf(k,i)代表在类别k中,i词汇出现的次数,Gf(k)所有词汇出现次数的总和。由此可知当词汇i确定时,对类标签的确定程度,即可得到词汇i对类标签的贡献程度。
虽然训练数据中源领域数据的数量远远大于目标领域数据,但对于目标分类器而言,目标领域数据是对其最有用的。虽然目标领域词汇少,但对目标分类器的贡献却大。按公式(2)得到矩阵的元素中,由于源领域数据是大量的,可能大部分源领域的元素值会大于目标领域的元素值。为了使结果更接近实际,本发明分别计算源领域与目标领域词汇的类标签贡献权重。
其中n为训练数据中源领域数据数量是目标领域数据数目的倍数值。
求得两部分权重,由此可获得矩阵各元素的权重,即可得到训练数据的词汇—文本的矩阵表示,记为M,其中M的值m(i,j)即为W(i,j)。
W(i,j)=LW(i,j)×GET(i) (4)
(2)对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,建立联系源领域与目标领域之间的桥梁。
任何一个矩阵可以表示成3个矩阵乘积的形式。所以矩阵M可表示为:
M=UΣVT (5)
在公式(5)当中,U、V是正交阵(UUT=VVT=I)。Σ=diag(a1,a2,...,ak,...,av)(a1,a2,...,av为M的奇异值)是对角阵。潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零。
(3)去除源领域中同义词“噪音”影响,调整矩阵M结构;从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整。
计算词汇与词汇之间的相似度,即对矩阵做“正向”乘法:
所求得的结果中,第i行第j列表明了词汇i与词汇j之间的相似程度。设定一个阈值θ1,从源领域中找出与目标领域词汇相似度大于θ1的词汇,记为目标领域词汇的同义词汇。将源领域该词汇用目标领域词汇替换,调整矩阵M结构。
在M矩阵中,第i行第j列上的权重即代表该行词汇与该列文本的关联度。从源领域中查找有用词汇,即与目标文本关联度较大的词汇。在M矩阵中,第i行第j列上的权重即代表该行词汇与该列文本的关联度。设置一个阈值θ2,从在源领域词汇中,筛选出与目标领域文本相关度大于θ2的词汇作为目标领域的迁移词。将该词汇放到描述目标领域数据的词汇行中,调整矩阵结构。
(4)分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,利用传统分类器,在训数据集中得到一个最终分类器,对测试数据集S进行分类。
本发明所提出的学习方法具体实现步骤如下:
首先定义一下本发明中出现的符号所代表的含义。源领域训练数据集 其中为源领域数据,为的标签。 其中为目标领域数据,为的标签。Ta的数量远远大于Tb。目标领域未标记的测试数据集训练数据的词汇-文本矩阵表示为M。同义词阈值θ1,迁移词阈值θ2。
2.根据公式(5)(6),对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间,建立联系Ta与Tb之间的桥梁。
3.根据公式(7)及阈值θ1去除”噪音”,从Ta中找出Tb中词汇的同义词,调整矩阵M结构;根据调整后的矩阵M及阈值θ2,从Ta中找出迁移词,再对矩阵M结构进行调整。
4.分析调整后的矩阵M,得到目标领域数据新的特征表示,利用传统分类器,在训练数据集中得到一个最终分类器,对测试数据集S进行分类。
本发明的应用:
1.本发明可以应用到网络文本分类当中。互联网络信息更新十分迅速,当出现新的领域时,不必再像以前对新领域数据进行人工标记、分类,可以使用本发明中方法迁移其他领域中的方法、技巧到新的领域中,帮助其分析、整理数据,最终完成分类任务。
2.本发明可以应用到推荐系统中。根据用户上网浏览的一些信息,可以使用本发明中的方法对这些信息进行分析、判断用户喜好、预测用户需求,并从其它领域中寻找与其类似的信息推荐给用户,为用户提供一定帮助。
3.本发明可以应用到聚类中。当某一领域数据(称为目标领域)特别少,特征稀疏,不足以完成聚类任务,可以使用本发明从其他相关领域中迁移对目标领域有用信息,丰富目标领域特征,帮助其完成聚类任务。
4.本发明可以应用在垃圾邮件过滤中。垃圾邮件过滤其实也是一个二分类问题,即把邮件分类正常邮件和垃圾邮件。当过滤模型过期时,可以使用本发明从旧的过滤模型中,迁移有用信息帮助形成新的过滤器,高速、高效地完成过滤任务。
Claims (2)
1.一种基于潜在语义分析的迁移学习方法,其特征是:
(1)对训练数据做去停用词、词干化处理,分别计算源领域与目标领域词汇权重,得到词汇-文本矩阵M;
(2)对矩阵M进行奇异值分解,将M中词汇与文本映射到低维潜在语义空间:
矩阵M可表示为:
M=UΣVT
U、V是正交阵(UUT=VVT=I),Σ=diag(a1,a2,...,ak,...,av)是对角阵,(a1,a2,...,av为M的奇异值),潜在语义分析只取前k个最大的奇异值,而将剩余的值设为零,
(3)去除源领域中同义词噪音影响,调整矩阵M结构:
计算词汇与词汇之间的相似度,即对矩阵做正向乘法:
所求得的结果中,第i行第j列表明了词汇i与词汇j之间的相似程度,设定阈值θ1,从源领域中找出与目标领域词汇相似度大于θ1的词汇,记为目标领域词汇的同义词汇,将源领域该词汇用目标领域词汇替换,调整矩阵M结构;
从源领域中找出与目标领域文本关联度较大的词汇作为迁移词,再对矩阵M结构进行调整:
在M矩阵中,第i行第j列上的权重即代表该行词汇与该列文本的关联度,设置阈值θ2,从在源领域词汇中,筛选出与目标领域文本相关度大于θ2的词汇作为目标领域的迁移词,将该词汇放到描述目标领域数据的词汇行中,调整矩阵结构;
(4)分析调整后的矩阵M中目标领域词汇,得到目标领域数据新的特征表示,在训数据集中得到最终分类器,对测试数据集S进行分类。
2.根据权利要求1所述的一种基于潜在语义分析的迁移学习方法,其特征是:所述的词汇-文本矩阵M的获得方法为:
词汇权重W(i,j)的计算方法包括文本贡献权重LW(i,j)和类标签贡献权重GET(i)两部分,将两个权重相乘,得到最终词汇权重:
取词汇频率的对数定义文本贡献权重:
LW(i,j)=log(Tf(i,j)+1)
其中Tf(i,j)代表词汇i在文本j中出现的频率;
借助熵的概念来表示词汇的类标签贡献权重,熵(H(X))是对信源X不确定的度量,条件熵H(X|Y)表示在Y发生的情况下X的熵,即当Y确定时,对X的不确定程度,H(X)-H(X|Y)即为当Y发生时,对X的确程度,由此定义类标签贡献权重可表示为:
其中K代表类标签k={1,2,...,m}集合,i代表第i个词汇,Cf(k,i)代表在类别k中,i词汇出现的次数,Gf(k)所有词汇出现次数的总和;
分别计算源领域与目标领域词汇的类标签贡献权重:
其中n为训练数据中源领域数据数量是目标领域数据数目的倍数值;
由此得到训练数据的词汇—文本矩阵M,其中M的值m(i,j)即为W(i,j):
W(i,j)=LW(i,j)×GET(i)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310069560.8A CN103176961B (zh) | 2013-03-05 | 2013-03-05 | 一种基于潜在语义分析的迁移学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310069560.8A CN103176961B (zh) | 2013-03-05 | 2013-03-05 | 一种基于潜在语义分析的迁移学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103176961A true CN103176961A (zh) | 2013-06-26 |
CN103176961B CN103176961B (zh) | 2017-02-08 |
Family
ID=48636847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310069560.8A Active CN103176961B (zh) | 2013-03-05 | 2013-03-05 | 一种基于潜在语义分析的迁移学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103176961B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761532A (zh) * | 2014-01-20 | 2014-04-30 | 清华大学 | 基于特征相关隐式编码的标签空间降维方法及系统 |
CN104281690A (zh) * | 2014-10-11 | 2015-01-14 | 时之我代信息科技(上海)有限公司 | 一种标签云生成方法及装置 |
CN107533574A (zh) * | 2015-09-03 | 2018-01-02 | 华为技术有限公司 | 基于随机索引模式匹配的电子邮件关系查找器系统 |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
CN108090520A (zh) * | 2018-01-08 | 2018-05-29 | 北京中关村科金技术有限公司 | 意图识别模型的训练方法、系统、装置及可读存储介质 |
WO2018196760A1 (en) * | 2017-04-27 | 2018-11-01 | Huawei Technologies Co., Ltd. | Ensemble transfer learning |
US10789538B2 (en) | 2016-06-23 | 2020-09-29 | International Business Machines Corporation | Cognitive machine learning classifier generation |
US10789546B2 (en) | 2016-06-23 | 2020-09-29 | International Business Machines Corporation | Cognitive machine learning classifier generation |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315663A (zh) * | 2008-06-25 | 2008-12-03 | 中国人民解放军国防科学技术大学 | 一种基于区域潜在语义特征的自然场景图像分类方法 |
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
-
2013
- 2013-03-05 CN CN201310069560.8A patent/CN103176961B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315663A (zh) * | 2008-06-25 | 2008-12-03 | 中国人民解放军国防科学技术大学 | 一种基于区域潜在语义特征的自然场景图像分类方法 |
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
Non-Patent Citations (5)
Title |
---|
THOMAS HOFMANN: "Unsupervised Learning by Probabilistic Latent Semantic Analysis", 《2001 KLUWER ACADEMIC PUBLISHERS》 * |
于重重,田蕊,谭励,涂序彦: "非平衡样本分类的集成迁移学习算法", 《电子学报》 * |
洪佳明,印鉴,黄云,刘玉葆,王甲海: "TrSVM:一种基于领域相似性的迁移学习算法", 《计算机研究与发展》 * |
田宏,李运红: "改进概念相似度的本体迁移学习", 《大连交通大学学报》 * |
翟琳琳: "基于潜在语义分析的智能检索系统", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761532A (zh) * | 2014-01-20 | 2014-04-30 | 清华大学 | 基于特征相关隐式编码的标签空间降维方法及系统 |
CN104281690A (zh) * | 2014-10-11 | 2015-01-14 | 时之我代信息科技(上海)有限公司 | 一种标签云生成方法及装置 |
CN104281690B (zh) * | 2014-10-11 | 2018-01-05 | 时之我代信息科技(上海)有限公司 | 一种标签云生成方法及装置 |
CN107533574A (zh) * | 2015-09-03 | 2018-01-02 | 华为技术有限公司 | 基于随机索引模式匹配的电子邮件关系查找器系统 |
US10936638B2 (en) | 2015-09-03 | 2021-03-02 | Huawei Technologies Co., Ltd. | Random index pattern matching based email relations finder system |
US10789538B2 (en) | 2016-06-23 | 2020-09-29 | International Business Machines Corporation | Cognitive machine learning classifier generation |
US10789546B2 (en) | 2016-06-23 | 2020-09-29 | International Business Machines Corporation | Cognitive machine learning classifier generation |
WO2018196760A1 (en) * | 2017-04-27 | 2018-11-01 | Huawei Technologies Co., Ltd. | Ensemble transfer learning |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
CN108090520A (zh) * | 2018-01-08 | 2018-05-29 | 北京中关村科金技术有限公司 | 意图识别模型的训练方法、系统、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103176961B (zh) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103176961A (zh) | 一种基于潜在语义分析的迁移学习方法 | |
Zhang et al. | Learning structured representation for text classification via reinforcement learning | |
Bhatia et al. | Better document-level sentiment analysis from rst discourse parsing | |
Nawangsari et al. | Word2vec for Indonesian sentiment analysis towards hotel reviews: An evaluation study | |
Nobata et al. | Abusive language detection in online user content | |
Peddinti et al. | Domain adaptation in sentiment analysis of twitter | |
Nagamma et al. | An improved sentiment analysis of online movie reviews based on clustering for box-office prediction | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN106055673A (zh) | 一种基于文本特征嵌入的中文短文本情感分类方法 | |
Wang et al. | Chinese text sentiment analysis using LSTM network based on L2 and Nadam | |
CN106202042A (zh) | 一种基于图的关键词抽取方法 | |
CN104142995B (zh) | 基于视觉属性的社会事件识别方法 | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
CN106033462A (zh) | 一种新词发现方法及系统 | |
CN106294863A (zh) | 一种针对海量文本快速理解的文摘方法 | |
CN103473317A (zh) | 提取关键词的方法和设备 | |
CN106919557A (zh) | 一种结合主题模型的文档向量生成方法 | |
CN105183715B (zh) | 一种基于词分布和文档特征的垃圾评论自动分类方法 | |
CN103309862A (zh) | 一种网页类型识别方法和系统 | |
CN108733675B (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |