CN104850650A - 基于类标关系的短文本扩充方法 - Google Patents

基于类标关系的短文本扩充方法 Download PDF

Info

Publication number
CN104850650A
CN104850650A CN201510288434.0A CN201510288434A CN104850650A CN 104850650 A CN104850650 A CN 104850650A CN 201510288434 A CN201510288434 A CN 201510288434A CN 104850650 A CN104850650 A CN 104850650A
Authority
CN
China
Prior art keywords
text
class mark
theme
short
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510288434.0A
Other languages
English (en)
Other versions
CN104850650B (zh
Inventor
靳晓明
张瑞容
张世韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510288434.0A priority Critical patent/CN104850650B/zh
Publication of CN104850650A publication Critical patent/CN104850650A/zh
Application granted granted Critical
Publication of CN104850650B publication Critical patent/CN104850650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于类标关系的短文本扩充方法,该方法将短文本数据集中的类标信息引入到扩充机制里,根据不同的短文本数据选择不同的辅助数据集,基于类标关系为短文本进行扩充,并有效地为短文本分类。本发明具有如下优点:解决短文本分类问题的难点;降低了传统的特征扩充方法引入的噪音,从而提高了短文本的分类精度;完成了对传统的基于外部语料信息的扩充方法的创新和改进;可以和不同的分类器结合使用,普适性高,不仅可以应用在短文本分类问题中,还适用于短文本相关的多标签分类等问题上。

Description

基于类标关系的短文本扩充方法
技术领域
本发明属于计算机文本处理技术领域,涉及基于特征扩展的短文本扩充技术。
背景技术
随着互联网的飞速发展,大量的电子文本信息应运而生。其中,人们通过访问网络论坛、问答平台和社交网站产生了大量的短文本信息。短文本是指内容较少、文本短小、特征不明显的文本。短文本虽然篇幅短小,却能真实反映出用户在使用互联网的过程中发生的行为,通过对短文本进行分类,运营商能更有效地分析网络服务中产生的短文本,以便发现用户的兴趣并为用户提供推荐性的服务。因此短文本进行分类问题是当下的一个热点问题。短文本分类方法中大部分是从研究提高短文本的特征表示方法入手,即通过短文本特征的扩充、选择等方式让相似的短文本产生更多公共特征。除此之外,还有的研究工作试图借助其他辅助资源,通过短文本与辅助资源之间的“词共现”关系,在不改变短文本自身的特征表示的同时找到短文本之间的联系。对短文本进行扩充是当下短文本分类问题的瓶颈所在。
本专利解决的问题就是如何有效的为短文本的稀疏特征矩阵进行扩充。目前,短文本的扩充方法主要包括两大类:根据短文本自身包含的知识进行特征扩充,和基于外部知识的短文本特征扩充。其中,采用短文本自身挖掘出的知识进行特征扩充的方法是指,先用层次聚类方法对短文本进行话题聚类,再将每个短文本与这些话题聚类的相似关系作为特征扩充到原始短文本的词频矩阵中[1];另外还有的方法借助分布表示[2],将短文本中的词语利用文本集合里的上下文进行表示,利用上下文信息丰富短文本[3]。这类方法的分类精度虽然有一定的提升,但是只利用短文本自身特点进行特征扩充是有局限性的。
基于外部知识的短文本扩充按照外部知识来源的不同,主要分为两种:基于搜索引擎的特征扩充方法和基于外部语料信息的特征扩充方法。基于搜索引擎的扩充方法主要利用搜索引擎的便捷性及其具备的丰富知识为短文本进行扩充,通常采用的方法是:把搜索词放到搜索引擎中进行查询,将返回结果作为搜索词的扩充内容[4]。这种利用搜索引擎进行扩充的思路在手机应用领域也具有重要的利用价值[5]。这种方法虽然能对原始短文本进行有效扩充,却具有一定的局限性,尤其是当搜索引擎接受的输入关键词较长时,这种扩充方法的扩充效果比较差。另外,这种方法依赖网络环境,不适用于那些对实时性要求较高的短文本分类任务。
基于外部语料信息的特征扩充的主要思路是在进行扩充之前根据需要进行分类的具体内容和文本的内容人工收集一些相关的长文本数据,然后通过对原始短文本数据进行主题语义的分析找到短文本与外部预料信息之间的联系进行扩充。这种方法可以一定程度上地解决基于搜索引擎的扩充方法的弊端。这类方法大部分的外部信息都来自维基百科(Wikipedia),采用的文本分析方式大多为主题模型。目前,这种方法被广泛应用到短文本分类问题中[6]。然而这种扩充方式存在两个主要问题:外部数据集的知识覆盖是有限的;用外部数据集的词语作为原有文本特征的扩充内容可能带来信息丢失或引入噪音。
参考文献
[1]Dai Z,Sun A,Liu X Y.Crest:Cluster-based Representation Enrichment for ShortText Classification[M]//Advances in Knowledge Discovery and Data Mining.SpringerBerlin Heidelberg,2013:256-267.
[2]Lavelli A,Sebastiani F,Zanoli R.Distributional term representations:anexperimental comparison[C]//Proceedings of the thirteenth ACM internationalconference on Information and knowledge management.ACM,2004:615-624.
[3]Cabrera J M,Escalante H J,Montes-y-Gómez M.Distributional termrepresentations for short-text categorization[M]//Computational Linguistics andIntelligent Text Processing.Springer Berlin Heidelberg,2013:335-346.
[4]Shen D,Pan R,Sun J T,et al.Query enrichment for web-query classification[J].ACM Transactions on Information Systems(TOIS),2006,24(3):320-352.
[5]Zhu H,Cao H,Chen E,et al.Exploiting enriched contextual information formobile app classification[C]//Proceedings of the 21st ACM international conferenceon Information and knowledge management.ACM,2012:1617-1621.
[6]Phan X H,Nguyen L M,Horiguchi S.Learning to classify short and sparse text&web with hidden topics from large-scale data collections[C]//Proceedings of the17th international conference on World Wide Web.ACM,2008:91-100.
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出解决传统的基于外部语料信息的特征扩充方法可能为原始数据引入噪音的问题。
目前,短文本在即时通讯软件、网络论坛、微博、搜索引擎上的广泛应用,使得对短文本进行有效的分析显得尤为重要。常用的文本分析方法大部分都是基于向量空间模型将文本转化为矩阵的形式,但由于短文本长度较短,短文本中的每个文本向量中很多取值都为0,因此短文本集的词频矩阵稀疏性较大,普通文本的分析方法在短文本上不奏效。另外,由于短文本长度较短,出现在短文本中的每一个词都对短文本的语义信息产生重大影响,因此短文本的分类方法的分类效果受噪音影响很大。为了解决短文本稀疏性问题,人们提出了基于特征扩充的短文本扩充方法,而在众多扩充方法之中,最常用的扩充方法为基于外部语料信息的特征扩充方法。
传统的基于外部语料信息的特征扩充方法面临的主要问题是用外部数据集的词语作为原有文本特征的扩充内容可能带来信息丢失或引入噪音。举例来说,当原始短文本集的主题为政治和体育两个方面时,按照传统的基于外部语料信息的特征扩充方法,利用维基百科中的数据信息(其中包含了政治、体育、娱乐、学术、生活等多个方面的主题)为原始短文本集进行扩充,很可能会扩充一部分与政治和体育关系不大的特征,从而为原始数据引入噪音。
为了解决传统的基于外部语料信息的特征扩充方法可能为原始数据引入噪音的问题,本发明提出了一种新的短文本扩充方法,这种方法能引入短文本训练数据集中的类标关系,并基于类标关系从外部预料信息中有选择的筛选和短文本最相关的辅助数据集,从而采用特征扩充的方法将辅助数据集中的信息以特征的形式扩充到原始短文本中。这种方法是在传统的基于外部语料信息的特征扩充方法基础上,为了避免引入无关噪音而提出的。由于对外部语料信息进行了筛选,并引入了训练数据的类标关系,因此这种方法将外部信息扩充到原始短文本的过程中避免了噪音的引入,从而对传统的扩充方法进行了创新和改进。
为了实现上述目的,本发明的第一方面的实施例公开了一种基于类标关系的短文本扩充方法,包括以下步骤:对于给定的初始短文本数据集,构建类标文本集合;提取类标文本的特征;根据提取的特征,并计算不同的类标文本的相似度;设定阈值,对类标文本进行聚类,形成类标文本簇;提取类标文本簇的特征;根据提取的类标文本簇的特征,从外部语料信息中筛选辅助数据集;针对不同类标的辅助数据集进行主题挖掘,获取辅助数据集的主题信息;将初始短文本数据集中的短文本在对应类标的辅助数据集进行主题推断;根据推断结果为初始短文本数据集扩充带有类标信息的主题编号;得到扩充后的短文本集。
根据本发明实施例的基于类标关系的短文本扩充方法,具有以下优点:
1>以短文本扩充方法为切入点,解决短文本分类问题的难点。短文本自身的稀疏性为短文本分类问题带来了巨大的困难,先对短文本进行特征扩充能有效地为短文本分类;
2>根据不同的短文本数据选择不同的辅助数据集为短文本进行扩充,降低了传统的特征扩充方法引入的噪音,从而提高了短文本的分类精度;
3>提出了基于类标关系的扩充方法,将短文本数据集中的类标信息(主要是类标之间的关系)引入到扩充机制里,完成了对传统的基于外部语料信息的扩充方法的创新和改进;
4>本发明可以和不同的分类器结合使用,普适性高,不仅可以应用在短文本分类问题中,还适用于短文本相关的多标签分类等问题上。
另外,根据本发明上述实施例的基于类标关系的短文本扩充方法,还可以具有如下附加的技术特征:
进一步地,在步骤(2)中,对类标文本的特征提取方法采用tf-idf算法,所述tf-idf算法为:
假设类标文本集合中共有D个类标文本,针对当前的类标文本dj中某一个特定词语在dj中出现的频率为:
tf i , j = n i , j Σ k n k , j
其中,ni,j是该词语在dj中出现的次数,分母表示dj中出现的所有词语的出现次数之和,其中D为自然数;
针对该词语的idfi则为:
idf i = log | D | | { j : t i ∈ d i } |
其中,|D|是类标文本集合中的文本总数,|{j:ti∈di}|是指类标文本集合中包含词语ti的文本数目;
所述特定词语在所述类标文本中的权重为:tfidfi,j=tfi,j×idfi
进一步地,在步骤(3)中,对类标文本集合中任意两个文本di和文本di,将所述文本di和所述文本di分别表示为向量的形式:计算所述类标文本间的相似度,其中向量相似度的计算公式如下:
cos θ = d i → · d j → | d i | | d j | .
进一步地,在步骤(4)中,将所述类标文本中的集合转化为相似度矩阵,所述相似度矩阵中的值表示对应行和对应列的两个所述类标文本的相似度,设定一个相似度阈值μ,对类标文本进行聚类,矩阵中相似度大于μ的类标文本聚集成类标文本簇。
进一步地,在步骤(5)中,采用隐性狄利克雷模型提取所述类标文本簇的主题信息,所述隐性狄利克雷模型采用词袋的方法将每篇文本表示为一个词频向量,所述每个文本代表了主题构成的概率分布,所述隐性狄利克雷模型生成过程如下:
(501)为每一个文本从主题分布中抽取一个主题;
(502)为抽取到的主题从该主题对应的词分布中抽取一个词;
(503)重复以上直到文本中每一个词都被遍历到;
通过所述隐性狄利克雷模型推断参数θ和参数θ表示文本-主题的分布,表示主题-词的分布。
进一步地,在步骤(6)中,所述从外部语料信息中筛选辅助数据集包括以下操作步骤:
(601)对所述外部语料的长文本数据集中的每条文本进行LDA过程进行主题挖掘;
(602)得到所述外部语料的数据集的文本-主题的分布θw以及主题-词的分布
(603)获取类标文本簇的文本-主题的分布θd以及主题-词的分布
(604)将所述外部语料的数据集的主题-词的分布与类标文本簇的主题-词的分布进行矩阵匹配,保持的词维度的一致性;
(605)计算所述外部语料的数据集的主题与类标文本簇的主题的相似度;
(606)对计算出的相似度排序,为每个类标文本簇从所述外部语料的数据集中筛选出多篇最相关的辅助扩充文本,形成辅助数据集。
进一步地,在步骤(7)中,使用隐性狄利克雷模型为所述辅助数据集提取主题特征。
进一步地,在步骤(8)中,根据所述辅助数据集的主题特征,将原始的所述短文本在所述辅助数据集的主题上进行主题推断,包括以下步骤:
(801)将原始所述短文本集中的短文本按照类标信息,匹配到不同的所述类标文本簇中,得到每条短文本对应的辅助数据集;
(802)将得到的所述辅助数据集的主题分布模型为对应到相同所述辅助数据集的不同短文本进行主题推断;
(803)使用隐性狄利克雷模型中的变分EM算法进行主题推断,得到原始短文本集中的短文本在所述辅助数据集的主题上的概率分布。
进一步地,在步骤(10)中,将原始所述短文本的集合{S}中的短文本si扩充成以下形式:
si→[si lj_topick]
其中,lj表示类标编号,topick表示主题编号。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的基于类标关系的短文本扩充方法的原理图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述根据本发明实施例的。
图1是本发明一个实施例的基于类标关系的短文本扩充方法的原理图。请参考图1,1)初始短文本数据集,构建类标文本集合
针对输入的初始短文本数据集,提取数据集中的类标信息,根据类标信息构建类标文本集合,构建过程参考表1到表2的转化过程。
2)提取类标文本的特征
本发明中针对类标文本的特征提取方法是tf-idf算法,这种算法的假设是对区别文档最有意义的词语是在文档中出现的频率高,而在整个文档集合中的其他文档里面出现频率低的词语。假设类标文本集合中共有D个类标文本,针对当前的类标文本dj中某一个特定的词语在dj中出现的频率为:
tf i , j = n i , j Σ k n k , j
其中,ni,j是该词语在dj中出现的次数,分母表示dj中出现的所有词语的出现次数之和,其中D为自然数;
而针对该词语的idfi则为:
idf i = log | D | | { j : t i ∈ d i } |
其中,|D|是类标文本集合中的文本总数,|{j:ti∈di}|是指类标文本集合中包含词语ti的文本数目;
因此,任何一个类标文本中的特定词的权重为:tfidfi,j=tfi,j×idfi
至此,类标文本集合中的类标文本即可表示成向量的形式。
3)计算不同的类标文本的相似度
对类标文本集合中任意两个文本di和di,根据2)中得到的类标文本的特征表示,将其表示为向量的形式:可计算不同类标文本间的相似度,其中向量相似度的计算公式如下:
cos θ = d i → · d j → | d i | | d j |
根据以上公式,类标文本集合中任意两个文本之间的相似度均可求得。
4)对类标文本进行聚类
根据上个步骤中相似度计算方法,类标文本集合可以转化成一个相似度矩阵,矩阵中的值表示对应行和对应列的两个类标文本的相似度,通过设定一个相似度阈值μ,即可对类标文本进行聚类。如令μ=0.8,则矩阵中相似度大于μ的类标文本聚集成簇。
5)提取类标文本簇的特征
根据上个步骤得到的类标文本簇,提取每个簇的特征。在这个阶段,提取的主要特征为类标文本簇的主题信息。
类标文本簇的主题特征能够深层次地表示类标文本簇的重要特征。步骤2)中采用的特征提取方式为tf-idf,这种方法是从词频的角度提取文本的表层特征,而主题挖掘产生的主题信息则是从文本内部挖掘深层次的特征,这样的特征能更有效的表示文本的信息。本发明采用的是隐性狄利克雷模型(Latent Drichlet Allocation,LDA)进行类标文本簇的特征提取。
LDA模型采用词袋的方法将每篇文本表示为一个词频向量,且每个文本代表了一些主题构成的概率分布。LDA模型的生成过程如下:
(1)为每一个文本从主题分布中抽取一个主题;
(2)为抽取到的主题从该主题对应的词分布中抽取一个词;
(3)重复以上直到文本中每一个词都被遍历到。
LDA模型需要推断两个参数:θ和θ表示的是“文本-主题”的分布,表示的是“主题-词”的分布。
6)筛选辅助数据集
筛选辅助数据集是指根据提取的类标文本簇的特征,从外部语料信息中筛选辅助数据集;其中,提取到的类标文本簇的特征指的是根据步骤5)中得到的“文本-主题”的分布θd以及“主题-词”的分布这个步骤需要借助外部语料信息进行数据集的筛选,本发明选择维基百科作为外部语料信息。具体的操作步骤如下:
(1)对维基百科的长文本数据集中的每条文本进行LDA过程进行主题挖掘;
(2)得到维基百科数据集的“文本-主题”的分布θw以及“主题-词”的分布
(3)获取类标文本簇的“文本-主题”的分布θd以及“主题-词”的分布
(4)将维基百科数据集“主题-词”的分布与类标文本簇的“主题-词”的分布进行矩阵匹配,保持的“词”维度的一致性;
(5)计算维基百科数据集的“主题”与类标文本簇的“主题”的相似度;
(6)对计算出的相似度排序,为每个类标文本簇从维基百科数据集中筛选出5000篇最相关的辅助扩充文本,形成辅助数据集。
7)获取辅助数据集的主题信息
根据步骤6)中获取的辅助数据集,使用LDA模型为辅助数据集提取主题特征,具体操作步骤参见步骤5)中的生成过程。
8)主题推断
根据步骤7)得到的辅助数据集的主题信息,将原始的短文本在辅助数据集的主题上进行主题推断过程,具体步骤如下:
(1)将原始短文本集中的短文本按照类标信息,匹配到不同的类标文本簇中,得到每条短文本对应的辅助数据集;
(2)将得到的辅助数据集的主题分布模型为对应到相同辅助数据集的不同短文本进行主题推断;
(3)使用传统LDA模型中的变分EM算法进行主题推断,得到原始短文本集中的短文本在辅助数据集的主题上的概率分布。
9)扩充内容
根据主题推断结果用隐式的主题进行扩充,具体的扩充内容为无实义的主题编号。本发明提出的是基于类标关系的短文本扩充方法,因此其中的类标信息通过在无实义的主题编号前加上类标编号的形式体现在扩充结果中。这种方法的原因在于,为了避免传统扩充方法在扩充后为原始短文本引入噪音,本发明通过将短文本按照类标关系进行划分、聚类等处理过程,为原始短文本集中的短文本有差异的筛选与之最相关的外部数据进行扩充,而类标编号能较具体的体现本发明中基于类标关系的扩充方法的特点。
10)扩充后的短文本数据
经过上述步骤1)至9),将原始短文本集合{S}中的短文本si扩充成以下形式:
si→[si lj_topick]
其中lj表示类标编号,topick表示主题编号。
另外,本发明实施例的基于类标关系的短文本扩充方法的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (9)

1.一种基于类标关系的短文本扩充方法,其特征在于,包括以下步骤:
(1)对于给定的初始短文本数据集,构建类标文本集合;
(2)提取类标文本的特征;
(3)根据提取的特征,并计算不同的类标文本的相似度;
(4)设定阈值,对类标文本进行聚类,形成类标文本簇;
(5)提取类标文本簇的特征;
(6)根据提取的类标文本簇的特征,从外部语料信息中筛选辅助数据集;
(7)针对不同类标的辅助数据集进行主题挖掘,获取辅助数据集的主题信息;
(8)将初始短文本数据集中的短文本在对应类标的辅助数据集进行主题推断;
(9)根据推断结果为初始短文本数据集扩充带有类标信息的主题编号;
(10)得到扩充后的短文本集。
2.根据权利要求1所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(2)中,对类标文本的特征提取方法采用tf-idf算法,所述tf-idf算法为:
假设类标文本集合中共有D个类标文本,针对当前的类标文本dj中某一个特定词语在dj中出现的频率为:
tf i , j = n i , j Σ k n k , j
其中,ni,j是该词语在dj中出现的次数,分母表示dj中出现的所有词语的出现次数之和,其中D为自然数;
针对该词语的idfi则为:
idf i = log | D | | { j : t i ∈ d i } |
其中,|D|是类标文本集合中的文本总数,|{j:ti∈di}|是指类标文本集合中包含词语ti的文本数目;
所述特定词语在所述类标文本中的权重为:tfidfi,j=tfi,j×idfi
3.根据权利要求2所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(3)中,对类标文本集合中任意两个文本di和文本di,将所述文本di和所述文本di分别表示为向量的形式:计算所述类标文本间的相似度,其中向量相似度的计算公式如下:
cos θ = d i → · d j → | d i | | d j | .
4.根据权利要求3所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(4)中,将所述类标文本中的集合转化为相似度矩阵,所述相似度矩阵中的值表示对应行和对应列的两个所述类标文本的相似度,设定一个相似度阈值μ,对类标文本进行聚类,矩阵中相似度大于μ的类标文本聚集成类标文本簇。
5.根据权利要求4所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(5)中,采用隐性狄利克雷模型提取所述类标文本簇的主题信息,所述隐性狄利克雷模型采用词袋的方法将每篇文本表示为一个词频向量,所述每个文本代表了主题构成的概率分布,所述隐性狄利克雷模型生成过程如下:
(501)为每一个文本从主题分布中抽取一个主题;
(502)为抽取到的主题从该主题对应的词分布中抽取一个词;
(503)重复以上直到文本中每一个词都被遍历到;
通过所述隐性狄利克雷模型推断参数θ和参数θ表示文本-主题的分布,表示主题-词的分布。
6.根据权利要求5所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(6)中,所述从外部语料信息中筛选辅助数据集包括以下操作步骤:
(601)对所述外部语料的长文本数据集中的每条文本进行LDA过程进行主题挖掘;
(602)得到所述外部语料的数据集的文本-主题的分布θw以及主题-词的分布
(603)获取类标文本簇的文本-主题的分布θd以及主题-词的分布
(604)将所述外部语料的数据集的主题-词的分布与类标文本簇的主题-词的分布进行矩阵匹配,保持的词维度的一致性;
(605)计算所述外部语料的数据集的主题与类标文本簇的主题的相似度;
(606)对计算出的相似度排序,为每个类标文本簇从所述外部语料的数据集中筛选出多篇最相关的辅助扩充文本,形成辅助数据集。
7.根据权利要求6所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(7)中,使用隐性狄利克雷模型为所述辅助数据集提取主题特征。
8.根据权利要求7所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(8)中,根据所述辅助数据集的主题特征,将原始的所述短文本在所述辅助数据集的主题上进行主题推断,包括以下步骤:
(801)将原始所述短文本集中的短文本按照类标信息,匹配到不同的所述类标文本簇中,得到每条短文本对应的辅助数据集;
(802)将得到的所述辅助数据集的主题分布模型为对应到相同所述辅助数据集的不同短文本进行主题推断;
(803)使用隐性狄利克雷模型中的变分EM算法进行主题推断,得到原始短文本集中的短文本在所述辅助数据集的主题上的概率分布。
9.根据权利要求8所述的基于类标关系的短文本扩充方法,其特征在于,在步骤(10)中,将原始所述短文本的集合{S}中的短文本si扩充成以下形式:
si→[silj_topick]
其中,lj表示类标编号,topick表示主题编号。
CN201510288434.0A 2015-05-29 2015-05-29 基于类标关系的短文本扩充方法 Active CN104850650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510288434.0A CN104850650B (zh) 2015-05-29 2015-05-29 基于类标关系的短文本扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510288434.0A CN104850650B (zh) 2015-05-29 2015-05-29 基于类标关系的短文本扩充方法

Publications (2)

Publication Number Publication Date
CN104850650A true CN104850650A (zh) 2015-08-19
CN104850650B CN104850650B (zh) 2018-04-10

Family

ID=53850294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510288434.0A Active CN104850650B (zh) 2015-05-29 2015-05-29 基于类标关系的短文本扩充方法

Country Status (1)

Country Link
CN (1) CN104850650B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574156A (zh) * 2015-12-16 2016-05-11 华为技术有限公司 文本聚类方法、装置及计算设备
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN106897436A (zh) * 2017-02-28 2017-06-27 北京邮电大学 一种基于变分推断的学术研究热点关键词提取方法
CN107122494A (zh) * 2017-05-22 2017-09-01 南京大学 基于社团发现的主题模型构建方法
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN109165294A (zh) * 2018-08-21 2019-01-08 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN110853672A (zh) * 2019-11-08 2020-02-28 山东师范大学 一种用于音频场景分类的数据扩充方法及装置
CN111611374A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语料扩充方法、装置、电子设备及存储介质
CN113535549A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 测试数据的扩充方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185415A1 (en) * 2011-01-13 2012-07-19 International Business Machines Corporation System and method for domain adaption with partial observation
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103914551A (zh) * 2014-04-13 2014-07-09 北京工业大学 一种微博语义信息扩充和特征选取方法
CN104268130A (zh) * 2014-09-24 2015-01-07 南开大学 一种面向Twitter的社交广告可投放性分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185415A1 (en) * 2011-01-13 2012-07-19 International Business Machines Corporation System and method for domain adaption with partial observation
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法
CN103914551A (zh) * 2014-04-13 2014-07-09 北京工业大学 一种微博语义信息扩充和特征选取方法
CN104268130A (zh) * 2014-09-24 2015-01-07 南开大学 一种面向Twitter的社交广告可投放性分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XUAN-HIEU PHAN ET AL: "Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections", 《WWW 2008 / REFEREED TRACK: DATA MINING - LEARNING》 *
YUNLUN YANG ET AL: "A Novel Content Enriching Model for Microblog Using News Corpus", 《PROCEEDINGS OF THE 52ND ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (SHORT PAPERS)》 *
ZICHAO DAI ET AL: "Crest: Cluster-based Representation Enrichment for Short Text Classification", 《PACIFIC-ASIA CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
赵辉 等: "一种基于维基百科的中文短文本分类算法", 《图书情报工作》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574156B (zh) * 2015-12-16 2019-03-26 华为技术有限公司 文本聚类方法、装置及计算设备
CN105574156A (zh) * 2015-12-16 2016-05-11 华为技术有限公司 文本聚类方法、装置及计算设备
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN105975499B (zh) * 2016-04-27 2019-06-25 深圳大学 一种文本主题检测方法及系统
CN106294314A (zh) * 2016-07-19 2017-01-04 北京奇艺世纪科技有限公司 主题挖掘方法及装置
CN106897436A (zh) * 2017-02-28 2017-06-27 北京邮电大学 一种基于变分推断的学术研究热点关键词提取方法
CN106897436B (zh) * 2017-02-28 2018-08-07 北京邮电大学 一种基于变分推断的学术研究热点关键词提取方法
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN107122494B (zh) * 2017-05-22 2020-06-26 南京大学 基于社团发现的主题模型构建方法
CN107122494A (zh) * 2017-05-22 2017-09-01 南京大学 基于社团发现的主题模型构建方法
CN109165294A (zh) * 2018-08-21 2019-01-08 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN109165294B (zh) * 2018-08-21 2021-09-24 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
CN110032639B (zh) * 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN111611374A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语料扩充方法、装置、电子设备及存储介质
CN110704624B (zh) * 2019-09-30 2021-08-10 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN110853672A (zh) * 2019-11-08 2020-02-28 山东师范大学 一种用于音频场景分类的数据扩充方法及装置
CN110853672B (zh) * 2019-11-08 2022-04-01 山东师范大学 一种用于音频场景分类的数据扩充方法及装置
CN113535549A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 测试数据的扩充方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN104850650B (zh) 2018-04-10

Similar Documents

Publication Publication Date Title
CN104850650A (zh) 基于类标关系的短文本扩充方法
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN101655857B (zh) 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN111444351A (zh) 一种行业工艺领域知识图谱构建方法及装置
CN102591988B (zh) 基于语义图的短文本分类方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN102955771A (zh) 中文单字串模式和词缀模式的新词自动识别技术及系统
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
CN111090811A (zh) 一种海量新闻热点话题提取方法和系统
Hida et al. Dynamic and static topic model for analyzing time-series document collections
Yang et al. News topic detection based on capsule semantic graph
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology
CN115203429B (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法
CN110334180A (zh) 一种基于评论数据的移动应用安全性评估方法
CN106202116A (zh) 一种基于粗糙集与knn的文本分类方法及系统
CN109299256A (zh) 一种在线观点挖掘方法及系统
Rehman et al. Hierarchical topic modeling for Urdu text articles
Zhang et al. The extraction method of new logining word/term for social media based on statistics and N-increment
Munir et al. A comparison of topic modelling approaches for urdu text
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Liu et al. Ontology induction based on social annotations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant