CN101770454A - 短文本特征空间扩展方法 - Google Patents
短文本特征空间扩展方法 Download PDFInfo
- Publication number
- CN101770454A CN101770454A CN201010118594A CN201010118594A CN101770454A CN 101770454 A CN101770454 A CN 101770454A CN 201010118594 A CN201010118594 A CN 201010118594A CN 201010118594 A CN201010118594 A CN 201010118594A CN 101770454 A CN101770454 A CN 101770454A
- Authority
- CN
- China
- Prior art keywords
- short text
- topic
- feature space
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000010365 information processing Effects 0.000 abstract description 4
- 238000005065 mining Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种短文本特征空间扩展方法,包括如下步骤:(1)选取短文本特征空间的扩展来源;(2)对扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;(4)将每条短文本表示成词向量;(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;(6)将隐含主题的主题表示成主题向量;(7)将主题向量和词向量组合在一起,形成具有扩展特征空间的短文本。本发明将得到的隐含主题确定的主题向量与短文本确定的词向量组合在一起,因此短文本的特征空间得到扩展,能有效地提高短文本信息处理的质量。
Description
技术领域
本发明涉及短文本挖掘领域,尤其涉及一种短文本特征空间扩展方法。
背景技术
Internet作为一种新颖的传播媒体,经过短短几十年的发展,融入了文化、历史、社会等各方面的信息。随着新闻评论、BBS、博客、聊天室、聚合新闻(RSS)等网络应用的快速发展,产生了手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等各种形式的短文本(长度比较短的文本数据)。目前,短文本数据量日益庞大,对短文本的文本挖掘在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。
然而,短文本信息的处理与传统意义上的文本(长文本)的处理不同。长文本一般长度很长,样本特征空间非常丰富,常采用降维和去噪的方法,在不损伤长文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高长文本处理的速度和效率;单条短文本一般长度都非常短,样本特征空间非常稀疏,短文本自身特征空间不足以表达有效的语言含义,因此会影响短文本特征抽取以及后续短文本分析工作的有效性,进而影响分类、聚类以及摘要抽取等文本挖掘算法的准确性。
因此,有必要提供一种扩展短文本特征空间的方法来解决短文本自身特征空间不足的问题。
发明内容
本发明的目的是提供一种短文本特征空间扩展方法,能扩展短文本的特征空间,进而提高分类、聚类以及摘要抽取等文本挖掘算法的准确性。
为了实现上述目的,本发明提供了一种短文本特征空间扩展方法,包括如下步骤:(1)选取短文本特征空间的扩展来源;(2)对所述扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;(4)将每条短文本表示成词向量;(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;(6)将所述隐含主题的主题表示成主题向量;(7)将所述主题向量和所述词向量组合在一起,形成具有扩展特征空间的短文本。
在本发明的一个实施例中,所述步骤(1)中选取的短文本特征空间的扩展来源为维基百科的普通条目或特色条目。
在本发明的另一实施例中,所述步骤(2)中文本预处理具体为:抽取文本数据中的词干并计算词频。
在本发明的又一实施例中,所述步骤(6)具体为:将所述隐含主题概率分布中概率值大于阈值的主题表示成主题向量。
与现有技术相比,本发明对选取的作为短文本特征空间的扩展来源进行文本预处理以及建立浅层狄利赫雷分配主题模型等处理,得到与短文本相关的隐含主题,进而把所述隐含主题的主题表示成的主题向量与短文本表示成的词向量组合在一起,形成具有扩展特征空间的短文本。短文本的特征空间得到扩展,能有效地提高短文本信息处理的质量,特别是分类、聚类以及摘要抽取等文本挖掘算法的准确性。。
通过以下的描述并结合附图,本发明将变得更加清晰,这些附图用于解释本发明的实施例。
附图说明
图1为本发明短文本特征空间扩展方法的主流程图。
具体实施方式
现在参考附图描述本发明的实施例,附图中类似的元件标号代表类似的元件。
如图1,本实施例短文本特征空间扩展方法包括如下步骤:
步骤S1,选取短文本特征空间的扩展来源;
步骤S2,对所述扩展来源的文本数据进行文本预处理,获取作为训练集的文档-词矩阵(document-term matrix);
步骤S3,在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型(Latent Dirichlet Allocation,LDA);
步骤S4,将每条短文本表示成词向量(term vector):[term1,term2,...,termx];
步骤S5,将短文本的词向量作为浅层狄利赫雷分配主题模型(LatentDirichlet Allocation,LDA)的输入,输出得到与短文本相关的隐含主题概率分布;
步骤S6,将所述隐含主题的主题表示成主题向量(topic vector):[topic1,topic2,...,topicy],
将步骤S7,所述主题向量和所述词向量组合在一起,形成具有扩展特征空间的短文本,表示为:[term1,term2,...,termx,topic1,topic2,...,topicy]。
由上述技术方案可知,本实施例对选取的作为短文本特征空间的扩展来源进行文本预处理以及建立浅层狄利赫雷分配主题模型等处理,得到与短文本相关的隐含主题,进而把所述隐含主题的主题表示成的主题向量与短文本表示成的词向量组合在一起,形成具有扩展特征空间的短文本。短文本的特征空间得到扩展,能有效地提高短文本信息处理的质量,特别是分类、聚类以及摘要抽取等文本挖掘算法的准确性。
本实施例选取的短文本特征空间的扩展来源为维基百科(Wikipedia)的普通条目或特色条目(featured articles)。维基百科是一个基于维基(wiki)技术的多语言百科全书,其列入的文章来源可被审察及确认,其文章内容可靠性高。维基百科的特色条目是维基词典的主编根据中立、完整性和准确度等指标挑选出的最好的条目,作为特征空间的扩展来源质量更加可靠。
所述步骤S2中文本预处理的步骤具体为:抽取文本数据中的词干(stem)并计算词频(Term Frequency)。所述文档-词矩阵(document-term matrix)中的每一行代表一个文档(document,Wikipedia条目),每一列对应一个词(term),某行的一个词(term)的权值为该词在该行对应的文档中出现的次数(词频);
所述步骤S6具体为:将所述隐含主题概率分布中概率值大于阈值(threshold)的主题表示成主题向量(topic vector):[topic1,topic2,...,topicy]。阈值的取值范围为[0,1]。通过阈值的设定,可以在具体应用中确保实际效果不受影响的前提下,过滤掉冗余的主题。
由上可知,最后单条短文本表示成D=[term1,term2,...,termx,topic1,topic2,...,topicy]。短文本的特征空间得到扩展,从而能有效地提高短文本信息处理的质量,特别是聚类和分类的准确率。
以上结合最佳实施例对本发明进行了描述,但本发明并不局限于以上揭示的实施例,而应当涵盖各种根据本发明的本质进行的修改、等效组合。
Claims (4)
1.一种短文本特征空间扩展方法,包括如下步骤:
(1)选取短文本特征空间的扩展来源;
(2)对所述扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;
(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;
(4)将每条短文本表示成词向量;
(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;
(6)将所述隐含主题的主题表示成主题向量;
(7)将所述主题向量和所述词向量组合在一起,形成具有扩展特征空间的短文本。
2.如权利要求1所述的短文本特征空间扩展方法,其特征在于,所述步骤(1)中选取的短文本特征空间的扩展来源为维基百科的普通条目或特色条目。
3.如权利要求1所述的短文本特征空间扩展方法,其特征在于,所述步骤(2)中文本预处理具体为:
抽取文本数据中的词干并计算词频。
4.如权利要求1所述的短文本特征空间扩展方法,其特征在于,所述步骤(6)具体为:
将所述隐含主题概率分布中概率值大于阈值的主题表示成主题向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010118594A CN101770454A (zh) | 2010-02-13 | 2010-02-13 | 短文本特征空间扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010118594A CN101770454A (zh) | 2010-02-13 | 2010-02-13 | 短文本特征空间扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101770454A true CN101770454A (zh) | 2010-07-07 |
Family
ID=42503321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010118594A Pending CN101770454A (zh) | 2010-02-13 | 2010-02-13 | 短文本特征空间扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101770454A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243625A (zh) * | 2011-07-19 | 2011-11-16 | 北京航空航天大学 | 一种基于N-gram增量主题模型的语义挖掘方法 |
CN102567290A (zh) * | 2010-12-30 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102955856A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
GB2505400A (en) * | 2012-07-18 | 2014-03-05 | Toshiba Res Europ Ltd | Text to speech system which outputs expression/emotion |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
CN106055699A (zh) * | 2016-06-15 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 一种特征聚类的方法及装置 |
CN106326495A (zh) * | 2016-09-27 | 2017-01-11 | 浪潮软件集团有限公司 | 一种基于话题模型的中文文本自动分类方法 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN107491499A (zh) * | 2017-07-27 | 2017-12-19 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN108021546A (zh) * | 2016-11-03 | 2018-05-11 | 北京嘀嘀无限科技发展有限公司 | 一种短文本特征扩展方法、装置及服务器 |
CN108153857A (zh) * | 2017-12-22 | 2018-06-12 | 北京奇虎科技有限公司 | 一种用于对网络访问数据进行关联处理的方法和系统 |
CN109376226A (zh) * | 2018-11-08 | 2019-02-22 | 合肥工业大学 | 投诉文本的分类模型、构建方法、系统、分类方法和系统 |
CN109657040A (zh) * | 2018-11-16 | 2019-04-19 | 湖南科技大学 | 融合多源异构信息的标签推荐方法 |
CN109960730A (zh) * | 2019-04-19 | 2019-07-02 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN110390061A (zh) * | 2019-07-29 | 2019-10-29 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN112597769A (zh) * | 2020-12-15 | 2021-04-02 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
-
2010
- 2010-02-13 CN CN201010118594A patent/CN101770454A/zh active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567290B (zh) * | 2010-12-30 | 2015-01-14 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102567290A (zh) * | 2010-12-30 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102243625A (zh) * | 2011-07-19 | 2011-11-16 | 北京航空航天大学 | 一种基于N-gram增量主题模型的语义挖掘方法 |
CN102243625B (zh) * | 2011-07-19 | 2013-05-15 | 北京航空航天大学 | 一种基于N-gram增量主题模型的语义挖掘方法 |
GB2505400A (en) * | 2012-07-18 | 2014-03-05 | Toshiba Res Europ Ltd | Text to speech system which outputs expression/emotion |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
CN102955856B (zh) * | 2012-11-09 | 2015-07-08 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
CN102955856A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN104699763B (zh) * | 2015-02-11 | 2017-10-17 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
CN104991891B (zh) * | 2015-07-28 | 2018-03-30 | 北京大学 | 一种短文本特征提取方法 |
CN106055699B (zh) * | 2016-06-15 | 2018-07-06 | 腾讯科技(深圳)有限公司 | 一种特征聚类的方法及装置 |
CN106055699A (zh) * | 2016-06-15 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 一种特征聚类的方法及装置 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106407169B (zh) * | 2016-09-09 | 2019-01-08 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106326495A (zh) * | 2016-09-27 | 2017-01-11 | 浪潮软件集团有限公司 | 一种基于话题模型的中文文本自动分类方法 |
CN108021546A (zh) * | 2016-11-03 | 2018-05-11 | 北京嘀嘀无限科技发展有限公司 | 一种短文本特征扩展方法、装置及服务器 |
CN107491499A (zh) * | 2017-07-27 | 2017-12-19 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN107491499B (zh) * | 2017-07-27 | 2018-09-04 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN108153857A (zh) * | 2017-12-22 | 2018-06-12 | 北京奇虎科技有限公司 | 一种用于对网络访问数据进行关联处理的方法和系统 |
CN109376226A (zh) * | 2018-11-08 | 2019-02-22 | 合肥工业大学 | 投诉文本的分类模型、构建方法、系统、分类方法和系统 |
CN109657040A (zh) * | 2018-11-16 | 2019-04-19 | 湖南科技大学 | 融合多源异构信息的标签推荐方法 |
CN109960730A (zh) * | 2019-04-19 | 2019-07-02 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN109960730B (zh) * | 2019-04-19 | 2022-12-30 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN110390061A (zh) * | 2019-07-29 | 2019-10-29 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN110390061B (zh) * | 2019-07-29 | 2020-07-21 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN112597769A (zh) * | 2020-12-15 | 2021-04-02 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
CN112597769B (zh) * | 2020-12-15 | 2022-06-03 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101770454A (zh) | 短文本特征空间扩展方法 | |
CN105512245B (zh) | 一种基于回归模型建立企业画像的方法 | |
US9047868B1 (en) | Language model data collection | |
CN104036010B (zh) | 一种基于半监督cbow的用户搜索词主题分类的方法 | |
CN107291696A (zh) | 一种基于深度学习的评论词情感分析方法及系统 | |
WO2016197767A2 (zh) | 一种表情输入方法、装置、终端和计算机可读存储介质 | |
US20140129510A1 (en) | Parameter Inference Method, Calculation Apparatus, and System Based on Latent Dirichlet Allocation Model | |
CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN103544246A (zh) | 互联网多种情感词典构建方法及系统 | |
CN104866478B (zh) | 恶意文本的检测识别方法及装置 | |
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
JP2012118977A (ja) | 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム | |
CN104462286A (zh) | 一种基于改进的lda的微博话题发现方法 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
KR20110115543A (ko) | 개체의 유사성을 계산하는 방법 | |
TW201541267A (zh) | 篩選推廣關鍵詞的方法和裝置 | |
CN103365833A (zh) | 一种基于上下文场景的输入候选词提示方法及系统 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN105023178B (zh) | 一种基于本体的电子商务推荐方法 | |
CN106202200B (zh) | 一种基于固定主题的文本情感倾向性分类方法 | |
CN104794161A (zh) | 对网络舆情监控的方法 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN112632215A (zh) | 一种基于词对语义主题模型的社区发现方法及系统 | |
CN111882224A (zh) | 对消费场景进行分类的方法和装置 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100707 |