CN101770454A - 短文本特征空间扩展方法 - Google Patents
短文本特征空间扩展方法 Download PDFInfo
- Publication number
- CN101770454A CN101770454A CN201010118594A CN201010118594A CN101770454A CN 101770454 A CN101770454 A CN 101770454A CN 201010118594 A CN201010118594 A CN 201010118594A CN 201010118594 A CN201010118594 A CN 201010118594A CN 101770454 A CN101770454 A CN 101770454A
- Authority
- CN
- China
- Prior art keywords
- short text
- feature space
- theme
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种短文本特征空间扩展方法,包括如下步骤:(1)选取短文本特征空间的扩展来源;(2)对扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;(4)将每条短文本表示成词向量;(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;(6)将隐含主题的主题表示成主题向量;(7)将主题向量和词向量组合在一起,形成具有扩展特征空间的短文本。本发明将得到的隐含主题确定的主题向量与短文本确定的词向量组合在一起,因此短文本的特征空间得到扩展,能有效地提高短文本信息处理的质量。
Description
技术领域
本发明涉及短文本挖掘领域,尤其涉及一种短文本特征空间扩展方法。
背景技术
Internet作为一种新颖的传播媒体,经过短短几十年的发展,融入了文化、历史、社会等各方面的信息。随着新闻评论、BBS、博客、聊天室、聚合新闻(RSS)等网络应用的快速发展,产生了手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等各种形式的短文本(长度比较短的文本数据)。目前,短文本数据量日益庞大,对短文本的文本挖掘在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。
然而,短文本信息的处理与传统意义上的文本(长文本)的处理不同。长文本一般长度很长,样本特征空间非常丰富,常采用降维和去噪的方法,在不损伤长文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高长文本处理的速度和效率;单条短文本一般长度都非常短,样本特征空间非常稀疏,短文本自身特征空间不足以表达有效的语言含义,因此会影响短文本特征抽取以及后续短文本分析工作的有效性,进而影响分类、聚类以及摘要抽取等文本挖掘算法的准确性。
因此,有必要提供一种扩展短文本特征空间的方法来解决短文本自身特征空间不足的问题。
发明内容
本发明的目的是提供一种短文本特征空间扩展方法,能扩展短文本的特征空间,进而提高分类、聚类以及摘要抽取等文本挖掘算法的准确性。
为了实现上述目的,本发明提供了一种短文本特征空间扩展方法,包括如下步骤:(1)选取短文本特征空间的扩展来源;(2)对所述扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;(4)将每条短文本表示成词向量;(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;(6)将所述隐含主题的主题表示成主题向量;(7)将所述主题向量和所述词向量组合在一起,形成具有扩展特征空间的短文本。
在本发明的一个实施例中,所述步骤(1)中选取的短文本特征空间的扩展来源为维基百科的普通条目或特色条目。
在本发明的另一实施例中,所述步骤(2)中文本预处理具体为:抽取文本数据中的词干并计算词频。
在本发明的又一实施例中,所述步骤(6)具体为:将所述隐含主题概率分布中概率值大于阈值的主题表示成主题向量。
与现有技术相比,本发明对选取的作为短文本特征空间的扩展来源进行文本预处理以及建立浅层狄利赫雷分配主题模型等处理,得到与短文本相关的隐含主题,进而把所述隐含主题的主题表示成的主题向量与短文本表示成的词向量组合在一起,形成具有扩展特征空间的短文本。短文本的特征空间得到扩展,能有效地提高短文本信息处理的质量,特别是分类、聚类以及摘要抽取等文本挖掘算法的准确性。。
通过以下的描述并结合附图,本发明将变得更加清晰,这些附图用于解释本发明的实施例。
附图说明
图1为本发明短文本特征空间扩展方法的主流程图。
具体实施方式
现在参考附图描述本发明的实施例,附图中类似的元件标号代表类似的元件。
如图1,本实施例短文本特征空间扩展方法包括如下步骤:
步骤S1,选取短文本特征空间的扩展来源;
步骤S2,对所述扩展来源的文本数据进行文本预处理,获取作为训练集的文档-词矩阵(document-term matrix);
步骤S3,在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型(Latent Dirichlet Allocation,LDA);
步骤S4,将每条短文本表示成词向量(term vector):[term1,term2,...,termx];
步骤S5,将短文本的词向量作为浅层狄利赫雷分配主题模型(LatentDirichlet Allocation,LDA)的输入,输出得到与短文本相关的隐含主题概率分布;
步骤S6,将所述隐含主题的主题表示成主题向量(topic vector):[topic1,topic2,...,topicy],
将步骤S7,所述主题向量和所述词向量组合在一起,形成具有扩展特征空间的短文本,表示为:[term1,term2,...,termx,topic1,topic2,...,topicy]。
由上述技术方案可知,本实施例对选取的作为短文本特征空间的扩展来源进行文本预处理以及建立浅层狄利赫雷分配主题模型等处理,得到与短文本相关的隐含主题,进而把所述隐含主题的主题表示成的主题向量与短文本表示成的词向量组合在一起,形成具有扩展特征空间的短文本。短文本的特征空间得到扩展,能有效地提高短文本信息处理的质量,特别是分类、聚类以及摘要抽取等文本挖掘算法的准确性。
本实施例选取的短文本特征空间的扩展来源为维基百科(Wikipedia)的普通条目或特色条目(featured articles)。维基百科是一个基于维基(wiki)技术的多语言百科全书,其列入的文章来源可被审察及确认,其文章内容可靠性高。维基百科的特色条目是维基词典的主编根据中立、完整性和准确度等指标挑选出的最好的条目,作为特征空间的扩展来源质量更加可靠。
所述步骤S2中文本预处理的步骤具体为:抽取文本数据中的词干(stem)并计算词频(Term Frequency)。所述文档-词矩阵(document-term matrix)中的每一行代表一个文档(document,Wikipedia条目),每一列对应一个词(term),某行的一个词(term)的权值为该词在该行对应的文档中出现的次数(词频);
所述步骤S6具体为:将所述隐含主题概率分布中概率值大于阈值(threshold)的主题表示成主题向量(topic vector):[topic1,topic2,...,topicy]。阈值的取值范围为[0,1]。通过阈值的设定,可以在具体应用中确保实际效果不受影响的前提下,过滤掉冗余的主题。
由上可知,最后单条短文本表示成D=[term1,term2,...,termx,topic1,topic2,...,topicy]。短文本的特征空间得到扩展,从而能有效地提高短文本信息处理的质量,特别是聚类和分类的准确率。
以上结合最佳实施例对本发明进行了描述,但本发明并不局限于以上揭示的实施例,而应当涵盖各种根据本发明的本质进行的修改、等效组合。
Claims (4)
1.一种短文本特征空间扩展方法,包括如下步骤:
(1)选取短文本特征空间的扩展来源;
(2)对所述扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;
(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;
(4)将每条短文本表示成词向量;
(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;
(6)将所述隐含主题的主题表示成主题向量;
(7)将所述主题向量和所述词向量组合在一起,形成具有扩展特征空间的短文本。
2.如权利要求1所述的短文本特征空间扩展方法,其特征在于,所述步骤(1)中选取的短文本特征空间的扩展来源为维基百科的普通条目或特色条目。
3.如权利要求1所述的短文本特征空间扩展方法,其特征在于,所述步骤(2)中文本预处理具体为:
抽取文本数据中的词干并计算词频。
4.如权利要求1所述的短文本特征空间扩展方法,其特征在于,所述步骤(6)具体为:
将所述隐含主题概率分布中概率值大于阈值的主题表示成主题向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010118594A CN101770454A (zh) | 2010-02-13 | 2010-02-13 | 短文本特征空间扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010118594A CN101770454A (zh) | 2010-02-13 | 2010-02-13 | 短文本特征空间扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101770454A true CN101770454A (zh) | 2010-07-07 |
Family
ID=42503321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010118594A Pending CN101770454A (zh) | 2010-02-13 | 2010-02-13 | 短文本特征空间扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101770454A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243625A (zh) * | 2011-07-19 | 2011-11-16 | 北京航空航天大学 | 一种基于N-gram增量主题模型的语义挖掘方法 |
CN102567290A (zh) * | 2010-12-30 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102955856A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
GB2505400A (en) * | 2012-07-18 | 2014-03-05 | Toshiba Res Europ Ltd | Text to speech system which outputs expression/emotion |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
CN106055699A (zh) * | 2016-06-15 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 一种特征聚类的方法及装置 |
CN106326495A (zh) * | 2016-09-27 | 2017-01-11 | 浪潮软件集团有限公司 | 一种基于话题模型的中文文本自动分类方法 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN107491499A (zh) * | 2017-07-27 | 2017-12-19 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN108021546A (zh) * | 2016-11-03 | 2018-05-11 | 北京嘀嘀无限科技发展有限公司 | 一种短文本特征扩展方法、装置及服务器 |
CN108153857A (zh) * | 2017-12-22 | 2018-06-12 | 北京奇虎科技有限公司 | 一种用于对网络访问数据进行关联处理的方法和系统 |
CN109376226A (zh) * | 2018-11-08 | 2019-02-22 | 合肥工业大学 | 投诉文本的分类模型、构建方法、系统、分类方法和系统 |
CN109657040A (zh) * | 2018-11-16 | 2019-04-19 | 湖南科技大学 | 融合多源异构信息的标签推荐方法 |
CN109960730A (zh) * | 2019-04-19 | 2019-07-02 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN110390061A (zh) * | 2019-07-29 | 2019-10-29 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN112597769A (zh) * | 2020-12-15 | 2021-04-02 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
-
2010
- 2010-02-13 CN CN201010118594A patent/CN101770454A/zh active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567290B (zh) * | 2010-12-30 | 2015-01-14 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102567290A (zh) * | 2010-12-30 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102243625A (zh) * | 2011-07-19 | 2011-11-16 | 北京航空航天大学 | 一种基于N-gram增量主题模型的语义挖掘方法 |
CN102243625B (zh) * | 2011-07-19 | 2013-05-15 | 北京航空航天大学 | 一种基于N-gram增量主题模型的语义挖掘方法 |
GB2505400A (en) * | 2012-07-18 | 2014-03-05 | Toshiba Res Europ Ltd | Text to speech system which outputs expression/emotion |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
CN102955856B (zh) * | 2012-11-09 | 2015-07-08 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
CN102955856A (zh) * | 2012-11-09 | 2013-03-06 | 北京航空航天大学 | 一种基于特征扩展的中文短文本分类方法 |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN104699763B (zh) * | 2015-02-11 | 2017-10-17 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
CN104991891B (zh) * | 2015-07-28 | 2018-03-30 | 北京大学 | 一种短文本特征提取方法 |
CN106055699B (zh) * | 2016-06-15 | 2018-07-06 | 腾讯科技(深圳)有限公司 | 一种特征聚类的方法及装置 |
CN106055699A (zh) * | 2016-06-15 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 一种特征聚类的方法及装置 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106407169B (zh) * | 2016-09-09 | 2019-01-08 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106326495A (zh) * | 2016-09-27 | 2017-01-11 | 浪潮软件集团有限公司 | 一种基于话题模型的中文文本自动分类方法 |
CN108021546A (zh) * | 2016-11-03 | 2018-05-11 | 北京嘀嘀无限科技发展有限公司 | 一种短文本特征扩展方法、装置及服务器 |
CN107491499A (zh) * | 2017-07-27 | 2017-12-19 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN107491499B (zh) * | 2017-07-27 | 2018-09-04 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN108153857A (zh) * | 2017-12-22 | 2018-06-12 | 北京奇虎科技有限公司 | 一种用于对网络访问数据进行关联处理的方法和系统 |
CN109376226A (zh) * | 2018-11-08 | 2019-02-22 | 合肥工业大学 | 投诉文本的分类模型、构建方法、系统、分类方法和系统 |
CN109657040A (zh) * | 2018-11-16 | 2019-04-19 | 湖南科技大学 | 融合多源异构信息的标签推荐方法 |
CN109960730A (zh) * | 2019-04-19 | 2019-07-02 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN109960730B (zh) * | 2019-04-19 | 2022-12-30 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN110390061A (zh) * | 2019-07-29 | 2019-10-29 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN110390061B (zh) * | 2019-07-29 | 2020-07-21 | 电子科技大学 | 一种基于社交媒体的空间主题查询方法 |
CN112597769A (zh) * | 2020-12-15 | 2021-04-02 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
CN112597769B (zh) * | 2020-12-15 | 2022-06-03 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101770454A (zh) | 短文本特征空间扩展方法 | |
WO2017114019A1 (zh) | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 | |
US11217236B2 (en) | Method and apparatus for extracting information | |
CN102262624A (zh) | 基于多模态辅助的实现跨语言沟通系统及方法 | |
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN103853703A (zh) | 一种信息处理方法及电子设备 | |
WO2014066698A1 (en) | Method and system for social media burst classifications | |
CN103268313A (zh) | 一种自然语言的语义解析方法及装置 | |
US9224152B2 (en) | System and method for intent mining | |
Resyanto et al. | Choosing the most optimum text preprocessing method for sentiment analysis: Case: iPhone Tweets | |
CN103942328A (zh) | 一种视频检索方法及视频装置 | |
CN103235773A (zh) | 基于关键词的文本的标签提取方法及装置 | |
CN110245334B (zh) | 用于输出信息的方法和装置 | |
CN111414471A (zh) | 用于输出信息的方法和装置 | |
CN112686035A (zh) | 一种未登录词进行向量化的方法和装置 | |
CN102014199A (zh) | 一种信息显示方法及终端 | |
CN103810280A (zh) | 一种微博话题检测方法 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN104077320B (zh) | 一种用于生成待发布信息的方法和装置 | |
CN104331396A (zh) | 一种智能识别广告的方法 | |
CN104376304A (zh) | 一种文本广告图像的识别方法及装置 | |
CN112765977A (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
Winatmoko et al. | Automatic summarization of tweets in providing Indonesian trending topic explanation | |
WO2023245869A1 (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
JP2016091538A (ja) | ダイアログボックス入力コンテンツに対応する情報提供装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100707 |