CN108804622A - 一种考虑语义背景的短文本分类器构造方法 - Google Patents
一种考虑语义背景的短文本分类器构造方法 Download PDFInfo
- Publication number
- CN108804622A CN108804622A CN201810547970.1A CN201810547970A CN108804622A CN 108804622 A CN108804622 A CN 108804622A CN 201810547970 A CN201810547970 A CN 201810547970A CN 108804622 A CN108804622 A CN 108804622A
- Authority
- CN
- China
- Prior art keywords
- short text
- short
- text
- feature vector
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种考虑语义背景的短文本分类器构造方法。包括:收集短文本样本集,记录每个样本集所来自的社区主题,人工对样本集中的每个短文本样本给定标签,短文本样本集与对应的标签集构成了训练集。利用短文本集对一个两层的长短时记忆(Long‑short term memory,LSTM)编解码重构网络进行训练,训练好的网络可以对输入的任一一个短文本进行编码,得到输入短文本的特征向量。求取来自相同或者类似社区主题的短文本的特征向量均值,每个特征向量均值看作是对应的社区主题的短文本的语义背景向量。每个短文本减去所对应的语义背景向量,得到新的短文本样本集。利用新的短文本集与其标签来训练一个短文本分类器,本发明可以应用在短文本分类的相关业务中。
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种考虑语义背景的短文本分类器构造方法。
背景技术
随着互联网(包括移动互联网)技术的飞速发展,社交媒体已经成文人们日常工作与生活中发布与获取信息必不可少的主要途径之一。除了较为传统的网络社区如BBS,目前逐渐涌现出如微博和推特这种类似于个人信息门户的信息发布与获取平台,还有像微信等这样基于社会关系链接的信息平台。这些社区与平台的一个主要特点就是每天用户会发布大量的短文本信息,以表达自己的观点、评论、体验或者经历等。用户也可以通过这些社区和平台了解其朋友乃至社会的方方面面。
如何管理海量的短文本信息已经逐渐成为一个非常突出的问题。因为用户发布的海量短文本信息里面可能包括一些与社区主旨不符的、或广告性质的、甚至违规违法的内容。如何自动识别这些不良内容已经成为十分紧迫的问题。
对于短文本的分类(也即自动识别),一般都是先提取能够体现其语义的特征,然后根据这些特征来构造短文本分类器。特征可以选取传统的词袋特征,也可以选取基于词向量的特征;分类器可以选取传统的支持向量机等,也可以选取深度神经网络。
但是目前的短文本分类方法均忽略了短文本的背景语义。一个股票涨跌相关的短文本发在旅游论坛上通常视为广告,但是如何发在股票论坛上,很可能为一个论坛用户的个人观点,也即不是广告。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种考虑语义背景的短文本分类器构造方法,该方法可根据短文本所在的论坛的主题,求取主题相同或者相似的短文本对应的语义背景向量,利用短文本的特征向量与其语义背景向量的差分来作为短文本最终的向量,以此来训练分类器。
本发明的目的是通过以下技术方案实现的:
一种考虑语义背景的短文本分类器构造方法,包括以下步骤:
步骤1:收集用于训练的短文本样本,记录每个样本所在社区的主题,人工给定每个短文本样本标签,构成短文本训练集;
步骤2:利用短文本训练集对一个两层的长短时记忆(Long-short term memory,LSTM)编解码重构网络进行训练;
步骤3:将训练好的编解码重构网络的编码子网络提取出来,将短文本训练集中的每个短文本输入到编码子网络,得到每个短文本的特征向量;
步骤4:求取相同或者相似社区主题对应的文本的特征向量均值,作为文本的语义背景向量;
步骤5:对于短文本训练集中的每个短文本,将其特征向量减去其对应的语义背景向量,得到新的特征向量;
步骤6:根据步骤5得到的特征向量与原始短文本样本标签组成的短文本训练集,利用深度神经网络或者支持向量机训练分类器。
与现有技术相比,本发明的技术方案所带来的有益效果是:
本发明方法能够将短文本所在的社区背景信息考虑进来,避免将一些在其社区属于正常类别的文本错分到不良类别中去。
附图说明
图1为本发明方法的流程图;
图2为本发明使用的两层的长短时记忆(LSTM)编解码重构网络。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的执行环境采用一台具有3.0G赫兹中央处理器和2G字节内存的奔腾4计算机并用C++语言编制了短文本分类器构造程序,实现了本发明一种考虑语义背景的短文本分类器构造方法,还可以采用其他的执行环境,在此不再赘述。
图1为本发明提供的一种考虑语义背景的短文本分类器构造方法的流程图,其步骤如下:
步骤201:首先计算机收集最初始用于训练短文本分类器的短文本样本(每个短文本的长度限定在50个汉字以内),记录每个短文本样本所在的社区主题,并人工对每个样本进行类别标注,构成训练集TSet1。TSet1集合的一个元素可以表示为(sti,li,subi),其中sti表示短文本样本,li为其标签,subi为其对应的社区主题;
步骤202:利用TSet1包含的短文本对一个两层的长短时记忆(LSTM)编解码重构网络进行训练。这个网络示意图如图2所示。网络由编码部分(编码子网络)和解码部分(解码子网络)构成,编码子网络的输出fv即为输入短文本的特征向量。输入是一篇短文本,输出的是解码的短文本。如果输出的短文本与输入的短文本一模一样,则认为网络完美的重构除了输入文本;
步骤203:将训练好的编解码重构网络的编码部分(也即编码子网络)提取出来,将训练集中的每个短文本输入到编码子网络,得到每个短文本的特征向量vi;
步骤204:求取社区主题相同(也即subi取值相同)的短文本的特征向量的均值mean(subi)。这个均值即为这些文本的语义背景向量;
步骤205:对于短文本集中的每个短文本,将其特征向量减去其对应的社区主题subi的语义背景向量mean(subi),得到新的特征向量v’i=vi-mean(subi);
步骤206:根据新的特征向量与原始标签组成的训练集,利用深度神经网络或者支持向量机训练分类器。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (1)
1.一种考虑语义背景的短文本分类器构造方法,其特征在于,包括以下步骤:
步骤1:收集用于训练的短文本样本,记录每个样本所在社区的主题,人工给定每个短文本样本标签,构成短文本训练集;
步骤2:利用短文本训练集对一个两层的长短时记忆编解码重构网络进行训练;
步骤3:将训练好的编解码重构网络的编码子网络提取出来,将短文本训练集中的每个短文本输入到编码子网络,得到每个短文本的特征向量;
步骤4:求取相同或者相似社区主题对应的文本的特征向量均值,作为文本的语义背景向量;
步骤5:对于短文本训练集中的每个短文本,将其特征向量减去其对应的语义背景向量,得到新的特征向量;
步骤6:根据步骤5得到的特征向量与原始短文本样本标签组成的短文本训练集,利用深度神经网络或者支持向量机训练分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810547970.1A CN108804622B (zh) | 2018-08-20 | 2018-08-20 | 一种考虑语义背景的短文本分类器构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810547970.1A CN108804622B (zh) | 2018-08-20 | 2018-08-20 | 一种考虑语义背景的短文本分类器构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804622A true CN108804622A (zh) | 2018-11-13 |
CN108804622B CN108804622B (zh) | 2021-09-03 |
Family
ID=64089760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810547970.1A Active CN108804622B (zh) | 2018-08-20 | 2018-08-20 | 一种考虑语义背景的短文本分类器构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804622B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105045812A (zh) * | 2015-06-18 | 2015-11-11 | 上海高欣计算机系统有限公司 | 文本主题的分类方法及系统 |
US20170031904A1 (en) * | 2014-05-15 | 2017-02-02 | Sentient Technologies (Barbados) Limited | Selection of initial document collection for visual interactive search |
CN107292348A (zh) * | 2017-07-10 | 2017-10-24 | 天津理工大学 | 一种Bagging_BSJ短文本分类方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
-
2018
- 2018-08-20 CN CN201810547970.1A patent/CN108804622B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170031904A1 (en) * | 2014-05-15 | 2017-02-02 | Sentient Technologies (Barbados) Limited | Selection of initial document collection for visual interactive search |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105045812A (zh) * | 2015-06-18 | 2015-11-11 | 上海高欣计算机系统有限公司 | 文本主题的分类方法及系统 |
CN107292348A (zh) * | 2017-07-10 | 2017-10-24 | 天津理工大学 | 一种Bagging_BSJ短文本分类方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
Non-Patent Citations (2)
Title |
---|
陈培新等: "《融合潜在主题信息和卷积语义特征的文本主题分类》", 《信号处理》 * |
魏超等: "《自编码网络短文本流形表示方法》", 《浙江大学学报(工学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108804622B (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jurgens et al. | Incorporating dialectal variability for socially equitable language identification | |
CN110059320B (zh) | 实体关系抽取方法、装置、计算机设备和存储介质 | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
US10181333B2 (en) | Intelligent truthfulness indicator association | |
CN107992609A (zh) | 一种基于文本分类技术和决策树的投诉倾向判断方法 | |
CN104239331B (zh) | 一种用于实现评论搜索引擎排序的方法和装置 | |
Wolny | Emotion analysis of twitter data that use emoticons and emoji ideograms | |
Zhao | Analysing twitter data with text mining and social network analysis | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN105573995A (zh) | 一种兴趣识别方法、设备以及数据分析方法 | |
CN109800390A (zh) | 一种个性化情感摘要的计算方法与装置 | |
CN106599160A (zh) | 一种内容规则库管理系统及其编码方法 | |
CN108460150A (zh) | 新闻标题的处理方法及装置 | |
CN101739402A (zh) | 一种兴趣分析的方法、装置 | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
CN107967250A (zh) | 一种信息处理方法及装置 | |
Felicetti et al. | CIDOC CRM and Epigraphy: a Hermeneutic Challenge. | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN111460162A (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN106528566A (zh) | 日志文件的输出方法、服务器及客户端 | |
CN104537080B (zh) | 资讯推荐方法和系统 | |
CN115587183A (zh) | 一种段落分类模型的训练方法、装置及其存储介质 | |
CN109166012B (zh) | 针对行程预定类用户的分类及信息推送的方法和装置 | |
CN108038441A (zh) | 一种基于图像识别的系统与方法 | |
CN107291691A (zh) | 员工情绪分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230308 Address after: 1011, 10th Floor, Building 2, Yard 3, Jinguan North 2nd Street, Shunyi District, Beijing, 101300 Patentee after: Beijing Jiu'An Tianxia Technology Co.,Ltd. Address before: 300192 Nankai science and technology enterprise service center, first floor, Keyuan building, No. 8, scientific research west road, Nankai District, Tianjin Patentee before: TIANJIN TANSHU TECHNOLOGY Co.,Ltd. |