CN107169061B - 一种融合双信息源的文本多标签分类方法 - Google Patents
一种融合双信息源的文本多标签分类方法 Download PDFInfo
- Publication number
- CN107169061B CN107169061B CN201710301194.2A CN201710301194A CN107169061B CN 107169061 B CN107169061 B CN 107169061B CN 201710301194 A CN201710301194 A CN 201710301194A CN 107169061 B CN107169061 B CN 107169061B
- Authority
- CN
- China
- Prior art keywords
- text
- information source
- information sources
- text data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合双信息源的文本多标签分类方法,通过网络获取文本数据,将每篇文本按不同信息源分成信息源一和信息源二,并且将不同信息源文本分别采用空间向量模型表示,通过特征矩阵构建融合多种不同视角和特点的信息源的分类器,预测待分类的文本数据,得到分类标签结果,本发明设计合理、计算简单、预测准确,通过将具有不同视角和特点的两种信息源融合在模型中,提高了分类的准确性,避免了现有技术中分别对信息源构建分类器,再对多标签分类结果进行融合,导致忽略不同信息源之间、不同标签的相关性的问题,另外,通过将模型的求解过程转换成特征值的求解,不仅进一步简化了计算过程,而且还进一步提高了模型训练效率。
Description
技术领域
本发明涉及一种数据挖掘处理技术领域,尤其是一种融合双信息源的文本多标签分类方法。
背景技术
分类问题是数据挖掘、机器学习、自然语言处理等领域的重要问题,然而多标签分类问题相对于单标签分类更贴近实际需要,例如,对新闻文本读者情绪分类,不同的读者在阅读新闻文本后可能产生不同的情绪甚至同一个读者也可能同时产生多种情绪,如“悲伤”、“愤怒”等多个标签,文本多标签分类有很多实际应用需求,例如:对文章的主题分类可以用于个性化推荐,对新闻、微博等文本的情绪分类有利于舆情监控,对产品评论的分类有益于产品的销售等,对这些文本数据分类需要利用和挖掘尽量多的信息,融合多种信息有利于提高分类器的准确率,对于文本多标签分类,主要存在以下问题:
1、由于文本数据有成千上万个词汇,高维度数据处理相对复杂;
2、由于这些文本数据往往具有多种信息源,具有不同的特点和特征,从不同的角度解读着标签信息,例如,针对新闻的读者情绪分类,不仅有新闻文本信息,同时还有评论信息、主题信息等,现有技术中对于融合多类型信息效果不明显,分类器分类效果较差;
3、特征的提取对分类器性能提升有着至关重要的作用,现有技术对于有效特征的提取不准确。
4、由于真实的数据的多标签特性往往隐含着标签之间的特殊相关性,同时也导致了不同标签间数据的不平衡性,某些标签语料充足,某些标签语料则十分少,多标签特性对传统分类器依赖性较大。
现有的方法,一般是针对不同信息源分别构建分类器,通过采用加权求和和规则来融合两个分类器的输出,即通过求后验概率的加权和来实现两个分类器的融合,但该方法无法有效利用不同信息源、以及不同标签之间的相关性,还有通过直接将多种信息源文本简单的拼接在一起作为特征输入进行分类,然而这种方法忽略了不同的信息源有不同的特征空间,过于简单粗暴,无法将两种文本信息源的特征、标签相关信息进行有机融合、实现高效的多标签分类。
发明内容
针对现有技术的不足,本发明提供一种能够有效融合双信息源的文本多标签分类方法。
本发明的技术方案为:一种融合双信息源的文本多标签分类方法,其特征在于,包括以下步骤:
S1)、从网络爬取文本数据作为训练文本数据;
S2)、并对获取的训练文本数据进行预处理,踢除不需要的数据,保留有用的文本,将每篇文本数据按不同信息源分成信息源一和信息源二,然后分别将N篇文本数据的信息源一存入训练信息源一中,将信息源二存入训练信息源二中;
S3)、采用空间向量模型将每篇文本数据的信息源一和信息源二分别采用所需的特征项及其对应的特征项权重表示,即:
Rk=(t1,w1;t2,w2;...tn,wn),
Tk=(s1,v1;s2,v2;...sm,vm),
其中,ti、wi分别表示第k篇文本数据的信息源一的第i个特征项和对应的权重,si、vi表示第k篇文本数据的信息源二的第i个特征项和对应的权重,
然后将特征项、特征项权重表示的训练信息源一和训练信息源二向量化得到特征矩阵X1、X2;
S4)、基于将数据映射到低维空间最小化重构误差保留尽可能多的信息的原理,同时结合标签和标签之间的相关性,构建融合不同视角和特点与多个信息源融合的文本多标签分类模型,即优化如下带约束目标函数:
min:α1||X1-V1A||2+α2||X2-V2B||2+(1-α1-α2)||Y-γV1C-(1-γ)V2D||2,
其中,Y为多标签矩阵,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)是调节参数,A、B、C、D、V1、V2均为线性映射过程中的参数,T为转置,I为单位矩阵,并且令C*=γC,D*=(1-γ)D;
S5)、将A、B、C、D的最优解代入到模型中,并加入线性约束和正则项,将S3)中的目标函数等价变换成以下计算式,计算前K个最大的特征值对应的特征向量,具体为:
从而得到训练信息源一前K个特征向量组成的矩阵W1=(w1,w2,...wK)和训练信息源二的前J个特征向量组成的矩阵W2=(v1,v2,...vJ),从而得到训练好的双信息源的文本多标签分类模型;
S6)、获取需要预测的测试文本数据,并按照步骤S2、S3)进行对待预测数据进行预处理和向量化得到相应的特征矩阵,然后输入到训练好的双信息源的文本多标签分类模型,预测得到测试文本数据的分类标签结果。
本发明的有益效果为:设计合理、计算简单、预测准确,通过将具有不同视角和特点的两种信息源融合在模型中,提高了分类的准确性,避免了现有技术中分别对数据源构建分类器,再对多标签分类结果进行融合,导致忽略不同信息源之间、不同标签的相关性的问题,以及直接将信息源拼接作为特征输入,导致忽略了不同信息源有着不同的特征空间的问题,另外,通过将模型的求解过程转换成特征值的求解,不仅进一步简化了计算过程,而且还进一步提高了模型训练效率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,一种融合双信息源的文本多标签分类方法,其特征在于,包括以下步骤:
S1)、从网络爬取所需要的文本数据作为训练文本数据;
S2)、并对获取的训练文本数据进行预处理,踢除不必要的数据,保留所需文本,将每篇文本数据按不同信息源分成信息源一和信息源二,将然后分别将N篇文本数据的信息源一存入训练信息源一中,将信息源二存入训练信息源二中;
例如,若获取的文本数据为新闻数据,数据中既有新闻内容也有新闻评论,其中新闻内容和信息评论即为两个不同的数据源,将新闻内容划分为信息源一,将新闻评论划分为信息源二,然后将N篇新闻的新闻内容存入训练信息源一中,将N篇新闻的新闻评论存入训练信息源二中;
S3)、采用空间向量模型将每篇文本数据的信息源一和信息源二分别采用所需的特征项及其对应的特征项权重表示,即:
Rk=(t1,w1;t2,w2;...tn,wn),
Tk=(s1,v1;s2,v2;...sm,vm),
其中,ti、wi分别表示第k篇文本数据的信息源一的第i个特征项和对应的权重,si、vi表示第k篇文本数据的信息源二的第i个特征项和对应的权重,
然后将特征项、特征项权重表示的训练信息源一和训练信息源二向量化得到特征矩阵X1、X2;
S4)、基于将数据映射到低维空间最小化重构误差保留尽可能多的信息的原理,同时结合标签和标签之间的相关性,构建融合不同视角和特点的多个信息源融合的文本多标签分类模型,即优化如下带约束目标函数:
min:α1||X1-V1A||2+α2||X2-V2B||2+(1-α1-α2)||Y-γV1C-(1-γ)V2D||2,
其中,Y为多标签矩阵,α1,α2,(1-α1-α2)∈(0,1),γ∈(0,1)为调节参数,A、B、C、D、V1、V2为均为线性映射过程中的参数,T为转置,I为单位矩阵,令C*=γC,D*=(1-γ)D;
S5)、将A、B、C、D的最优解代入到模型中,并加入线性约束和正则项,从而将S3)中的目标函数等价变换成以下计算式,计算前K个最大的特征值对应的特征向量,具体为:
从而得到训练信息源一前K个特征向量组成的矩阵W1=(w1,w2,...wK)和训练信息源二的前J个特征向量组成的矩阵W2=(v1,v2,...vJ),从而得到训练好的双信息源的文本多标签分类模型;
S6)、获取需要预测的测试文本数据,并按照步骤S2、S3)对待预测数据进行预处理和向量化得到相应的测试数据源一、测试数据源二对应的特征矩阵X1test、X2test,并根据Ypredit=X1test×W1×C*+X2test×W2×D*,得到待预测文本数据的预测结果Ypredit;
根据预测结果Ypredit判断待测试文本数据的类别,其中,包括8个类别,每个预测文本数据可包括多个类别,若在相应类别下的预测结果为正,则判定该预测文本属于该相应类别,若在相应类别下的预测结果为负,则判定该预测文本不属于该相应类别,例如:若8个类别分别记为[1、2、3、4、5、6、7、8],若一个预测文本数据的预测结果Ypredit在类别1、4、5、6、7下均为正数,在类别2、3、8下均为负数,则该预测文本数据的类别为类别1、4、5、6、7。
进一步地,所述的权重可以是词频,也可以是tf-idf值;
进一步地,所述的特征项为经过χ2统计量、互信息等刷选后的特征项;
进一步地,根据特征向量矩阵W1和W2,得到参数V1、V2,具体为:V1=X1W1,V2=X2W2;
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (6)
1.一种融合双信息源的文本多标签分类方法,其特征在于,包括以下步骤:
S1)、从网络爬取所需要的文本数据作为训练文本数据;
S2)、并对获取的训练文本数据进行预处理,踢除不需要的数据,保留有用的文本,将每篇文本数据按不同信息源分成信息源一和信息源二,然后分别将N篇文本数据的信息源一存入训练信息源一中,将信息源二存入训练信息源二中;
S3)、采用空间向量模型将每篇文本数据的信息源一和信息源二分别采用所需的特征项及其对应的特征项权重表示,即:
Rk=(t1,w1;t2,w2;...tn,wn),
Tk=(s1,v1;s2,v2;...sm,vm),
其中,ti、wi分别表示第k篇文本数据的信息源一的第i个特征项和对应的权重,si、vi表示第k篇文本数据的信息源二的第i个特征项和对应的权重,
然后将特征项、特征项权重表示的训练信息源一和训练信息源二向量化得到特征矩阵X1、X2;
S4)、基于将数据映射到低维空间最小化重构误差保留尽可能多的信息的原理,同时结合标签和标签之间的相关性,构建融合不同视角和特点的多个信息源融合的文本多标签分类模型,即优化如下带约束目标函数:
min:α1||X1-V1A||2+α2||X2-V2B||2+(1-α1-α2)||Y-γV1C-(1-γ)V2D||2,
其中,Y为多标签矩阵,α1、α2、(1-α1-α2)∈(0,1)、γ∈(0,1)为调节参数,A、B、C、D、V1、V2为均为线性映射过程中的参数,T为转置,I为单位矩阵,令C*=γC,D*=(1-γ)D;
S5)、将A、B、C、D的最优解代入到模型中,并加入线性约束和正则项,从而将S3)中的目标函数等价变换成以下计算式,计算前K个最大的特征值对应的特征向量,具体为:
从而得到训练信息源一前K个特征向量组成的矩阵W1=(w1,w2,...wK)和训练信息源二的前J个特征向量组成的矩阵W2=(v1,v2,...vJ),从而得到训练好的双信息源的文本多标签分类模型;
S6)、获取需要预测的测试文本数据,并按照步骤S2、S3)对待预测数据进行预处理和向量化得到相应的测试信息源一、测试信息源二对应的特征矩阵X1test、X2test,并输入到训练好的双信息源的文本多标签分类模型,根据Ypredit=X1test×W1×C*+X2test+W2×D*,得到待预测文本数据的预测结果Ypredit;
根据预测结果Ypredit判断待测试文本的类别,其中,包括8个类别,每个预测文本数据包括多个类别,若在相应类别下的预测结果为正数,则判定该预测文本属于该相应类别,若在相应类别下的预测结果为负数,则判定该预测文本不属于该相应类别。
2.根据权利要求1所述的一种融合双信息源的文本多标签分类方法,其特征在于:所述的权重是词频或tf-idf值。
3.根据权利要求1所述的一种融合双信息源的文本多标签分类方法,其特征在于:所述的特征项为经过χ2统计量、互信息的刷选后的特征项。
5.根据权利要求1所述的一种融合双信息源的文本多标签分类方法,其特征在于:根据特征向量矩阵W1和W2,计算得到参数V1、V2,具体为:V1=X1W1,V2=X2W2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301194.2A CN107169061B (zh) | 2017-05-02 | 2017-05-02 | 一种融合双信息源的文本多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301194.2A CN107169061B (zh) | 2017-05-02 | 2017-05-02 | 一种融合双信息源的文本多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107169061A CN107169061A (zh) | 2017-09-15 |
CN107169061B true CN107169061B (zh) | 2020-12-11 |
Family
ID=59812669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710301194.2A Active CN107169061B (zh) | 2017-05-02 | 2017-05-02 | 一种融合双信息源的文本多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169061B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902309B (zh) * | 2018-12-17 | 2023-06-02 | 北京百度网讯科技有限公司 | 翻译方法、装置、设备和存储介质 |
CN110569359B (zh) * | 2019-08-26 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 识别模型的训练及应用方法、装置、计算设备及存储介质 |
CN110569920B (zh) * | 2019-09-17 | 2022-05-10 | 国家电网有限公司 | 一种多任务机器学习的预测方法 |
CN112070138B (zh) * | 2020-08-31 | 2023-09-05 | 新华智云科技有限公司 | 多标签混合分类模型的构建方法、新闻分类方法及系统 |
CN113297382B (zh) * | 2021-06-21 | 2023-04-25 | 西南大学 | 仪器设备功能标签化处理方法 |
CN113448739B (zh) * | 2021-08-31 | 2022-02-11 | 阿里云计算有限公司 | 一种数据处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014194481A1 (zh) * | 2013-06-05 | 2014-12-11 | 中国科学院自动化研究所 | 考虑特征可靠性的视频分类器构造方法 |
CN106250914A (zh) * | 2016-07-22 | 2016-12-21 | 华侨大学 | 基于结构稀疏多核学习的多模态数据特征筛选和分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7707129B2 (en) * | 2006-03-20 | 2010-04-27 | Microsoft Corporation | Text classification by weighted proximal support vector machine based on positive and negative sample sizes and weights |
CN102624733B (zh) * | 2012-03-15 | 2015-03-18 | 沈益民 | 组合信息源的组合方法及物联网信息源组合访问方法 |
CN103049526B (zh) * | 2012-12-20 | 2015-08-05 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
CN103778200B (zh) * | 2014-01-09 | 2017-08-08 | 中国科学院计算技术研究所 | 一种报文信息源抽取方法及其系统 |
-
2017
- 2017-05-02 CN CN201710301194.2A patent/CN107169061B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014194481A1 (zh) * | 2013-06-05 | 2014-12-11 | 中国科学院自动化研究所 | 考虑特征可靠性的视频分类器构造方法 |
CN106250914A (zh) * | 2016-07-22 | 2016-12-21 | 华侨大学 | 基于结构稀疏多核学习的多模态数据特征筛选和分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107169061A (zh) | 2017-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169061B (zh) | 一种融合双信息源的文本多标签分类方法 | |
US11216620B1 (en) | Methods and apparatuses for training service model and determining text classification category | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN108399158B (zh) | 基于依存树和注意力机制的属性情感分类方法 | |
CN107169572B (zh) | 一种基于Mahout的机器学习服务组装方法 | |
CN107291822A (zh) | 基于深度学习的问题分类模型训练方法、分类方法及装置 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
CN110728541A (zh) | 信息流媒体广告创意推荐方法及装置 | |
Naz et al. | Intelligent routing between capsules empowered with deep extreme machine learning technique | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
Bonaccorso | Hands-On Unsupervised Learning with Python: Implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
Schofield et al. | Identifying hate speech in social media | |
Joshi et al. | Python: Real world machine learning | |
Sahidullah et al. | Date fruit classification with machine learning and explainable artificial intelligence | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
CN114049165B (zh) | 一种采购系统的商品比价方法、装置、设备和介质 | |
Gallego et al. | Multi-label logo classification using convolutional neural networks | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN117436446B (zh) | 基于弱监督的农业社会化销售服务用户评价数据分析方法 | |
CN114896987B (zh) | 基于半监督预训练模型的细粒度情感分析方法和装置 | |
Prasad | Pattern recognition: possible research areas and issues | |
CN110019772A (zh) | 一种文本情绪分类方法及系统 | |
Yadav et al. | Image Classification using Deep Learning and TensorFlow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |