CN113626601A - 一种跨域文本分类方法 - Google Patents
一种跨域文本分类方法 Download PDFInfo
- Publication number
- CN113626601A CN113626601A CN202110949647.9A CN202110949647A CN113626601A CN 113626601 A CN113626601 A CN 113626601A CN 202110949647 A CN202110949647 A CN 202110949647A CN 113626601 A CN113626601 A CN 113626601A
- Authority
- CN
- China
- Prior art keywords
- word vectors
- matrix
- text
- word
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 64
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种跨域文本分类方法,具体包括如下步骤:步骤1,获取文本信息中的词向量;步骤2,从步骤1获取的词向量中任意选取其中两个词向量,计算两个词向量之间的余弦值,利用余弦值衡量两个词向量间的相似度,并创建相似度矩阵;步骤3,对步骤2所得的相似度矩阵进行降维;步骤4,对步骤3降维后的矩阵进行聚类操作,实现文本分类。采用本发明提供的分类方法,能够提高文本中相关词语的查找率。
Description
技术领域
本发明属于自然语言处理技术领域,涉及一种跨域文本分类方法。
背景技术
现在的互联网处于大数据时代,容纳了各个领域的海量数据和信息,如何对这些信息进行有效地组织和管理,并快速、准确地在这些信息里找到用户需要的信息是当前信息技术面临的一项难题。传统的文本分类方法,通常以词作为文本的基本单元,不仅容易造成语义信息的缺失,还易导致文本特征的高维性和稀疏性。目前文本分类技术的应用多是机器学习,该方法通常提取TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)或者词袋特征,然后给LR模型进行训练,这里模型有很多,如;贝叶斯、svm等。而面对特性多样的文本数据,又易导致基于传统方法的文本分类器的泛化能力下降。近些年,深度学习技术迅速发展,已经被应用于各个领域,并且成效颇为显著。深度学习利用自身独特的网络结构可以改善文本预处理的效果,可以很好的解决当前文本分类面临的问题,它给自然语言处理开辟了一条新的道路,也为广大业界学者提供了一个重要的研究方向。神经网络语言模型是用词向量来度量单词之间的语义相关性,bert(BidirectionalEncoder Representations from Transformers)模型是Google在2018年10月发布的语言表示模型,本质上是一种语言编码器,它可以将输入的句子和段落转化为相应的特征向量。基于深度学习的文本分类方法用词向量对词语进行语义表示,再通过语义组合的方式获得文本的语义表示。词嵌入是将词语映射为数字的方式,但一个单纯的实数包含的信息太少,一般我们映射为一个数值向量。自然语言处理过程中,需要保留语言本身的一些抽象特征,如语义和句法等。纵观NLP的发展史,很多革命性的成果都是词嵌入的发展成果,如Word2Vec、ELMo和bert,它们都是很好地将自然语言的特征在转换过程中进行了保留。神经网络语义组合的方法主要有卷积神经网络、循环神经网络和注意力机制等,这些方法通过不同的组合方法从词语的语义表示上升到文本的语义表示。
发明内容
本发明的目的是提供一种跨域文本分类方法,采用该方法能够对文本中的关键词进行分类,提高查找效率。
本发明所采用的技术方案是,一种跨域文本分类方法,具体包括如下步骤:
步骤1,获取文本信息中的词向量;
步骤2,从步骤1获取的词向量中任意选取其中两个词向量,计算两个词向量之间的余弦值,利用余弦值衡量两个词向量间的相似度,并创建相似度矩阵;
步骤3,对步骤2所得的相似度矩阵进行降维;
步骤4,对步骤3降维后的矩阵进行聚类操作,实现文本分类。
本发明的特点还在于:
步骤1的具体过程为:若文本信息中含有中文,则采用bert模型来获取文本的词向量;若数据集中不含中文,则采用word2vec模型来获取文本的词向量。
步骤2中,计算两个词向量之间的余弦值过程为:取任意两个词向量A和B,将词向量A与词向量B之间的夹角记为θ,向量A的表示形式为[A1,A2,...,An],向量B的表示形式为[B1,B2,...,Bn],则词向量A与B的夹角θ的余弦计算如公式(1)所示:
创建相似度矩阵的具体过程为:
对于一个网络图H,相似度矩阵S=[Sij]m×m;其中m表示网络图H中的节点;矩阵S中的元素是两个节点之间的相似度Sij=Sim(νi,νj),νi,νj为任意两个节点。
步骤3中,采用深度稀疏自动编码器对步骤2所得的相似度矩阵进行降维,将原m维矩阵降为p维矩阵,p<m。
步骤4中,通过k-means聚类方法对降维后的矩阵进行聚类测试。
本发明的有益效果是:本发明提供的一种跨域文本分类方法,将文本使用词嵌入方式表示为数学向量的形式,计算向量之间的相似性,再利用k-means聚类方法可以有效对文本进行分类,提高关键词的查找效率。
附图说明
图1是本发明一种跨域文本分类方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种跨域文本分类方法,如图1所示,具体包括如下步骤:
步骤1,获取文本信息中的词向量;
步骤1的具体过程为:若文本信息中含有中文,则采用bert模型来获取文本的词向量;若数据集中不含中文,则采用word2vec模型来获取文本的词向量。
Bert模型是一种基于深度学习的语言表示模型,bert技术的出现,改变了预训练产生词向量和下游具体任务的关系。Bert模型的核心模块是Transformer,transformer的核心是注意力机制,注意力机制借鉴了人类视觉上的注意力,它可以让神经网络把重点关注对象放在一部分输入,也就是可以区分不同部分的输入对输出的影响。Bert的网络架构采用多层transformer结构。将文本摘要关键信息输入到bert模型,得到对应的向量表示。
word2vec是google在2013年提出的NLP模型,它的特点是将所有的词表示成低维稠密向量,从而可以在词向量空间上定性衡量词与词之间的相似性。越相似的词在向量空间上的夹角会越小。
步骤2,从步骤1获取的词向量中任意选取其中两个词向量,计算两个词向量之间的余弦值,利用余弦值衡量两个词向量间的相似度,并创建相似度矩阵;余弦相似度:也称为余弦距离,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
步骤2中,计算两个词向量之间的余弦值过程为:取任意两个词向量A和B,将词向量A与词向量B之间的夹角记为θ,向量A的表示形式为[A1,A2,...,An],向量B的表示形式为[B1,B2,...,Bn],则词向量A与B的夹角θ的余弦计算如公式(1)所示:
创建相似度矩阵的具体过程为:
对于一个网络图H(表1),相似度矩阵S=[Sij]m×m;其中m表示网络图H中的节点;矩阵S中的元素是两个节点之间的相似度Sij=Sim(νi,νj),νi,νj为任意两个节点,相似度矩阵如下表1所示:
表1
步骤3,对步骤2所得的相似度矩阵进行降维;
采用深度稀疏自动编码器对步骤2所得的相似度矩阵进行降维,将表1中的原m维矩阵降为p维矩阵,p<m。
深度稀疏自动编码器是基于稀疏自动编码器构成的,其最大的特点是输入层结点数和输出层结点数相同而隐藏层结点个数少于它们两个。自动编码器通常被用于降维或特征学习。自动编码器是一种数据的压缩算法,属于无监督学习,以自身X作为输出值,但输出值X’和自身X之间还是有一些差异的。自动编码器也是一种有损压缩,可以通过使得损失函数最小来实现X’近似于X的值。
步骤4,对步骤3降维后的矩阵进行聚类操作,实现文本分类。
步骤3得到降维后的矩阵,随后进行聚类测试,可以通过K-means算法得到K个社区数,通过聚类评价指标选取最佳的聚类效果的参数,以达到良好的文本分类结果。
实施例
将5000条跨域论文的abstract,首先使用bert模型进行训练生成文本对应的向量。文本之间的相似度可以使用向量在空间上的位置差异来表示,所以我们结合余弦定理完成对文本词向量的处理并计算余弦相似度,同时创建相似度矩阵。然后利用深度稀疏自编码器训练,进行矩阵的降维,然后使用k-means聚类方法进行测试,分别在输入为不同的社区数对数据集进行分析。
将数据通过k-means聚类方法分别按照评价指标得到以下结论:利用Calinski-Harabaz Index评价指标对数据分析,随着社区数量的增多评价指标值越小,根据该评价指标可知图像越陡分类效果越好。利用轮廓系数评级指标可知,当社区个数越少时效果最好最具研究意义,从而达到本次实验分类的目的。
Claims (5)
1.一种跨域文本分类方法,其特征在于:具体包括如下步骤:
步骤1,获取文本信息中的词向量;
步骤2,从步骤1获取的词向量中任意选取其中两个词向量,计算两个词向量之间的余弦值,利用余弦值衡量两个词向量间的相似度,并创建相似度矩阵;
步骤3,对步骤2所得的相似度矩阵进行降维;
步骤4,对步骤3降维后的矩阵进行聚类操作,实现文本分类。
2.根据权利要求1所述的一种跨域文本分类方法,其特征在于:所述步骤1的具体过程为:若文本信息中含有中文,则采用bert模型来获取文本的词向量;若数据集中不含中文,则采用word2vec模型来获取文本的词向量。
4.根据权利要求3所述的一种跨域文本分类方法,其特征在于:所述步骤3中,采用深度稀疏自动编码器对步骤2所得的相似度矩阵进行降维,将原m维矩阵降为p维矩阵,p<m。
5.根据权利要求4所述的一种跨域文本分类方法,其特征在于:所述步骤4的具体过程为:所述步骤4中,通过k-means聚类方法对降维后的矩阵进行聚类测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110949647.9A CN113626601A (zh) | 2021-08-18 | 2021-08-18 | 一种跨域文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110949647.9A CN113626601A (zh) | 2021-08-18 | 2021-08-18 | 一种跨域文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113626601A true CN113626601A (zh) | 2021-11-09 |
Family
ID=78386405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110949647.9A Pending CN113626601A (zh) | 2021-08-18 | 2021-08-18 | 一种跨域文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626601A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776545A (zh) * | 2016-11-29 | 2017-05-31 | 西安交通大学 | 一种通过深度卷积神经网络进行短文本间相似度计算的方法 |
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
-
2021
- 2021-08-18 CN CN202110949647.9A patent/CN113626601A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776545A (zh) * | 2016-11-29 | 2017-05-31 | 西安交通大学 | 一种通过深度卷积神经网络进行短文本间相似度计算的方法 |
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
Non-Patent Citations (2)
Title |
---|
陈忆金: "面向应对决策的网络舆情信息聚合研究", 31 December 2020, 武汉大学出版社, pages: 44 * |
黄承慧: "一种结合词项语义信息和TF-IDF方法的文本相似度量方法", 计算机学报, no. 05 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Multilayer dense attention model for image caption | |
CN106970910B (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN111414481B (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN113704546B (zh) | 基于空间时序特征的视频自然语言文本检索方法 | |
CN108549634A (zh) | 一种中文专利文本相似度计算方法 | |
Zhang | Research on text classification method based on LSTM neural network model | |
CN112597302B (zh) | 基于多维评论表示的虚假评论检测方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN117371456B (zh) | 一种基于特征融合的多模态讽刺检测方法及系统 | |
CN111984782A (zh) | 藏文文本摘要生成方法和系统 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN117764084A (zh) | 基于多头注意力机制与多模型融合的短文本情感分析方法 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN113343118A (zh) | 混合新媒体下的热点事件发现方法 | |
CN117235254A (zh) | 电力设备故障分析方法、装置、设备及存储介质 | |
Xiao et al. | Research on multimodal emotion analysis algorithm based on deep learning | |
Yang et al. | Web service clustering method based on word vector and biterm topic model | |
CN115017260A (zh) | 一种基于子主题建模的关键词生成方法 | |
Dong | Research on extractive text abstract generation method for graph model based on TextRank | |
CN113626601A (zh) | 一种跨域文本分类方法 | |
Guo et al. | Chinese text classification model based on bert and capsule network structure | |
Zhang et al. | Sentiment analysis of chinese reviews based on BiTCN-attention model | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
Zheng et al. | A short-text oriented clustering method for hot topics extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211109 |
|
RJ01 | Rejection of invention patent application after publication |