CN111062219A - 一种基于张量的潜在语义分析文本处理方法及装置 - Google Patents
一种基于张量的潜在语义分析文本处理方法及装置 Download PDFInfo
- Publication number
- CN111062219A CN111062219A CN201911327736.9A CN201911327736A CN111062219A CN 111062219 A CN111062219 A CN 111062219A CN 201911327736 A CN201911327736 A CN 201911327736A CN 111062219 A CN111062219 A CN 111062219A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- feature
- tensor
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于张量的潜在语义分析文本处理方法及装置,所述方法包括:获取待分类的文本集;其中,文本集包含A个文本,A为正整数;提取文本集中每个文本的特征,获得文本集的K个特征向量,K为正整数;根据特征向量以及特征向量的维数,构建A×m×n的张量模型;其中,张量模型中元素包含K个特征向量,m、n均为正整数;根据张量模型进行奇异值分解处理,获得特征数据;其中,特征数据用于输入目标分类器,以使目标分类器根据张量模型对文本集进行分类。本发明方法处理过程中各个特征之间的相关性会得到保留,可提高文本分类器分类的准确性,挖掘出潜在相关联的特征词。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于张量的潜在语义分析文本处理方法及装置。
背景技术
文本分类(Text Categorization,TC)是根据文本的内容自动为文本打上一个或多个预定义标签的过程。而在越来越多的多模态、大规模数据的大环境下,基于向量空间(Vector Space Model,VSM)的传统向量表示分析方法由于特征的排列组合引发了维数灾难和过拟合等疑难问题,以及不能解决一词多义或同义词问题。基于VSM的文本分类算法已经不能满足人们的应用需求。
潜在语义分析算法(Latent Semantic Analysis,LSA)是一种基于奇异值分解的全自动数学统计技术,具有简单、高效等特点。其基本思想是关于一个给定单词在所有单词的上下文中出现和未出现的全部信息提供了一组相互约束,这些约束在很大程度上决定了单词的意义和一组词相互之间的相似性。LSA得出的相似性估计不是简单的邻接频率或共现突发事件,而是依赖于更深层次的统计分析。该模型在文本分类中主要充当了词向量估计与训练的工作。使用传统方法获得特征的空间矢量表示时,LSA将特征和文档映射到潜在的语义空间并消除原始向量空间中的一些噪声。但是,特征之间的线性规律不会被保留,从而导致分类结果不够理想。
发明内容
鉴于上述问题,本发明提出了一种基于张量的潜在语义分析文本处理方法及装置,在特征处理过程中特征之间的相关性会得到保留,可提高文本分类器分类的准确性,挖掘出潜在相关联的特征词。
第一方面,本申请通过一实施例提供如下技术方案:
一种基于张量的潜在语义分析文本处理方法,包括:
获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数;
提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;
根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数;
根据所述张量模型进行奇异值分解处理,获得特征数据;其中,所述特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
优选地,所述根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型,包括:
根据所述特征向量的数量构建m×n的特征矩阵,获得A个所述特征矩阵;
根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值;其中,所述目标文本为所述文本集中的任意一个文本,所述目标向量为所述K个特征向量中的一个,所述目标矩阵为A个所述特征矩阵中的一个;
根据A个所述特征矩阵以及每个所述特征矩阵的元素值,获得所述A×m×n的张量模型。
优选地,所述根据所述特征向量的数量构建m×n的特征矩阵,包括:
优选地,所述根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值,包括:
获取所述目标文本对应的多个目标向量;
将所述多个目标向量确定为所述目标矩阵中的元素值;
将所述目标矩阵中尚未确定的元素值,确定为0。
优选地,所述将所述多个目标向量确定为所述目标矩阵中的元素值,包括:
将所述多个目标向量按照特征值由大到小依次填充到所述目标矩阵中,作为所述目标矩阵中的元素值。
优选地,所述将所述张量模型输入预设的分类器,以使所述分类器根据所述张量模型对所属文本集进行分类之前,还包括:
获取训练集;其中,所述训练集包含B个文本,B为正整数;
对所述B个文本进行分类结果的标记,获得B个标记文本;其中,所述标记用于识别每个文本的分类结果;
提取所述训练集中每个文本的特征,获得所述训练集的L个训练特征向量,L为正整数;
根据所述训练特征向量以及所述训练特征向量的维数,构建B×i×j的训练张量模型;其中,所述训练张量模型中元素包含所述L个训练特征向量,i、j均为正整数;
根据所述训练张量模型进行奇异值分解处理,获得训练特征数据;其中,所述训练特征数据和所述B个标记文本用于输入预设的分类器中进行训练,获得训练好的所述目标分类器。
第二方面,基于同一发明构思,本申请通过一实施例提供如下技术方案:
一种基于张量的潜在语义分析文本处理装置,包括:
文本处理模块,用于获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数;
特征提取模块,用于提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;
张量构建模块,用于根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数;
特征数据获取模块,用于根据所述张量模型进行奇异值分解处理,获得特征数据;其中,所述特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
优选地,所述张量构建模块,具体用于:
根据所述特征向量的数量构建m×n的特征矩阵,获得A个所述特征矩阵;
根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值;其中,所述目标文本为所述文本集中的任意一个文本,所述目标向量为所述K个特征向量中的一个,所述目标矩阵为A个所述特征矩阵中的一个;
根据A个所述特征矩阵以及每个所述特征矩阵的元素值,获得所述A×m×n的张量模型。
第三方面,基于同一发明构思,本申请通过一实施例提供如下技术方案:
一种基于张量的潜在语义分析文本处理装置,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述基于张量的潜在语义分析文本处理装置执行第一方面中任一项所述方法的步骤。
第四方面,基于同一发明构思,本申请通过一实施例提供如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
本发明实施例中提供的一种基于张量的潜在语义分析文本处理方法及装置,其中方法包括:获取待分类的文本集;其中,文本集包含A个文本,A为正整数;提取文本集中每个文本的特征,获得文本集的K个特征向量,K为正整数;根据特征向量以及特征向量的维数,构建A×m×n的张量模型;其中,张量模型中元素包含K个特征向量,m、n均为正整数;根据张量模型进行奇异值分解处理,获得特征数据;其中,特征数据用于输入目标分类器,以使目标分类器根据张量模型对文本集进行分类。由于在本发明方法中对文本特征的表示是采用张量模型表示,不再采用向量空间表示,奇异值分解处理过程中各个特征之间的相关性会得到保留,可提高文本分类器分类的准确性,挖掘出潜在相关联的特征词。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明第一实施例提供的一种基于张量的潜在语义分析文本处理方法的流程图;
图2示出了采用本发明第一实施例提供的一种基于张量的潜在语义分析文本处理方法进行分类器验证的促进效果示意图;
图3示出了第二实施例提供的一种基于张量的潜在语义分析文本处理装置的功能模块图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
第一实施例
请参见图1,图1示出了本发明第一实施例提供的一种基于张量的潜在语义分析文本处理方法的方法流程图。具体的,所述方法包括:
步骤S10:获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数;
步骤S20:提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;
步骤S30:根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数;
步骤S40:根据所述张量模型进行奇异值分解处理,获得特征数据;特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
在本实施例中采用张量表示文本集的特征数据,相较于向量表示方法,张量的结构决定了它在表示多模态数据时会更直观且容易,当张量为多维结构不仅使高维数据的各模态之间可两两独立地占用不同维度,还能在数据处理时将不同模态之间的相关与互补关系进行充分考虑,更有在提取特征时能有效保存原始数据含有的结构特征,而这些优势是向量方法所忽略无法实现的。除此之外,张量表示方法可以有效避免向量表示中出现的如维度灾难、矩阵奇异等疑难困境,并还能够克服小样本问题。下面依次对本发明实施例的各个步骤进行详细的阐述和说明。
步骤S10:获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数。
在步骤S10中,待分类的文本集的语种不作限制,例如可为中文、英文等。一个文本集中包括A个文本,A应当为大于2的整数。一般来说,可以首先获取需要分类的数据集,然后将数据集进行前期处理,例如,进行数据整理、数据清洗、数据切分、转换等,数据的前期处理为现有的手段,在本文中不再赘述。最终,获得计算机可识别、可处理的文本集。
步骤S20:提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;
在步骤S20中,文本集中的每个文本均可存在多个特征,每个特征均可进行向量化表示,从而获得K个特征向量。其中,特征提取的具体过程可参考现有的技术方案。
步骤S30:根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数。
通过步骤S30可建立起文本集的特征的张量化表示,通过张量对文本集的特征进行表示,可避免分类过程中产生维数灾难。在进行适应张量奇异值分解的时候,可保留各个特征之间的关联性,提高分类的准确率。
进一步的在步骤S30中,具体包括:
步骤S31:根据所述特征向量的数量构建m×n的特征矩阵,获得A个所述特征矩阵。
步骤S32:根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值;其中,所述目标文本为所述文本集中的任意一个文本,所述目标向量为所述K个特征向量中的一个,所述目标矩阵为A个所述特征矩阵中的一个。
在步骤S32中,将目标文本对应的目标向量填充到特征矩阵中时一般不作限制。优选地的,可为根据特征值由大到小排列填充,也可由特征相关性的由强到弱进行填充,通过上述填充方式可在学习分类的时候具备更高的准确性。在本实施例中,最优选的为采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)的值表示目标向量的特征值,即特征值=TF*IDF。具体的为:获取所述目标文本对应的多个目标向量;将所述多个目标向量确定为所述目标矩阵中的元素值;将所述目标矩阵中尚未确定的元素值,确定为0。例如:将多个目标向量按照按特征的特征值大小排列为:(a1 a2 a3 a4 a5 a6a7),将其填充到特征矩阵中后为:
步骤S33:根据A个所述特征矩阵以及每个所述特征矩阵的元素值,获得所述A×m×n的张量模型。
在步骤S33中,每个文本均对应有一个特征矩阵,A个特征文本对应有A个特征矩阵,即可获得A×m×n的张量模型。
步骤S40:根据所述张量模型进行奇异值分解处理,获得特征数据;其中,所述特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
在步骤S40中,由于改进的LSA算法(为了避免混淆,后续将改进的LSA算法称为TensorLSA算法模型)模型所操作的数据从矩阵扩展到张量,故传统的LSA模型所采用适应矩阵奇异值分解的T-SVD(Truncated Singular Value Decomposition,截断式奇异值分解)需相应地替换成适应张量奇异值分解的T-HOSVD(Truncated High-Order SingularValue Decomposition,截断式高阶奇异值分解),并构建潜在语义分析模型。在张量上执行HOSVD,若存在基础多线性结构,该结构与所有三个维度之间的值均相关,相较于现有技术保留了相关性,可以挖掘出一些潜在相关联的特征词,还可结合k近邻以及逻辑斯蒂回归算法进行文本分类。较一维向量来说,张量维数更少,但能表示更多的信息量,且避免了维数灾难和过拟合问题。
目标分类器中可包含多种算法,例如k近邻算法、逻辑斯蒂回归算法等,不作限制。
需要说明的是,在本实施例中输入目标分类器之前需要使用本发明处理得到的特征数据对目标分类器进行训练。具体步骤如下:
步骤S101:获取训练集;其中,所述训练集包含B个文本,B为正整数;
步骤S102:对所述B个文本进行分类结果的标记,获得B个标记文本;其中,所述标记用于识别每个文本的分类结果;
步骤S103:提取所述训练集中每个文本的特征,获得所述训练集的L个训练特征向量,L为正整数;
步骤S104:根据所述训练特征向量以及所述训练特征向量的维数,构建B×i×j的训练张量模型;其中,所述训练张量模型中元素包含所述L个训练特征向量,i、j均为正整数;
步骤S105:根据所述训练张量模型进行奇异值分解处理,获得训练特征数据;
步骤S106:将所述训练张量模型和所述B个标记文本输入预设的分类器中进行训练,获得训练好的所述目标分类器。
在步骤S101中,训练集和文本集可为同一个数据源中分拆出的两组数据。另外,步骤S103-S105的具体解释和说明可参见步骤S102-S104的阐述,不再赘述。通过步骤S106训练出的分类器,其参数是适应于训练特征数据的分类器。
继续采用如下方式验证本实施例的方法的可靠性:
为了测试本实施例方法的作用于分类器的影响,本发明基于Sklearn(一个开源的基于python语言的机器学习工具包)中的20newsgroup(用于文本分类、文本挖据和信息检索研究的国际标准数据集之一)数据集作为语料库并选取了2个分类器k近邻(k-NearestNeighbor,kNN)及逻辑斯蒂回归进行实验。将LSA算法、本实施例中的TensorLSA算法与k近邻算法、逻辑斯蒂回归算法两两组合形成4个模型,控制相关参数一致进行测试。采用召回率、正确率以及F1进行评估,分别定义为公式(1)(2)(3)。
其中,presision为召回率,recall为正确率,f1_score为F1分数;TP、FN、FP、TN分别为预测正确的正例样本、预测错误的正例样本、预测错误的负例样本、预测正确的负例样本。采用该指标评估分类结果如图2所示。由图2可以看出TensorLSA算法对分类器中的不同算法均起到一定的促进作用,较传统算法在一定程度上改善了分类器的分类效果,其中与逻辑斯蒂回归分类器相结合的模型表现突出,也即TensorLSA算法对逻辑斯蒂回归算法的分类器促进最为显著。
综上所述,本实施例中提供的一种基于张量的潜在语义分析文本处理方法,包括:获取待分类的文本集;其中,文本集包含A个文本,A为正整数;提取文本集中每个文本的特征,获得文本集的K个特征向量,K为正整数;根据特征向量以及特征向量的维数,构建A×m×n的张量模型;其中,张量模型中元素包含K个特征向量,m、n均为正整数;根据张量模型进行奇异值分解处理,获得特征数据;其中,特征数据用于输入目标分类器,以使目标分类器根据张量模型对文本集进行分类。由于在本实施例方法中对文本特征的表示是采用张量模型表示,不再采用向量空间表示,在奇异值分解处理过程中各个特征之间的相关性会得到保留,可提高文本分类器分类的准确性,挖掘出潜在相关联的特征词。
第二实施例
基于同一发明构思,本发明第二实施例提供了一种基于张量的潜在语义分析文本处理装置300。图3示出了本发明第二实施例提供的基于张量的潜在语义分析文本处理装置300的功能模块框图。
所述装置300,包括:
文本处理模块301,用于获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数;
特征提取模块302,用于提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;
张量构建模块303,用于根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数;
特征数据获取模块304,用于根据所述张量模型进行奇异值分解处理,获得特征数据;其中,所述特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
作为一种可选的实施方式,所述张量构建模块303,具体用于:
根据所述特征向量的数量构建m×n的特征矩阵,获得A个所述特征矩阵;
根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值;其中,所述目标文本为所述文本集中的任意一个文本,所述目标向量为所述K个特征向量中的一个,所述目标矩阵为A个所述特征矩阵中的一个;
根据A个所述特征矩阵以及每个所述特征矩阵的元素值,获得所述A×m×n的张量模型。
需要说明的是,本发明实施例所提供的基于张量的潜在语义分析文本处理装置300,其具体实现及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
第三实施例
另外,基于同一发明构思,本发明第三实施例还提供了一种基于张量的潜在语义分析文本处理装置,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述基于张量的潜在语义分析文本处理装置执行以下操作:
获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数;提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数;根据所述张量模型进行奇异值分解处理,获得特征数据;其中,所述特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
需要说明的是,本发明实施例所提供的基于张量的潜在语义分析文本处理装置中,上述每个步骤的具体实现及产生的技术效果和前述方法实施例相同,为简要描述,本实施例未提及之处可参考前述方法实施例中相应内容。
本发明提供的装置集成的功能模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种基于张量的潜在语义分析文本处理方法,其特征在于,包括:
获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数;
提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;
根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数;
根据所述张量模型进行奇异值分解处理,获得特征数据;其中,所述特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型,包括:
根据所述特征向量的数量构建m×n的特征矩阵,获得A个所述特征矩阵;
根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值;其中,所述目标文本为所述文本集中的任意一个文本,所述目标向量为所述K个特征向量中的一个,所述目标矩阵为A个所述特征矩阵中的一个;
根据A个所述特征矩阵以及每个所述特征矩阵的元素值,获得所述A×m×n的张量模型。
4.根据权利要求2所述的方法,其特征在于,所述根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值,包括:
获取所述目标文本对应的多个目标向量;
将所述多个目标向量确定为所述目标矩阵中的元素值;
将所述目标矩阵中尚未确定的元素值,确定为0。
5.根据权利要求4所述的方法,其特征在于,所述将所述多个目标向量确定为所述目标矩阵中的元素值,包括:
将所述多个目标向量按照特征值由大到小依次填充到所述目标矩阵中,作为所述目标矩阵中的元素值。
6.根据权利要求1所述的方法,其特征在于,所述将所述张量模型输入预设的分类器,以使所述分类器根据所述张量模型对所属文本集进行分类之前,还包括:
获取训练集;其中,所述训练集包含B个文本,B为正整数;
对所述B个文本进行分类结果的标记,获得B个标记文本;其中,所述标记用于识别每个文本的分类结果;
提取所述训练集中每个文本的特征,获得所述训练集的L个训练特征向量,L为正整数;
根据所述训练特征向量以及所述训练特征向量的维数,构建B×i×j的训练张量模型;其中,所述训练张量模型中元素包含所述L个训练特征向量,i、j均为正整数;
根据所述训练张量模型进行奇异值分解处理,获得训练特征数据;其中,所述训练特征数据和所述B个标记文本用于输入预设的分类器中进行训练,获得训练好的所述目标分类器。
7.一种基于张量的潜在语义分析文本处理装置,其特征在于,包括:
文本处理模块,用于获取待分类的文本集;其中,所述文本集包含A个文本,A为正整数;
特征提取模块,用于提取所述文本集中每个文本的特征,获得所述文本集的K个特征向量,K为正整数;
张量构建模块,用于根据所述特征向量以及所述特征向量的维数,构建A×m×n的张量模型;其中,所述张量模型中元素包含所述K个特征向量,m、n均为正整数;
特征数据获取模块,用于根据所述张量模型进行奇异值分解处理,获得特征数据;其中,所述特征数据用于输入目标分类器,以使所述目标分类器根据所述张量模型对所述文本集进行分类。
8.根据权利要求7所述的装置,其特征在于,所述张量构建模块,具体用于:
根据所述特征向量的数量构建m×n的特征矩阵,获得A个所述特征矩阵;
根据目标文本对应的目标向量,获得所述目标文本对应的目标矩阵的元素值;其中,所述目标文本为所述文本集中的任意一个文本,所述目标向量为所述K个特征向量中的一个,所述目标矩阵为A个所述特征矩阵中的一个;
根据A个所述特征矩阵以及每个所述特征矩阵的元素值,获得所述A×m×n的张量模型。
9.一种基于张量的潜在语义分析文本处理装置,其特征在于,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述基于张量的潜在语义分析文本处理装置执行权利要求1-6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911327736.9A CN111062219A (zh) | 2019-12-20 | 2019-12-20 | 一种基于张量的潜在语义分析文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911327736.9A CN111062219A (zh) | 2019-12-20 | 2019-12-20 | 一种基于张量的潜在语义分析文本处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111062219A true CN111062219A (zh) | 2020-04-24 |
Family
ID=70302608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911327736.9A Pending CN111062219A (zh) | 2019-12-20 | 2019-12-20 | 一种基于张量的潜在语义分析文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062219A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925904A (zh) * | 2021-01-27 | 2021-06-08 | 天津大学 | 一种基于Tucker分解的轻量级文本分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239643A1 (en) * | 2006-03-17 | 2007-10-11 | Microsoft Corporation | Document characterization using a tensor space model |
US20100312797A1 (en) * | 2009-06-05 | 2010-12-09 | Xerox Corporation | Hybrid tensor-based cluster analysis |
CN110209758A (zh) * | 2019-04-18 | 2019-09-06 | 同济大学 | 一种基于张量分解的文本增量降维方法 |
-
2019
- 2019-12-20 CN CN201911327736.9A patent/CN111062219A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239643A1 (en) * | 2006-03-17 | 2007-10-11 | Microsoft Corporation | Document characterization using a tensor space model |
US20100312797A1 (en) * | 2009-06-05 | 2010-12-09 | Xerox Corporation | Hybrid tensor-based cluster analysis |
CN110209758A (zh) * | 2019-04-18 | 2019-09-06 | 同济大学 | 一种基于张量分解的文本增量降维方法 |
Non-Patent Citations (2)
Title |
---|
王丹: "复杂关联数据的张量模型与应用研究", no. 7, pages 002 - 374 * |
龚静: "中文文本聚类研究", vol. 1, 中国传媒大学出版社, pages: 10 - 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925904A (zh) * | 2021-01-27 | 2021-06-08 | 天津大学 | 一种基于Tucker分解的轻量级文本分类方法 |
CN112925904B (zh) * | 2021-01-27 | 2022-11-29 | 天津大学 | 一种基于Tucker分解的轻量级文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
Trstenjak et al. | KNN with TF-IDF based framework for text categorization | |
CN109918560B (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN106874292B (zh) | 话题处理方法及装置 | |
JP5544602B2 (ja) | 単語意味関係抽出装置及び単語意味関係抽出方法 | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
US11651014B2 (en) | Source code retrieval | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN112328655B (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
Shawon et al. | Website classification using word based multiple n-gram models and random search oriented feature parameters | |
CN108090178A (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |