CN101377769A - 一种文本信息的多粒度表示方法 - Google Patents

一种文本信息的多粒度表示方法 Download PDF

Info

Publication number
CN101377769A
CN101377769A CNA2007101210789A CN200710121078A CN101377769A CN 101377769 A CN101377769 A CN 101377769A CN A2007101210789 A CNA2007101210789 A CN A2007101210789A CN 200710121078 A CN200710121078 A CN 200710121078A CN 101377769 A CN101377769 A CN 101377769A
Authority
CN
China
Prior art keywords
text
feature
model
representation
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101210789A
Other languages
English (en)
Inventor
戴汝为
朱远平
王春恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CNA2007101210789A priority Critical patent/CN101377769A/zh
Publication of CN101377769A publication Critical patent/CN101377769A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多粒度文本特征的文本信息表示方法,利用多粒度文本表示模型训练生成多粒度的文本模型并集成,形成文本信息多粒度集成表示。提出基于全局权重和文本局部特征集成解决多粒度文本特征集成的问题。本发明对语料库规模和稀疏数据问题具有较高的鲁棒性和稳定性。通过获得文本多粒度语义空间映射,能够更加准确和充分地刻画文本中蕴涵的语义结构。而基于多粒度文本特征之间的相关性,能够综合利用细粒度文本表示和粗粒度文本表示的优势。在不同规模的训练语料库情况下,文本表示性能均优于单粒度文本表示方法。虽然多粒度文本表示模型具有多层的结构,但各层结构之间的关系清晰,避免了许多文本表示方法在参数调整上的复杂操作。

Description

一种文本信息的多粒度表示方法
技术领域
本发明涉及智能信息处理、信息检索与自然语言处理技术领域,特别是涉及一种文本信息表示方法,用于信息检索或其它文本处理应用中文本的表示,使文本能为计算机所处理与分析使用,在进行信息检索、文本分类和其它一些文本处理的用途中表现出较高性能。
背景技术
文本处理是信息处理技术中重要的技术,在信息检索、文本信息分析、自然语言处理等领域具有核心地位。文本处理的首要步骤是将文本信息表示成计算机程序可分析的形式,文本信息表示方法的优劣直接对文本处理的效果与效率产生影响。尤其在文本检索、文本分类聚类和文本内容分析等文本处理应用中,文本表示的性能往往起决定性的作用。
经典的文本表示方法基于词袋(BOW——Bag of Words)模型和向量空间模型(VSM)方法将文本中不同的词作为文本表示的一个特征,根据这些词在文本中的统计信息(如出现频数等),再利用TFIDF、IG等方法进行特征选择和权重计算等处理,构成文本向量作为文本的表示形式。用于生成向量的词被称为特征项(term)。这种基于单个词为特征的方法的文本表示粒度最低,容易受到词歧义的影响。一些研究者提出采用更粗粒度的文本表示方法,来提高特征词语义表示的准确性,如基于词组和n-gram的方法等。研究也表明合理使用粗粒度特征有助于改善文本表示的性能。还有不少研究者使用LSI模型,将词特征空间映射到潜在语义空间以提取潜在语义结构,提高文本表示的性能,这实质上是采取了一种特征选择和变换的过程。
但是以上方法均是一种单一粒度的文本表示方法。不同粒度的文本表示对应的是文本在不同粒度语义空间的映射,不同粒度的语义空间对于文本内容分析均有各自特殊意义。同时,文本在局部语义表示上存在最优粒度的非一致性。因此,单一粒度的文本表示不能符合文本的最优表示。
发明内容
为了解决现有技术单一粒度的文本表示不能符合文本的最优表示的问题,本发明的目的是:研究多粒度文本表示方法,提高文本信息表示的性能,从而对信息检索、文本分类、文本聚类、文本内容分析等文本信息的智能处理产生推动作用,为此,本明提供一种基于多粒度文本特征的文本信息表示方法。
为了达到所述的目的,本发明提供的文本信息的多粒度表示方法,包括步骤如下:
步骤S1:利用多粒度文本表示模型的学习,训练生成多粒度的文本模型;
步骤S2:基于多粒度文本特征模型集成,形成文本信息多粒度集成表示。
所述多粒度文本表示模型由多个不同粒度的文本模型构成,形成多层结构的模型,各层粒度文本模型特征单元之间相互关联;该模型用于文本信息的多粒度表示。
所述多粒度文本表示模型的学习过程包括以下步骤:
步骤S11:对不同粒度的文本模型分别进行学习;
步骤S12:分析不同粒度文本模型特征单元之间的关系,将不同粒度文本模型组合起来构成多层结构的文本表示模型。
所述多粒度文本特征集成,基于全局权重的多粒度文本特征集成为不同粒度的文本模型赋予各自的权重,对它们的文本特征空间进行加权合并得到新的文本特征空间,从而在新的特征空间融合了多粒度文本特征。
所述多粒度文本特征集成,基于文本局部特征的多粒度文本特征集成其步骤是:
步骤S21:获取多个粒度文本模型的文本特征表示;
步骤S22:计算文本局部不同粒度特征的权值;
步骤S23:集成多粒度特征表示文本。
所述集成多粒度特征表示文本,是利用文本局部不同粒度文本特征之间的包含关系,根据不同粒度的文本特征单元的概率分布参数,分析计算文本局部的各粒度文本特征的权值,在此基础上将文本的多粒度特征表示集成。
所述多粒度文本特征集成采取基于全局权重的多粒度文本特征集成,或采取基于文本局部特征的多粒度文本特征集成。
所述文本特征,所使用的文本特征由多个不同粒度的文本模型提供,文本模型的学习在语料库的支持下实现;其中,不同粒度的文本表示模型是同一类型的文本表示,或是不同类型的文本表示。
若其在步骤S2所述的集成多粒度文本特征中使用基于文本局部特征的多粒度文本特征集成,则在步骤S1的各粒度文本模型的学习过程中,需要学习不同粒度文本特征单元的概率分布参数。
所述的基于全局权重的文本多粒度特征集成,是在文本表示中,通过调整不同粒度的文本模型被赋予的各自全局权重,若其中只有一个文本模型的全局权重不为零,则文本的多粒度表示方法退化成为单粒度表示。
所述的基于文本局部特征的文本多粒度特征集成,是在文本表示中,通过调整不同粒度的文本模型被赋予的各自全局权重,若其中只有一个文本模型的全局权重不为零,则文本的多粒度表示退化成为单粒度表示。
本发明的积极效果:本发明的优越性在于性能优越,对语料库规模和稀疏数据问题具有较高的鲁棒性和稳定性。通过获得文本多粒度语义空间映射,文本多粒度表示方法能够更加准确和充分地刻画文本中蕴涵的语义结构。而基于多粒度文本特征之间的相关性,能够综合利用细粒度文本表示和粗粒度文本表示的优势。在不同规模的训练语料库情况下,文本表示性能均优于单粒度文本表示方法。其次,方法实现相对简单。虽然多粒度文本表示模型具有多层的结构,但各层结构之间的关系清晰,方法实现简单,避免了许多文本表示方法在参数调整上的复杂操作。因此,本发明特别适合于需要进行大规模文本计算的文本信息处理领域,如信息检索、文本分类、文本聚类和文本内容分析等。
本发明的原理在于:不同粒度的文本特征表示代表了文本在不同粒度语义空间的映射,在文本表示中具有各自的意义。但从文本的整体表示而言,存在语义表示上的近似性。同时,不同粒度的文本表示在对语料库的依赖性和稀疏数据的鲁棒性的是不同的。细粒度文本表示能够刻画更细微的语义差异,对稀疏数据问题的鲁棒性较高,但同时在对文本的语义刻画上也存在缺乏准确性,容易受到歧义影响的弱点,适合于小规模训练语料库上的应用。粗粒度文本表示往往是更高级别的语义抽象,在语义表示上具有更高的准确性,受歧义影响更小,能够更加准确地刻画文本语义,但对稀疏数据问题敏感,需要大规模的语料库支持。通过平滑技术虽然能够在一定程度上提高对稀疏数据的鲁棒性,但参数调节复杂且效果未必理想。基于不同粒度之间的特性差异,将它们结合起来,发挥它们的优势,能够获得更好的性能。通过不同粒度特征空间的融合,将不同粒度的文本特征加成起来可以实现多粒度文本表示的集成,但这并不是最优的方法。粗粒度特征在语义表示的确定性上有优势,但从文本局部的角度观察语义表示,没有一个单一的粒度是合适的,不同局部的最优文本粒度是变化。不同粒度特征在语料库中的分布概率表明了该特征的可靠性,概率越高表明该特征用于表示文本的可靠性越高,在文本表示中应给予更高的权值。而若该粒度特征概率较低则表明该粒度特征表示文本的可靠性较低,文本表示应该更依赖于更低阶的粒度特征。因此,利用不同粒度文本特征之间存在包含关系的性质,通过分析文本局部各个粒度文本特征单元之间的概率参数的对比关系,为不同粒度特征分配不同的权重。或者说,以文本特征的可靠性为基础为不同粒度特征分配权重进行特征集成,能够综合粗粒度和细粒度特征在文本表示中的优势,从而在获得更优的文本语义表示的同时,提高对学习样本的鲁棒性,获得更好的文本表示综合性能。
附图说明
图1是采用多粒度文本表示方法的文本处理流程框图
图2是多粒度文本表示方法中的文本模型学习过程的流程图
图3是采用多粒度文本模型进行文本表示的处理流程图
图4是文本多粒度表示模型的结构示意图
图5是多粒度文本特征关联关系示意图
具体实施方式
以下介绍本发明的优选实施例,该部分仅仅是对本发明的举例说明,而非对本发明及其应用或用途的限制。根据本发明得出的其它实施方式,也同样属于本发明的技术创新范围。方案中有关参数的设定也并不表明只有举例值可以使用。
如图1采用多粒度文本表示方法的文本处理流程框图所示,本发明为一种基于多粒度文本特征的文本信息表示方法。首先,通过语料库训练不同粒度的文本模型,分析不同粒度文本模型特征单元之间关系,将各文本模型组合成多粒度文本表示模型;然后,使用这些文本模型对目标文本生成不同粒度的文本特征表示,利用多粒度文本特征集成方法,形成文本信息的多粒度特征表示。为此,本发明还提出了一种基于全局权重的多粒度文本特征集成方法和一种基于文本局部特征的多粒度文本特征集成方法,解决了多粒度文本特征的集成问题。
文本信息的多粒度表示方法描述如下:
文本表示中特征词可以是单个的单词也可是词组,文本表示的粒度是指在文本表示中所使用特征词的长度。因此基于单词为特征项的文本表示是粒度最小的文本表示。基于多粒度的文本表示方法则将不同粒度的文本表示集成起来,形成文本的统一表示,获得更好的文本表示性能。
方法主要分为两个步骤,首先是多粒度文本模型的学习与训练,通过文本语料库的学习,构建不同粒度的文本模型组合成多粒度文本模型。然后是利用这些模型及其参数进行文本的多粒度特征集成表示。
步骤S1:多粒度文本模型的学习:
以语料库为对象,学习不同粒度的文本表示模型,然后对不同粒度的文本表示特征进行特征选择和权重计算。每个粒度文本模型的学习过程与普通的文本模型学习过程区别不大,但要求在这一过程中学习文本特征单元(或称特征项)在语料库中的分布概率参数,以供多粒度集成表示过程使用。特征单元概率参数是指在训练文本中,文本特征单元的出现概率信息以及不同粒度特征项之间的生成概率。如图2多粒度文本表示方法中的文本模型学习过程的流程图所示,其处理步骤为:
步骤S11:文本预处理。根据需要,对文本进行预处理,包括停用词去除、词干化、分词等处理。
步骤S12:多粒度文本模型学习。在语料库上训练不同粒度的文本模型,包括模型中特征项的分布参数学习、特征项权重计算、特征选择等工作。然后将多个粒度的文本模型组合成多粒度文本表示模型。
多粒度文本表示模型的结构如图4所示。不同粒度模型以多层的结构形成一个更大的模型,各层之间通过不同粒度文本特征单元相互间的包含关系(在图4中采用箭头连接的方式表示)关联起来。图5是多粒度文本特征间关联关系的示意图,表明对于具体的文本序列(由词组成的词串),粗粒度的文本特征包含了细粒度的文本特征,这种关系被用来描述不同粒度特征间的关联。
步骤S2:文本的多粒度集成表示:
文本的多粒度集成表示是本发明的核心,通过分析不同粒度文本特征在文本局部之间存在的约束关系,生成目标文本的多粒度集成表示。如图3采用多粒度文本模型进行文本表示的处理流程图所示,其基本步骤为:
步骤S21:文本预处理。对文本进行预处理,包括停用词去除、词干化、分词等处理,处理方式同文本模型的训练过程中步骤S11。
步骤S22:计算目标文本的各个不同粒度文本模型的文本表示。根据文本模型各自的文本表示实现方法,将文本的不同粒度表示形式计算出来。
步骤S23:集成多粒度文本表示。通过多粒度文本特征的集成方法计算文本的多粒度集成表示。
多粒度文本特征的集成本质上是通过某种方式将不同粒度文本特征空间融合,从而将多粒度文本特征集成起来表示文本。可以采取两种方式或方法,一种是基于全局权重的集成方法;另一种是基于文本局部特征的集成方法。
基于全局权重的集成方法的实现相对简单,给不同粒度文本模型赋予各自权重,则对于各粒度文本模型内部的文本特征单元将获得相同的全局权重。在文本表示中,将基于该全局权重,对将不同粒度特征的文本表示进行加权取并集实现多粒度文本特征空间的融合,以获得最终的文本表示。
基于文本局部特征的集成方法将目标文本视为一段文本流或词序列,通过分析文本局部的不同粒度特征单元之间的关联关系计算各粒度特征单元的权值,并以此为基础将不同粒度的文本表示集成起来。不同粒度文本模型的特征单元之间的关联关系主要利用粗粒度文本特征单元与细粒度文本特征单元之间在结构上存在包含关系的性质,并以不同粒度文本特征单元之间存在的概率关系来刻画其间的相关性。通常而言,文本特征的概率高表明该粒度特征用来表示文本的可靠性较高,值得获得更高的权重,而若该粒度特征概率较低则表明该粒度特征的参数可靠性较低,文本表示应该依赖于更低阶的粒度特征。通过不同粒度特征单元之间的概率对比关系,在文本局部为各粒度特征单元计算并分配不同权重,以此权重实现不同粒度特征在文本局部的集成。一般而言,在这个过程中应该遵循粗粒度优先规则,在权重计算上尽量向粗粒度倾斜,以获取较好的语义表示确定性。
在基于文本局部特征的集成方法中同样存在全局权重的使用,方法与基于全局权重的集成方法相同。因此,在文本的多粒度集成过程中,通过全局权值的调节,我们可以选择将文本表示的重心向粗粒度文本表示倾斜,从而获得语义确定的文本表示结果。也可向细粒度文本表示模型倾斜,从而保留细粒度在刻画细微语义及其在鲁棒性上的优势。同时,不管是基于全局权重的集成方法还是基于文本局部特征的集成方法,若其中仅有一个文本模型的全局权重不为零,则文本的多粒度表示方法退化成为单粒度表示方法。因此,本发明的方法实质上实现了对单粒度表示方法的包容性。
实例:
本实例以文本分类应用中的文本表示为例,采用n-gram方法来实施文本的多粒度表示,n值的不同代表不同粒度。那么在多粒度文本学习阶段,需要对不同的n-gram模型进行学习,然后将不同n-gram文本模型集成起来,形成多层结构模型。本实施例以由Unigram,Bigram和Trigram文本模型构成的三层n-gram模型进行多粒度文本表示为例对实施过程进行说明,使用的文本特征即为各阶语元(gram)。具体说明如下:
1.多粒度文本模型的学习
Unigram,Bigram,Trigram分别代表粒度为1到3的文本表示模型。对其分别进行n元语法的学习,学习在各自的语元成员的概率数据。但这里在n-gram文本模型所需要的概率是n元词串的出现概率。
1.1文本的预处理
文本的预处理需要区分中英文语言进行分别处理。通常对于中文需要进行分词的处理,对于英文则需要进行词干化的处理。去除停用词的处理对于中英文都适用,从文本中剔除一些语气助词或虚词等语义无关的单词。本实施例中采用了n-gram模型,对于中文的预处理可以选择不进行分词处理。
1.2 Unigram文本模型学习
用wi表示语料库中出现的单词,单词总数为M,统计语料库中每个单词的出现频数,记为c(wi),单词wi基于最大似然估计的分布概率的计算过程如下式所示:
P ( w i ) = c ( w i ) Σ i = 1 M c ( w i ) - - - ( 1 )
1.3 Bigram文本模型学习
统计Bigram文本模型中的二元词串(wi1wi2)在语料库中的出现频数记为c(wi1wi2),其分布概率P(wi1wi2)的计算过程如下表达式所示:
P ( w i 1 w i 2 ) = c ( w i 1 w i 2 ) c ( w i 1 ) P ( w i 1 ) - - - ( 2 )
1.4 Trigram文本模型学习
统计Trigram文本模型中的三元词串(wi1wi2wi3)在语料库中的出现频数记为c(wi1wi2wi3),其分布概率P(wi1wi2wi3)的计算过程如下式所示:
P ( w i 1 w i 2 w i 3 ) = c ( w i 1 w i 2 w i 3 ) c ( w i 1 w i 2 ) P ( w i 1 w i 2 ) - - - ( 3 )
1.5 特征选择与特征项权值计算
使用特征选择,一方面减小文本特征项的数目,提高运行效率;另一方面,选择有利于文本分类的特征项,滤除对文本分类没有帮助甚至不利的特征项。在文本分类中,过高频或过低频特征项不仅增加计算量,而且对分类性能有负面影响。可以采取词频法过滤这些特征项,例如这里将在训练语料库学习中词频最高的百分之十的特征项和词频低于3的特征项予以滤除,进行特征选择。
在由文本模型生成的文本向量中,向量分量与各特征项的权值相对应。本实施例用TF-IDF方法为文档中每个特征项计算权值,在TF-IDF方法中文本的向量分量用下式表示:
ajd=fjd·log(N/nj)                 (4)
其中fjd表示第j个特征项在文本d中的词频,N代表训练库中文本的总数,nj表示第j个特征出现至少一次的文本数目。
第j各特征项的权值为IDF值,记为:
tw(j)=log(N/nj)                   (5)
2.多粒度文本表示的集成
首先,对文本进行预处理,处理过程同多粒度模板的学习阶段。然后,利用学习所得不同粒度模型表示文本,获得文本的特征表示向量。粒度k的文本模型的特征空间用Φk表示,Lk为空间的大小。对某文本序列S=(w1w2,...,wT),其在粒度k上的文本向量用Vk表示。则粒度k的文本特征向量用式(4)表示:
Vk={Vk1,Vk2,…,VkLk}                (6)
Vk1......等表示文本向量的各分量。
多粒度文本表示的集成实际上也就是将不同粒度特征的文本向量进行集成。其关键在于将多粒度文本表示特征空间进行融合及其特征表示过程的集成。主要可以采用两种方法:基于全局权重的集成方法、基于文本局部特征的集成方法。各自实施示例如下:
1)基于全局权重的集成方法
为各个粒度文本模型赋予各自的全局权重rk,将不同粒度的文本特征空间进行融合得到新的特征空间,其过程可以用关系式(7)表示为:
Φ = ∪ k = 1 N r k Φ k - - - ( 7 )
对于具体的文本表示的实施上,可以执行为将不同粒度特征的文本向量进行加权融合的过程,各粒度文本特征被赋予所在文本模型的全局权重rk,文本序列的多粒度表示的处理过程可以用关系式(8)来表示:
V = r 1 V 1 ⊕ r 2 V 2 ⊕ · · · ⊕ r N V N
= { r 1 V 11 , r 1 V 12 , · · · , r 1 V 1 L 1 , r 2 V 21 , r 2 V 22 , · · · , r 2 V 2 L 2 , · · · , r N V N 1 , r N V N 2 , · · · , r N V NLN }
                                              (8)
2)基于文本局部特征的集成方法
基于文本局部特征的集成方法更加复杂,但能取得更好的效果。
首先,文本序列S的N层n-gram表示模型中各层的语元单元分别表示为:
Lk={(wi-k+1…wi)|i=1,…T},k=1,…,N;     (9)
层k的语元单元i的分布概率用下式来表示:
pk(i)=P(wi-k+1…wi)                           (10)
各阶n-gram模型的语元特征项之间通过其分布概率参数的对比关系进行权重计算与设置,概率越高的粒度特征获得的权重越大。为向粗粒度特征倾斜,最高阶的粒度模型中各语元特征的权重被设为1.0,其他粒度模型的语元特征的权重则可设为其本身分布概率减去高阶粒度特征的概率所得到的剩余值,通过一个递归的过程为各粒度特征分配在文本局部的权重qk(i)。这一过程可用以下两步骤表示:
首先,最高阶的粒度模型中特征项的权重均设为1.0,如下式所示:
qk(i)=1.0;k=N                             (11)
其次,k小于N的各层粒度模型中的特征项的权重通过k降序的递归方式求取,其过程用关系式(12)表示:
q k ( i ) = ( p k ( i ) - ( p k + 1 ( i ) + p k + 1 ( i - 1 ) - p k + 2 ( i - 1 ) ) ) / p k ( i ) ; k = 1 , &CenterDot; &CenterDot; &CenterDot; , N - 1 ; if k = N - 1 then p k + 2 ( i ) = 0 ; q k ( i ) = 0 ; if q k ( i ) < 0 - - - ( 12 )
令文本序列S在k层模型第i语元对应的k-gram特征项序号为tnk(i),而k层模型第j特征项的属性权值为twk(j),则文本序列的k-gram特征项权值序列可用如下形式表示:
S′=(qk(1)·twk(tnk(1)),qk(2)·twk(tnk(2)),…,qk(T)·twk(tnk(T)))
                                           (13)
在此基础上得到各个文本模型对应的文本向量用表示。类似于基于全局权重的集成方法,为各粒度文本模型赋予不同的全局权重rk。文本序列的多粒度表示所得文本向量可以用关系式(14)表示为:
V &prime; = r 1 V 1 &prime; &CirclePlus; r 2 V 2 &prime; &CirclePlus; &CenterDot; &CenterDot; &CenterDot; &CirclePlus; r N V N &prime;
= { r 1 V 11 &prime; , r 1 V 12 &prime; , &CenterDot; &CenterDot; &CenterDot; , r 1 V 1 L 1 &prime; , r 2 V 21 &prime; , r 2 V 22 &prime; , &CenterDot; &CenterDot; &CenterDot; , r 2 V 2 L 2 &prime; , &CenterDot; &CenterDot; &CenterDot; , r N V N 1 &prime; , r N V N 2 &prime; , &CenterDot; &CenterDot; &CenterDot; , r N V NLN &prime; }
                                           (14)
通过分配不同的全局权重rk,我们可以赋予不同粒度文本模型在多粒度文本表示中的重要性。缺省可均设为1.0。若只给某一层赋予1的权重,其它层均赋为0,则多层n-gram模型退化为普通的单一n-gram模型,这样我们实际上可以将多层n-gram模型和普通n-gram模型统一起来。例如,rm=1且rk=0(k≠m)时,多层n-gram模型退化成为普通的m阶n-gram。这实现了多粒度文本表示的一个统一框架。
获得了文本的向量化表示形式后,我们可以利用该文本表示进行文本信息处理的相关应用,在文本分类中,可以利用文本向量训练各类分类器以及使用分类器对目标文本进行分类处理。在文本分类研究中广泛使用的Reuters-21578数据集上的测试表明,在使用相同的特征提取方法和分类器的情况下,本发明方法相比单粒度方法能够提高分类准确率2~3个百分点。

Claims (11)

1.一种文本信息的多粒度表示方法,其特征在于,包括以下步骤:
步骤S1:利用多粒度文本表示模型的学习,训练生成多粒度的文本模型;
步骤S2:基于多粒度文本特征模型集成,形成文本信息多粒度集成表示。
2.根据权利要求1所述文本信息的多粒度表示方法,其特征在于:所述多粒度文本表示模型由多个不同粒度的文本模型构成,形成多层结构的模型,各层粒度文本模型特征单元之间相互关联;该模型用于文本信息的多粒度表示。
3.如权利要求1所述的文本信息的多粒度表示方法,其特征在于:多粒度文本表示模型的学习过程包括以下步骤:
步骤S11:对不同粒度的文本模型分别进行学习;
步骤S12:分析不同粒度文本模型特征单元之间的关系,将不同粒度文本模型组合起来构成多层结构的文本表示模型。
4.根据权利要求1所述文本信息的多粒度表示方法,其特征在于:所述多粒度文本特征集成,基于全局权重的多粒度文本特征集成为不同粒度的文本模型赋予各自的权重,对它们的文本特征空间进行加权合并得到新的文本特征空间,从而在新的特征空间融合了多粒度文本特征。
5.根据权利要求1所述文本信息的多粒度表示方法,其特征在于:所述多粒度文本特征集成,基于文本局部特征的多粒度文本特征集成其步骤是:
步骤S21:获取多个粒度文本模型的文本特征表示;
步骤S22:计算文本局部不同粒度特征的权值;
步骤S23:集成多粒度特征表示文本。
6.根据权利要求5所述文本信息的多粒度表示方法,其特征在于,所述集成多粒度特征表示文本,是利用文本局部不同粒度文本特征之间的包含关系,根据不同粒度的文本特征单元的概率分布参数,分析计算文本局部的各粒度文本特征的权值,在此基础上将文本的多粒度特征表示集成。
7.如权利要求4和5所述的文本信息的多粒度表示方法,其特征在于:所述多粒度文本特征集成采取基于全局权重的多粒度文本特征集成,或采取基于文本局部特征的多粒度文本特征集成。
8.如权利要求1所述的文本信息的多粒度表示方法,其特征在于:所述文本特征,所使用的文本特征由多个不同粒度的文本模型提供,文本模型的学习在语料库的支持下实现;其中,不同粒度的文本表示模型是同一类型的文本表示,或是不同类型的文本表示。
9.如权利要求1和5所述的文本信息的多粒度表示方法,其特征在于:若其在步骤S2的集成多粒度文本特征中使用基于文本局部特征的多粒度文本特征集成,则在步骤S1的各粒度文本模型的学习过程中,需要学习不同粒度文本特征单元的概率分布参数。
10.如权利要求4所述的文本信息的多粒度表示方法,其特征在于:所述的基于全局权重的文本多粒度特征集成,是在文本表示中,通过调整不同粒度的文本模型被赋予的各自全局权重,若其中只有一个文本模型的全局权重不为零,则文本的多粒度表示方法退化成为单粒度表示。
11.如权利要求5所述的文本信息的多粒度表示方法,其特征在于:所述的基于文本局部特征的文本多粒度特征集成,是在文本表示中,通过调整不同粒度的文本模型被赋予的各自全局权重,若其中只有一个文本模型的全局权重不为零,则文本的多粒度表示退化成为单粒度表示。
CNA2007101210789A 2007-08-29 2007-08-29 一种文本信息的多粒度表示方法 Pending CN101377769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101210789A CN101377769A (zh) 2007-08-29 2007-08-29 一种文本信息的多粒度表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101210789A CN101377769A (zh) 2007-08-29 2007-08-29 一种文本信息的多粒度表示方法

Publications (1)

Publication Number Publication Date
CN101377769A true CN101377769A (zh) 2009-03-04

Family

ID=40421317

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101210789A Pending CN101377769A (zh) 2007-08-29 2007-08-29 一种文本信息的多粒度表示方法

Country Status (1)

Country Link
CN (1) CN101377769A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103518187A (zh) * 2011-03-10 2014-01-15 特克斯特怀茨有限责任公司 用于信息建模的方法和系统及其应用
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
CN104462408A (zh) * 2014-12-12 2015-03-25 浙江大学 一种基于主题建模的多粒度情感分析方法
CN107169086A (zh) * 2017-05-12 2017-09-15 北京化工大学 一种文本分类方法
CN107797985A (zh) * 2017-09-27 2018-03-13 百度在线网络技术(北京)有限公司 建立同义鉴别模型以及鉴别同义文本的方法、装置
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
WO2019080863A1 (zh) * 2017-10-26 2019-05-02 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN110276640A (zh) * 2019-06-10 2019-09-24 北京云莱坞文化传媒有限公司 版权的多粒度拆分及其商业价值的挖掘方法
CN111046179A (zh) * 2019-12-03 2020-04-21 哈尔滨工程大学 一种面向特定领域开放网络问句的文本分类方法
CN112163404A (zh) * 2020-08-25 2021-01-01 北京邮电大学 一种文本生成方法、装置、电子设备及存储介质
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质
CN114254158A (zh) * 2022-02-25 2022-03-29 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置
US11373041B2 (en) 2020-09-18 2022-06-28 International Business Machines Corporation Text classification using models with complementary granularity and accuracy

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103518187B (zh) * 2011-03-10 2015-07-01 特克斯特怀茨有限责任公司 用于信息建模的方法和系统及其应用
CN103518187A (zh) * 2011-03-10 2014-01-15 特克斯特怀茨有限责任公司 用于信息建模的方法和系统及其应用
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
CN104408153B (zh) * 2014-12-03 2018-07-31 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
CN104462408A (zh) * 2014-12-12 2015-03-25 浙江大学 一种基于主题建模的多粒度情感分析方法
CN104462408B (zh) * 2014-12-12 2017-09-01 浙江大学 一种基于主题建模的多粒度情感分析方法
CN107169086B (zh) * 2017-05-12 2020-10-27 北京化工大学 一种文本分类方法
CN107169086A (zh) * 2017-05-12 2017-09-15 北京化工大学 一种文本分类方法
CN107797985B (zh) * 2017-09-27 2022-02-25 百度在线网络技术(北京)有限公司 建立同义鉴别模型以及鉴别同义文本的方法、装置
CN107797985A (zh) * 2017-09-27 2018-03-13 百度在线网络技术(北京)有限公司 建立同义鉴别模型以及鉴别同义文本的方法、装置
WO2019080863A1 (zh) * 2017-10-26 2019-05-02 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN110276640A (zh) * 2019-06-10 2019-09-24 北京云莱坞文化传媒有限公司 版权的多粒度拆分及其商业价值的挖掘方法
CN111046179A (zh) * 2019-12-03 2020-04-21 哈尔滨工程大学 一种面向特定领域开放网络问句的文本分类方法
CN111046179B (zh) * 2019-12-03 2022-07-15 哈尔滨工程大学 一种面向特定领域开放网络问句的文本分类方法
CN112163404A (zh) * 2020-08-25 2021-01-01 北京邮电大学 一种文本生成方法、装置、电子设备及存储介质
US11373041B2 (en) 2020-09-18 2022-06-28 International Business Machines Corporation Text classification using models with complementary granularity and accuracy
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质
CN114254158A (zh) * 2022-02-25 2022-03-29 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置
CN114254158B (zh) * 2022-02-25 2022-06-10 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置

Similar Documents

Publication Publication Date Title
CN101377769A (zh) 一种文本信息的多粒度表示方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
Melo et al. Automated geocoding of textual documents: A survey of current approaches
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
CN103970729B (zh) 一种基于语义类的多主题提取方法
US8583646B2 (en) Information searching apparatus, information searching method, and computer product
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
CN109241256B (zh) 对话处理方法、装置、计算机设备和可读存储介质
CA3007723A1 (en) Systems and/or methods for automatically classifying and enriching data records imported from big data and/or other sources to help ensure data integrity and consistency
CN108090800A (zh) 一种基于玩家消费潜力的游戏道具推送方法和装置
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN108509982A (zh) 一种处理二分类不平衡医学数据的方法
CN108710663A (zh) 一种基于本体模型的数据匹配方法及系统
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN107704500B (zh) 一种基于语义分析与多重余弦定理的新闻分类方法
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN109871443A (zh) 一种基于记账场景的短文本分类方法及装置
CN105279264A (zh) 一种文档的语义相关度计算方法
CN111782797A (zh) 一种科技项目评审专家自动匹配方法及存储介质
CN104967558A (zh) 一种垃圾邮件的检测方法及装置
CN109271462A (zh) 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
CN103838857A (zh) 一种基于语义的自动服务组合系统及方法
CN102200981A (zh) 面向多层文本分类的特征选择方法和装置
CN114997288A (zh) 一种设计资源关联方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090304