CN108920454A - 一种主题短语抽取方法 - Google Patents
一种主题短语抽取方法 Download PDFInfo
- Publication number
- CN108920454A CN108920454A CN201810605920.4A CN201810605920A CN108920454A CN 108920454 A CN108920454 A CN 108920454A CN 201810605920 A CN201810605920 A CN 201810605920A CN 108920454 A CN108920454 A CN 108920454A
- Authority
- CN
- China
- Prior art keywords
- phrase
- theme
- word
- lexical chains
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种主题短语抽取方法,包括:文档预处理;求文档‑主题集、全文词汇链集及名词短语集;求中心词集;求候选主题短语集;求主题短语集。本发明提供的主题短语抽取方法,通过LDA模型与词汇链相结合来进行主题短语抽取,可以利用语料库之外的具有较完备语义信息的知识库WordNet,通过语义相关度计算和强链规则筛选可以得到强词汇链,从而在很大程度上减少主题词二义性问题;同时,利用中心词提取方法和N‑P规则合并、去重等步骤完成主题短语的提取,借助具有更丰富语义信息的主题短语来表达主题,从而解决了主题词粒度过小、辨识度低等问题,且能够保证主题抽取的准确率和召回率,减少了主题漂移现象,可以很好地满足实际应用的需要。
Description
技术领域
本发明属于文本挖掘技术领域,具体涉及一种主题短语抽取方法。
背景技术
文献主题提取技术,不仅能提高文档检索的质量,而且可以有效处理文档向量空间表示模型的高维稀疏性问题,在文本分类、聚类、信息推荐等NLP任务中具有广泛应用,因此主题提取是当今文本挖掘领域的研究重点之一。
LDA模型是一种在文档主题研究领域被普遍采用的概率主题模型。在不依赖知识库的情况下就可识别大规模文档集和语料库潜在的主题信息。但传统LDA模型基于“词袋”模型假设,忽略了文档中各个词之间的顺序,对语料库本身进行主题采样,只利用了语料库内部的语义信息,容易出现较多的主题词二义性问题。因此在很多情况下,采用LDA模型进行主题抽取的效果并不理想,存在主题词信息粒度过小、主题辨识度低、主题词二义性等问题。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的主题短语抽取方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种主题短语抽取方法,包括以下步骤:
步骤1)文档预处理;
步骤2)求文档-主题集、全文词汇链集及名词短语集;
步骤3)求中心词集;
步骤4)求候选主题短语集;
步骤5)求主题短语集。
进一步地,所述步骤1)具体为:去除停用词和标点符号后以’$’符号作为分割符,得到实验语料。
进一步地,所述步骤2)具体为:在实验语料的基础上,利用LDA训练及Gibbs采样得到文档-主题集,并利用词语语义相关度和WordNet知识库构造全文词汇链集,同时用规则匹配方式提取语料库中的名词短语集。
进一步地,所述步骤3)具体为:在文档-主题集和全文词汇链集的基础上,计算主题词与词汇链的相关度,利用强链规则求出强词汇链集合,然后循环遍历强词汇链集合中的每一个强链,将强链集合中频率最高的元素作为最能代表该链的词,并将该词加入到中心词集中,直到循环到强词汇链集合中最后一个强链,循环结束,得到中心词集。
进一步地,所述步骤4)具体为:名词短语集和中心词集经过包含与被包含规则的合并、去重操作得到候选主题短语集。
进一步地,所述步骤5)具体为:通过频率、词长和短语在文中所在的位置构造主题度计算公式,计算候选主题短语集中每一个短语的主题度并设定阈值,将主题度满足阈值的短语加入到主题短语集,从而得到主题短语集。
进一步地,所述词语语义相关度的计算公式为:
Rel(wi,wj)=(1-λ)Sim(wi,wj)+λLLR(wi,wj);
(i≥0;j≥0,i≠j)
其中,wi、wj代表文档中的两个词语,Sim(wi,wj)代表wi、wj的相似度,Rel(wi,wj)表示wi、wj的相关度,LLR(wi,wj)表示对数似然比,λ为可调节参数。
进一步地,对数似然比的计算公式为:
其中,p=(k11+k12)/N,N=k11+k12+k21+k22,k11、k12、k21和k22不同时为0,p表示单词u出现的概率,p1表示在v出现的情况下u出现的概率,p2表示在v不出现的情况下u出现的概率。
进一步地,候选主题短语出现的位置的主题权重公式如下:
候选主题短语的主题度计算公式为:
其中,Subject(phrase)表示候选主题短语phrase的主题度;Pos(phrase)表示候选主题短语phrase在文档中出现的位置;fre表示候选主题短语phrase在文档中出现的总次数;len表示候选主题短语phrase的长度;表示主题短语phrase的平均长度。
进一步地,所述词汇链的构建包括以下步骤:
构建全文词汇链,通过扫描语料库中选定文档的词集合,求出相关度值与当前处理的词汇最大的词,并将该词插入到此词汇链中,从而完成全文词汇链的构建;
在全文词汇链集合中求出与文档-主题集中的词满足一定相似度阈值的词汇链集,遍历文档-主题集中的每一个词w_i,利用以下公式计算当前词w_i与全文词汇链集合中的每一个词汇链L_j的相似度,
如果大于相似度阈值,就将该词汇链L_j加入到词汇链集中,重复直至集合U中的词扫描完成,就求出了词汇链集;
对词汇链集进行强词汇链的提取;引入权重计算方法求强词汇链,权重计算公式如下所示:
其中,Score(Chain)为词汇链权重评分函数,Len(Chain)为求链长函数,Hg(Chain)为均衡函数;Ti为词汇链中第i个词在全文出现的次数,n为词汇链中的成员个数;
词语间的共现频率计算公式如下:
其中,w1、w2、w3表示任意三个互不相同的词语,F(w1,w2,w3)表示w1、w2、w3共同出现的次数,COF(w1,w2)表示w1与w2共同出现的频率,COF(w1,w2,w3)表示w1、w2、w3共同出现的频率。
本发明提供的主题短语抽取方法,通过LDA模型与词汇链相结合来进行主题短语抽取,可以利用语料库之外的具有较完备语义信息的知识库WordNet,通过语义相关度计算和强链规则筛选可以得到强词汇链,从而在很大程度上减少了主题词二义性问题;同时,利用中心词提取方法和N-P规则合并、去重等步骤完成主题短语的提取,借助具有更丰富语义信息的主题短语来表达主题,从而解决了主题词粒度过小、辨识度低等问题,且能够保证主题抽取的较高的准确率和召回率,减少了主题漂移现象,可以很好地满足实际应用的需要。
附图说明
图1为本发明的流程图;为了便于描述该流程图,使用简写符号指代过程中数据集,Cp(Corps)表示实验语料集,DTSet(Document-Topic Set)表示文档-主题集,FCSet(Fulltext Chain Set)表示全文词汇链集,NPSet(Noun-Phrase Set)表示二元和三元名词短语集,CWSet(Center Word Set)表示中心词集,TTPSet(Temp Topic Phrase Set)表示候选主题短语集,TPSet(Topic Phrase Set)表示主题短语集。
图2为LDA概率主题模型示意图;其中,k表示topic个数,α、β为先验参数。Zm,n为第m个document下第n个词的topic。Wm,n第m个document的第n个word。θm表示第m个document的topic分布,φk表示第k个topic下词的分布。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1所示,一种主题短语抽取方法,包括以下步骤:
步骤1)文档预处理:去除停用词和标点符号后以’$’符号作为分割符,得到实验语料Cp;
步骤2)求DTSet、FCSet及NPSet:在实验语料Cp的基础上,利用LDA训练及Gibbs采样得到DTSet,并利用词语语义相关度(词语语义相关度也简称为词语相关度)和WordNet知识库构造FCSet,同时用规则匹配方式提取语料库中的NPSet;
步骤3)求CWSet:在上一步中求出的DTSet和FCSet的基础上,计算主题词与词汇链的相关度,利用强链规则求出强词汇链集合,然后循环遍历强词汇链集合中的每一个强链,将强链集合中频率最高的元素作为最能代表该链的词(即中心词),并将该词加入到CWSet中,直到循环到强词汇链集合中最后一个强链,循环结束,得到CWSet;
步骤4)求TTPSet:在上述步骤中求出的NPSet和CWSet,经过包含与被包含等规则的合并、去重操作得到TTPSet;
步骤5)求TPSet:通过频率、词长和短语在文中所在的位置构造主题度计算公式,计算TTPSet中每一个短语的主题度并设定阈值,将主题度满足阈值的短语加入到TPSet,从而得到主题短语集,流程结束。
其中:Cp(Corps)表示实验语料集,DTSet(Document-Topic Set)表示文档-主题集,文档-主题集也叫文档-主题词集合,FCSet(Fulltext Chain Set)表示全文词汇链集,NPSet(Noun-Phrase Set)表示二元和三元名词短语集,CWSet(Center Word Set)表示中心词集,TTPSet(Temp Topic Phrase Set)表示候选主题短语集,TPSet(Topic Phrase Set)表示主题短语集。
词汇链源于词汇集聚概念,用于将文本中相关的词构成一个链的过程。它是一种词语间语义关系连贯性的外在表现,与文本的结构和主题都有一定的对应关系,能够用于确定语境,进而帮助消歧;也能够用于文本抽取的各个任务中。词汇链是通过词义间的关系来识别的构建的,计算语义相似度需要知识库的支持。而WordNet就是一个较为完备的语义知识库,因此可以将WordNet应用到词汇链构建算法中。词汇链构建算法的核心思想是从当前已构造的词汇链中选择一条最合适的词汇链作为与该候选词相关的词汇链。但由于该算法考虑的是到目前为此所出现的词语间的语义关系,并不从文章总体上考虑,所以构建的词汇链往往不能正确表达文章的语义结构,容易出现词语的词义误判问题,这也是对词汇链进行改进的主要着手点之一。
词义相似度指的是两个词在不同的语境中相互替换但不影响语境的句法语义结构的程度。任何两个词语之间的相似度不仅取决于两个词之间的共性(Commonality)也取决于它们之间个性(Differences),基于语义词典并结合信息论的知识定义的相似度计算公式如下:
其中,S1、S2表示两个义原,Sp表示离它们最近的共同祖先,p(Si)(i=1,2或p)是Si结点的子结点个数(包括自己)与树中的所有结点个数的比值。
主题模型是为了揭示大数据集合中的隐藏结构而设计的一系列无监督学习算法。主要思想是文档可以看作是一系列主题的集合,而主题可以看作是一系列词语的集合。换言之,一个文档可以包含多个主题,而一个主题是由若干个词语组成的集合。主题可以定义为基于词的概率分布,同时可以把文档定义为基于主题集合的概率分布。文档-主题-词语三者的关系可以表示为:
其中,D表示文档;T表示主题;W表示词语。
LDA(Latent Dirichlet Allocation)主题模型是一个用于主题生成的三层贝叶斯概率模型。LDA的概率主题模型可以表示为图2所示。为了简化问题的复杂性,LDA模型不考虑词与词之间的顺序,把文档中的每个词看作是相互独立的变量,即基于“词袋”模型的假设,这也为模型的改进提供了着手点。LDA模型同时采用Dirichlet分布函数来表示文档中的各个主题分布。
短语往往比单个词蕴含的信息更加丰富,含义也相对明确,具有较好的主题概括力。
词汇链可以通过计算词语语义相关度的方式进行构建。词语语义相关度是从语义层面反映词语关联程度的概念,可以使用两个词在同一语境下的共现的概率来计算词语之间的语义相关度。词语语义相似度与词语语义相关度很容易被混淆,词语语义相似度指的是词汇之间的相似性。词语语义相似度与词语语义相关度又具有一定的联系,两个词汇语义相关,它们之间不一定语义相似,但如果两个词汇语义相似,那么它们一定是语义相关的。综上所述,可以把语义相似度的计算作为语义相关度求解过程的一部分。
在有些领域例如通信领域的技术文献中涉及到大量的缩略词,如表4中的SIM(Subscriber Identification Module),GSM(Global System for MobileCommunication),BTS(Base Transceiver Station)等。这些缩略词并没有被WordNet所收录,语义相似度计算公式也就无法应用在这些缩略词上。现有技术中采用基于互信息的方法解决WordNet中未收录词的相关度计算问题。互信息常被应用于计算两个词语之间的相关程度,具有不用依赖任何知识库的特点,但互信息在低频词共现场景取得的效果并不好,且LDA抽取的文档一词汇矩阵是一种稀疏矩阵,只能基于段落内词共现计算词语之间的相关程度。基于段落内计算词之间的相关程度,主题词之间会出现大量低频共现现象。为了解决上述问题,引入对数似然比(Log Likelihood Ratio)来解决上述问题。对数似然比在计算词的低频共现时比互信息具有更好的稳定性。其基本思想是比较两个词汇相互独立时得到的概率与构造或然表得到的概率的一致程度。给定两个词汇u和v,则u,v所组成的或然表如表1所示。
表1 u、v组成的或然表
k11表示单词u和单词v共同出现的次数;k12表示单词u出现但单词v不出现的次数;k21表示单词v出现但单词u不出现的次数;k22表示单词u和单词v都不出现的次数;需要指出的是,对数似然比的应用场景是基于LDA抽取结果的文档-主题词矩阵的,因为该矩阵是一种稀疏矩阵,所以或然表中的词共现现象统计是基于段落级而不是常规的句子级。对数似然比的公式如公式(3)所示。
其中,p=(k11+k12)/N,N=k11+k12+k21+k22,k11、k12、k21和k22不同时为0,p表示单词u出现的概率,p1表示在v出现的情况下u出现的概率,p2表示在v不出现的情况下u出现的概率。对数似然比的值越大,表示语料中u、v搭配的短语是随机出现的概率越小。
为了便于计算,将对数似然比的求解过程转换为求行熵、列熵、矩阵熵的求解过程。引入对数似然比后,设wi、wj为文档中的两个词语,可根据公式(1)将wi,wj的相似度表示为Sim(wi,wj),根据公式(3)对数似然比表示为LLR(wi,wj);用Rel(wi,wj)表示wi,wj的相关度,词语语义相关度计算公式如公式(4)所示。
Rel(wi,wj)=(1-λ)Sim(wi,wj)+λLLR(wi,wj);
(i≥0;j≥0,i≠j) (4);
其中,λ为可调节参数,由于在通信领域技术文献中缩略词所包含的信息量更大一些,而涉及到缩略词的相关度计算中,公式(4)中前半部分相似度函数不一定会有值,但后半部分的对数似然比函数一定会有值,例如,可以将λ值设为0.6。
针对技术文献利用LDA抽取出文档-主题词集合DTSet后,结合词语语义相关度计算方法可以进一步完成词汇链的构建。首先构建全文词汇链,具体方法是通过扫描语料库(Corps)中选定文档(D)的词集合,利用公式(4)求出相关度值与当前处理的词汇最大的词,并将该词插入到此词汇链中,从而完成全文词汇链的构建。然后在全文词汇链集合中求出与主题词集合DTSet中的词满足一定相似度阈值的词汇链集(LSet)。具体方法是遍历主题词集合DTSet中的每一个词w_i,利用公式(5)计算当前词w_i与全文词汇链集合中的每一个词汇链L_j的相似度,如果大于相似度阈值,就将该词汇链L_j加入到词汇链集(LSet)中。重复上述步骤,直至集合U中的词扫描完成,也就求出了词汇链集(LSet)。对于给定词w_i与词汇链L_j的相似度计算方法如公式(5)所示。
其中,Sim(wi,Lj)表示当前词wi与词汇链Lj的相似度。
为了更好地体现文档的主题,还需要对词汇链集(LSet)进行强词汇链的提取。强词汇链对文档的核心内容更加具有代表性。为了得出强词汇链,这里引入权重计算方法,如公式(6)所示。
其中,Score(Chain)为词汇链权重评分函数,Len(Chain)为求链长函数,Hg(Chain)为均衡函数;Ti为词汇链中第i个词在全文出现的次数,n为词汇链中的成员个数。
使用权值评分函数对词汇链进行评分,选择满足一定“强链规则”的词汇链作为强词汇链;用ChainScore(Chain)表示强词汇链的评分函数,AVG(Scores)表示(6)式中词汇链权重评分函数得分的平均值,STD(Scores)表示(6)式中词汇链权重评分函数得分的标准差;则“强链规则”可以表示为:
Score(Chain)>AVG(Scores)+2×StandardDeviation(Scores),选择其中权重满足“强链规则”的词汇链作为词汇链强链。
每条强链都对应着一个主题线索,每个主题线索都有着互不相同的侧重点。可以选取代表不同侧重点的强词汇链中的中心词作为文档主题信息的代表。对于选定文档中的中心词,其出现的频次应超过一定阈值,例如:将阈值取为δ=(选定词在文档中出现次数/文档不相同词数),把超过阈值δ的词作为文档的候选词中心词。很多相关研究仅考虑名词作为词汇链中的候选词,但经实验发现,除名词以外的词语对抽取文档主题词有正负两方面的影响。具体为动词对抽取的文档主题词质量有相对积极的影响,而形容词、副词等其它词对抽取主题词的质量有相对消极影响。因此只选择文档中具有名词词性或动词词性的词语作为候选中心词。根据确定的阈值δ获得每条链的候选中心词集合。
短语比词汇更能体现文档的主题,在本发明的方法中,以短语来体现文档的主题。现实中的关键短语多以二元和三元结构出现,而名词短语(N-P,Noun Phrase)与文档内容的表达最为一致,因此可以用名词短语来描述文档的主题,英文中的名词短语的主要语言模式如表2所示。
Pattern | Explain |
A N | Adjective Noun |
N N | Noun Noun |
A A N | Adjective Adjective Noun |
A N N | Adjective Adjective Noun |
N A N | Noun Adjective Noun |
N N N | Noun Noun Noun |
N P N | Noun Preposition Noun |
如果两个词语在同一文本片段内同时出现,那么这两个词就具有一定的相关性。两个词的同现频率越高,则它们的相关性就越大,成为短语的可能性也就越大。由此可以联系信息论中互信息的相关知识,得出词语间的共现频率计算公式如下:
其中,w1、w2、w3表示任意三个互不相同的词语,F(w1,w2,w3)表示w1、w2、w3共同出现的次数,COF(w1,w2)表示w1与w2共同出现的频率,COF(w1,w2,w3)表示w1、w2、w3共同出现的频率。
例如,以3GPP官方网站提供的8500篇技术规范作为统计语料库,记所述的英文名词短语语言模式模版为Pt,设计的主题短语抽取算法步骤描述如下:
候选主题短语与文档主题的相关度通常与多种因素有关。在本发明的方法中,综合考察候选主题短语的频率特征、词汇链长度特征以及位置特征对主题度的影响,通过构造主题因子计算公式衡量候选主题短语的主题度。
1)频率特征。从统计学角度来看,候选主题短语的出现频率从一定程度上能够反映出文档主题,如果候选主题短语在同一篇文档中频繁出现,则有较大可能性与文档主题密切相关。考虑到作者在撰写技术文档时,通常会为了凸显主题而反复使用主题相关的短语词汇。因此,短语的频率特征可以作为衡量主题度的一个因素。
2)词长特征。主题短语一般包含多个单词,表达的涵义往往比单个词汇更具体。本文将主题短语包含的单词个数作为主题短语的长度特征。相对而言,候选主题短语长度越短,则提供的信息量越少,概括的主题含义越抽象;候选主题短语长度越长,则承载的信息越丰富,更有可能贴近文档的主题思想。文献表明,同一篇文档中,反映文档主题思想的短语对应的词汇满足长度最大的条件。因此,词长也是一个不容忽视的因素。
3)位置特征。同一个主题短语在特定的文档中一般会在不同位置处多次出现,不同的位置对主题度的影响也不一样。候选主题短语出现在文档标题中一般比出现在正文中更能体现文档主题,出现在正文起始段落中的候选主题短语一般起到开门见山的作用,出现在正文末尾段落中的候选主题短语一般起到总结性的作用。因此,出现在正文的开头和结尾部分的候选主题短语一般比中间位置更能体现文档主题。将候选主题短语出现的位置划分为标题、正文起始段落、正文末尾段落以及正文中间部分,不同位置处赋予的主题权重如公式(9)所示。
综合上述分析,计算候选主题短语主题度的公式如公式(10)所示。
其中,Subject(phrase)表示候选主题短语phrase的主题度;Pos(phrase)表示候选主题短语phrase在文档中出现的位置;fre表示候选主题短语phrase在文档中出现的总次数;len表示候选主题短语phrase的长度;表示主题短语phrase的平均长度。
针对本发明的方法进行的实验如下:
以3GPP官方网站FTP服务(http://www.3gpp.org/ftp/)中公开的8500篇通信行业技术规范(TSG)文献作为实验数据进行实验。为了便于实验,将技术规范文件中的扉页、目录和图表等信息统一去除,只保留正文部分作为实验语料(Corps),并去除语料中的停用词和标点符号并以’$’符号作为分割符。选取其中的五种技术规范文档集作为对比实验的五个实验组。由于每种技术规范又分为三个系列,为了达到更好的实验效果,选取过程中尽量对技术规范的若干系列进行平衡选取。把所选取的技术规范文档集设置为3个不同的规模,并对选取的文档进行手工标注主题短语。由于所选的实验语料平均长度在4000字以上,为了较好的表达主题,每篇文献手工标注的主题短语个数设定为100个,3个文档集合分别包含150篇,300篇,450篇实验文献,具体分配情况如表3所示。
表3 实验文档分配情况
通过LDA与词汇链相结合的方法进行主题短语的抽取。使用LDA4j作为主题抽取模型。将LDA的各参数分别设置为:文档-主题参数alpha=2.0,主题-词语参数beta=0.5,主题数目k=20,收敛前迭代次数BURN_IN=100,最大迭代次数ITERATIONS=1000。利用LDA对上述语料库进行训练后,预测其中编号为ETSI-TS-101-402技术规范文件的主题。表4列出了前6个主题。表4 LDA抽取的部分主题集
通过观察LDA的抽取结果发现所抽取的主题可用性并不高。主要存在以下三个问题:(1)词汇信息粒度过小,每个词都是独立的单词;(2)主题词二义性,没有考虑词汇的真正含义,如band,call等;(3)存在主题漂移现象,如文章的真实主题是与全球移动通信(GSM)的基站服务(BTS)有关,而topic3预测的主题是与移动交换中心(MSC)有关,与实际主题略有偏离。
在实验过程中发现实验语料存在大量可利用的数据特征,这些具有明显数据特征的字符串很大概率上是缩略词或者是具有专指意义的名词短语,而且在主题表达上具有特殊的意义,如CDMA,
IMMEDIATE ASSIGNMENT,Private Telecommunication Networks等。这些数据特征给主题抽取提供了便利,可以用字符串匹配技术将这些字符串直接标定为名词或者名词短语,然后通过互信息、对数似然比等方法进行过滤,最后将它们加入到候选主题短语集合中,计算主题度并按照所得的主题度大小进行排序输出。表5展示了每篇文献主题度值排在前10的主题短语。
表5 部分抽取的主题短语
通过对比发现,与传统的基于LDA主题抽取方法相比较,本发明的方法对于文献的主题表达主要有以下4个方面的改善:(1)主题信息粒度方面,传统的PLSA、LDA等主题模型通常使用一系列单词去解释文本主题,信息粒度过小,不利于概念的表达;而本发明使用一系列信息粒度更大的短语描述主题有助于更深一步地对主题概念进行解释。(2)主题的辨识度方面,使用基于单词的主题模型表达文本主题,往往会产生主题不易被区分的问题,如表4中topic1、topic3、topic6都是描述用户电话信息的,topic2、topic4和topic5又都是描述全球移动通信系统的,无法准确区分主题,如果人为进行区分,会造成结果客观性不足,也可能会产生一些矛盾。而基于短语进行主题表达,每个短语都包含较为丰富的语义信息,从而对主题辨识度的提升有所帮助。(3)语义消歧方面,基于单词的主题模型容易出现多义词,无法辨别其真正含义,从而产生歧义,影响主题无法准确地得到表达。如topic2中“power”的意思是“功率”还是“电源”?在缺少上下文语境的情况下,读者凭借主观猜想很难对其正确地进行区分。而基于短语的主题表达提供了一定的语境信息,有助于对多义词的进行正确的解读,从而消除主题表达中的歧义现象。(4)主题的可解释性方面,传统的基于单词的主题模型中,同一个单词可能被多个主题所包含,如表4中GSM同时在topic2、topic4和topic5中出现,这种情况对文献主题的解释以及分类具有负面影响,仅仅知道这些主题与“全球移动通信系统”有关,意义不大,所能为主题解释提供的价值有限。而基于短语对主题进行解释则会大大改善这一情况。
在表(3)所示的五组实验语料的基础上,分别采用基于LDA的方法、基于词汇链的方法以及本发明的方法进行主题短语的抽取,然后与手工标注的主题短语进行对比,从而得到每组语料抽取主题短语准确率和召回率,经过对比,利用本发明的方法进行主题短语抽取的准确率和召回率远高于其他方法,抽取效果好。
本发明提供的主题短语抽取方法,通过LDA模型与词汇链相结合来进行主题短语抽取,可以利用语料库之外的具有较完备语义信息的知识库WordNet,通过语义相关度计算和强链规则筛选可以得到强词汇链,从而在很大程度上减少了主题词二义性问题;词汇链借助语料库之外的语义知识库来计算词语间关系,可以弥补LDA模型的不足,达到充分利用语料库内部和外部语义信息的目的;同时,利用中心词提取方法和N-P规则合并、去重等步骤完成主题短语的提取,借助具有更丰富语义信息的主题短语来表达主题,从而解决了主题词粒度过小、辨识度低等问题,且能够保证主题抽取的较高的准确率和召回率,减少了主题漂移现象,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种主题短语抽取方法,其特征在于,包括以下步骤:
步骤1)文档预处理;
步骤2)求文档-主题集、全文词汇链集及名词短语集;
步骤3)求中心词集;
步骤4)求候选主题短语集;
步骤5)求主题短语集。
2.根据权利要求1所述的主题短语抽取方法,其特征在于,所述步骤1)具体为:去除停用词和标点符号后以’$’符号作为分割符,得到实验语料。
3.根据权利要求1-2所述的主题短语抽取方法,其特征在于,所述步骤2)具体为:在实验语料的基础上,利用LDA训练及Gibbs采样得到文档-主题集,并利用词语语义相关度和WordNet知识库构造全文词汇链集,同时用规则匹配方式提取语料库中的名词短语集。
4.根据权利要求1-3所述的主题短语抽取方法,其特征在于,所述步骤3)具体为:在文档-主题集和全文词汇链集的基础上,计算主题词与词汇链的相关度,利用强链规则求出强词汇链集合,然后循环遍历强词汇链集合中的每一个强链,将强链集合中频率最高的元素作为最能代表该链的词,并将该词加入到中心词集中,直到循环到强词汇链集合中最后一个强链,循环结束,得到中心词集。
5.根据权利要求1-4所述的主题短语抽取方法,其特征在于,所述步骤4)具体为:名词短语集和中心词集经过包含与被包含规则的合并、去重操作得到候选主题短语集。
6.根据权利要求1-5所述的主题短语抽取方法,其特征在于,所述步骤5)具体为:通过频率、词长和短语在文中所在的位置构造主题度计算公式,计算候选主题短语集中每一个短语的主题度并设定阈值,将主题度满足阈值的短语加入到主题短语集,从而得到主题短语集。
7.根据权利要求1-6所述的主题短语抽取方法,其特征在于,所述词语语义相关度的计算公式为:
Rel(wi,wj)=(1-λ)Sim(wi,wj)+λLLR(wi,wj);
(i≥0;j≥0,i≠j)
其中,wi、wj代表文档中的两个词语,Sim(wi,wj)代表wi、wj的相似度,Rel(wi,wj)表示wi、wj的相关度,LLR(wi,wj)表示对数似然比,λ为可调节参数。
8.根据权利要求1-7所述的主题短语抽取方法,其特征在于,对数似然比的计算公式为:
其中,p=(k11+k12)/N,N=k11+k12+k21+k22,k11、k12、k21和k22不同时为0,p表示单词u出现的概率,p1表示在v出现的情况下u出现的概率,p2表示在v不出现的情况下u出现的概率。
9.根据权利要求1-8所述的主题短语抽取方法,其特征在于,候选主题短语出现的位置的主题权重公式如下:
候选主题短语的主题度计算公式为:
其中,Subject(phrase)表示候选主题短语phrase的主题度;Pos(phrase)表示候选主题短语phrase在文档中出现的位置;fre表示候选主题短语phrase在文档中出现的总次数;len表示候选主题短语phrase的长度;表示主题短语phrase的平均长度。
10.根据权利要求1-9所述的主题短语抽取方法,其特征在于,所述词汇链的构建包括以下步骤:
构建全文词汇链,通过扫描语料库中选定文档的词集合,求出相关度值与当前处理的词汇最大的词,并将该词插入到此词汇链中,从而完成全文词汇链的构建。
在全文词汇链集合中求出与文档-主题集中的词满足一定相似度阈值的词汇链集,遍历文档-主题集中的每一个词w_i,利用以下公式计算当前词w_i与全文词汇链集合中的每一个词汇链L_j的相似度,
如果大于相似度阈值,就将该词汇链L_j加入到词汇链集中,重复直至集合U中的词扫描完成,就求出了词汇链集。
对词汇链集进行强词汇链的提取。引入权重计算方法求强词汇链,权重计算公式如下所示:
其中,Score(Chain)为词汇链权重评分函数,Len(Chain)为求链长函数,Hg(Chain)为均衡函数;Ti为词汇链中第i个词在全文出现的次数,n为词汇链中的成员个数。
词语间的共现频率计算公式如下:
其中,w1、w2、w3表示任意三个互不相同的词语,F(w1,w2,w3)表示w1、w2、w3共同出现的次数,COF(w1,w2)表示w1与w2共同出现的频率,COF(w1,w2,w3)表示w1、w2、w3共同出现的频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810605920.4A CN108920454A (zh) | 2018-06-13 | 2018-06-13 | 一种主题短语抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810605920.4A CN108920454A (zh) | 2018-06-13 | 2018-06-13 | 一种主题短语抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108920454A true CN108920454A (zh) | 2018-11-30 |
Family
ID=64419696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810605920.4A Pending CN108920454A (zh) | 2018-06-13 | 2018-06-13 | 一种主题短语抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920454A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614626A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于万有引力模型的关键词自动抽取方法 |
CN109902169A (zh) * | 2019-01-26 | 2019-06-18 | 北京工业大学 | 基于电影字幕信息提升电影推荐系统性能的方法 |
CN110008474A (zh) * | 2019-04-04 | 2019-07-12 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN110059312A (zh) * | 2019-03-27 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 短语挖掘方法、装置和电子设备 |
CN110287493A (zh) * | 2019-06-28 | 2019-09-27 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
CN110472005A (zh) * | 2019-06-27 | 2019-11-19 | 中山大学 | 一种无监督关键词提取方法 |
CN110837740A (zh) * | 2019-10-31 | 2020-02-25 | 华中科技大学 | 一种基于词典改进lda模型的评论方面观点级挖掘方法 |
CN111046665A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种领域术语语义漂移抽取方法 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN111899832A (zh) * | 2020-08-13 | 2020-11-06 | 东北电力大学 | 基于上下文语义分析的医疗主题管理系统与方法 |
CN112016323A (zh) * | 2020-08-28 | 2020-12-01 | 中国科学技术大学 | 专利中技术短语的自动抽取方法 |
CN113591468A (zh) * | 2021-06-15 | 2021-11-02 | 天津师范大学 | 国际组织科技文本词汇链自动构建与主题发现方法 |
CN113935321A (zh) * | 2021-10-19 | 2022-01-14 | 昆明理工大学 | 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN101887415A (zh) * | 2010-06-24 | 2010-11-17 | 西北工业大学 | 一种文本文档主题词义的自动提取方法 |
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
CN102033922A (zh) * | 2010-12-14 | 2011-04-27 | 哈尔滨工业大学 | 一种基于词汇链的关键短语抽取方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
-
2018
- 2018-06-13 CN CN201810605920.4A patent/CN108920454A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN101887415A (zh) * | 2010-06-24 | 2010-11-17 | 西北工业大学 | 一种文本文档主题词义的自动提取方法 |
CN102033922A (zh) * | 2010-12-14 | 2011-04-27 | 哈尔滨工业大学 | 一种基于词汇链的关键短语抽取方法 |
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
Non-Patent Citations (3)
Title |
---|
COSTIN CHIRU1 ET.AL: "Comparison between LSA-LDA-Lexical Chains", 《10TH INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS AND TECHNOLOGIES》 * |
姚养无编著: "《科技论文写作基础》", 30 April 2017 * |
尤建清等: "基于主题句抽取的新闻文本倾向性分析方法", 《第十五届汉语词汇语义学国际研讨会》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614626A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于万有引力模型的关键词自动抽取方法 |
CN109902169A (zh) * | 2019-01-26 | 2019-06-18 | 北京工业大学 | 基于电影字幕信息提升电影推荐系统性能的方法 |
CN110059312A (zh) * | 2019-03-27 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 短语挖掘方法、装置和电子设备 |
CN110008474B (zh) * | 2019-04-04 | 2023-06-02 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN110008474A (zh) * | 2019-04-04 | 2019-07-12 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN110472005B (zh) * | 2019-06-27 | 2023-09-15 | 中山大学 | 一种无监督关键词提取方法 |
CN110472005A (zh) * | 2019-06-27 | 2019-11-19 | 中山大学 | 一种无监督关键词提取方法 |
CN110287493A (zh) * | 2019-06-28 | 2019-09-27 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
CN110837740A (zh) * | 2019-10-31 | 2020-02-25 | 华中科技大学 | 一种基于词典改进lda模型的评论方面观点级挖掘方法 |
CN111046665A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种领域术语语义漂移抽取方法 |
CN111046665B (zh) * | 2019-12-03 | 2023-10-13 | 哈尔滨工程大学 | 一种领域术语语义漂移抽取方法 |
CN111898366B (zh) * | 2020-07-29 | 2022-08-09 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN111899832A (zh) * | 2020-08-13 | 2020-11-06 | 东北电力大学 | 基于上下文语义分析的医疗主题管理系统与方法 |
CN111899832B (zh) * | 2020-08-13 | 2024-03-29 | 东北电力大学 | 基于上下文语义分析的医疗主题管理系统与方法 |
CN112016323A (zh) * | 2020-08-28 | 2020-12-01 | 中国科学技术大学 | 专利中技术短语的自动抽取方法 |
CN112016323B (zh) * | 2020-08-28 | 2024-04-02 | 中国科学技术大学 | 专利中技术短语的自动抽取方法 |
CN113591468A (zh) * | 2021-06-15 | 2021-11-02 | 天津师范大学 | 国际组织科技文本词汇链自动构建与主题发现方法 |
CN113591468B (zh) * | 2021-06-15 | 2024-02-13 | 天津师范大学 | 国际组织科技文本词汇链自动构建与主题发现方法 |
CN113935321A (zh) * | 2021-10-19 | 2022-01-14 | 昆明理工大学 | 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 |
CN113935321B (zh) * | 2021-10-19 | 2024-03-26 | 昆明理工大学 | 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920454A (zh) | 一种主题短语抽取方法 | |
US11487939B2 (en) | Systems and methods for unsupervised autoregressive text compression | |
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
KR20220025026A (ko) | 자연어 이해(nlu) 프레임워크를 이용하여 의미 검색을 수행하기 위한 시스템 및 방법 | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN112100365A (zh) | 双阶段文本摘要方法 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN111160041A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
US11270085B2 (en) | Generating method, generating device, and recording medium | |
CN112446217B (zh) | 情感分析方法、装置及电子设备 | |
Sarkar | Part-of-speech tagging for code-mixed indian social media text at icon 2015 | |
WO2024138859A1 (zh) | 跨语言实体词检索方法、装置、设备及存储介质 | |
Tarmom et al. | Compression versus traditional machine learning classifiers to detect code-switching in varieties and dialects: Arabic as a case study | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN117195829A (zh) | 文本标注方法、文本标注装置及电子设备 | |
CN111401070B (zh) | 词义相似度确定方法及装置、电子设备及存储介质 | |
CN111046168A (zh) | 用于生成专利概述信息的方法、装置、电子设备和介质 | |
KR20130074176A (ko) | 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법 | |
CN110162615A (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN109684357A (zh) | 信息处理方法及装置、存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20221206 |