CN101464898B

CN101464898B - 一种提取文本主题词的方法

Info

Publication number: CN101464898B
Application number: CN2009100015788A
Authority: CN
Inventors: 方高林; 郑全战
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2009-01-12
Filing date: 2009-01-12
Publication date: 2011-09-21
Anticipated expiration: 2029-01-12
Also published as: CN101464898A

Abstract

本发明实施例公开了一种提取文本主题词的方法，该方法包括：将待处理文本分成现有词的组合序列；对于每一待处理文本，查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串，根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词；根据现有词和新词在所述待处理文本中的出现频率，从所述现有词和新词中提取所述待处理文本的主题词。应用本发明能够提高从待处理文本中提取的主题词的全面性。

Description

一种提取文本主题词的方法

技术领域

本发明涉及互联网信息处理技术领域，尤其涉及一种提取文本主题词的方法。

背景技术

提取文本主题词是很多网络应用都需要面临的技术问题。例如，在基于内容的网络广告应用中，需要提取用户当前浏览的网页内容的主题词，然后向该用户发送与该主题词相关的广告；在搜索引擎建立索引时，需要提取搜索到的各个文本的主题词，然后根据从各个文本提取到的主题词建立各个文本的索引，从而提高检索效率；在基于内容的文本分类中，也需要提取能够反映文本内容的主题词，然后根据提取到的主题词进行文本分类。

目前，提取文本主题词的普遍方法是：首先建立大规模语料库，其中存储有大量的文本，根据大规模语料库建立语言词库，该语言词库中涵盖了从大规模语料库中统计得到的现有词。在提取待处理文本的主题词时，对待处理文本进行分词处理，将待处理文本分成现有词的组合序列，例如，采用通用的基于二元词模型的方法对待处理文本中的各个句子进行切分。然后将待处理文本中的现有词在所述大规模语料库中的词频或者文档频率或者逆文档频率(TFIDF)，在词频或者文档频率或者TFIDF在第一预定范围内时，将相应现有词提取为待处理文本的主题词。

可见，现有技术根据基于大规模语料库得到的语言词库来对待处理文本进行分词处理，并从待处理文本中分出的现有词在所述大规模语料库中的词频或者文档频率或者TFIDF来提取主题词。

然而，在实际的网络应用中，常常会出现很多现有的语言库没有收录的新词，例如“霸王面”、“北漂一族”、“啃老”等，而这些新词作为文本的主题词的概率又很高。

可见，一旦能够表达待处理文本主题的词(下文简称待处理文本的主题词)不在已有的语言库中，由于无法根据现有的语言库从待处理文本中分出该主题词，因此，也不可能从待处理文本中提取该出题词，导致提取的主题词不全面。

发明内容

有鉴于此，本发明实施例的目的在于提供一种提取文本主题词的方法，以提高提取的主题词的全面性。

为达到上述目的，本发明实施例的技术方案具体是这样实现的：

一种提取文本主题词的方法，该方法包括：

将待处理文本切分成现有词的组合序列；

对于每一待处理文本，查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串，根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词；

根据现有词和新词在待处理文本中的出现频率，将出现频率大于预定阈值的现有词和新词作为候选主题词；根据候选主题词在待处理文本中的出现位置，从所述候选主题词中选择主题词聚类中心；计算候选主题词与所述主题词聚类中心的距离，将距离大于预定阈值的所述候选主题词聚类为主题词。

由上述技术方案可见，本发明在将待处理文本分成现有词的组合序列后，对于每一待处理文本，查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串，根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词，根据现有词和新词在所述待处理文本中的出现概率，从所述现有词和新词中提取该待处理文本的主题词。

由于本发明在提取主题词之前进行了基于局部特征的新词发现，即，对于每一待处理文本，都统计该待处理文本中重复次数大于预定频率的候选字符串，并根据候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词，该新词是基于每一个待处理文本得到的，而非基于大规模语料库得到，因此，能够更有针对性地体现待处理文本的主题，通过从该新词中提取主题词，可以提高提取的主题词的全面性。

附图说明

图1是本发明提供的提取文本主题词的方法流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

图1是本发明提供的提取文本主题词的方法流程图。

其中，步骤101～102用于提取待处理文本，并对待处理文本进行分词处理和词性标注，步骤101～102可以采用现有技术实现。

步骤103～104用于从待处理文本中发现新词。

步骤105用于从待处理文本包含的现有词和新词中提取文本主题词。步骤105可以采用现有技术中将出现频率在第一预定范围内的词作为主题词的方案实现，也可以采用本发明提供的主题词聚类方法实现。

下面结合图1对本发明的方法进行详细介绍。

如图1所示，本发明提供的提取文本主题词的方法包括：

步骤101，提取待处理文本。

本步骤中，从含有链接信息、广告信息、标语信息、导航信息、版权信息等垃圾信息的待处理对象中提取待处理文本。其中的待处理对象例如可以是网页、电子邮件等。

具体地，可以利用待处理对象中的链接信息和文本信息的比例，从待处理对象中去除链接信息、广告信息、标语信息、导航信息、版权信息等垃圾信息，从而提取出待处理文本。

例如，对网页(HTML文档)形式的待处理对象进行解析，建立文档对象模型(DOM)树。DOM树是采用树结构表示的一种数据结构，具有便于操作访问、便于恢复和纠错原始网页的优点，是现有技术中从待处理对象中提取文本信息的一种常用方法。

由于通常的内容型网页中所包含的文本信息较多，而链接信息较少，因此，可以采用自底向上的方法查找该DOM树中包含最大文本的节点。由于该最大文本节点中未能包含待处理对象的全部文本信息，因此需要对该最大文本节点进行扩展，以寻找到该待处理对象的所有文本信息。具体地，从该最大文本节点向其父节点扩展，对于扩展到的每个节点，根据该节点的上下文文本的信息增益、文本增益和链接文本增益的比例特征来判断该节点是文本节点还是链接节点，如果该节点的信息增益小于第二预定阈值(例如0.65)且文本增益和链接文本增益的比例大于第三预定阈值(例如0.5)，则从该节点向其父节点扩展，直至找到该DOM数的所有文本节点。

对于最大文本节点内部，采用自顶向下的方式进行分析，寻找该最大文本节点内部包含儿子节点最多的子树，即最大扇出子树节点，然后对每个扇出子树节点进行分析，判断每个子树块是否是链接块以及是否具有连续的结构符号等。如果判断出子树快是链接块，则删除该子树快，否则予以保留。判断出最大扇出子树节点的各个子树块之间是否有连续的结构符号后，对于有连续的结构符号的各个子树块予以保留，对于没有连续的结构符号的各个子树块予以删除。由于有连续的结构符号的各个子树块彼此之间是语义内聚的，最大文本块节点是待处理对象的正文，因此，从最大文本块节点自顶向下扩展找到的各个具有连续结构符号的子树块也是正文，不包含噪声信息，通过保留最大扇出子树节点中具有连续结构符号的子树块，删除不具有连续结构符号的子树块，可以去除最大扇出子树节点中的噪声信息。其中，每个子树快是否是链接块的判断依据是块文本和链接文本的比例，如果该比例值大于第四预定阈值(例如2)，则判定该子树快是链接块，予以删除，否则予以保留。每个子树块是否具有连续的结构符号的判断依据是各个子树块之间的结构相似性，如果两个子树块之间的结构是相似的，则判定这两个子树块有连续的结构符号。

通过从最大文本节点开始寻找到该DOM树的所有文本节点，同时，将最大文本节点内部的链接块等非文本块删除，即实现了从待处理对象中提取待处理文本。

步骤102，对待处理文本进行分词处理和词性标注。

本步骤中，将待处理文本分成现有词的组合序列。具体可以采用现有技术中的分词方法实现，例如，采用通用的基于二元词模型的方法对待处理文本中的各个句子进行切分。

本发明还可以对从待处理文本中分出的各个现有词进行词性标注。具体地，可以采用目前通用的基于隐马科夫(HMM)模型的方法来进行词性标注，该方法是将每个词w的词性看作是HMM的隐含状态，通过定义该每个词w在每个隐含状态下的转移概率，即定义该每个词在词性t₁和词性t₂之间的转移概率p(t₂/t₁)，以及在词性t的情况下、属于该每个词w的发射概率p(w/t)，根据转移概率p(t₂/t₁)和发射概率p(w/t)，利用维特比(Vertbi)算法对从待处理文本中分出的各个现有词进行词性标注。

步骤103，查找在待处理文本中重复次数大于预定频率的候选字符串。

本步骤中，可以以字符为单位查找候选字符串，也可以以词为单位查找候选字符串。

其中，如果以字符为单位查找候选字符串，则步骤102与步骤103的顺序可互换，如果以词为单位查找候选字符串，则本步骤中，在从步骤102中分出的现有词序列基础上，以所述现有词为单位查找候选字符串。

以词为单位查找候选字符串与不对待处理文本进行分词而直接以字符为单位查找候选字符串相比，能够减小查找到的候选字符串是垃圾串的概率。比如，如果待处理文本中包含“英国奥运代表团和美国奥运代表团等多国奥运代表团抵达北京”这一字符串，如果不对该字符串进行分词而直接以字为单位查找候选字符串，则将查找到重复了3次的候选字符串“国奥运代表团”，显然，“国奥运代表团”这一候选字符串是不合理的，应为垃圾字符串；如果对“英国奥运代表团和美国奥运代表团等多国奥运代表团抵达北京”这一字符串首先进行分词处理，将其分成现有词的组合序列“英国/奥运/代表团/和/美国/奥运/代表团/等/多国/奥运/代表团/抵达/北京”，然后以现有词为单位查找候选字符串，则可以只查找到“奥运代表团”这一候选字符串，从而减小了查找到垃圾字符串的概率。

本步骤中，可以采用后缀树算法查找候选字符串。后缀树算法是目前进行串频统计最高效的算法，它以O(n)的时间建立，并以O(n)的时间遍历找出所有的重复子串，其中，n代表待处理对象的长度、即含有的字符数，O(n)代表与n呈线性关系的函数值。

后缀树算法实际上是将一个字符串的所有后缀建立起一棵带有压缩路径的后缀树(Trie)，以字符串“abab#”为例，从该字符串的根节点到每一个叶子节点都代表一个后缀，分别是“abab#”、“bab#”、“ab#”、“b#”和“#”。为了在空间上真正达到O(N)的要求，内部表示时，边的表示只能以区间的形式给出，比如(0，1)就是指的“ab”，(2，-1)就是指的“ab#”等等。

建立了这样的后缀树以后，只需要遍历该后缀树的所有非叶子节点，那么从该后缀树的根节点到这些非叶子节点所经历的路径便是一个重复两次以上的字符串，该字符串重复的频率(即串频)就是该节点后代中的叶子个数。例如，在字符串“abab#”中，可以查找出重复了两次的字符串“ab”。

经过本步骤，可以从待处理文本中查找出重复次数大于预定频率的候选字符串。

步骤104，根据候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词。

通过步骤103从待处理文本中查找出候选字符串后，由于有很多候选字符串含有较多的噪声，并不是所有的候选字符串都是有实际意义的新词，因此，还需要步骤103中查找出的候选字符串进行垃圾过滤，从候选字符串中过滤出新词。其中，有实际意义的新词是指不含有噪声、与待处理文本的主题关联程度较大的字符串。

通常，候选字符串中所包含的噪声通常是由于候选字符串向前组合了前缀或者向后组合了后缀造成的，即，由前缀冗余或者后缀冗余造成的。例如，由于前缀冗余造成的垃圾字符串“的唐古拉”和由于后缀冗余造成的垃圾字符串“抽象艺术的”。

本发明通过总结垃圾字符串自身所固有的规律，采用相应的信息处理技术对候选字符串进行垃圾信息处理，从所有的候选字符串中过滤出新词。

如上所述，候选字符串中的垃圾字符串通常是由于出现了前缀冗余或者后缀冗余现象而导致的。其中的前缀冗余和后缀冗余通常是由于候选字符串中字符的前缀成词概率和后缀成词概率较低造成的。所述字符的前缀成词概率是指，该字符作为前缀时，与其他词或字符形成有实际意义的新词的概率；所述字符的后缀成词概率是指，该字符作为后缀时，与其他词或者字符形成有实际意义的新词的概率。

在步骤104中，即根据候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词。具体地，本发明通过预先统计各个词或者字符的前缀和/或后缀成词概率，采用词典匹配、模板匹配、基于候选字符串中各个字符的位置信息的精细化处理、以及基于各个候选字符串之间的信息关联程度的精细化处理等技术手段来对候选字符串进行处理，从而从候选字符串中过滤出新词。

下面对采用上述技术手段从候选字符串中过滤出新词的具体方法进行详细介绍。

方法一，采用词典匹配的方法从候选字符串中过滤出新词。

在方法一中，首先根据各个字符位于前缀位置的成词概率和位于后缀位置的成词概率，形成新词过滤词典，在从候选字符串中过滤新词时，判断候选字符串的前缀和/或后缀是否在相应的新词过滤词典中，根据判断结果从候选字符串中过滤出新词。

具体地，新词过滤词典可以包括头词词典和/或尾词词典和/或多元组垃圾词典和/或尾字字典。

其中的头词词典由处于前缀位置时的成词概率不满足第一预定条件的字符组成；尾词词典由处于后缀位置时的成词概率不满足第二预定条件的字符组成；多元组垃圾词典，是预先根据由三个以上现有词组合成的多元组字符串与该多元组字符串所在文本主题的关联程度，将关联程度不满足预定条件的多元组字符串中处于非前缀位置和非后缀位置的词组成的；尾字字典由能够作为现有词的后缀、从而与现有词共同形成表示名称的词的字符组成。

其中的头词词典和/或尾词词典和/或多元组垃圾词典和/或尾字字典，通常由文本主题词提取程序或者装置的设计人员通过对大规模语料库进行统计得到。

下面对应用头词词典和/或尾词词典和/或多元组垃圾词典和/或尾字字典从候选字符串中过滤新词的方法进行举例说明。

对于头词词典和尾词词典，一般来说，表示连接关系的词、量词、叹词等非实意词与文本主题的关联程度较小，因此，可以将这类非实意词写入头词词典和尾词词典中，例如，将“把”、“比”、“副”、“个”等字符写入头词词典或尾词词典中。

在从候选字符串中过滤新词时，如果候选字符串的前缀和/或后缀是所述头词词典和/或尾词词典中的字符，则从该候选字符串中过滤掉该前缀和/或后缀，将过滤后的字符串作为新词，或者采用其他信息处理方法对过滤后的字符串进行进一步的处理，将进一步处理后的候选字符串作为新词。这里的进一步处理可以采用后文所述的方法二至方法四中的任意一种或多种方法实现。

对于多元组垃圾词典，预先根据由三个以上现有词组合成的多元组字符串与该多元组字符串所在文本的主题的关联程度，将所述关联程度较小的多元组字符串中，位于非前缀位置且非后缀位置的字符或者现有词组成。该多元组垃圾词典通常由相关设计人员根据大规模语料库总结整理得到。例如，多元组字符串“村民告诉记者”、“老虎被他”以及“海洋使得我们”与相应文本的主题的关联程度较小，因此，将“告诉”、“被”和“使得”写入多元组垃圾词典中。在根据该多元组垃圾词典从候选字符串中过滤新词时，如果候选字符串是由三个以上(含三个)的现有词组成的多元组字符串，则判断该多元组字符串中位于非前缀位置且非后缀位置的现有词是否在多元组垃圾词典中，若是，则判定该候选字符串是垃圾字符串，过滤掉该候选字符串不将其作为新词，否则，将该候选字符串作为新词。

对于尾字字典，一般来说，很多与文本主题关联程度较大的词都是表示实体名称的词，而很多表示实体名称的词都是由现有词加上后缀字符组成的，本发明根据文本主题信息与该文本中所含有的表示实体名称的词之间这种固有的联系，以及表示实体名称的词之间固有的规律，通过将能够作为现有词的后缀、从而形成表示实体名称的词的字符写入相应的尾字字典，利用该尾字字典对候选字符串进行过滤，从而得到新词。具体地，判断候选字符串是否由现有词和后缀字符组成，如果是，判断该后缀字符是否在所述尾字字典中，如果是，将该候选字符串作为新词，否则，过滤掉该候选字符串，不将其作为新词。

例如“五台山”、“大悲寺”、“北京市”、“越野车”等词分别由现有词“五台”、“大悲”、“北京”、“越野”和后缀字符“山”、“寺”、“市”、“车”组成，将所述的后缀字符“山”、“寺”、“市”、“车”写入尾字字典中，如果候选字符串由现有词和后缀字符组成，例如由“哈尔滨”和“市”组成，且该后缀字符出现在尾字字典中，则将该候选字符串作为新词，或者采用其他信息处理方法对过滤后的字符串进行进一步的处理，将进一步处理后的候选字符串作为新词；如果候选字符串由现有词和后缀字符组成，且该后缀字符没有出现在尾字字典中，则过滤掉该候选字符串不将其作为新词。

方法二，采用模板匹配的方法从候选字符串中过滤出新词。

在该方法二中，所采用的模板是预先设定好的，包括前缀词性垃圾模板和后缀词性垃圾模板，具体地，根据每一种词性的词位于前缀位置时的成词概率，形成前缀词性垃圾模板；根据每一种词性的词位于后缀位置时的成词概率，形成后缀词性垃圾模板；对候选字符串进行词性标注，将候选字符串前缀的词性与前缀垃圾词性模板进行匹配，将候选字符串后缀的词性与后缀垃圾词性模板进行匹配，将匹配到的前缀和后缀从所述字符串中过滤掉，直至过滤后的候选字符串前缀的词性与前缀垃圾词性模板不匹配、且候选字符串后缀的词性与后缀垃圾词性模板不匹配，将该过滤后的候选字符串作为新词。

由于在步骤102中已对从待处理文本中分出的现有词进行了词性标注，因此，在本步骤中采用方法二从候选字符串中过滤新词时，无需再重新对候选字符串进行词性标注，如果在步骤102中没有对从待处理文本中分出的现有词进行词性标注，则，本步骤中采用方法二从候选字符串中过滤新词时，需要对候选字符串中包含的各个现有词进行词性标注。

下面对方法二进行举例说明：例如，时间词、介词、后接成分、叹词、量词、助词、语气词等词性的词作为前缀时的成词概率较低，因此，可以将这些词性作为前缀垃圾词性模板；时间词、副词、叹词、前接成分、介词、助词、语气词、连词等词性的词作为后缀时的成词概率较低，因此，可以将这些词性作为后缀垃圾词性模板。如果候选字符串的前两个词或者后两个词是数词+量词的组合形式、或者介词+名词的组合形式、或者副词+动词的组合形式，则这些组合与待处理文本的主题的关联程度一般较小，则可以将这些组合作为前缀垃圾词性模板或者后缀垃圾词性模板。当候选字符串的前缀和/或后缀与该前缀垃圾词性模板或者后缀垃圾词性模板匹配时，从候选字符串中过滤掉相应的前缀和/或后缀，将过滤后的候选字符串作为新词，或者采用其他信息处理方法对过滤后的字符串进行进一步的处理，将进一步处理后的候选字符串作为新词，例如采用下文所述的方法三或方法四进行所述的进一步处理。

方法三，采用基于候选字符串中各个字符的位置信息的精细化处理方法从候选字符串中过滤出新词。

在该方法三中，本发明根据各个字符位于候选字符串的不同位置的概率值不同的思想，采用基于各个字符在候选字符串中的位置信息和所述概率值，计算候选字符串的位置成词概率值，根据该位置成词概率值从候选字符串中过滤出新词。

具体地，统计该候选字符串的前缀在待处理文本中出现的前缀总次数，以及该前缀出现在当前待处理文本的所有候选字符串的前缀位置的次数，用所述出现在前缀位置的次数除以所述前缀总次数得到该前缀的前缀位置成词概率。

统计该候选串的后缀在待处理文本中出现的后缀总次数，以及该后缀出现在当前待处理文本的所有候选串的后缀位置的次数，用所述出现在后缀位置的次数除以所述后缀总次数得到该后缀的后缀位置成词概率。

用候选字符串的前缀位置成词概率和后缀位置成词概率的乘积作为该候选字符串的位置成词概率。

用候选字符串的位置成词概率除以该候选字符串去掉前缀后的位置成词概率得到第一商值，用候选字符串的位置成词概率除以该候选字符串去掉后缀后的位置成词概率得到第二商值，判断第一商值和第二商值是否均不小于第五预定阈值，若是，将该候选字符串作为新词，否则，过滤掉该候选字符串。

例如，对于候选字符串w＝c₁c₂...c_n-1c_n，其中的c₁至c_n均是现有词，c₁是候选字符串w的前缀，c_n是候选字符串w的后缀，则将

P (c_{1}, 0) = \frac{N ({c_{1}}^{*})}{N (c_{1})}

作为候选字符串w的前缀位置成词概率，其中，N(c₁ ^*)是现有词c₁位于候选字符串的首字位置时该候选字符串在待处理文本中的重复次数，N(c₁)表示现有词c₁在待处理文本中出现的总次数；将

P (c_{1}, 1) = \frac{N (c_{1}^{*})}{N (c_{1})}

作为候选字符串w的后缀位置成词概率，其中，N(^*c₁)是现有词c₁位于候选字符串的尾字位置时该候选字符串在待处理文本中的重复次数。则候选字符串w的位置成词概率为P(w)＝P(c₁，0)*P(c_n，1)。

将候选字符串w的前缀c₁去掉，然后计算新的字符串c₂......c_n的位置成词概率P(c₂，0)*P(c_n，1)。计算P(c₁，0)*P(c_n，1)/P(c₂，0)*P(c_n，1)、即p(c₁，0)/p(c₂，0)是否小于第六预定阈值，候选字符串去掉后缀c_n后的位置成词概率与没有去掉后缀c_n的位置成词概率的比值(p(c₁，0)*p(c_n，1))/(p(c₁，0)*p(c_n-1，1))、即p(c_n，1))/p(c_n-1，1)是否小于第六预定阈值，当p(c₁，0)/p(c₂，0)和p(c_n，1))/p(c_n-1，1)任意之一小于第六预定阈值时，过滤掉该候选字符串不将其作为新词，在p(c₁，0)/p(c₂，0)和p(c_n，1))/p(c_n-1，1)均不小于第六预定阈值时，才将该候选字符串w作为新词。

其中，

P (c_{2}, 0) = \frac{N ({c_{2}}^{*})}{N (c_{2})},

N(c₂ ^*)是现有词c₂位于候选字符串的首字位置时该候选字符串在待处理文本中的重复次数，N(c₂)表示现有词c₂在待处理文本中出现的总次数。

方法四，采用基于各个候选字符串之间的信息关联程度的精细化处理方法从候选字符串中过滤出新词。

在该方法四中，采用的是基于置信度的冗余消除方法从候选字符串中过滤出新词，即，当各个候选字符串之间的信息关联程度较大时，可以只从候选字符串中选择一部分作为新词，而其他部分则可以作为冗余信息过滤掉。所述的冗余通常是由于某些候选字符串是其他候选字符串的前缀或者后缀造成的，例如，候选字符串“北京”、“奥运会”和“北京奥运会”中的“奥运会”可能成为后缀冗余，而“北京”可能称为前缀冗余。

因此，在该方法四中，通过消除前缀冗余和/或后缀冗余来从候选字符串中过滤出新词。

具体地，当第一候选字符串的前缀也是当前待处理文本的候选字符串时，用第一候选字符串的前缀在当前待处理文本中出现的总次数除以该第一候选字符串在当前待处理文本中的出现次数，当所得商大于第七预定阈值时，将该第一候选字符串作为新词且不将该第一候选字符串的前缀作为新词，当所得商小于第七预定阈值时，将该第一候选字符串的前缀作为新词且不将该第一候选字符串作为新词。

例如，假设从当前待处理文本中查找到候选字符串w₁和w₂，通过对w₁和w₂按照字典序进行排列，并将w₁和w₂进行匹配，得知w₁是w₂的前缀，那么，w₁的前缀冗余置信度为

DC (w_{1}, w_{2}) = \frac{f (w_{2})}{f (w_{1})},

其中，f(w₁)和f(w₂)分别是候选字符串w₁和w₂在当前待处理文本中的出现次数(包括单独以候选字符串形式出现在待处理文本中的次数和出现在当前待处理文本的其他候选字符串中的次数)，由于候选字符串w₁被包含在候选字符串w₂中，因此，冗余置信度DC(w₁，w₂)大于0而小于1。

并且，如果DC(w₁，w₂)越高，则说明候选字符串w₁和w₂在当前待处理文本中出现的次数就越接近，说明w₁的前缀冗余度越高，因此，当DC(w₁，w₂)高于第七预定阈值时，过滤掉候选字符串w₁，不将候选字符串w₁作为新词。如果DC(w₁，w₂)越低，则说明候选字符串w₁和w₂在当前待处理文本中出现的次数相差越远，说明w₂在当前待处理文本中出现的次数较少，w₂相对于w₁的冗余度较高，因此，当DC(w₁，w₂)低于第七预定阈值时，过滤掉候选字符串w₂，不将w₂作为新词。

或者，当第二候选字符串的前缀和/或后缀也是当前待处理文本的候选字符串时，用不相互包含且具有相同前缀和/或后缀的第二候选字符串在当前待处理文本中出现的总次数，除以所述前缀和/或后缀以候选字符串形式出现在当前待处理文本中的次数，当所得商大于第八预定阈值时，不将所述前缀和/或后缀作为新词。

其中，所述不相互包含且具有相同前缀和/或后缀的候选字符串的选取方法可以为：

将各个候选字符串按照字典序进行排列，对于每个候选字符串，从该候选字符串开始向后依次选取预定数目的候选字符串；或者，将各个候选字符串按照逆字典序进行排列，对于每个候选字符串，从该候选字符串开始向后依次选取预定数目的候选字符串。其中，如何根据字典序和逆字典序对候选字符串进行排列属于现有技术。

例如，假设候选字符串w是候选字符串s_i(i是自然数，i＝1、2、......j，j是以候选字符串w为前缀的候选字符串的总个数)的前缀，则候选字符串 w的前缀冗余度R(w)是

R (w) = \frac{Σ_{i = 1}^{j} f (s_{i})}{f (w)} .

如果R(w)大于预定数值，则过滤掉候选字符串w，不将w作为新词。

比如，对于候选字符串“细胞”、“树突状细胞”、“树突细胞”和“树枝状细胞”，其在待处理文本中出现的次数依次为62次、40次、15次和4次。当按照字典序对这四个候选字符串进行排序时，其顺序为“细胞”、“树突细胞”、“树突状细胞”和“树枝状细胞”，当从候选字符串“细胞”开始向后取3个候选字符串来计算“细胞”的前缀冗余度时，“细胞”这一候选字符串的前缀冗余度应为(40+15+4)/62＝0.952＞0.95，则删除候选字符串“细胞”。

通过对候选字符串按照字典序或者逆字典序进行排列，从中选取预定数目的候选字符串用来进行前缀冗余过滤和后缀冗余过滤，能够提高进行前缀冗余过滤和后缀冗余过滤的速度。

上述对候选字符串进行处理，进而过滤出新词的方法可以只用其一，也可以各种方法组合使用，组合的各个方法的处理顺序可调。

通过步骤103～104，可以针对每个待处理文本中发现该待处理文本中包含的、未被现有词典收录的新词。

步骤105，根据现有词和新词在待处理文本中的出现频率，从所述现有词和新词中提取待处理文本的主题词。

本步骤至少可以采用两种方法从所述现有词和新词中提取待处理文本的主题词：其一，直接根据现有词和新词在待处理文本中的出现次数，将出现次数排在前预定数目位的现有词或新词作为主题词；其二，采用本发明提供的主题词自聚类方法从现有词和新词中提取主题词。

由于在实际应用中，待处理文本中很多现有词或新词的出现频率虽然很高，但是其与该待处理文本的主题的关联程度并不高，如果按照现有技术中直接根据词的出现次数从现有词和新词中提取主题词，会导致提取的主题词不准确，采用本发明提供的主题词自聚类方法从现有词和新词中提取主题词可以解决这一问题。

通常，待处理文本的标题、段落首句和段落尾句中出现的词与该待处理文本的主题的关联程度较大，因此，本发明提供的主题词自聚类方法结合现有词和新词在待处理文本中的位置信息和出现频率信息，从现有词和新词中选取主题词聚类中心，然后计算其他候选主题词与该主题词聚类中心的距离，根据该距离从所有候选主题词中聚类出主题词。

具体地，根据现有词和新词在待处理文本中的出现频率，将出现频率大于预定阈值的现有词和新词作为候选主题词；根据候选主题词在待处理文本中的出现位置，从所述候选主题词中选择主题词聚类中心；计算候选主题词与所述主题词聚类中心的距离，将距离大于预定阈值的所述候选主题词聚类为主题词。

其中，通常选取出现在待处理文本中的标题或段落首句或段落尾句中、且出现频率大于预定数值的现有词或新词作为主题词聚类中心。

候选主题词与主题词聚类中心之间的距离的计算方法可以为：

预先建立主题词训练库，统计所述候选主题词与主题词聚类中心在所述主题词训练库中同一文档的预定长度字符串内共现的文档频率，以及所述候选主题词和所述主题词聚类中心在所述主题词训练库的文档中各自出现的文档频率，用所述共现的文档频率除以所述各自出现的文档频率的乘积，当所得商大于预定阈值时，将所述候选主题词聚类为主题词。

其中，在计算候选主题词w₁和主题词聚类中心w₂之间的距离时，如果候选主题词w₁和主题词聚类中心w₂均是现有词，则候选主题词w₁与主题词聚类中心w₂之间的距离是

如果候选主题词w₁与主题词聚类中心w₂中有一方或者两方是新词，则候选主题词w₁与主题词聚类中心w₂之间的距离是

其中，w_i和w_j分别是新词w₁和w₂所包含的现有词，也就是说，当w₁和w₂是新词时，将组成该新词的现有词在所述主题词训练库中文档的预定长度字符串内出现的最高文档频率作为该新词在所述主题词训练库中文档的预定长度字符串内出现的文档频率。

综上，候选主题词w₁与主题词聚类中心w₂之间的距离PMI(w₁，w₂)是：

PMI (w_{1}, w_{2}) = \log_{2} \frac{P (w_{1}, w_{2})}{P (w_{1}) P (w_{2})},

其中w₁和w₂是现有词；

PMI (w_{1}, w_{2}) = \max_{i, j} \log_{2} \frac{P (w_{i}, w_{j})}{P (w_{i}) P (w_{j})},

其中w₁和w₂是新词，w_i是组成新词w₁的现有词，w_j是组成新词w₂的现有词。

其中P(w₁，w₂)是候选主题词w₁和w₂的共现频率。该共现概率的含义是，如果词w₁和w₂出现在同一文本的连续几个句子中，而且这连续几个句子的字数小于一定长度(例如150个汉字)，则w₁和w₂同现，并且，在一个文档中，w₁出现多次或w₂出现多次或w₁与w₂共现多次的，均计为出现一次。

步骤105中，通过从新词中提取待处理文本的主题词，因此，能够提高提取主题词的全面性，通过采用自聚类方法提取主题词，能够提高提取主题词的准确性。

如果步骤103以字符为单位查找候选字符串，则从候选字符串中过滤出的新词可能就是现有词，针对该问题，本发明提出：如果以字符为单位查找候选字符串，则在过滤出新词后，将新词与现有词词典进行匹配，若匹配到现有词，则将该新词和从待处理文本中切分出的、与该新词相同的现有词保留其一。

另外，本发明还进一步提供了对提取的主题词进行排序的方法，以使得主题词的排列顺序体现各个主题词与文本主题的关联程度。

对主题词进行排序的方法包括两个步骤：

步骤1：预先建立词汇重要度词典，该步骤是从待处理文本中提取主题词的准备步骤，通常在对待处理文本进行处理之前预先完成。

本步骤中，预先按照文本内容所涉及的领域，建立不同领域的文本训练库，对每一领域的文本训练库中的文本进行分词处理，统计分出的现有词在各个文本训练库中的出现频率，将在某一领域的文本训练库中的出现频率与在其他领域的文本训练库中的出现频率之间的差异大于第九预定阈值的现有词，作为该某一领域的领域词写入词汇重要度词典，将在各个领域的文本训练库中的出现频率之间的差异小于第十预定阈值的现有词，作为无关停用词写入词汇重要度词典，将除去领域词和无关停用词以外的其他现有词作为普通词写入词汇重要度词典。其中的无关停用词是指无法体现出其自身所属领域的词，或者说，当文章中出现了无关停用词时，无法根据该无关停用词判断该文章的主题所属的领域。

对词汇重要度词典中的词汇分别赋予重要度权值：其中，无关停用词的重要度为0，普通词的词汇重要度权值为

{PW}_{r} = \log {tf}_{r} * \log \frac{\max {df}_{k}}{{df}_{r}},

领域词的词汇重要度权值为

{PW}_{s} = \max {PW}_{r} + \log {tf}_{s} * \log \frac{\max {df}_{l}}{{df}_{s}} .

其中，tf_r代表普通词W_r在所有领域的文本训练库中出现的频率，maxdf_k代表各个普通词在所有领域的文本训练库中出现的文档频率中最大的文档频率，df_r代表普通词W_r在所有领域的文本训练库中出现的文档频率；maxPW_r代表所有普通词的词汇重要度权值中最大的重要度权值，tf_s代表领域词W_s在所有领域的文本训练库中出现的频率，maxdf_l代表各个领域词在所有领域的文本训练库中出现的文档频率中最大的文档频率，df_s代表领域词W_s在所有领域的文本训练库中出现的文档频率。

步骤2：查询从待处理文本中确定出的主题词在词汇重要度词典中的初始重要度权值，根据查询出的初始重要度权值对确定出的主题词进行排序。本步骤在对每一待处理文本进行处理的过程中执行，具体地，在从该待处理文本中提取出主题词后执行。

本步骤中，根据查询出的初始重要度权值对确定出的主题词进行排序具体包括：

将主题词中的新词所包含的各个现有词在词汇重要度词典中的初始重要度权值相加，所得结果是该新词在当前待处理文本中的初始重要度权值；根据主题词的初始重要度权重，以及该主题词在待处理文本中出现的次数和/或位置和/或该主题词的词性，计算该主题词在待处理文本中的重要度权重值，根据计算出的重要度权重值对主题词进行排序。

在根据主题词的初始重要度权重，以及该主题词在待处理文本中出现的次数和/或位置和/或该主题词的词性，计算该主题词在待处理文本中的重要度权重值时，可以用主题词在该待处理文本中的初始重要度权值乘以该候选主题词在该待处理文本中的词频，和/或，在该主题词出现在待处理文本的标题中时，乘以标题加权值δ_T(w)，和/或，在该主题词出现在待处理文本的首句时，乘以位置加权值δ_L(w)，和/或，在该主题词是新词时，乘以该新词所包含的现有词中属于名词的个数对应的名词加权值δ_N(w)，用最终的乘积结果作为该主题词在待处理文本中的重要度权重值。

计算出各个主题词在当前待处理文本中的重要度权重后，通常按照重要度权重由大到小的顺序对各个主题词进行排序。

本文中提到的成词概率和阈值的具体取值可以由本领域技术人员依据经验而定，或者，通过建立相应的参数测试样本库，对预先选定的成词概率和/或阈值进行测试，根据测试得到的误判率和/或漏检率等指标更新所述成词概率和/或阈值，将所述指标满足要求时的成词概率和/或阈值作为最终的成词概率和/或阈值的取值。

由于本发明在提取文本主题词时，针对每一待处理文本均进行了新词发现的操作，因此，不仅能够从当前待处理文本的现有词中提取出主题词，还能够从针对每一待处理文本发现的新词中提取出主题词，提高了提取的主题词的全面性。

进一步地，在针对每一待处理文本进行新词发现时，并非简单地将所有重复次数大预定频率的字符串均作为新词，而是将其作为候选字符串，进一步根据候选字符串的前缀和/或后缀的成词概率从候选字符串中过滤出新词，避免了将包含有垃圾信息的候选字符串提取为主题词，提高了提取文本主题词的准确性。

另外，当根据自聚类方法从候选主题词中提取主题词时，可以避免将出现频率较高而与待处理文本主题关联程度较低的词提取为主题词，提高提取文本主题词的准确性。

通过本发明方法提取主题词后，即可以利用提取的主题词对待处理文本进行网络广告推广、建立搜索引擎、实现文本聚类和热点跟踪等网络应用。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提取文本主题词的方法，其特征在于，该方法包括：

将待处理文本切分成现有词的组合序列；

根据现有词和新词在待处理文本中的出现频率，将出现频率大于预定阈值的现有词和新词作为候选主题词；

根据候选主题词在待处理文本中的出现位置，从所述候选主题词中选择主题词聚类中心；

计算候选主题词与所述主题词聚类中心的距离，将距离大于预定阈值的所述候选主题词聚类为主题词。

2.如权利要求1所述的方法，其特征在于，所述候选字符串由待处理文本中相邻的现有词组合而成。

3.如权利要求1所述的方法，其特征在于，所述候选字符串由待处理文本中相邻的字符组合而成。

4.如权利要求2所述的方法，其特征在于，所述根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词包括：

根据字符位于前缀位置的成词概率和位于后缀位置的成词概率，形成新词过滤词典；

其中，所述新词过滤词典包括头词词典和/或尾词词典和/或多元组垃圾词典和/或尾字字典；

由处于前缀位置时的成词概率不满足预定条件的字符组成所述头词词典；

由处于后缀位置时的成词概率不满足预定条件的字符组成所述尾词词典；

由能够作为现有词的后缀、从而与现有词共同形成表示名称的词的字符组成所述尾字字典；

根据由三个以上现有词组合成的多元组字符串与该多元组字符串所在文本的主题的关联程度，将关联程度不满足预定条件的多元组字符串中处于非前缀和非后缀位置的词组成所述多元组垃圾词典；

将候选字符串的前缀和/或后缀与新词过滤词典中的字符进行匹配，根据匹配结果从候选字符串中过滤出新词。

5.如权利要求4所述的方法，其特征在于，所述将候选字符串的前缀和/或后缀与新词过滤词典中的字符进行匹配，根据匹配结果从候选字符串中过滤出新词包括：

判断候选字符串的前缀是否出现在头词词典中和/或后缀是否出现在尾词词典中，从候选字符串中过滤掉出现在所述头词词典中的前缀和出现在所述尾词词典中的后缀，得到新词；

和/或，判断候选字符串是否由现有词和后缀字符组成，若是，将该后缀字符与所述尾字字典中的字符进行匹配，若匹配到相同字符，则将所述候选字符串作为新词，否则过滤掉所述候选字符串；

和/或，判断候选字符串是否由三个以上的现有词组成，若是，将候选字符串中处于非前缀且非后缀位置的词与多元组垃圾词典中的字符进行匹配，若匹配到相同字符，则过滤掉该候选字符串，否则，将该候选字符串作为新词。

6.如权利要求2所述的方法，其特征在于，所述根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词包括：

根据每一种词性的词位于前缀位置时的成词概率，形成前缀词性垃圾模板；

根据每一种词性的词位于后缀位置时的成词概率，形成后缀词性垃圾模板；

对候选字符串进行词性标注，将候选字符串前缀的词性与前缀垃圾词性模板进行匹配，和/或将候选字符串后缀的词性与后缀垃圾词性模板进行匹配，将匹配到的前缀和后缀从所述字符串中过滤掉，直至过滤后的候选字符串前缀的词性与前缀垃圾词性模板不匹配、且候选字符串后缀的词性与后缀垃圾词性模板不匹配，将该过滤后的候选字符串作为新词。

7.如权利要求2所述的方法，其特征在于，所述根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词包括：

统计该候选字符串的前缀在待处理文本中出现的前缀总次数，以及该前缀出现在当前待处理文本的所有候选字符串的前缀位置的次数，用所述出现在前缀位置的次数除以所述前缀总次数得到该前缀的前缀位置成词概率；

统计该候选字符串的后缀在待处理文本中出现的后缀总次数，以及该后缀出现在当前待处理文本的所有候选串的后缀位置的次数，用所述出现在后缀位置的次数除以所述后缀总次数得到该后缀的后缀位置成词概率；

将候选字符串的前缀位置成词概率和后缀位置成词概率相乘，所得乘积是该候选字符串的位置成词概率；

用候选字符串的位置成词概率除以该候选字符串去掉前缀后的位置成词概率得到第一商值，用候选字符串的位置成词概率除以该候选字符串去掉后缀后的位置成词概率得到第二商值，判断第一商值和第二商值是否均不小于预定阈值，若是，将该候选字符串作为新词，否则，过滤掉该候选字符串。

8.如权利要求2所述的方法，其特征在于，所述根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词包括：

用候选字符串的前缀在当前待处理文本中出现的总次数除以该候选字符串在当前待处理文本中的出现次数，当所得商大于预定阈值时，将该候选字符串作为新词且不将该候选字符串的前缀作为新词，当所得商小于预定阈值时，将该候选字符串的前缀作为新词且不将该候选字符串作为新词。

9.如权利要求2所述的方法，其特征在于，所述根据该候选字符串的前缀和/或后缀的成词概率，从候选字符串中过滤出新词包括：

用彼此不相互包含的各个候选字符串中具有相同前缀和/或后缀的候选字符串在当前待处理文本中出现的总次数，除以所述前缀和/或后缀以候选字符串形式出现在当前待处理文本中的次数，当所得商大于预定阈值时，不将所述前缀和/或后缀作为新词。

10.如权利要求9所述的方法，其特征在于，所述不相互包含且具有相同前缀和/或后缀的候选字符串的获得方法为：

将各个候选字符串按照字典序和/或逆字典序进行排列，对于每个候选字符串，从该候选字符串开始向后依次选取预定数目个候选字符串；

从所述预定数目个候选字符串中过滤掉相互包含的字符串中被包含的字符串或者包含的字符串。

11.如权利要求1所述的方法，其特征在于，所述出现位置包括待处理文本中的标题和/或段落首句和/或段落尾句中。

12.如权利要求1所述的方法，其特征在于，所述计算候选主题词与所述聚类中心的距离包括：

预先建立主题词训练库；

统计所述候选主题词与主题词聚类中心在所述主题词训练库中同一文档的预定长度字符串内共现的文档频率，以及所述候选主题词和所述主题词聚类中心在所述主题词训练库的文档中各自出现的文档频率，用所述共现的文档频率除以所述各自出现的文档频率的乘积，当所得商大于预定阈值时，将所述候选主题词聚类为主题词。

13.如权利要求12所述的方法，其特征在于，统计所述候选主题词与主题词聚类中心在所述主题词训练库中同一文档的预定长度字符串内共现的文档频率包括：

如果候选主题词w₁和主题词聚类中心w₂均是现有词，则候选主题词w₁与主题词聚类中心w₂之间的距离是

其中，w_i和w_j分别是候选主题词w₁和主题词聚类中心w₂所包含的现有词，i和j均是自然数；P(w₁)、P(w₂)、P(w_i)和P(w_j)分别是候选主题词w₁、主题词聚类中心w₂、候选主题词w₁包含的现有词w_i和主题词聚类中心w₂包含的现有词w_j在所述主题词训练库中同一文档的预定长度字符串内出现的文档频率，P(w₁，w₂)是候选主题词w₁和主题词聚类中心w₂在所述主题词训练库中同一文档的预定长度字符串内共现的文档频率，P(w_i，w_j)是现有词w_i和现有词w_j在所述主题词训练库中同一文档的预定长度字符串内共现的文档频率。

14.如权利要求12所述的方法，其特征在于，该方法进一步包括：

预先按照文本内容所涉及的领域，建立不同领域的文本训练库；

对每一领域的文本训练库中的文本进行分词处理，统计分出的现有词在各个文本训练库中的出现频率，将在某一领域的文本训练库中的出现频率与在其他领域的文本训练库中的出现频率之间的差异大于第一预定阈值的现有词，作为该某一领域的领域词写入词汇重要度词典，将在各个领域的文本训练库中的出现频率之间的差异小于第二预定阈值的现有词，作为无关停用词写入词汇重要度词典，将除去领域词和无关停用词以外的其他现有词作为普通词写入词汇重要度词典；

对词汇重要度词典中的词汇分别赋予初始重要度权值：其中，无关停用词的初始重要度权值为0，普通词的初始重要度权值为

领域词的初始重要度权值为

{PW}_{s} = \max {PW}_{r} + \log {tf}_{s} * \log \frac{\max {df}_{l}}{{df}_{s}};

查询从待处理文本中确定出的主题词在词汇重要度词典中的初始重要度权值，根据查询出的初始重要度权值对确定出的主题词进行排序；

其中，tf_r代表普通词W_r在所有领域的文本训练库中出现的频率，maxdf_k代表各个普通词在所有领域的文本训练库中出现的文档频率中最大的文档频率，df_r代表普通词W_r在所有领域的文本训练库中出现的文档频率；max PW_r代表所有普通词的词汇重要度权值中最大的重要度权值，tf_s代表领域词W_s在所有领域的文本训练库中出现的频率，max df_l代表各个领域词在所有领域的文本训练库中出现的文档频率中最大的文档频率，df_s代表领域词W_s在所有领域的文本训练库中出现的文档频率。

15.如权利要求14所述的方法，其特征在于，所述根据查询出的初始重要度权值对确定出的主题词进行排序包括：

将主题词中的新词所包含的各个现有词在词汇重要度词典中的初始重要度权值相加，所得结果是该新词在所述待处理文本中的初始重要度权值；

根据主题词的初始重要度权重，以及该主题词在待处理文本中出现的次数和/或位置和/或该主题词的词性，计算该主题词在待处理文本中的重要度权重值，根据计算出的重要度权值对主题词进行排序。

16.如权利要求15所述的方法，其特征在于，所述根据主题词的初始重要度权值，以及该主题词在待处理文本中出现的次数和/或位置和/或该主题词的词性，计算该主题词在待处理文本中的重要度权值包括：

用主题词在该待处理文本中的初始重要度权值乘以该候选主题词在该待处理文本中的词频，和/或，在该主题词出现在待处理文本的标题中时，乘以标题加权值δ_T(w)，和/或，在该主题词出现在待处理文本的首句时，乘以位置加权值δ_L(w)，和/或，在该主题词是新词时，乘以该新词所包含的现有词中属于名词的个数对应的名词加权值δ_N(w)，用最终的乘积结果作为该主题词在待处理文本中的重要度权值。