CN103970730A

CN103970730A - 一种从单个中文文本中提取多主题词的方法

Info

Publication number: CN103970730A
Application number: CN201410179275.6A
Authority: CN
Inventors: 马甲林; 王志坚
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2014-04-29
Filing date: 2014-04-29
Publication date: 2014-08-06

Abstract

本发明提供了一种从单个中文文本中自动提取多主题词的方法，包含以下步骤：首先使用传统方法对文档进行预处理后初步得到由特征词组成的向量；其次利用《知网》词义与概念间的对应关系对同义词进行归并，根据语义类与上下文语境的相关性对多义词进行排歧，构造概念向量模型表示该文档；再利用《知网》中概念的相关语义信息计算概念相似度，通过“预设种子”的方法改进K-means算法对概念进行聚类，形成多个主题概念簇；最后根据概念和词的对应关系，得到多个子主题词集。该方法考虑了语义信息，克服K-means算法对初始中心的敏感性和时空开销不稳定等缺陷，提高了提取主题的质量。

Description

一种从单个中文文本中提取多主题词的方法

技术领域

本发明涉及文本信息提取技术领域，特别是涉及一种从单个中文文本中提取多主题词的方法。

背景技术

自人类社会进入信息时代以来，各种电子文本大量涌现，这些海量文本中存在着大量多主题文本，包含着多方面丰富的主题信息，例如：一篇关于李克强总理访问欧洲的报道，既属于政治类新闻，又属于经济类新闻。随着科学技术的发展，学科之间融合度越来越高，大多数研究都跨越多个学科领域，许多科技文本内容都从不同侧面包含了多个主题，如一篇关于生物基因信息挖掘的文本，既包含计算机科学方面的主题又包含生物医学领域主题。因此，现实世界中存在大量多主题文本，如何从这些文本中提取有价值的反映不同方面的多个子主题信息，在信息检索、图书情报和信息安全等领域有着非常广泛的应用。

国外对文本主题提取研究起于上世纪50年代，目前比较成熟的主题提取方法是基于统计模型的方法，该方法主要是利用词频统计信息提取主题，后来研究人员加入了对标题、位置、句法结构和线索词等要素的考虑，能够从英文文本中提取高质量的主题。国内对主题提取的研究起于上世纪80年代后期，然而，由于汉语言的复杂性，许多成功的英文主题提取方法不适用于中文。

目前，国内应用广泛的还是基于统计的方法，该方法在向量空间模型(VSM)下，前提假设是向量之间两两正交，即构成文本的词汇之间毫无联系，这显然与文本中词汇语义与上下文相关的现实不符，又由于中文词汇量很大，在VSM下，必然存在向量高维、稀疏、忽略词汇语义及上下文背景等问题，同时提取过程受到同义词和多义词的干扰，因而在质量和效率上表现欠佳。目前关于主题提取的研究热点集中在如何增加语义信息上，虽然有很多学者提出了各种基于语义的主题提取方法，但仍然没有达到应用级别的突破性进展。另外，提取多主题和单主题提取在算法上有很大差别，从一篇文本中识别多个子主题词，仅使用传统基于词频统计的方法无法实现。廖涛等人提出的复杂网络中的社区划分算法能够提取多主题，但未涉及词的语义信息，是一个纯粹的统计方法，提取的多主题质量不高。

因此，针对现有的以词频统计为依据的传统文本处理技术，一篇文本只能提出单个主题的问题，同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题，需要提供一种从单个中文文本中提取多主题词的方法。

发明内容

本发明要解决的技术问题是，为了解决传统文本处理技术以词频统计为依据，一篇文本只能提出单个主题的问题，同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题，提供了一种从单个中文文本中提取多主题词的方法，该方法利用《知网》语义知识库，对表示文本的特征词进行一一映射，把该文本表示成概念模型，并且在映射过程中同义词自动归并到了同一概念中，实现了向量降维；根据语义类与上下文语境的相关性对文中出现的多义词进行排歧。

本发明的目的在于提供一种从单个中文文本中提取多主题词的方法，包括以下步骤：

Step1：向量模型表示：对文本进行预处理，以得到由特征词组成的向量，并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量；

Step2：概念模型映射：基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库，利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射，在概念映射过程中，文本中的同义词自动进行归并，接着，根据语义类与上下文语境的相关性对文中出现的多义词进行排歧，之后，将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型；

Step3：多主题词提取：使用改进的K-means算法对所述经过归并和排歧后的文本概念空间模型中的概念进行聚类，形成多个主题概念簇，根据形成的多个主题概念簇，利用概念和原文本特征词对应关系，逆向得到多个主题特征词集，以提取单个中文文本中的多主题词。

进一步地，所述步骤Step1可以包括如下步骤：

Step1-1：使用分词系统对待处理文本T进行分词，接着，进行去停、去噪，之后，得到所述文本的初级向量空间模型T＝{C₁，C₂，…，C_n}，其中C₁，C₂，…，C_n表示n个由特征词组成的向量，所述去停是指过滤文本中出现的停用词，所述去噪是指过滤文本中出现的无实际意义的词汇；

Step1-2：从初级向量空间模型中进一步提取特征向量，以得到该文本的高级向量空间模型T＝{C₁，C₂，…，C_m}，其中m<＝n。

进一步地，所述步骤Step2可以包括如下步骤：

文本中所包含词汇含义分三种情况：单义词、同义词和多义词；

概念映射过程通过查询所述语义知识库实现，其中：

查询知识库，判断当文本中所包含的词汇是单义词时，直接得到其唯一对应的概念；

查询知识库，判断当文本中所包含的词汇是同义词时，直接得到其唯一对应的概念，在这个过程中，通过将该文本中出现的同义词自动归并到同一个概念中，以实现向量降维；

查询知识库，判断当文本中所包含的词汇是多义词时，该多义词对应多个概念，概念与语义类一一对应，根据语义类成员词在该文本中的信息量计算语义类权值，选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念，从而实现多义词排歧。

进一步地，所述查询知识库，判断当文本中所包含的词汇是多义词时，该多义词对应多个概念，概念与语义类一一对应，根据语义类成员词在该文本中信息量计算语义类权值，选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念，从而实现多义词排歧，包括如下步骤：

在所述语义知识库中，概念的语义主要由基本义原集描述，基本义原集又由一组语义相关的词来描述，描述某概念基本义原集的词构成了一个语义类；

判断多义词对应多个概念，计算所述概念对应语义类的所有成员词在所述处理文本中的信息量，加权计算得到每一个语义类的权值；

选择权值最大的语义类对应的概念作为所述多义词适合本文上下文语境的概念，从而实现多义词排歧。

进一步地，所述步骤Step2可以包括如下步骤：

Step2-1：对待处理文本T中所有特征词依次查询语义知识库，进行概念映射；

Step2-1-1：查询知识库，若T的特征词C_m对应唯一的概念，则C_m为单义词或同义词，直接获取C_m的概念，转至步骤Setp2-2；

Step2-1-2：查询知识库，若T的特征词C_m对应多个概念，则特征词C_m为多义词，则需对多义词C_m进行词义排歧，选择出适合该文上下文语境的概念；

Step2-2：得到文本T对应概念向量T＝{(G1,C₁)，(G₂,C₂)，…(G_q，C_q)}；

Step2-3：进一步按照概念进行整理输出文本T对应概念向量T＝{(G1，(C₁，...，C_i))，(G₂，(C₂，...，C_j))，…，(G_q，(C_q，...，C_k))}，其中(C_q，...，C_k)为概念G_q在文中对应出现的词。

进一步地，所述步骤Step2-1-2可以包括如下步骤：

Step2-1-2-1：查询知识库，多义词C_m对应多个概念，描述概念语义的基本义原集够成了一个语义类，因而多义词C_m对应多个语义类，从而可获得描述基本义原集的词组，所述词组成为一组反映语义类语义相关的词组；

Step2-1-2-2：计算多义词C_m每一个语义类成员词在该文中的信息量，所述成员词w_i在该文中所含的信息量H(w_i)计算公式如下：

H(w_i)＝-TF(w_i,ST)×log[p(w_i)]，

其中，TF(w_i，ST)表示词w_i在文本中出现的频率，ST表示文本，P(w_i)为词w_i的概率分布；

Step2-1-2-3：计算多义词C_m每一个语义类的权值，它的第i个语义类L_i权值为：

CWeight (L_{i}) = Σ_{j = 1}^{n} H (w_{i}) \times \log_{2} n,

其中，n为语义类L_i成员词在文中出现个数，语义类权值越大，该语义类成员词对文本语义的贡献越大；

Step2-1-2-4：为多义词C_m选择符合该文上下文语义语境的最优概念，公式如下：

{Best}_{C_{m} L_{i}} = MAX (CWeight (L_{i})) .

进一步地，所述改进的K-means算法可以包括如下步骤：

通过对待处理文本中的向量概念进行聚类，形成多个主题概念簇；

选用经典K-means聚类算法，通过预设种子方法对其进行改进。

进一步地，所述选用经典K-means聚类算法，通过预设种子方法对其进行改进，可以包括如下步骤：

根据统计的主题提取思想方法，检测到文本中的某个主题由一组同义词围绕而产生同义词共现语言现象；

基于检测到的同义词共现语言现象，判断文本中的同义词所围绕的同一个主题，同义词在概念向量模型中表现为同一个概念；

在所述概念向量映射过程中，同义词归并到同一个概念中，一个概念可能对应属于该文本的多个词汇，在多主题词提取过程中，选取包含待处理文本词个数最多的前K个概念作为K-means聚类的初始中心的预设种子。

进一步地，所述步骤Step3可以包括如下步骤：

Step3-1：从待处理文本T的概念向量中选择包含该文本词汇数目最多的前K个概念{G₁，G₂，....G_k}作为聚类的初始类中心；

Step3-2：计算待处理文本T中其他概念分量与K个类中心的相似度，将概念一一分配到对应的相似度最大的类中，其中，所述计算文本T中其他概念分量与K个类中心的相似度包括：计算概念与概念之间的相似度和计算概念与概念集之间的相似度；

Step3-3：重新计算各类的中心点，概念集GG＝{G₁，G₂，…G_n}的中心点通过以下公式计算：

CenterGG = \frac{Σ_{i = 1}^{n} w_{i}}{n}

其中w_i表示概念权值其值为该概念在文中对应出现的词的个数，n为概念集中概念个数。

Step3-4：重复步骤Step3-2和Step3-3直到类的中心点不再改变，得到K个类别的概念集：{{Ф₁}，{Ф₂}，…，{Ф_k}}；

Step3-5：选择包含概念个数最多的前k₁个概念集合，得到组成k₁个子主题的概念集合：{{Ф₁}，{Ф₂}，…，{Фk₁}}，由概念与特征词的对应关系逆向得到k₁子主题关键词汇集合：{(c₁₁,c₁₂,...,c_1i),(c₂₁,c₂₂,...,c_2j),...(c_k11,c_k12,...,c_k1t)}。

进一步地，所述计算概念与概念之间的相似度和计算概念与概念集之间的相似度，可以包括如下步骤：

所述语义知识库通过多个义原来描述概念，并且义原根据上下位关系构成了一个树状的义原层次体系；

通过计算义原在树状层次体系中的距离得到义原之间的相似度；

概念的语义由一组义原描述，由义原的相似度可计算概念之间的相似度；

通过计算某概念与概念集中所有概念的相似度，选取和该概念相似度最大的值，作为该概念与概念集的相似度。

进一步地，所述通过计算义原距离得到概念的距离进而获得概念的相似度，可以包括如下步骤：

假设两个义原在义原树层次体系中的路径距离为d，距离d的计算过程如下：

设义原集中的任意一个义原为w_i，L_i为义原w_i在概念树中的深度，a为距离初始阈值，b为满足不等式max(L)<a/b的一个正实数，则w_i与其父节点的距离为：

d(w_i,parent(w_i))＝a-L_i.b

任意两个义原w_i,w_j之间的距离定义为：

d(w_i,w_j)＝ω_k.[a-max(L_i,L_j).b]

其中，ω_k表示第k种关系对应的权重，通常取ω_k≥1，

任意两个义原(w_i,w_j)之间的语义相似度如下：

Sim (w_{i}, w_{j}) = \frac{θ}{d (w_{i}, w_{j}) + θ}

其中，距离d是w_i和w_j在义原层次体系中的路径长度，是一个正整数，θ是一个可调节的参数；

概念U和V分别由各自的义原组(p_u1，p_u2，…，p_un)和(p_v1，p_v2，…，p_vm)描述，则U、V相似度为：

Sim (U, V) = \frac{(U, V)}{\sqrt{(U, U) . (V, V)}}

其中，

(U, V) = Σ_{i}^{n} Σ_{j}^{m} Sim (p_{ui}, p_{vj}),

概念U由义原组(p₁，p₂，…，p_n)表示，概念集G由概念集合{G₁₁，G₂₁，…G_m1}组成，概念U和概念集G的相似度定义为U和G中所有概念相似度的最大值：

Sim(U,G)＝Max{Sim(U,G_i)|G_i∈G}。

本发明提供了一种从单个中文文本中提取多主题词的方法，该方法利用语义知识库，通过词义与概念的对应关系对同义词进行归并，挖掘同一语境中词义和语义类的映射关系，对多义词进行排歧，构造概念向量表示文本；语义相似度通过计算概念相似度来表达，本多主题词提取算法中利用改进K-means算法对文本概念进行聚类得到多个子主题簇，再利用概念和原文本关键词对应关系，逆向得到多个主题关键词集。其中，通过“预设种子”方法改进K-means算法，以弥补传统K-means算法中K个初始中心选择的随机性所引起的时空开销不稳定、结果波动较大的缺陷。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的流程示意图；

图2示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的以《知网》作为语义知识库的流程示意图；

图3示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的以《知网》作为语义知识库关于多义词“水分”的语义类示意图；

图4示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的不同k值下准确率、召回率和F1变化的曲线示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当可以称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文本中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

《知网》介绍：《知网》是一个以汉语和英语词汇所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在《知网》中,词汇语义描述被定义为概念。每一个词可以表达为几个概念，概念是由一种知识表示语言(DEF)来描述,这种用来描述概念的“词汇”又叫义原，相比词汇的规模,义原的数量很少。《知网》定义了1500多个义原，分为三类：基本义原、语法义原和关系义原，DEF中基本义原反映了概念的主要语义，例如：词汇“爱好者”，在《知网》中用DEF的基本义原为：DEF＝{Human|人，*Fondof|喜欢，#WhileAway|休闲}，所表达的意思是：“爱好者”是个人，这个人喜欢某个东西，本词语是和休闲相关，描述某个概念的基本义原的几个“词汇”之间存在语义相关性。在《知网》中，如果某个词只有一个意思，那么这个词对应唯一的概念，而多义词往往对应多个概念。

概念向量介绍：传统的向量空间模型(VSM)以组成文本的词汇为向量分量表示该文本，认为各分量是正交的，即：词汇之间互不相关，显然，这和现实情况不符。众所周知，文本中各个词汇之间存在着复杂的语义联系，VSM模型下的统计主题词提取方法无法正确处理同义词和多义词，造成同义词语义贡献度少计、多义词语义贡献度多计的现象，且汉语词汇量很大，造成向量高维和稀疏问题，严重影响主题提取的质量和效率。借助《知网》语义知识库，将VSM模型转换成概念向量空间模型来表示文本，通过语义知识库概念的树形层次体系组织结构，来处理词汇之间语义联系，其构建过程首先对文本进行分词和预处理后得到文本的特征词集，文本中所包含词汇含义分三种情况：单义词、同义词和多义词，概念映射过程通过查询《知网》语义知识库，单义词和同义词直接得到其唯一的用知识表示语言——DEF描述的概念；并且在所述映射过程中文本中出现的同义词被自动归并到相应的概念中，汉语中同义词非常多，同义词归并，实现了进一步的降维；多义词对应多个概念，在该文本中的具体含义往往和上下文语境有关，根据这个语言特性，提出利用语义类来进行多义词排歧。

为了找到某个多义词在文本中的具体含义(即：对应概念)，作如下定义：

定义1：某文本中出现词汇{c₁,c₂,…,c_m}，(m>＝1)，在《知网》中有对应的概念为G_i，描述的G_i的基本义原集为{y₁,y₂,…,y_n}，(n>＝1)则称词集{c₁,c₂,…,c_m，y₁,y₂,…,y_m为一个语义类。

语义类与概念一一相对应，概念在《知网》中通过DEF定义，描述概念主要语义的是基本义原，基本义原由一组义原描述，这组义原是一组语义相关的“词”，因而语义类是一组语义相关的词，这组词由两部分构成：第一部分是某概念的基本义原集成员词；第二部分是该概念在该文中对应所有词。

某个语义类和文本语境相符时，文本中很可能出现多个该语义类成员词，这些词语义相关，且对该文语义贡献较大，利用这一点可以消除词汇歧义。图3示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的以《知网》作为语义知识库关于多义词“水分”的语义类示意图。如图3所示，多义词“水分”，在《知网》中对应两个概念，第一个概念对应的语义类成员词(即：基本义原集)为{“植物”、“土壤”、“阳光”、“生长”}，此处“水分”的含义是指“物体内含有的水”，第二个概念对应的语义类成员词包含{“经济”、“数据”、“增长”、“报告”}中“水分”的含义是指“夹杂不真实成分”。

由于汉语的复杂性，同一篇文本中一词多义和同义词的情况非常多，单纯的机械词频统计无法处理涉及词汇语义的问题，这是影响文本主题提取质量的一个重要因素。为了解决多义词排歧和同义词识别问题，本发明利用《知网》将同义词归并到同一概念上，对某个含有多个语义类的多义词，找出该词符合文本上下文语境的语义类。定位多义词在文本中最佳语义类的思路是：如果某个语义类所属成员词汇在文中出现权值之和越大，说明该语义类比其他语义类更符合文章主题，则该语义类是该多义词的在此文中最合适的语义类。词汇w_i在文中所含的信息量H(w_i)计算公式如下：

H(w_i)＝-TF(w_i,ST)×log[p(w_i)] (1)

其中TF(w_i，ST)表示词汇w_i在文本中出现的频率，ST表示文本，P(w_i)为词w_i的概率分布。

定义2：对于多义词c，它的第i个语义类L_i权值为：

CWeight (L_{i}) = Σ_{j = 1}^{n} H (w_{j}) \times \log_{2} n - - - (2)

其中，n为某个语义类L_i成员词在文中出现的个数。语义类权值越大，该语义类成员词对文章主题的贡献越大。

定义3：多义词c，在《知网》中对应多个语义类，选择符合该文上下文语境的最优语义类公式如下：

{Best}_{{cL}_{i}} = MAX (CWeght (L_{i})) - - - (3)

概念相似度计算原理：相似度是衡量两个词汇语义关系的一个重要指标，涉及到词语的词法、句法、语义甚至语用等方方面面的信息。其中，对词语相似度影响最大的是词的语义。在《知网》中，词汇被描述为概念，词汇的相似度计算就转化为对概念的相似度计算。词语距离与词语相似度之间有着密切的关系。两个词语的距离越大，其相似度越低；反之，两个词语的距离越小，其相似度越大。

《知网》通过多个义原来描述概念，义原之间存在着各种复杂的关系，如：上下位关系、同义关系、对义关系等。其中，最重要的是上下位关系，所有的义原根据上下位关系构成了一个树状的义原层次体系，所以可以通过计算义原距离得到概念的距离进而获得概念的相似度。假设两个义原在义原树层次体系中的路径距离为d，d的计算过程如下：

设义原集中的任意一个义原为w_i，L_i为义原w_i在概念树中的深度，a为距离初始阈值，b为满足不等式max(L)<a/b的一个正实数，则w_i与其父节点的距离定义为：

d(w_i,parent(w_i))＝a-L_i.b (4)

任意两个义原w_i,w_j之间的距离定义为：

d(w_i,w_j)＝ω_k.[a-max(L_i,L_j).b] (₅)

其中，ω_k表示第k种关系对应的权重，通常取ω_k≥1。可以验证，上述定义符合对距离函数的数学要求，公式(4)、(5)反映出义原在义原层次树中的位置越深，二者之间的距离越小，即越相似。

定义4：任意两个义原(w_i,w_j)之间的语义相似度如下：

Sim (w_{i}, w_{j}) = \frac{θ}{d (w_{i}, w_{j}) + θ} - - - (6)

其中d是w_i和w_j在义原层次体系中的路径长度，是一个正整数。θ是一个可调节的参数。

定义5：设概念U和V分别由义原组(p_u1，p_u2，…，p_un)和(p_v1，p_v2，…，p_vm)描述，则U、V相似度为：

Sim (U, V) = \frac{(U, V)}{\sqrt{(U, U) . (V, V)}} - - - (7)

其中：

(U, V) = Σ_{i}^{n} Σ_{j}^{m} Sim (p_{ui}, p_{vj}) .

定义6：概念U由义原组(p₁，p₂，…，p_n)表示，概念集G由概念集合{G₁₁，G₂₁，…G_m1}组成，概念U和概念集G的相似度定义为U和G中所有概念相似度的最大值：

Sim(U,G)＝Max{Sim(U,G_i)|G_i∈G} (8)

图1示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的流程示意图。如图1所示，本发明的目的在于提供一种从单个中文文本中提取多主题词的方法，包括以下步骤：

进一步地，所述步骤Step1可以包括如下步骤：

进一步地，所述步骤Step2可以包括如下步骤：

概念映射过程通过查询所述语义知识库实现，其中：

进一步地，所述步骤Step2可以包括如下步骤：

进一步地，所述步骤Step2-1-2可以包括如下步骤：

H(w_i)＝-TF(w_i,ST)×log[p(w_i)]，

CWeight (L_{i}) = Σ_{j = 1}^{n} H (w_{i}) \times \log_{2} n,

{Best}_{C_{m} L_{i}} = MAX (CWeight (L_{i})) .

进一步地，所述改进的K-means算法可以包括如下步骤：

选用经典K-means聚类算法，通过预设种子方法对其进行改进。

因此，这样可以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。

进一步地，所述步骤Step3可以包括如下步骤：

CenterGG = \frac{Σ_{i = 1}^{n} w_{i}}{n}

d(w_i,parent(w_i))＝a-L_i.b

任意两个义原w_i,w_j之间的距离定义为：

d(w_i,w_j)＝ω_k.[a-max(L_i,L_j).b]

其中，ω_k表示第k种关系对应的权重，通常取ω_k≥1，

任意两个义原(w_i,w_j)之间的语义相似度如下：

Sim (w_{i}, w_{j}) = \frac{θ}{d (w_{i}, w_{j}) + θ}

Sim (U, V) = \frac{(U, V)}{\sqrt{(U, U) . (V, V)}}

其中，

(U, V) = Σ_{i}^{n} Σ_{j}^{m} Sim (p_{ui}, p_{vj}),

Sim(U,G)＝Max{Sim(U,G_i)|G_i∈G}。

本发明提供了一种从单个中文文本中提取多主题词的方法，该方法利用《知网》语义知识库，通过词义与概念的对应关系对同义词进行归并，挖掘同一语境中词义和语义类的映射关系，对多义词进行排歧，构造概念向量表示文本；语义相似度通过计算概念相似度来表达，本多主题词提取算法中利用改进K-means算法对文本概念进行聚类得到多个子主题簇，再利用概念和原文本关键词对应关系，逆向得到多个主题关键词集。其中，通过“预设种子”方法改进K-means算法，以弥补传统K-means算法中K个初始中心选择的随机性所引起的时空开销不稳定、结果波动较大的缺陷。

下面结合图2进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图2示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的以《知网》作为语义知识库的流程示意图。如图2所示，首先，输入待处理文本T；接着，预处理文本T，例如，使用ICTCLAS分词系统进行分词，去停、去噪后使用信息增益(IG)初步提取特征；接着，用向量空间模型表示文本T；接着，把文本T映射为的概念空间模型，例如，单义词、同义词直接映射；对多义词根据语义类与上下文语境的相关性对多义词进行词义排歧；接着，利用改进的K-means算法对概念进行聚类，例如，通过预设“种子”的方法改进K-means算法；通过概念语义进行相似度计算；接着，根据概念与词的对应关系逆向得到多个子主题词集。

图3示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的以《知网》作为语义知识库关于多义词“水分”的语义类示意图。如图3所示，多义词“水分”，在《知网》中对应两个概念，第一个概念对应的语义类成员词(即：基本义原集)为{“植物”、“土壤”、“阳光”、“生长”}，此处“水分”的含义是指“物体内含有的水”，第二个概念对应的语义类成员词包含{“经济”、“数据”、“增长”、“报告”}中“水分”的含义是指“夹杂不真实成分”。

实验及结果分析：本发明实验数据来自复旦大学自然语言处理实验室的公开的标准语料库共包含20个类别，19637篇文本，考虑到工作量因素，从该语料库5个类别中选择篇幅较长、多主题特征较为明显的500篇文本，经从事汉语言工作的专业人员进行主题句标注，作为实验样本。实验结果评判采用通用的准确率(P)、召回率(R)和综合指标F1。

F 1 = \frac{2 PR}{P + R} - - - (11)

参数估计：为了得到算法2中初始聚类簇参数k的最恰当的值，根据测试样本的实际篇幅长短、文本结构等情况，经汉语专业人士分析，每篇样本抽取子主题个数k1的值取3，并人工为每篇样本标注了3个子主题作为标准值，在k1＝3的情况下实验分析k取值，图4反映出k在不同取值下准确率(P)、召回率(R)和F1的变化情况。

图4示出了根据本发明技术方案的从单个中文文本中提取多主题词的方法的不同k值下准确率、召回率和F1变化的曲线示意图。如图4所示，每篇样本抽取3个子主题的情况下，改进的k-means算法，随着k值的增大提取主题的准确率不断提高，而召回率在降低，这是由于k值增大导致聚类簇细化，所以准确率逐渐上升；算法召回率一般是确定的，但在本实验中，随着k值的增大类别不断细化，在选取前3个(k1＝3)最大子主题的时，引起了召回率下降；为了找到最合适的k值，分析图4的F1指标情况，从综合指标F1的趋势上看，F1的最高点出现在k＝7时，所以算法2在本实验样本对象下最适合的取值是k＝7，需要说明的是k的取值是和要处理的文本的有关。

算法测试：为了测试通过“预设种子”的方法改进K-means算法提取多主题的质量，实验样本仍然为预备的500篇文本，采用上述参数估计实验中获得的结果，取k＝7，子主题个数k1为3，首先采用传统K-means算法，随即产生k个初始中心的方法实验5次，和改进的K-means提取主题结果统计如表1所示：

表1K-means和改进K-means多主题提取结果统计

从表1数据可以看出，传统K-means在5次随即产生初始中心的情况下，结果的准确率、召回率以及综合指标F1值都非常不稳定，算法耗时变化较大，这是由于传统的K-means算法对初始聚类中心较敏感，导致结果和耗时随不同的初始输入波动较大。为消除这种缺陷，本发明根据主题提取特点，每个主题往往包含多个具有相同语义概念的词汇，按照概念在文中对应词汇的数量所暗含文本多个主题语义中心信息，预设出可能性最大的K个初始中心，从而改进K-means，不但提取的主题质量较高，算法的执行效率也有较大的提高。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种从单个中文文本中提取多主题词的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的从单个中文文本中提取多主题词的方法，其特征在于，所述步骤Step1进一步包括如下步骤：

3.根据权利要求1所述的从单个中文文本中提取多主题词的方法，其特征在于，所述步骤Step2进一步包括如下步骤：

概念映射过程通过查询所述语义知识库实现，其中：

4.根据权利要求3所述的从单个中文文本中提取多主题词的方法，其特征在于，所述查询知识库，判断当文本中所包含的词汇是多义词时，该多义词对应多个概念，概念与语义类一一对应，根据语义类成员词在该文本中信息量计算语义类权值，选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念，从而实现多义词排歧，进一步包括如下步骤：

5.根据权利要求1所述的从单个中文文本中提取多主题词的方法，其特征在于，所述改进的K-means算法进一步包括如下步骤：

选用经典K-means聚类算法，通过预设种子方法对其进行改进。

6.根据权利要求1所述的从单个中文文本中提取多主题词的方法，其特征在于，所述选用经典K-means聚类算法，通过预设种子方法对其进行改进，进一步包括如下步骤：

7.根据权利要求1所述的从单个中文文本中提取多主题词的方法，其特征在于，所述计算概念与概念之间的相似度和计算概念与概念集之间的相似度，进一步包括如下步骤：