CN102662998A

CN102662998A - 一种基于百度百科的文本语义主题抽取方法

Info

Publication number: CN102662998A
Application number: CN2012100681032A
Authority: CN
Inventors: 陈叶旺
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2012-03-14
Filing date: 2012-03-14
Publication date: 2012-09-12
Anticipated expiration: 2032-03-14
Also published as: CN102662998B

Abstract

本发明一种基于百度百科的文本语义主题抽取方法，利用百度百科首先建立百科词条前缀关系库，并计算出整个词条空间的语义关系，再利用前缀关系库来对未知文本进行词条发现与候选语义主题统计，并建立语义主题图，依据主题关系矩阵对语义主题图中各顶点进行权值调整，再根据语义主题图的语义离散度来抽取最终语义主题，避开传统通过单纯的词条统计方式，能在很大程度上解决基于词条统计的文本主题方法准确率不高的问题。

Description

一种基于百度百科的文本语义主题抽取方法

技术领域

本发明涉及一种基于百度百科的文本语义主题抽取方法。

背景技术

网络已经进入了Web2.0的时代，即以用户为主导、由用户提供和分享资源的网络应用迅速发展，每天都会出现海量的新信息，如何获取其中真正所需的内容却是一大难题。网络上的文本资源组合灵活、不规范、数据量大、容易创作与发布，话题涉及社会的方方面面。对这些数据进行主题跟踪发现、分类、情感判断将有着广泛的应用和前景，如社会舆情监控、情感分析、商业调查等。

处理这些数据需要应用文本挖掘技术，涉及文本相似度计算、聚类、分类等方面。这些传统方法大多是针对文本信息表述规则，包含了大量的信息内容的文本。然而，网络文本包含许多不规则的简写方式，例如‘发改委’和‘发展改革委员会’，若用传统的数据挖掘相似度算法，计算结果为0，因为二者没有词汇交集，但实际上二者在语义上相同。另外，词汇的语义与其所处环境有关，比如‘苹果4代’与‘4袋苹果’，两个短语中都有的‘苹果’一词，传统算法计算结果相似度为0.67，但二者风马牛不相及。

面对这些问题，传统的文本挖掘方法显然不能令人满意。特别在中文领域，情况更为复杂，不仅要解决文本挖掘的基本问题，还需先对文本做准确的分词。现有的中文分词工具对长文本的分词取得不错的效果。但在短文本分词方面还有待改进，例如‘有木有银请我7饭’(有没有人请我吃饭)，通过ICTCLAS分词结果处理的分词结果是‘有木有银请我7饭’，与实际意思相差很大，对进一步所要做的语义挖掘很不利。要解决这些困局，需要一个能涵盖社会各领域的知识库，不仅能提供全面、准确、复杂的知识关系，还要能及时跟进社会热点与网络流行动态。

在中文知识信息领域，相比于传统的各种知识库，百度百科是一部内容开放、自由的网络百科全书，其旨在创造一个涵盖各领域知识的中文信息收集平台，并与百度搜索、百度知道结合，从不同的层次上满足用户对信息的需求。如图1所示，百度百科所含内容的基础单位是词条，一个词条由6部分组成，包括百科名片、词条正文、参考资料、开放分类、相关词条、扩展阅读，不同的组成部分从不同的角度对一个知识进行阐述。

发明内容

本发明的目的在于提供一种可以解决传统的文本挖掘方法不足的一种基于百度百科的文本语义主题抽取方法。

本发明一种基于百度百科的文本语义主题抽取方法，主要包括以下几个步骤：

(1)将所有的百度百科词条转化成为一个百科词库前缀关系；

(2)计算出所有百度百科词条之间的语义关系，形成一个主题关系矩阵；

(3)对于一段未知文本，利用百度百科词库前缀关系，进行快速词条发现，找出所有可能涉及的词条，形成候选词条集合；

(4)把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题；

(5)通过主题关系矩阵，将上述候选语义主题转化成为一张有向语义主题图；

(6)、根据主题关系矩阵对有向语义主题图的权值进行调整；

(7)、将有向语义主题图转化为无向语义主题图后，划分成若干连通区域；

(8)、计算语义离散度，并根据语义离散度值来决定文本最终的语义主题。

所述的步骤1具体为：

设文本T＝t1 t2…tn由n个汉字组成，其中n＞1，Ri＝T[1…i]表示文本T的从第1到第i个字符串，该i＞1，这样长度为n的文本T有n-1个非空前缀，分别为R2，R3，…Rn-1，文本T的前缀数组是由R1，R2，…Rn-1组成的n-1个字符串数组，记为PRE(T)＝{R2，R3，…Rn}，令三元组α_R＝<R，B，TS>表示字符串前缀R与百度百科词库中词条的关系，B表示该前缀是否为一个完整词条，TS表示一个词条集合，且对于任意的T∈TS，都有R∈PRE(T)∧(T≠R)；令词库C＝{C1，C2…Cn}，由n个词条Cn组成，对百度百科词库中所有词条的前缀都生成相应的前缀关系α，这些前缀关系组成的集合为词库前缀关系。

所述的步骤2具体为：

定义百科词条w的一个开放分类e为百科词条w的一个语义主题；若百科词条w的开放分类中包含语义主题e，则称百科词条w和语义主题e语义相关，反之称百科词条w与语义主题e语义不相关，若文本T中存在一个词条w与语义主题e语义相关，则称文本T和语义主题e也语义相关，反之称文本T与语义主题e语义不相关；

令E＝{e1，e2…en}为网络文本T的语义主题空间，其中，ei表示第i个语义主题，n为语义主题空间E中的语义主题个数；

定义主题布尔关系矩阵R：矩阵R＝(ai，j)n×n是一张二维布尔关系，若ai，j＝1，表示第i个开放分类作为一个百科词条的开放分类中包含了第j个开放分类，即二者相关；

定义m步主题布尔关系矩阵

设R为主题布尔关系矩阵，则

为R的m步主题布尔关系矩阵，若a^(m-1) _i，j＝0^a^(m) _i，j＝1，表示第i个开放分类到第j个开放分类之间存在一条步长为m的关联通路；

定义主题布尔关系矩阵R的稳定矩阵：设R^(k)为k步主题布尔关系矩阵，若R^(k-1)≠R^(k)且

都有R^(k)＝R^(p)，则称k步主题布尔关系矩阵R^(k)为主题布尔关系矩阵R的稳定矩阵；

设R为主题布尔关系矩阵，n为语义主题空间中语义主题的个数，则必存在一个正整数k＜n，使得R^(k)为R的稳定矩阵；

定义主题关系：设R＝(ai，j)n×n为主题布尔关系矩阵，R^(k)为稳定主题布尔关系矩阵，主题关系矩阵定义为：

Q*＝(q_i，j)_n×n，

其中m、k均为正整数，ρ是一个取值在区间(0，1)的常系数；该稳定主题关系布尔矩阵R^(k)表示的是语义主题之间是否有关，而语义主题关系表示的是语义主题之间量化的相关关系，若语义主题i与j之间步长越长，在主题关系中q_i，j值越小，相关度越低；

利用百度百科所有词条的开放分类作为候选语义主题，m步主题关系的求法步骤如下：

(1)初始化主题关系集合为空，令n为词条集合TS中的主题关系个数，ρ为主题相关度值，循环取出词条集合TS中的每一个词条t，对应每一个词条t中的开放分类o，把主题关系二元组<t，o，ρ>加入到主题关系集合中；

(2)主题关系生成：令n为主题关系集合中的主题关系个数，对主题关系集合中的所有主题关系循环扫描，若在第k层上发现有主题关系未存在于主题关系集合中，则将其并入主题关系集合中，并设相关度值为ρ^k，直到主题关系集合不再发生变化为止。

所述的步骤3具体为：

设文本T包括长度为n的字符串，T[i，j]表示文本T的从第i个字符到第j个字符串，记为Ci，j，若Ci，j是一个百科词条，则其为文本T的候选词条；令文本T字符串长度为n，从文本T的第一个字符开始循环扫描到最后一个字符，取出连续字符串s，如果字符串s在步骤1的词库前缀关系中未能找到，则进入下一重循环，否则将字符串s作为一个候选词条，加入到候选词条集合中，取文本T的下一个字符与该连续字符串s合并，继续上述候选词条的判断步骤，直至文本T的最后一个字符。

所述的步骤4具体为：

对于一段网络文本T，按步骤3找出该文本T所有的候选词条ts，把所有候选词条的全部开放分类作为这段文本T的候选语义主题，对每一个候选语义主题都统记为

其中，δ_j(e)取值为1或0，取1时表示第j个词条和语义主题e相关，反之取值0，|ts|表示文本T的所有候选词条总数。

所述的步骤5具体为：

把所有的候选语义主题e看作是一张有向图的顶点，对于顶点e来说Te是它的权重，顶点之间是否有通路以及顶点之间的距离，由主题关系决定，如果两顶点在主题关系矩阵中对应的相关度值q＞0，则两个顶点之间有通路。

所述的步骤6具体为：

设网络文本T的K个语义主题分别为e1，e2…ek，K个语义主题的统计值形成的一个向量记为A＝(Te1，Te2，…Tek)，令在m步主题关系Q^(m)中这K个语义主题形成的子集为一个矩阵设为

那么可以对上述的统计值进行重新调整，记为A′，

A^{'} = A \times Q_{e 1, e 2 . . . ek}^{(m)}

调整后的任意一个顶点的统计值就是以该点为中心的m步范围之内的语义总和。

所述的步骤7具体为：

将步骤6中调整后的有向语义主题图转化为无向语义主题图，可以将其切分成若干连通区域Reg1 Reg2…Regn，同一个区域的两个顶点有通路，不同区域的顶点之间则无通路；对于无向语义主题图中的任意一个连通区域Regi，把其当作一个整体统计它在整个图中的权重p，

p (Re g_{i} | T) = \frac{T_{Re g_{i}}}{Σ_{i = 1}^{n} T_{Re g_{i}}}

其中，

而|Reg_i|为第i个连通区域的所有顶点数，n为无向图的连通区域个数。

所述的步骤8具体为：

设文本T的语义离散度f为：

其中，Reg_i表示第i个连通区域，n为无向语义主题图的连通区域个数，|Reg_i|为该连通区域的所有顶点数；

抽取权重排名前K个的连通区域的语义汇聚中心点作为文本T最终的语义主题，即

其中，ei表示第i个连通区域的语义汇聚中心点，

表示取下整数操作，

表示取上整数操作。

本发明利用百度百科首先建立百科词条前缀关系库，并计算出整个词条空间的语义关系，再利用前缀关系库来对未知文本进行词条发现与候选语义主题统计，并建立语义主题图，依据主题关系矩阵对语义主题图中各顶点进行权值调整，再根据语义主题图的语义离散度来抽取最终语义主题，避开传统通过单纯的词条统计方式，能在很大程度上解决基于词条统计的文本主题方法准确率不高的问题。

附图说明

图1为百度百科的词条的分类图示；

图2为本发明的工作原理图。

以下结合附图和具体实施例对本发明做进一步详述。

具体实施方式

如图2所示，本发明一种基于百度百科的文本语义主题抽取方法，具体包括以下步骤：

步骤1、将百度百科的所有词条转化成一个百科词库前缀关系，具体为：

所述的前缀数组指的是：设文本T＝t1t2…tn由n(n＞1)个汉字组成，Ri＝T[1…i]表示文本T的从第1到第i(i＞1)个字符串，长度为n的文本T有n-1个非空前缀，分别为R2，R3，…Rn-1，文本T的前缀数组是由R1，R2，…Rn-1组成的n-1个字符串数组，记为PRE(T)＝{R2，R3，…Rn}，如词条‘变形金刚’，其前缀数组为‘变形’、‘变形金’、‘变形金刚’，其中‘变形’和‘变形金刚’是完整词条。

所述的前缀关系指的是：令三元组α_R＝<R，B，TS>表示字符串前缀R与百度百科词库中词条的关系，B表示该前缀是否为一个完整词条，TS表示一个词条集合，且对于任意的T∈TS，都有R∈PRE(T)∧(T≠R)。

所述的词库前缀关系指的是：令词库C＝{C1，C2…Cn}，由n个词条Cn组成，对百度百科词库中所有词条的前缀都生成相应的前缀关系α，这些前缀关系组成的集合称之为词库前缀关系。

性质1令PRE(T)＝{R2，R3，…Rn}是长度为n的字符串T的前缀数组，若

使得对于

都有αR≠Ri，那么T不是词库C中的词条。

步骤2、利用百度百科词条的开放分类作为候选语义主题，计算出所有百度百科词条之间的语义关系，形成一个主题关系矩阵；

定义语义主题：设w为一个百科词条，e为w的一个开放分类，则称e为w的一个语义主题。

定义语义相关：令e为一个语义主题，w为一个百科词条，T为一段文本，若百科词条w的开放分类中包含语义主题e，则称百科词条w和语义主题e语义相关，反之称百科词条w与语义主题e语义不相关，若文本T中存在一个词条w与语义主题e语义相关，则称文本T和语义主题e也语义相关，反之称文本T与语义主题e语义不相关。

令E＝{e1，e2…en}为网络文本T的语义主题空间，其中，ei表示第i个语义主题，n为语义主题空间E中的语义主题个数。

定义主题布尔关系矩阵R：矩阵R＝(ai，j)n×n是一张二维布尔关系，若ai，j＝1，表示第i个开放分类作为一个百科词条的开放分类中包含了第j个开放分类，即二者相关。

定义m步主题布尔关系矩阵

设R为主题布尔关系矩阵，则

为R的m步主题布尔关系矩阵，若a^(m-1) _i，j＝0^a^(m) _i，j＝1，表示第i个开放分类到第j个开放分类之间存在一条步长为m的关联通路。

定义主题布尔关系矩阵R的稳定矩阵：设R^(k)为k步主题布尔关系矩阵，若R^(k-1)≠R^(k)且都有R^(k)＝R^(p)，则称k步主题布尔关系矩阵R^(k)为主题布尔关系矩阵R的稳定矩阵。

设R为主题布尔关系矩阵，n为语义主题空间中语义主题的个数，则必存在一个正整数k＜n，使得R^(k)为R的稳定矩阵。

Q*＝(q_i，j)_n×n，

其中m、k均为正整数，ρ是一个取值在区间(0，1)的常系数；该稳定主题关系布尔矩阵R^(k)表示的是语义主题之间是否有关，而语义主题关系表示的是语义主题之间量化的相关关系，若语义主题i与j之间步长越长，在主题关系中q_i，j值越小，相关度越低。本发明通过主题关系来判定一段文本的语义主题之间的相互关系。

(1)初始化主题关系集合Result为空值，令n为词条集合TS中的主题关系个数，ρ为主题相关度值(一般取ρ＝0.6)，循环取出词条集合TS中的每一个词条t，对应每一个词条t中的开放分类o，把主题关系二元组<t，o，ρ>加入到主题关系集合Result中；

(2)主题关系生成：令n为主题关系集合Result中的主题关系个数，对主题关系集合Result中的所有主题关系循环扫描，若在第k层上发现有主题关系未存在于主题关系集合Result中，则将其并入主题关系集合Result中，并设相关度值为ρ^k，直到主题关系集合Result不再发生变化为止。

步骤3、对于一段未知文本T，利用百度百科词库前缀关系，进行快速词条发现，找出所有可能涉及的词条，形成候选词条集合；

令result为文本T的候选词条集合，n为文本T的字符串长度，从文本T的第一个字符开始循环扫描到最后一个字符，取出连续字符串s，如果该连续字符串s不在百度百科词库前缀关系中，则进入下一重循环，否则将该连续字符串s作为一个候选词条，加入到候选词条集合result中，取下一个字符与该连续字符串s合并，继续上述候选词条的判断步骤，直至文本T的最后一个字符。

步骤4、把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题；

对于一段未知文本T，按步骤3找出该文本T所有的候选词条ts，把所有候选词条的全部开放分类作为这段文本T的候选语义主题，对每一个候选语义主题都进行统记为：

T_{e} = Σ_{j = 1}^{| ts |} δ_{j} (e)

其中，δ_j(e)取值为1或0，取1时表示第j个词条和语义主题e相关，反之值取0，|ts|表示文本T的所有候选词条总数。

步骤5、通过主题关系矩阵，将上述候选语义主题转化成为一张有向语义主题图；

把所有的候选语义主题e看作是一张有向图的顶点，对于顶点e来说Te是它的权重，顶点e1与顶点e2之间是否有通路以及顶点之间的距离，由主题关系决定，如果e1到e2在主题关系矩阵中对应的相关度值q＞0，则两个顶点之间有通路，本发明把这种图称之为文本T的有向语义主题图TopicG(T)。

步骤6、根据主题关系矩阵对有向语义主题图的权值进行调整；

对于步骤5中形成的有向语义主题图，该图中的任何一个顶点，如果有其它顶点与之有联通，即与其有相关性顶点存在，那么该顶点作为文本的语义候选主题的可能性就会得到提高。基于这个观点，可利用m步主题关系进行权值调整，具体如下：

设网络文T的K个语义主题分别为e1，e2…ek，K个语义主题的统计值形成的一个向量记为A＝(Te1，Te2，…Tek)。

令在m步主题关系Q^(m)中这K个语义主题形成的子集为一个矩阵设为

那么可以对上述的统计值进行重新调整，记为A′：

A^{'} = A \times Q_{e 1, e 2 . . . ek}^{(m)}

调整后的任意一个顶点的统计值，实际上代表的就是以该点为中心的m步范围之内的语义总和。

步骤7、将有向语义主题图转化为无向语义主题图后，划分成若干连通区域；

将步骤6中调整后的有向语义主题图TopicG(T)转化为无向语义主题图，记为无向图ADTopicG(T)，按图的连通性原理，可以将其切分成若干连通区域Reg1 Reg2…Regn，同一个区域的两个顶点有通路，不同区域的顶点之间则无通路。同一个区域内的所有顶点在语义上有相关性，不同的区域之间语义上相关性差，或者没有相关性。因而本发明把一个连通区域作为一个整体来对文本T做语义抽取，将该区域内频率最高的前几个顶点作为该区域的主题，因为这些顶点可以看成是该区域内的语义汇聚中心点。

对于无向图ADTopicG(T)中的任意一个连通区域Reg，把其当作一个整体统计它在整个图中的权重，某个区域的权重越大说明它对文本的语义贡献越大，权重p计算如下：

p (Re g_{i} | T) = \frac{T_{Re g_{i}}}{Σ_{i = 1}^{n} T_{Re g_{i}}}

其中，

|Reg_i|为第i个连通区域的所有顶点数，n为无向图ADTopicG(T)的连通区域个数。

步骤8：计算语义离散度，并根据语义离散度值来决定文本最终的语义主题；

通过划分区域可从一段文本T中抽取出若干潜在语义主题，但这只是从小范围主题来看待文本。为了考查一段文本语义上是否有集中性，还需要有一个宏观考核指标，并可依此最终确定文本语义主题的个数。

定义语义离散度：设文本T的语义离散度f为：

f = {(Σ_{i = 1}^{n} {(p (Re g_{i} | T))}^{2})}^{- \frac{1}{2}}

其中，Reg_i表示第i个连通区域，n为无向图ADTopicG(T)的连通区域个数，|Reg_i|为该连通区域的所有顶点数。

语义离散度值说明了网络文本T的语义离散程度，当且仅当各区域顶点统计值之和都相等时，语义离散度f取到最大值；语义离散度f值越大，其语义表述越离散，语义主题越不突出，抽取出来的主题可信度也就越差。反之语义离散度f值越低，语义主题越明显，抽取出来的主题可信度也就越高。

因为一段文本的语义主题图可能存在多个连通区域，即可能有多个语义主题。语义离散性说明这段文本表述的主题集中程度。那么本发明可以通过语义离散度f，来决定选取多少个权重排名靠前候选语义主题作为最终的文本语义主题。

设f为文本T的语义离散度，ADTopicG(T)为T的无向语义主题图，抽取权重排名前K个的连通区域的语义汇聚中心点作为文本T最终的语义主题，

即

\arg \max_{e_{i}}^{(k)} (p ({Reg}_{i} | T))

其中，ei表示第i个连通区域的语义汇聚中心点，

表示取下整数操作，

表示取上整数操作。

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于百度百科的文本语义主题抽取方法，其特征在于包括以下几个步骤：

(1)将所有的百度百科词条转化成为一个百科词库前缀关系；

(6)、根据主题关系矩阵对有向语义主题图的权值进行调整；

2.根据权利要求1所述的一种基于百度百科的文本语义主题抽取方法，其特征在于所述的步骤1具体为：

设文本T＝t1 t2…tn由n个汉字组成，其中n＞1，Ri＝T[1…i]表示文本T的从第1到第i个字符串，该i＞1，这样长度为n的文本T有n一1个非空前缀，分别为R2，R3，…Rn-1，文本T的前缀数组是由R1，R2，…Rn-1组成的n-1个字符串数组，记为PRE(T)＝{R2，R3，…Rn}，令三元组α_R＝<R，B，TS>表示字符串前缀R与百度百科词库中词条的关系，B表示该前缀是否为一个完整词条，TS表示一个词条集合，且对于任意的T∈TS，都有R∈PRE(T)∧(T≠R)；令词库C＝{C1，C2…Cn}，由n个词条Cn组成，对百度百科词库中所有词条的前缀都生成相应的前缀关系α，这些前缀关系组成的集合为词库前缀关系。

3.根据权利要求1所述的一种基于百度百科的文本语义主题抽取方法，其特征在于所述的步骤2具体为：

定义m步主题布尔关系矩阵设R为主题布尔关系矩阵，则

设R为主题布尔关系矩阵，n为语义主题空间中语义主题的个数，则必存在一个正整数k<n，使得R^(k)为R的稳定矩阵；

Q*＝(q_i，j)_n×n，

4.根据权利要求1所述的一种基于百度百科的文本语义主题抽取方法，其特征在于所述的步骤3具体为：

设文本T包括长度为n的字符串，T[i，j]表示文本T的从第i个字符到第j个字符串，记为Ci，j，若Ci，j是一个百科词条，则其为文本T的候选词条；

令文本T字符串长度为n，从文本T的第一个字符开始循环扫描到最后一个字符，取出连续字符串s，如果字符串s在步骤1的词库前缀关系中未能找到，则进入下一重循环，否则将字符串s作为一个候选词条，加入到候选词条集合中，取文本T的下一个字符与该连续字符串s合并，继续上述候选词条的判断步骤，直至文本T的最后一个字符。

5.根据权利要求1所述的一种基于百度百科的文本语义主题抽取方法，其特征在于所述的步骤4具体为：