CN101826102B

CN101826102B - 一种图书关键字自动生成的方法

Info

Publication number: CN101826102B
Application number: CN2010101331535A
Authority: CN
Inventors: 庄越挺; 吴江琴; 张亮; 张寅�; 魏宝刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-03-26
Filing date: 2010-03-26
Publication date: 2012-07-25
Anticipated expiration: 2030-03-26
Also published as: CN101826102A

Abstract

本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系，从互联网上抓取书评，将其分词并标注词性，留下名词作候补关键词；通过谷歌检索候补关键词在维基百科中出现的文档数目以初步评定重要性，过滤语气词、错别字；将作者、图书、评论和候补关键词作为四种节点，将其互相间的关系作为边，构建四部图；基于四部图，运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈，关键词正确率高；充分覆盖读者不同角度的书评，关键词多样化；数据来自互联网，书评数量庞大、涵盖面广，方法覆盖面广。

Description

一种图书关键字自动生成的方法

技术领域

本发明涉及计算机数据挖掘以及数字图书馆自动处理领域，尤其涉及一种图书关键字自动生成的方法。

背景技术

大部分的数字图书馆主要通过专家来挑选关键字以描绘馆藏图书的主题和内容。为获得准确和丰富的关键词，专家需要首先通过阅读全书等方法获得对图书的全面理解。这种方式耗费大量的人力和时间，在面对不断增加的数字图书时变得不切实际。受限于精力，专家提供的关键词也存在着数量有限、内容保守和过于主观等不足。

近年来，随着LibraryThing、豆瓣网等Web2.0社区化网站的流行，工业界提出大众标签法和专家-社区混合标注法等系统来为图书增加内容、主题相关的和自适应的关键字。这些系统主要使用基于社区的方法，以用户自发提供的标签为基础提供图书关键字。但是，2006年全美信息科学与科技年度会议(Annual General Meeting of the American Society for Information Science andTechnology，November 2006)和信息科学期刊2006年第二期(Journal ofInformation Science，2006)等最近的研究表明，用户提供的标签和词条等通常是不一致、不准确并且没有意义的。

发明内容

本发明的目的是克服现有技术的不足，提供一种图书关键字自动生成的方法。

图书关键字的自动生成方法包括以下步骤：

(1)确定图书与作者的对应关系，从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度，将图书评论分词，用词性标注器将其中的词标注词性，留下其中的名词作为候补关键词；

(2)使用维基百科衡量器，通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数，利用公式WIKI_IDF(i)＝log(N/W)初步评定候补关键词的全局重要性，过滤语气词、错别字，其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性，i为目标候补关键词，M为查询得到的文档数，N为中文维基百科文档总数；

(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点，将其互相之间的关系作为边，利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图；

(4)基于四部图，运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序，挑出排序最高的几个候补关键词作为图书的关键字。

所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点，将其互相之间的关系作为边，利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图步骤包括：将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表，将四种节点之间的关系视为边，其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为边，设置作者与图书之间的著作关系，将图书和其第一作者之间的关系权重设为1，和其余作者之间的关系设为0；设置书评与图书之间的关系，将图书相对于其书评的关系权重设为1，否则为0；将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r＝(log(RC+1)+1)·min(TL/100，1)来衡量，其中r表示书评相对于图书的关系权重，RC表示该书评被用户推荐的次数，TL表示书评包含的词总数，min表示取TL/100与1之间的最小值；设置书评与候补关键词之间的关系，将书评与其文本内包含的候补关键词的关系的权重使用公式w＝TF(i，j)·WIKI_IDF(i)来衡量，其中w表示关系权重，i表示某候补关键词，j表示对应的图书评论，WIKI_IDF(i)指的是利用维基百科衡量器候补关键词i得到的全局权重，TF的计算公式如下：TF(i，j)＝freq(i)/length(j)，其中，freq表示一个候补关键词在该图书评论中出现的次数，length表示该图书评论包含的词语总数。

使用以下相邻矩阵M表示四部图：

[\begin{matrix} 0 & M_{AB} & 0 & 0 \\ M_{BA} & 0 & M_{BR} & 0 \\ 0 & M_{RB} & 0 & M_{RW} \\ 0 & 0 & M_{WR} & 0 \end{matrix}]

其中，A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合，M_AB、M_BA、M_BR、M_RB、M_RW和M_WR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型 W出发到节点类型R的有向边的相邻小矩阵，如果i和j节点在该四部图不相邻，M_ij值为0，否则为对应的边的权重。

所述基于四部图，运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序，挑出排序最高的几个候补关键词作为图书的关键字步骤包括：将相邻矩阵M归一化得到转移矩阵W：

[\begin{matrix} 0 & M_{AB} & 0 & 0 \\ M_{BA} & 0 & M_{BR} & 0 \\ 0 & M_{RB} & 0 & M_{RW} \\ 0 & 0 & M_{WR} & 0 \end{matrix}]

其中W的各个部分的归一化公式如下：

{(W_{AB})}_{ij} = \frac{{(M_{AB})}_{ij}}{Σ {(M_{AB})}_{ij}}

{(W_{BA})}_{ij} = \frac{α {(M_{BA})}_{ij}}{αΣ {(M_{BA})}_{ij} + (1 - α) Σ {(M_{BR})}_{ij}}

{(W_{BR})}_{ij} = \frac{(1 - α) {(M_{BR})}_{ij}}{αΣ {(M_{BA})}_{ij} + (1 - α) Σ {(M_{BR})}_{ij}}

{(W_{RB})}_{ij} = \frac{{(1 - β) (M_{RW})}_{ij}}{βΣ {(M_{RB})}_{ij} + (1 - β) Σ {(M_{RW})}_{ij}}

{(W_{RW})}_{ij} = \frac{{β (M_{RB})}_{ij}}{βΣ {(M_{RB})}_{ij} + (1 - β) Σ {(M_{RW})}_{ij}}

{(W_{WR})}_{ij} = \frac{{(M_{WR})}_{ij}}{Σ {(M_{WR})}_{ij}}

其中，α表示图书类型节点访问作者类型节点的概率，而(1-α)则是图书类型节点访问书评类型中的节点的概率，β表示书评类型节点访问图书类型节点的概率，1-β表示书评类型节点访问候补关键词类型节点的概率；设置代表作者、图书、书评和候补关键词的节点是否与该图书直接相关的图书偏好矢量d，矢量d的结构如下：

[\begin{matrix} d^{A} \\ d^{B} \\ d^{R} \\ d^{W} \end{matrix}]

其中d^A、d^B、d^R和d^W分别表示A、B、R和W类型节点的矢量，设置

若X类型的节点i与该图书直接相连，否则

使用随机行走模型公式s＝(1-λ)W^Ts+λd迭代计算全部节点的静态分布概率，其中d表示图书偏好矢量，λ表示随机行走访问d中的节点的概率，1-λ表示访问其在图上的相邻节点的概率，s表示图上各个点的静态分布，W表示归一化后的转移矩阵；将候补关键词节点中静态概率最大的节点转变为吸收态，将从该节点出发的所有边的权重设为0，然后继续进行随机行走；将状态转移矩阵转变为以下范式：

[\begin{matrix} Q & R \\ 0 & I_{G} \end{matrix}]

其中Q和R代表转移矩阵W中对应的区域，I_G代表在已经转变成吸收态的节点集合G上的单位矩阵；使用以下期望步长计算公式迭代计算各个节点的期望步长：

t^A＝λtD^A+(1-λ)t^BW_BA+^A

t^B＝λtD^B+(1-λ)(t^AW_AB+t^RW_RB)+^B

t^R＝λtD^R+(1-λ)(t^BW_BR+t^W(W_WR)_Q)+^R

t^{W} = λ {tD}^{W} + (1 - λ) t^{R} {(W_{RW})}_{Q} +_{Q}^{W}

其中，D^j是一个矩阵，其值可由对应矢量(d^j)^T复制|Q|行而得，其中|Q|表示Q矩阵大小，(W_RW)_Q和(W_WR)_Q对应于按照范式重新排列后的W_RW和W_WR，t_i表示随机行走从节点i开始到被吸收之前总的期望步数，期望步数在所述四部图上的表示如下：

[\begin{matrix} t^{A} \\ t^{B} \\ t^{R} \\ t_{Q}^{W} \end{matrix}]

其中t^X表示类型节点X的期望步长，t_Q ^W表示未排序的候补关键词节点的期望步数，再定义一个值全部为1的常量矢量c：

[\begin{matrix} c^{A} \\ c^{B} \\ c^{R} \\ c_{Q}^{W} \end{matrix}]

其中c^X表示类型节点X的常量矢量，c_Q ^W表示长度和Q一样的常量矢量；将期望步长最大的候选关键词节点挑选出并设为吸收态，再使用期望步长计算公式迭代计算各个节点的期望步长；重复以上步骤，一直到转变为吸收态的候补关键词数目足够为止，将这些候补关键词作为关键词。

本发明与现有技术相比具有的有益效果：

1)该方法综合考虑了同一作者著作的风格和主题一致性、书评与图书内容的相关性以及读者对书评质量与图书主题的反馈，提取的关键词正确率高；

2)该方法充分覆盖不同读者对图书的不同角度的书评，不仅包含了主流的书评意见也考虑进少数读者的看法，提取的关键词更加多样化；

3)该方法的数据来自于互联网，书评数量庞大、涵盖面广，能够给大量图书提供关键词。

具体实施方式

图书关键字的自动生成方法包括以下步骤：

使用以下相邻矩阵M表示四部图：

[\begin{matrix} 0 & M_{AB} & 0 & 0 \\ M_{BA} & 0 & M_{BR} & 0 \\ 0 & M_{RB} & 0 & M_{RW} \\ 0 & 0 & M_{WR} & 0 \end{matrix}]

其中，A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合，M_AB、M_BA、M_BR、M_RB、M_RW和M_WR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵，如果i和j节点在该四部图不相邻，M_ij值为0，否则为对应的边的权重。

[\begin{matrix} 0 & M_{AB} & 0 & 0 \\ M_{BA} & 0 & M_{BR} & 0 \\ 0 & M_{RB} & 0 & M_{RW} \\ 0 & 0 & M_{WR} & 0 \end{matrix}]

其中W的各个部分的归一化公式如下：

{(W_{AB})}_{ij} = \frac{{(M_{AB})}_{ij}}{Σ {(M_{AB})}_{ij}}

{(W_{BA})}_{ij} = \frac{α {(M_{BA})}_{ij}}{αΣ {(M_{BA})}_{ij} + (1 - α) Σ {(M_{BR})}_{ij}}

{(W_{BR})}_{ij} = \frac{(1 - α) {(M_{BR})}_{ij}}{αΣ {(M_{BA})}_{ij} + (1 - α) Σ {(M_{BR})}_{ij}}

{(W_{RB})}_{ij} = \frac{{(1 - β) (M_{RW})}_{ij}}{βΣ {(M_{RB})}_{ij} + (1 - β) Σ {(M_{RW})}_{ij}}

{(W_{RW})}_{ij} = \frac{{β (M_{RB})}_{ij}}{βΣ {(M_{RB})}_{ij} + (1 - β) Σ {(M_{RW})}_{ij}}

{(W_{WR})}_{ij} = \frac{{(M_{WR})}_{ij}}{Σ {(M_{WR})}_{ij}}

[\begin{matrix} d^{A} \\ d^{B} \\ d^{R} \\ d^{W} \end{matrix}]

若X类型的节点i与该图书直接相连，否则

[\begin{matrix} Q & R \\ 0 & I_{G} \end{matrix}]

t^A＝λtD^A+(1-λ)t^BW_BA+^A

t^B＝λtD^B+(1-λ)(t^AW_AB+t^RW_RB)+^B

t^R＝λtD^R+(1-λ)(t^BW_BR+t^W(W_WR)_Q)+^R

t^{W} = λ {tD}^{W} + (1 - λ) t^{R} {(W_{RW})}_{Q} +_{Q}^{W}

其中，D^j是一个矩阵，其值可由对应矢量(d^j)^T复制|Q|行而得，其中|Q|表示Q矩阵大小，(W_RW)_Q和(W_WR)_Q对应于按照范式重新排列后的W_RW和_WR，t_i表示随机行走从节点i开始到被吸收之前总的期望步数，期望步数在所述四部图上的表示如下：

[\begin{matrix} t^{A} \\ t^{B} \\ t^{R} \\ t_{Q}^{W} \end{matrix}]

[\begin{matrix} c^{A} \\ c^{B} \\ c^{R} \\ c_{Q}^{W} \end{matrix}]

实施例

以图书《基地》为例，图书关键词自动生成方法的具体实施的技术方案及步骤如下：

1.确定图书与作者的对应关系，从互联网上抓取对应图书的评论，分词，标注词性，将其中的名词作为候补关键词

1)本发明在确定图书与作者的对应关系时直接利用编目专家为数字图书馆内图书编著的著作关系。如《基地》的作者为阿西莫夫，该作者同时有《第二基地》等基地系列和《机器人》系统等著作。

2)利用爬虫，从豆瓣网(http://www.douban.com)等富含书评的互联网上抓取对应图书的书评论网页。分析网页，将其包含的书评文本抽取并保存。在此例中，将基地系列和机器人系统的书评全部抓取并提取文本。

3)利用已有中文分词器将书评切分，利用词性标注器对分词结果标注词性，只将名词(包括人名、地名、物名和专业词汇等名词)保存下来。

2.维基百科衡量器，过滤噪音词汇

对候补关键词中词汇计算WIKI_IDF，将值过低(＜2)的词和过高(＞13)的词直接过滤，不加入以后的四部图中。

3.将作者、图书、评论和词合并成四部图

如所述四部图组成，按照不同的权重设置赋值相邻矩阵

4.以图书为中心的吸收态的随机行走，挑选出多样性的关键词

1)以图书为中心，赋值属性矢量d。与该图书有直接关系的作者、书评和词汇项的值为1，其余为0。

2)对该四部图进行随机行走，将词汇按照静态分布概率从高到低排列，取第一序位的词作为候选关键词。在此例中为科幻。

3)将第一序位词节点的状态转变为吸收态，接下来计算四部图的各个节点的期望步长。

4)将期望步长最大的节点挑选为第二候选关键词，也将其转为吸收态，继续计算四部图中各个节点的期望步长。在此例子中为谢顿。

5)将期望步长最大的节点挑选为第三候选词，此例中为心灵史学。按照以上步骤重复选择候选词。

Claims

1.一种图书关键字的自动生成方法，其特征在于包括以下步骤：

(2)使用维基百科衡量器，通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数，利用公式WIKI_IDF(i)＝log(N/M)初步评定候补关键词的全局重要性，过滤语气词、错别字，其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性，i为目标候补关键词，M为查询得到的文档数，N为中文维基百科文档总数；

2.根据权利要求1所述的一种图书关键字的自动生成方法，其特征在于所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点，将其互相之间的关系作为边，利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图步骤包括：将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表，将四种节点之间的关系视为边，其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为边，设置作者与图书之间的著作关系，将图书和其第一作者之间的关系权重设为1，和其余作者之间的关系设为0；设置书评与图书之间的关系，将图书相对于其书评的关系权重设为1，否则为0；将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r＝(log(RC+1)+1)·min(TL/100，1)来衡量，其中r表示书评相对于图书的关系权重，RC表示该书评被用户推荐的次数，TL表示书评包含的词总数，min表示取TL/100与1之间的最小值；设置书评与候补关键词之间的关系，将书评与其文本内包含的候补关键词的关系的权重使用公式w＝TF(i，j)·WIKI_IDF(i)来衡量，其中w表示关系权重，i表示某候补关键词，j表示对应的图书评论，WIKI_IDF(i)指的是利用维基百科衡量器候补关键词i得到的全局权重，TF的计算公式如下：TF(i，j)＝freq(i)/length(j)，其中，freq表示一个候补关键词在该图书评论中出现的次数，length表示该图书评论包含的词语总数，使用以下相邻矩阵M表示四部图：