CN101826102B - 一种图书关键字自动生成的方法 - Google Patents

一种图书关键字自动生成的方法 Download PDF

Info

Publication number
CN101826102B
CN101826102B CN2010101331535A CN201010133153A CN101826102B CN 101826102 B CN101826102 B CN 101826102B CN 2010101331535 A CN2010101331535 A CN 2010101331535A CN 201010133153 A CN201010133153 A CN 201010133153A CN 101826102 B CN101826102 B CN 101826102B
Authority
CN
China
Prior art keywords
books
node
keyword
type
representes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101331535A
Other languages
English (en)
Other versions
CN101826102A (zh
Inventor
庄越挺
吴江琴
张亮
张寅�
魏宝刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2010101331535A priority Critical patent/CN101826102B/zh
Publication of CN101826102A publication Critical patent/CN101826102A/zh
Application granted granted Critical
Publication of CN101826102B publication Critical patent/CN101826102B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系,从互联网上抓取书评,将其分词并标注词性,留下名词作候补关键词;通过谷歌检索候补关键词在维基百科中出现的文档数目以初步评定重要性,过滤语气词、错别字;将作者、图书、评论和候补关键词作为四种节点,将其互相间的关系作为边,构建四部图;基于四部图,运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈,关键词正确率高;充分覆盖读者不同角度的书评,关键词多样化;数据来自互联网,书评数量庞大、涵盖面广,方法覆盖面广。

Description

一种图书关键字自动生成的方法
技术领域
本发明涉及计算机数据挖掘以及数字图书馆自动处理领域,尤其涉及一种图书关键字自动生成的方法。 
背景技术
大部分的数字图书馆主要通过专家来挑选关键字以描绘馆藏图书的主题和内容。为获得准确和丰富的关键词,专家需要首先通过阅读全书等方法获得对图书的全面理解。这种方式耗费大量的人力和时间,在面对不断增加的数字图书时变得不切实际。受限于精力,专家提供的关键词也存在着数量有限、内容保守和过于主观等不足。 
近年来,随着LibraryThing、豆瓣网等Web2.0社区化网站的流行,工业界提出大众标签法和专家-社区混合标注法等系统来为图书增加内容、主题相关的和自适应的关键字。这些系统主要使用基于社区的方法,以用户自发提供的标签为基础提供图书关键字。但是,2006年全美信息科学与科技年度会议(Annual General Meeting of the American Society for Information Science andTechnology,November 2006)和信息科学期刊2006年第二期(Journal ofInformation Science,2006)等最近的研究表明,用户提供的标签和词条等通常是不一致、不准确并且没有意义的。 
发明内容
本发明的目的是克服现有技术的不足,提供一种图书关键字自动生成的方法。 
图书关键字的自动生成方法包括以下步骤: 
(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词; 
(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数,利用公式WIKIIDF(i)=log(N/W)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数; 
(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将 其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图; 
(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。 
所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图步骤包括:将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余作者之间的关系设为0;设置书评与图书之间的关系,将图书相对于其书评的关系权重设为1,否则为0;将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r=(log(RC+1)+1)·min(TL/100,1)来衡量,其中r表示书评相对于图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含的候补关键词的关系的权重使用公式w=TF(i,j)·WIKIIDF(i)来衡量,其中w表示关系权重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用维基百科衡量器候补关键词i得到的全局权重,TF的计算公式如下:TF(i,j)=freq(i)/length(j),其中,freq表示一个候补关键词在该图书评论中出现的次数,length表示该图书评论包含的词语总数。 
使用以下相邻矩阵M表示四部图: 
0 M AB 0 0 M BA 0 M BR 0 0 M RB 0 M RW 0 0 M WR 0
其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,MAB、MBA、MBR、MRB、MRW和MWR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型 W出发到节点类型R的有向边的相邻小矩阵,如果i和j节点在该四部图不相邻,Mij值为0,否则为对应的边的权重。 
所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括:将相邻矩阵M归一化得到转移矩阵W: 
0 M AB 0 0 M BA 0 M BR 0 0 M RB 0 M RW 0 0 M WR 0
其中W的各个部分的归一化公式如下: 
( W AB ) ij = ( M AB ) ij Σ ( M AB ) ij
( W BA ) ij = α ( M BA ) ij αΣ ( M BA ) ij + ( 1 - α ) Σ ( M BR ) ij
( W BR ) ij = ( 1 - α ) ( M BR ) ij αΣ ( M BA ) ij + ( 1 - α ) Σ ( M BR ) ij
( W RB ) ij = ( 1 - β ) ( M RW ) ij βΣ ( M RB ) ij + ( 1 - β ) Σ ( M RW ) ij
( W RW ) ij = β ( M RB ) ij βΣ ( M RB ) ij + ( 1 - β ) Σ ( M RW ) ij
( W WR ) ij = ( M WR ) ij Σ ( M WR ) ij
其中,α表示图书类型节点访问作者类型节点的概率,而(1-α)则是图书类型节点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,1-β表示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下: 
d A d B d R d W
其中dA、dB、dR和dW分别表示A、B、R和W类型节点的矢量,设置 
Figure GSA00000064496100041
若X类型的节点i与该图书直接相连,否则 
Figure GSA00000064496100042
使用随机行走模型公式s=(1-λ)WTs+λd迭代计算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点的概率,1-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式: 
Q R 0 I G
其中Q和R代表转移矩阵W中对应的区域,IG代表在已经转变成吸收态的节点集合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长: 
tA=λtDA+(1-λ)tBWBA+A
tB=λtDB+(1-λ)(tAWAB+tRWRB)+B
tR=λtDR+(1-λ)(tBWBR+tW(WWR)Q)+R
t W = λ tD W + ( 1 - λ ) t R ( W RW ) Q + Q W
其中,Dj是一个矩阵,其值可由对应矢量(dj)T复制|Q|行而得,其中|Q|表示Q矩阵大小,(WRW)Q和(WWR)Q对应于按照范式重新排列后的WRW和WWR,ti表示随机行走从节点i开始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下: 
t A t B t R t Q W
其中tX表示类型节点X的期望步长,tQ W表示未排序的候补关键词节点的期望步数,再定义一个值全部为1的常量矢量c: 
c A c B c R c Q W
其中cX表示类型节点X的常量矢量,cQ W表示长度和Q一样的常量矢量;将期望步长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候补关键词作为关键词。 
本发明与现有技术相比具有的有益效果: 
1)该方法综合考虑了同一作者著作的风格和主题一致性、书评与图书内容的相关性以及读者对书评质量与图书主题的反馈,提取的关键词正确率高; 
2)该方法充分覆盖不同读者对图书的不同角度的书评,不仅包含了主流的书评意见也考虑进少数读者的看法,提取的关键词更加多样化; 
3)该方法的数据来自于互联网,书评数量庞大、涵盖面广,能够给大量图书提供关键词。 
具体实施方式
图书关键字的自动生成方法包括以下步骤: 
(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词; 
(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数,利用公式WIKIIDF(i)=log(N/W)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数; 
(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图; 
(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。 
所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图步骤包括:将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系 设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余作者之间的关系设为0;设置书评与图书之间的关系,将图书相对于其书评的关系权重设为1,否则为0;将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r=(log(RC+1)+1)·min(TL/100,1)来衡量,其中r表示书评相对于图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含的候补关键词的关系的权重使用公式w=TF(i,j)·WIKIIDF(i)来衡量,其中w表示关系权重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用维基百科衡量器候补关键词i得到的全局权重,TF的计算公式如下:TF(i,j)=freq(i)/length(j),其中,freq表示一个候补关键词在该图书评论中出现的次数,length表示该图书评论包含的词语总数。 
使用以下相邻矩阵M表示四部图: 
0 M AB 0 0 M BA 0 M BR 0 0 M RB 0 M RW 0 0 M WR 0
其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,MAB、MBA、MBR、MRB、MRW和MWR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节点在该四部图不相邻,Mij值为0,否则为对应的边的权重。 
所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括:将相邻矩阵M归一化得到转移矩阵W: 
0 M AB 0 0 M BA 0 M BR 0 0 M RB 0 M RW 0 0 M WR 0
其中W的各个部分的归一化公式如下: 
( W AB ) ij = ( M AB ) ij Σ ( M AB ) ij
( W BA ) ij = α ( M BA ) ij αΣ ( M BA ) ij + ( 1 - α ) Σ ( M BR ) ij
( W BR ) ij = ( 1 - α ) ( M BR ) ij αΣ ( M BA ) ij + ( 1 - α ) Σ ( M BR ) ij
( W RB ) ij = ( 1 - β ) ( M RW ) ij βΣ ( M RB ) ij + ( 1 - β ) Σ ( M RW ) ij
( W RW ) ij = β ( M RB ) ij βΣ ( M RB ) ij + ( 1 - β ) Σ ( M RW ) ij
( W WR ) ij = ( M WR ) ij Σ ( M WR ) ij
其中,α表示图书类型节点访问作者类型节点的概率,而(1-α)则是图书类型节点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,1-β表示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下: 
d A d B d R d W
其中dA、dB、dR和dW分别表示A、B、R和W类型节点的矢量,设置 
Figure GSA00000064496100078
若X类型的节点i与该图书直接相连,否则 
Figure GSA00000064496100079
使用随机行走模型公式s=(1-λ)WTs+λd迭代计算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点的概率,1-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式: 
Q R 0 I G
其中Q和R代表转移矩阵W中对应的区域,IG代表在已经转变成吸收态的节点集合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长: 
tA=λtDA+(1-λ)tBWBA+A
tB=λtDB+(1-λ)(tAWAB+tRWRB)+B
tR=λtDR+(1-λ)(tBWBR+tW(WWR)Q)+R
t W = λ tD W + ( 1 - λ ) t R ( W RW ) Q + Q W
其中,Dj是一个矩阵,其值可由对应矢量(dj)T复制|Q|行而得,其中|Q|表示Q矩阵大小,(WRW)Q和(WWR)Q对应于按照范式重新排列后的WRWWR,ti表示随机行走从节点i开始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下: 
t A t B t R t Q W
其中tX表示类型节点X的期望步长,tQ W表示未排序的候补关键词节点的期望步数,再定义一个值全部为1的常量矢量c: 
c A c B c R c Q W
其中cX表示类型节点X的常量矢量,cQ W表示长度和Q一样的常量矢量;将期望步长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候补关键词作为关键词。 
实施例
以图书《基地》为例,图书关键词自动生成方法的具体实施的技术方案及步骤如下: 
1.确定图书与作者的对应关系,从互联网上抓取对应图书的评论,分词, 标注词性,将其中的名词作为候补关键词 
1)本发明在确定图书与作者的对应关系时直接利用编目专家为数字图书馆内图书编著的著作关系。如《基地》的作者为阿西莫夫,该作者同时有《第二基地》等基地系列和《机器人》系统等著作。 
2)利用爬虫,从豆瓣网(http://www.douban.com)等富含书评的互联网上抓取对应图书的书评论网页。分析网页,将其包含的书评文本抽取并保存。在此例中,将基地系列和机器人系统的书评全部抓取并提取文本。 
3)利用已有中文分词器将书评切分,利用词性标注器对分词结果标注词性,只将名词(包括人名、地名、物名和专业词汇等名词)保存下来。 
2.维基百科衡量器,过滤噪音词汇 
对候补关键词中词汇计算WIKI_IDF,将值过低(<2)的词和过高(>13)的词直接过滤,不加入以后的四部图中。 
3.将作者、图书、评论和词合并成四部图 
如所述四部图组成,按照不同的权重设置赋值相邻矩阵 
4.以图书为中心的吸收态的随机行走,挑选出多样性的关键词 
1)以图书为中心,赋值属性矢量d。与该图书有直接关系的作者、书评和词汇项的值为1,其余为0。 
2)对该四部图进行随机行走,将词汇按照静态分布概率从高到低排列,取第一序位的词作为候选关键词。在此例中为科幻。 
3)将第一序位词节点的状态转变为吸收态,接下来计算四部图的各个节点的期望步长。 
4)将期望步长最大的节点挑选为第二候选关键词,也将其转为吸收态,继续计算四部图中各个节点的期望步长。在此例子中为谢顿。 
5)将期望步长最大的节点挑选为第三候选词,此例中为心灵史学。按照以上步骤重复选择候选词。 

Claims (3)

1.一种图书关键字的自动生成方法,其特征在于包括以下步骤:
(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词;
(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数,利用公式WIKIIDF(i)=log(N/M)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数;
(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图;
(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。
2.根据权利要求1所述的一种图书关键字的自动生成方法,其特征在于所述的将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图步骤包括:将作者、图书、书评和候补关键词视为图模型中不同类型的四种节点并用对应的数字代号代表,将四种节点之间的关系视为边,其中只将不同类型节点之间包含的作者与图书的关系、图书与书评的关系以及书评与候补关键词的关系三种直接关系设为边,设置作者与图书之间的著作关系,将图书和其第一作者之间的关系权重设为1,和其余作者之间的关系设为0;设置书评与图书之间的关系,将图书相对于其书评的关系权重设为1,否则为0;将书评相对于图书的关系权重使用基于流行度和文本质量两个方面的公式r=(log(RC+1)+1)·min(TL/100,1)来衡量,其中r表示书评相对于图书的关系权重,RC表示该书评被用户推荐的次数,TL表示书评包含的词总数,min表示取TL/100与1之间的最小值;设置书评与候补关键词之间的关系,将书评与其文本内包含的候补关键词的关系的权重使用公式w=TF(i,j)·WIKIIDF(i)来衡量,其中w表示关系权重,i表示某候补关键词,j表示对应的图书评论,WIKI_IDF(i)指的是利用维基百科衡量器候补关键词i得到的全局权重,TF的计算公式如下:TF(i,j)=freq(i)/length(j),其中,freq表示一个候 补关键词在该图书评论中出现的次数,length表示该图书评论包含的词语总数,使用以下相邻矩阵M表示四部图:
其中,A、B、R和W分别表示作者、图书、图书评论和候补关键词四种节点集合,MAB、MBA、MBR、MRB、MRW和MWR分别表示从节点类型A出发到节点类型B、从节点类型B出发到节点类型A、从节点类型B出发到节点类型R、从节点类型R出发到节点类型B、从节点类型R出发到节点类型W和从节点类型W出发到节点类型R的有向边的相邻小矩阵,如果i和j节点在该四部图不相邻,Mij值为0,否则为对应的边的权重。
3.根据权利要求1所述的一种图书关键字的自动生成方法,其特征在于所述基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字步骤包括:将相邻矩阵M归一化得到转移矩阵W:
其中W的各个部分的归一化公式如下:
Figure FSB00000617552100023
Figure FSB00000617552100024
Figure FSB00000617552100025
Figure FSB00000617552100026
Figure FSB00000617552100031
其中,α表示图书类型节点访问作者类型节点的概率,而(1-α)则是图书类型节点访问书评类型中的节点的概率,β表示书评类型节点访问图书类型节点的概率,1-β表示书评类型节点访问候补关键词类型节点的概率;设置代表作者、图书、书评和候补关键词的节点是否与该图书直接相关的图书偏好矢量d,矢量d的结构如下:
Figure FSB00000617552100032
其中dA、dB、dR和dW分别表示A、B、R和W类型节点的矢量,设置 
Figure FSB00000617552100033
若X类型的节点i与该图书直接相连,否则 
Figure FSB00000617552100034
使用随机行走模型公式s=(1-λ)WTs+λd迭代计算全部节点的静态分布概率,其中d表示图书偏好矢量,λ表示随机行走访问d中的节点的概率,1-λ表示访问其在图上的相邻节点的概率,s表示图上各个点的静态分布,W表示归一化后的转移矩阵;将候补关键词节点中静态概率最大的节点转变为吸收态,将从该节点出发的所有边的权重设为0,然后继续进行随机行走;将状态转移矩阵转变为以下范式:
Figure FSB00000617552100035
其中Q和R代表转移矩阵W中对应的区域,IG代表在已经转变成吸收态的节点集合G上的单位矩阵;使用以下期望步长计算公式迭代计算各个节点的期望步长:
tA=λtDA+(1-λ)tBWBA+A
tB=λtDB+(1-λ)(tAWAB+tRWRB)+B
tR=λtDR+(1-λ)(tBWBR+tW(WWR)Q)+R
Figure FSB00000617552100036
其中,Dj是一个矩阵,其值可由对应矢量(dj)T复制|Q|行而得,其中|Q|表示Q矩阵大小,(WRW)Q和(WWR)Q对应于按照范式重新排列后的WRW和WWR,ti表示随 机行走从节点i开始到被吸收之前总的期望步数,期望步数在所述四部图上的表示如下:
Figure FSB00000617552100041
其中tX表示类型节点X的期望步长, 表示未排序的候补关键词节点的期望步数,再定义一个值全部为1的常量矢量c:
Figure FSB00000617552100043
其中cX表示类型节点X的常量矢量, 
Figure FSB00000617552100044
表示长度和Q一样的常量矢量;将期望步长最大的候选关键词节点挑选出并设为吸收态,再使用期望步长计算公式迭代计算各个节点的期望步长;重复以上步骤,一直到转变为吸收态的候补关键词数目足够为止,将这些候补关键词作为关键词。 
CN2010101331535A 2010-03-26 2010-03-26 一种图书关键字自动生成的方法 Expired - Fee Related CN101826102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101331535A CN101826102B (zh) 2010-03-26 2010-03-26 一种图书关键字自动生成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101331535A CN101826102B (zh) 2010-03-26 2010-03-26 一种图书关键字自动生成的方法

Publications (2)

Publication Number Publication Date
CN101826102A CN101826102A (zh) 2010-09-08
CN101826102B true CN101826102B (zh) 2012-07-25

Family

ID=42690020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101331535A Expired - Fee Related CN101826102B (zh) 2010-03-26 2010-03-26 一种图书关键字自动生成的方法

Country Status (1)

Country Link
CN (1) CN101826102B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306298B (zh) * 2011-07-19 2012-12-12 北京航空航天大学 一种基于Wiki的图像分类体系动态演化方法
CN103136228A (zh) * 2011-11-25 2013-06-05 阿里巴巴集团控股有限公司 一种图片搜索方法以及图片搜索装置
WO2016120883A1 (en) 2015-01-30 2016-08-04 Hewlett Packard Enterprise Development Lp Generation of digital documents
CN106484672A (zh) * 2015-08-27 2017-03-08 北大方正集团有限公司 词汇识别方法和词汇识别系统
CN107402960B (zh) * 2017-06-15 2020-11-10 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
CN110737774A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN109885766A (zh) * 2019-02-11 2019-06-14 武汉理工大学 一种基于书评的书籍推荐方法及系统
CN111898034A (zh) * 2020-09-29 2020-11-06 江西汉辰信息技术股份有限公司 新闻内容推送方法、装置、存储介质及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535430A (zh) * 2000-03-29 2004-10-06 �ʼҷ����ֵ������޹�˾ 提供自动产生关键字检索判据及其人类工程学表示的用户界面
CN1598816A (zh) * 2003-09-16 2005-03-23 崇越科技股份有限公司 自动产生关键词分类表的系统
JP2007334429A (ja) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535430A (zh) * 2000-03-29 2004-10-06 �ʼҷ����ֵ������޹�˾ 提供自动产生关键字检索判据及其人类工程学表示的用户界面
CN1598816A (zh) * 2003-09-16 2005-03-23 崇越科技股份有限公司 自动产生关键词分类表的系统
JP2007334429A (ja) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体

Also Published As

Publication number Publication date
CN101826102A (zh) 2010-09-08

Similar Documents

Publication Publication Date Title
CN101826102B (zh) 一种图书关键字自动生成的方法
Tuarob et al. Automatic tag recommendation for metadata annotation using probabilistic topic modeling
CN103440329B (zh) 权威作者和高质量论文推荐系统和推荐方法
CN103020164B (zh) 一种基于多语义分析和个性化排序的语义检索方法
US8463786B2 (en) Extracting topically related keywords from related documents
CN101828185B (zh) 部分地基于多个点进特征来排名并提供搜索结果
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及系统
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN103294781B (zh) 一种用于处理页面数据的方法与设备
Wan et al. Automatic labeling of topic models using text summaries
Chen et al. Websrc: A dataset for web-based structural reading comprehension
CN105930469A (zh) 基于Hadoop的个性化旅游推荐系统及方法
Asadi et al. Pseudo test collections for learning web search ranking functions
CN106227815A (zh) 一种多模态线索的个性化应用程序功能推荐方法及其系统
CN102663139A (zh) 一种情感词典构建方法及系统
CN101706812B (zh) 一种文档的检索方法和装置
CN109408600A (zh) 一种基于数据挖掘的图书荐购方法
CN102760149B (zh) 开源软件主题自动标注方法
CN105389329A (zh) 一种基于群体评论的开源软件推荐方法
CN105930507A (zh) 一种获得用户的Web浏览兴趣的方法及装置
Zhu et al. SEO keyword analysis and its application in website editing system
CN106485525A (zh) 信息处理方法及装置
CN106599122A (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
CN107766419A (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
Zhang et al. A latent usage approach for clustering web transaction and building user profile

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120725

Termination date: 20150326

EXPY Termination of patent right or utility model