CN103714118A - 图书交叉阅读方法 - Google Patents

图书交叉阅读方法 Download PDF

Info

Publication number
CN103714118A
CN103714118A CN201310601627.8A CN201310601627A CN103714118A CN 103714118 A CN103714118 A CN 103714118A CN 201310601627 A CN201310601627 A CN 201310601627A CN 103714118 A CN103714118 A CN 103714118A
Authority
CN
China
Prior art keywords
document
chapters
sections
books
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310601627.8A
Other languages
English (en)
Other versions
CN103714118B (zh
Inventor
鲁伟明
杨善松
魏宝刚
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310601627.8A priority Critical patent/CN103714118B/zh
Publication of CN103714118A publication Critical patent/CN103714118A/zh
Application granted granted Critical
Publication of CN103714118B publication Critical patent/CN103714118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图书交叉阅读方法。图书交叉阅读推荐技术本质上是一种基于文档的检索,即将一个文档作为查询,去检索语义相似的其他文档,图书交叉阅读推荐技术首先将每个图书章节通过语义相似敏感哈希算法生成文档指纹,并保证两个语义相似的图书章节的文档指纹其海明距离也相近,然后将文档指纹和图书元数据、章节标题等异构信息统一建立索引,最后基于用户的访问日志和图书元数据信息,重排序候选推荐文档。本发明将图书章节投影到语义相关的文档指纹中,并将文档指纹、元数据信息、章节标题、用户点击等异构信息融入到统一索引中,基于用户的阅读章节,快速有效地推荐语义相关的其他章节,辅助用户对图书内容的理解、实现交叉阅读。

Description

图书交叉阅读方法
技术领域
本发明涉及图书内容检索方法,尤其涉及一种图书交叉阅读方法。
背景技术
随着数字图书馆的日益发展,用户在阅读图书时,希望能够阅读与当前内容相关的其他图书章节,迫切希望数字图书馆中能够提供一种图书交叉阅读推荐服务。
图书交叉阅读本质上是一种基于文档的查询(query bydocument),即将一个文档作为查询(query),去检索内容相似的其他文档。传统的文本检索系统一般设计为基于关键词的检索,也就是查询词一般较短。如果直接采用传统的文本检索方法,则性能会下降。比如,如果采用倒排索引的方法,那么由于查询文档中含有较多的词汇,于是合并每个词汇的检索结果需要耗费较长的时间。
文档也可以表达成高维向量,于是query by document可以转化为高维向量的检索问题。哈希方法已在高维向量的检索中被广泛使用。比如,相似度哈希算法可以将相似的文档投影为相似的指纹(即,压缩的二进制码),可用于文档相似检测和检索。然而,在相似度哈希算法中,所有的单词被同等看待,而不考虑单词的语义信息。然而,文档的单词可以被分为文档相关单词、主题相关单词以及背景单词。一般而言,越能反映文档语义的单词越重要,所以需要把这些信息也融入到文档指纹中,使得文档指纹更加能反映主题。
此外,即使把图书章节都转化为了二进制码形式的文档指纹,从海量的文档指纹中查找相似的文档也是个极大的挑战。假设每本书有50个章节(以小节为单位),则100万册图书可形成5000万个指纹,传统采用线性扫描的文档指纹检索方式将不再适用。另外,除了文档内容外,图书的元数据信息、章节标题、用户的点击等信息在文档相似检索中也非常有用。但是很难将这些异构的信息融入到同一个索引中进行统一检索。
在图书交叉阅读中,不仅需要将图书章节投影到语义相关的指纹中,还需要将文档指纹、元数据信息、章节标题、用户点击等信息融入到了同一个索引中。
发明内容
本发明的目的是为克服上述现有方法未能考虑文档单词的语义性,不能有效检索海量哈希编码等缺点,提供一种图书交叉阅读方法。
本发明解决其技术问题采用的技术方案如下:
图书交叉阅读方法的步骤如下:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用
Figure BDA0000420395500000032
表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据
Figure BDA0000420395500000034
调节文档向量为 d ′ → = { w ′ 1 ( d ) , w ′ 2 ( d ) , . . . , w ′ N ( d ) } , 其中 w i ′ ( d ) = w i ( d ) * w i ( c ) ;
2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词wi,应用哈希函数θ,得到向量
Figure BDA0000420395500000038
对于中的每个元素
Figure BDA00004203955000000310
如果
Figure BDA00004203955000000311
那么
Figure BDA00004203955000000323
Figure BDA00004203955000000313
否则
Figure BDA00004203955000000314
最后处理完文档d中的所有单词后,对于所有的{i=1……l},l是向量V的长度,如果Vi>0,那么Fi=1,否则Fi=0。
所述的步骤(2)包括:
3.1对一个长度为z的文档指纹F,分割为m个子串,每个子串的长度是z/m,每个子串标识为p1,p2,…,pm
3.2通过翻转pi的第j位,获得新的子串
Figure BDA00004203955000000315
其中πj是第j位的位置,子串
Figure BDA00004203955000000316
的权重是
Figure BDA00004203955000000317
其中τ∈[0,1);
3.3通过公式I(pi)=v(pi)+(i-1)*2f/m
Figure BDA00004203955000000319
将子串pi
Figure BDA00004203955000000320
转换为整数,其中v(pi)和
Figure BDA00004203955000000321
分别是二进制子串pi
Figure BDA00004203955000000322
的相应的十进制数值;
3.4返回语义单词及其权重:
3.5将语义单词集合S和章节标题、图书分类信息通过倒排索引技
术统一索引到同一个索引文件中。
所述步骤(3)包括:
4.1系统从统一索引中返回K个相似文档,记为候选文档D={d1,d2,…dK},其中d1是查询文档,两个文档间的距离用
Figure BDA0000420395500000048
计算,其中
Figure BDA0000420395500000049
表示两文档之间的海明距离,cos _dist(di,dj)表示两文档元数据之间的距离,其中α∈[0,1);
4.2根据用户的点击日志,每个文档可以被其它的文档表示为:
Figure BDA0000420395500000042
其中Di是文档di被点击过的文档集合,其中wj是被文档
Figure BDA0000420395500000043
点击的次数,归一化权重为这里M是所有的文档数,Mj是其Di中含有的文档的个数,文档di可被表示为:
Figure BDA0000420395500000046
两个文档di和dj的点击相似度则为:
Figure BDA0000420395500000047
4.3计算关联矩阵W,元素Wij = exp(-d2(di,dj )/2σ2)* (1 +Rij ),Wii = 0,其中σ∈[0,1),然后,对称规范化矩阵W得到矩阵S,
Figure BDA00004203955000000410
其中D是对角矩阵,其元素(i,i)等于矩阵S第i行的行和;
4.4通过流行排序算法对候选文档排序:输入返回的前K个相似文档的初始排序向量y=[y1,y2,…,yK]T,其中y1=1,其他元素为零,并定义排序函数f=[f1,f2,…fK]T,随机初始化该排序函数f,迭代计算f(t+1)=α*S*f(t)+(1-α)*y直至收敛,其中α∈[0,1),最后通过收敛的f,对文档进行排序。
本发明方法与现有技术相比具有的有益效果:
1.该方法融合图书章节特征向量和图书类别特征向量,将图书章节的主题信息编码到图书章节指纹中,使得图书章节指纹更加准确;
2.该方法能将图书章节指纹和图书元数据等异构信息纳入到统一索引中,从而实现快速检索;
3.该方法在文档指纹相似性、元数据和用户反馈信息上构建流形空间,并在其上重排序,使得检索结果更加准确。
附图说明
图1是本发明方法系统架构图;
图2是文档指纹扩展示意图;
图3是“糖尿病的治疗”章节的推荐结果。
具体实施方式
图书交叉阅读方法包括如附图1所示的三个步骤:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征
向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈
希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用
Figure BDA0000420395500000061
表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用
Figure BDA00004203955000000614
表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据
Figure BDA0000420395500000062
调节文档向量为 d ′ → = { w ′ 1 ( d ) , w ′ 2 ( d ) , . . . , w ′ N ( d ) } , 其中 w i ′ ( d ) = w i ( d ) * w i ( c ) ;
2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量
Figure BDA0000420395500000066
并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词wi,应用哈希函数θ,得到向量
Figure BDA0000420395500000067
对于
Figure BDA0000420395500000068
中的每个元素
Figure BDA0000420395500000069
如果
Figure BDA00004203955000000610
那么
Figure BDA00004203955000000615
Figure BDA00004203955000000612
否则
Figure BDA00004203955000000613
最后处理完文档d中的所有单词后,对于所有的{i=1……l},l是向量V的长度,如果Vi>0,那么Fi=1,否则Fi=0。
所述的步骤(2)如附图2所示包括:
3.1对一个长度为z的文档指纹F,分割为m个子串,每个子串的长度是z/m,每个子串标识为p1,p2,…,pm
3.2通过翻转pi的第j位,获得新的子串
Figure BDA0000420395500000071
其中πj是第j位的位置,子串
Figure BDA0000420395500000072
的权重是
Figure BDA0000420395500000073
其中τ∈[0,1);
3.3通过公式I(pi)=v(pi)+(i-1)*2f/m
Figure BDA0000420395500000074
Figure BDA0000420395500000075
将子串pi
Figure BDA0000420395500000076
转换为整数,其中v(pi)和
Figure BDA0000420395500000077
分别是二进制子串pi
Figure BDA0000420395500000078
的相应的十进制数值;
3.4返回语义单词及其权重:
Figure BDA0000420395500000079
3.5将语义单词集合S和章节标题、图书分类信息通过倒排索引技术统一索引到同一个索引文件中。
所述步骤(3)包括:
4.1系统从统一索引中返回K个相似文档,记为候选文档D={d1,d2,…dK},其中d1是查询文档,两个文档间的距离用
Figure BDA00004203955000000715
计算,其中
Figure BDA00004203955000000716
表示两文档之间的海明距离,cos _dist(di,dj)表示两文档元数据之间的距离,其中α∈[0,1);
4.2根据用户的点击日志,每个文档可以被其它的文档表示为:
Figure BDA00004203955000000710
其中Di是文档di被点击过的文档集合,其中wj是被文档
Figure BDA00004203955000000717
点击的次数,归一化权重为
Figure BDA00004203955000000711
这里M是所有的文档数,Mj是其Di中含有
Figure BDA00004203955000000712
的文档的个数,文档di可被表示为:
Figure BDA00004203955000000713
两个文档di和dj的点击相似度则为:
Figure BDA00004203955000000714
4.3计算关联矩阵W,元素Wij=exp(-d2(di,dj)/2σ2)*(1+Rij),Wii = 0,其中σ∈[0,1),然后,对称规范化矩阵W得到矩阵S,
Figure BDA0000420395500000081
其中D是对角矩阵,其元素(i,i)等于矩阵S第i行的行和;
4.4通过流行排序算法对候选文档排序:输入返回的前K个相似文档的初始排序向量y=[y1,y2,…,yK]T,其中y1=1,其他元素为零,并定义排序函数f=[f1,f2,…fK]T,随机初始化该排序函数f,迭代计算f(t+1)=α*S*f(t)+(1-α)*y直至收敛,其中α∈[0,1),最后通过收敛的f,对文档进行排序。
实施例
如附图3所示,给出了图书交叉阅读方法的一个应用实例。下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)在系统已经预处理所有图书章节,得到章节文档指纹,并建立统一索引的情况下。假设用户对“糖尿病的治疗”这一章节感兴趣,点击“推荐”按钮,系统获取该章节的文本信息和该图书的类别信息等元数据。
(2)通过分词、词性标注、停用词去除和词组检测等自然语言处理技术提取该章节文本包含的名词或名词词组。
(3)对该章节计算文档特征向量和该章节所属的类别特征向量,并依据类别特征向量调节章节的文档特征向量,从而使得文档特征向量具有更强的语义表达能力。
(4)对章节的特征向量应用相似度哈希算法,得到文档指纹F,这里我们设定生成的文档指纹长度为64位。
(5)将步骤(4)得到的64位文档指纹F,以8位长度为单位分割,首先得到8个子串,对于每个子串,分别翻转其中的每一位,得到新的子串集合,即每一个子串对应8个新生成的子串,并且计算每个子串的权重,最后将所有的子串转换为十进制整数,作为语义单词集合。
(6)将步骤(5)得到的语义单词和元数据一起检索步骤(1)已经建立的统一索引,得到候选推荐文档集合。
(7)对候选推荐文档集合计算文档之间的距离,并利用用户的点击数据,计算文档之间的点击相似度。然后计算推荐文档之间的关联矩阵,并利用流形排序算法进行相关性排序。
(8)根据排序结果,选择前10个最相关的章节作为推荐章节,返回给用户,如附图3。
本实例的运行结果在附图3中显示,用户正在阅读的章节是“糖尿病的治疗”,推荐的结果是“治疗糖尿病的常用药物”、“糖尿病治疗的展望”、“糖尿病饮食治疗的原则”、“糖尿病治疗的目标”等,可以看出推荐的章节与查询章节的有很强的语义相关性,准确度较高,图书交叉阅读方法有良好的实用价值和应用前景。

Claims (4)

1.一种图书交叉阅读方法,其特征在于包括它的步骤如下:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
2.根据权利要求1所述的图书交叉阅读方法,其特征在于所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用
Figure FDA0000420395490000021
表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用
Figure FDA0000420395490000022
表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据
Figure FDA0000420395490000023
Figure FDA0000420395490000024
调节文档向量为 d ′ → = { w ′ 1 ( d ) , w ′ 2 ( d ) , . . . , w ′ N ( d ) } , 其中 w i ′ ( d ) = w i ( d ) * w i ( c ) ;
2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量
Figure FDA0000420395490000027
并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词wi,应用哈希函数θ,得到向量
Figure FDA0000420395490000028
对于
Figure FDA0000420395490000029
中的每个元素
Figure FDA00004203954900000210
如果
Figure FDA00004203954900000211
那么
Figure FDA00004203954900000212
Figure FDA00004203954900000213
否则
Figure FDA00004203954900000214
最后处理完文档d中的所有单词后,对于所有的{i=1……l},l是向量V的长度,如果Vi>0,那么Fi=1,否则Fi=0。
3.根据权利要求1所述的图书交叉阅读方法,其特征在于所述的步
骤(2)包括:
3.1对一个长度为z的文档指纹F,分割为m个子串,每个子串的长度是z/m,每个子串标识为p1,p2,…,pm
3.2通过翻转pi的第j位,获得新的子串
Figure FDA00004203954900000215
其中πj是第j位的位置,子串
Figure FDA00004203954900000216
的权重是
Figure FDA00004203954900000217
其中τ∈[0,1);
3.3通过公式I(pi)=v(pi)+(i-1)*2f/m
Figure FDA00004203954900000219
将子串pi
Figure FDA00004203954900000220
转换为整数,其中v(pi)和
Figure FDA00004203954900000221
分别是二进制子串pi
Figure FDA00004203954900000222
的相应的十进制数值;
3.4返回语义单词及其权重:
3.5将语义单词集合S和章节标题、图书分类信息通过倒排索引技术统一索引到同一个索引文件中。
4.根据权利要求1所述的图书交叉阅读方法,其特征在于所述步骤
(3)包括:
4.1系统从统一索引中返回K个相似文档,记为候选文档D={d1,d2,…dK},其中d1是查询文档,两个文档间的距离用d(di,dj)=α*hamming_dist(di,dj) +(1-α)*cos _dist(di,dj)计算,其中hamming_dist(di,dj)表示两文档之间的海明距离,cos _dist(di,dj)表示两文档元数据之间的距离,其中α∈[0,1);
4.2根据用户的点击日志,每个文档可以被其它的文档表示为:
D i = { < d i 1 , w 1 > , < d i 2 , w 2 > , . . . . . . , < d i N , w N > }
其中Di是文档di被点击过的文档集合,其中wj是被文档
Figure FDA0000420395490000032
点击的次数,归一化权重为
Figure FDA0000420395490000033
这里M是所有的文档数,Mj是其Di中含有
Figure FDA0000420395490000034
的文档的个数,文档di可被表示为:
Figure FDA0000420395490000035
两个文档di和dj的点击相似度则为:
Figure FDA0000420395490000036
4.3计算关联矩阵W,元素Wij = exp(-d2(di,dj )/2σ2)* (1 +Rij ),Wii = 0,其中σ∈[0,1),然后,对称规范化矩阵W得到矩阵S,
Figure FDA0000420395490000037
其中D是对角矩阵,其元素(i,i)等于矩阵S第i行的行和;
4.4通过流行排序算法对候选文档排序:输入返回的前K个相似文档的初始排序向量y=[y1,y2,…,yK]T,其中y1=1,其他元素为零,并定义排序函数f=[f1,f2,…fK]T,随机初始化该排序函数f,迭代计算f(t+1)=α*S*f(t)+(1-α)*y直至收敛,其中α∈[0,1),最后通过收敛的f,对文档进行排序。
CN201310601627.8A 2013-11-22 2013-11-22 图书交叉阅读方法 Active CN103714118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310601627.8A CN103714118B (zh) 2013-11-22 2013-11-22 图书交叉阅读方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310601627.8A CN103714118B (zh) 2013-11-22 2013-11-22 图书交叉阅读方法

Publications (2)

Publication Number Publication Date
CN103714118A true CN103714118A (zh) 2014-04-09
CN103714118B CN103714118B (zh) 2017-02-08

Family

ID=50407093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310601627.8A Active CN103714118B (zh) 2013-11-22 2013-11-22 图书交叉阅读方法

Country Status (1)

Country Link
CN (1) CN103714118B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615768A (zh) * 2015-02-13 2015-05-13 广州神马移动信息科技有限公司 文档的同本识别方法及装置
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106649597A (zh) * 2016-11-22 2017-05-10 浙江大学 一种基于图书内容的图书书后索引自动构建方法
CN110019785A (zh) * 2017-09-29 2019-07-16 北京国双科技有限公司 一种文本分类方法及装置
CN111400695A (zh) * 2020-04-09 2020-07-10 中国建设银行股份有限公司 一种设备指纹生成方法、装置、设备和介质
WO2020211393A1 (zh) * 2019-04-16 2020-10-22 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN113378539A (zh) * 2021-06-29 2021-09-10 华南理工大学 一种面向标准文档编写的模板推荐方法
CN114298696A (zh) * 2022-01-24 2022-04-08 嘉应学院 一种基于云计算的数字图书馆知识管理系统
CN118069828A (zh) * 2024-04-22 2024-05-24 曲阜师范大学 一种基于异质图和语义融合的文章推荐方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3132738B2 (ja) * 1992-12-10 2001-02-05 ゼロックス コーポレーション テキスト検索方法
CN102012905B (zh) * 2010-09-07 2016-10-26 郭恒勋 可作学习平台的手机、可定位的媒体播放处理方法及其装置
CN102542046A (zh) * 2011-12-27 2012-07-04 纽海信息技术(上海)有限公司 一种基于图书内容的图书推荐方法
CN103294671B (zh) * 2012-02-22 2018-04-27 深圳市世纪光速信息技术有限公司 文档的检测方法及系统
CN102902744B (zh) * 2012-09-17 2015-02-11 杭州东信北邮信息技术有限公司 一种图书推荐方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615768A (zh) * 2015-02-13 2015-05-13 广州神马移动信息科技有限公司 文档的同本识别方法及装置
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106649597A (zh) * 2016-11-22 2017-05-10 浙江大学 一种基于图书内容的图书书后索引自动构建方法
CN106649597B (zh) * 2016-11-22 2019-10-01 浙江大学 一种基于图书内容的图书书后索引自动构建方法
CN110019785A (zh) * 2017-09-29 2019-07-16 北京国双科技有限公司 一种文本分类方法及装置
CN110019785B (zh) * 2017-09-29 2022-03-01 北京国双科技有限公司 一种文本分类方法及装置
WO2020211393A1 (zh) * 2019-04-16 2020-10-22 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN111400695A (zh) * 2020-04-09 2020-07-10 中国建设银行股份有限公司 一种设备指纹生成方法、装置、设备和介质
CN111400695B (zh) * 2020-04-09 2024-05-10 中国建设银行股份有限公司 一种设备指纹生成方法、装置、设备和介质
CN113378539A (zh) * 2021-06-29 2021-09-10 华南理工大学 一种面向标准文档编写的模板推荐方法
CN114298696A (zh) * 2022-01-24 2022-04-08 嘉应学院 一种基于云计算的数字图书馆知识管理系统
CN118069828A (zh) * 2024-04-22 2024-05-24 曲阜师范大学 一种基于异质图和语义融合的文章推荐方法
CN118069828B (zh) * 2024-04-22 2024-06-28 曲阜师范大学 一种基于异质图和语义融合的文章推荐方法

Also Published As

Publication number Publication date
CN103714118B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
Blanco et al. Fast and space-efficient entity linking for queries
CN103714118A (zh) 图书交叉阅读方法
Bhagavatula et al. Methods for exploring and mining tables on wikipedia
Qi et al. Exploring context and content links in social media: A latent space method
Wang et al. Learning to reduce the semantic gap in web image retrieval and annotation
Pereira et al. Using web information for author name disambiguation
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
Muñoz et al. Using linked data to mine RDF from wikipedia's tables
US8341112B2 (en) Annotation by search
Sun et al. Tag‐based social image retrieval: An empirical evaluation
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
Oh et al. CV-PCR: a context-guided value-driven framework for patent citation recommendation
Liu et al. An image-based near-duplicate video retrieval and localization using improved edit distance
CN103207864A (zh) 一种网络小说内容近似度比对方法
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN105740448A (zh) 面向话题的多微博时序文摘方法
Li et al. Efficiently mining high quality phrases from texts
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
Jiang et al. Delving deep into personal photo and video search
Escalante et al. Multimodal indexing based on semantic cohesion for image retrieval
Brochier et al. Impact of the query set on the evaluation of expert finding systems
Liang et al. An efficient hierarchical near-duplicate video detection algorithm based on deep semantic features
Phadnis et al. Framework for document retrieval using latent semantic indexing
CN106919565B (zh) 一种基于MapReduce的文档检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant