CN103714118A - 图书交叉阅读方法 - Google Patents
图书交叉阅读方法 Download PDFInfo
- Publication number
- CN103714118A CN103714118A CN201310601627.8A CN201310601627A CN103714118A CN 103714118 A CN103714118 A CN 103714118A CN 201310601627 A CN201310601627 A CN 201310601627A CN 103714118 A CN103714118 A CN 103714118A
- Authority
- CN
- China
- Prior art keywords
- document
- chapters
- sections
- books
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 abstract 1
- 206010012601 diabetes mellitus Diseases 0.000 description 7
- 238000011282 treatment Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图书交叉阅读方法。图书交叉阅读推荐技术本质上是一种基于文档的检索,即将一个文档作为查询,去检索语义相似的其他文档,图书交叉阅读推荐技术首先将每个图书章节通过语义相似敏感哈希算法生成文档指纹,并保证两个语义相似的图书章节的文档指纹其海明距离也相近,然后将文档指纹和图书元数据、章节标题等异构信息统一建立索引,最后基于用户的访问日志和图书元数据信息,重排序候选推荐文档。本发明将图书章节投影到语义相关的文档指纹中,并将文档指纹、元数据信息、章节标题、用户点击等异构信息融入到统一索引中,基于用户的阅读章节,快速有效地推荐语义相关的其他章节,辅助用户对图书内容的理解、实现交叉阅读。
Description
技术领域
本发明涉及图书内容检索方法,尤其涉及一种图书交叉阅读方法。
背景技术
随着数字图书馆的日益发展,用户在阅读图书时,希望能够阅读与当前内容相关的其他图书章节,迫切希望数字图书馆中能够提供一种图书交叉阅读推荐服务。
图书交叉阅读本质上是一种基于文档的查询(query bydocument),即将一个文档作为查询(query),去检索内容相似的其他文档。传统的文本检索系统一般设计为基于关键词的检索,也就是查询词一般较短。如果直接采用传统的文本检索方法,则性能会下降。比如,如果采用倒排索引的方法,那么由于查询文档中含有较多的词汇,于是合并每个词汇的检索结果需要耗费较长的时间。
文档也可以表达成高维向量,于是query by document可以转化为高维向量的检索问题。哈希方法已在高维向量的检索中被广泛使用。比如,相似度哈希算法可以将相似的文档投影为相似的指纹(即,压缩的二进制码),可用于文档相似检测和检索。然而,在相似度哈希算法中,所有的单词被同等看待,而不考虑单词的语义信息。然而,文档的单词可以被分为文档相关单词、主题相关单词以及背景单词。一般而言,越能反映文档语义的单词越重要,所以需要把这些信息也融入到文档指纹中,使得文档指纹更加能反映主题。
此外,即使把图书章节都转化为了二进制码形式的文档指纹,从海量的文档指纹中查找相似的文档也是个极大的挑战。假设每本书有50个章节(以小节为单位),则100万册图书可形成5000万个指纹,传统采用线性扫描的文档指纹检索方式将不再适用。另外,除了文档内容外,图书的元数据信息、章节标题、用户的点击等信息在文档相似检索中也非常有用。但是很难将这些异构的信息融入到同一个索引中进行统一检索。
在图书交叉阅读中,不仅需要将图书章节投影到语义相关的指纹中,还需要将文档指纹、元数据信息、章节标题、用户点击等信息融入到了同一个索引中。
发明内容
本发明的目的是为克服上述现有方法未能考虑文档单词的语义性,不能有效检索海量哈希编码等缺点,提供一种图书交叉阅读方法。
本发明解决其技术问题采用的技术方案如下:
图书交叉阅读方法的步骤如下:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据和调节文档向量为 其中
2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词wi,应用哈希函数θ,得到向量对于中的每个元素如果那么 否则最后处理完文档d中的所有单词后,对于所有的{i=1……l},l是向量V的长度,如果Vi>0,那么Fi=1,否则Fi=0。
所述的步骤(2)包括:
3.1对一个长度为z的文档指纹F,分割为m个子串,每个子串的长度是z/m,每个子串标识为p1,p2,…,pm;
3.4返回语义单词及其权重:
3.5将语义单词集合S和章节标题、图书分类信息通过倒排索引技
术统一索引到同一个索引文件中。
所述步骤(3)包括:
4.1系统从统一索引中返回K个相似文档,记为候选文档D={d1,d2,…dK},其中d1是查询文档,两个文档间的距离用计算,其中表示两文档之间的海明距离,cos _dist(di,dj)表示两文档元数据之间的距离,其中α∈[0,1);
4.2根据用户的点击日志,每个文档可以被其它的文档表示为:
4.3计算关联矩阵W,元素Wij = exp(-d2(di,dj )/2σ2)* (1 +Rij ),Wii = 0,其中σ∈[0,1),然后,对称规范化矩阵W得到矩阵S,其中D是对角矩阵,其元素(i,i)等于矩阵S第i行的行和;
4.4通过流行排序算法对候选文档排序:输入返回的前K个相似文档的初始排序向量y=[y1,y2,…,yK]T,其中y1=1,其他元素为零,并定义排序函数f=[f1,f2,…fK]T,随机初始化该排序函数f,迭代计算f(t+1)=α*S*f(t)+(1-α)*y直至收敛,其中α∈[0,1),最后通过收敛的f,对文档进行排序。
本发明方法与现有技术相比具有的有益效果:
1.该方法融合图书章节特征向量和图书类别特征向量,将图书章节的主题信息编码到图书章节指纹中,使得图书章节指纹更加准确;
2.该方法能将图书章节指纹和图书元数据等异构信息纳入到统一索引中,从而实现快速检索;
3.该方法在文档指纹相似性、元数据和用户反馈信息上构建流形空间,并在其上重排序,使得检索结果更加准确。
附图说明
图1是本发明方法系统架构图;
图2是文档指纹扩展示意图;
图3是“糖尿病的治疗”章节的推荐结果。
具体实施方式
图书交叉阅读方法包括如附图1所示的三个步骤:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征
向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈
希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据和调节文档向量为 其中
2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词wi,应用哈希函数θ,得到向量对于中的每个元素如果那么 否则最后处理完文档d中的所有单词后,对于所有的{i=1……l},l是向量V的长度,如果Vi>0,那么Fi=1,否则Fi=0。
所述的步骤(2)如附图2所示包括:
3.1对一个长度为z的文档指纹F,分割为m个子串,每个子串的长度是z/m,每个子串标识为p1,p2,…,pm;
3.5将语义单词集合S和章节标题、图书分类信息通过倒排索引技术统一索引到同一个索引文件中。
所述步骤(3)包括:
4.1系统从统一索引中返回K个相似文档,记为候选文档D={d1,d2,…dK},其中d1是查询文档,两个文档间的距离用计算,其中表示两文档之间的海明距离,cos _dist(di,dj)表示两文档元数据之间的距离,其中α∈[0,1);
4.2根据用户的点击日志,每个文档可以被其它的文档表示为:
4.3计算关联矩阵W,元素Wij=exp(-d2(di,dj)/2σ2)*(1+Rij),Wii = 0,其中σ∈[0,1),然后,对称规范化矩阵W得到矩阵S,其中D是对角矩阵,其元素(i,i)等于矩阵S第i行的行和;
4.4通过流行排序算法对候选文档排序:输入返回的前K个相似文档的初始排序向量y=[y1,y2,…,yK]T,其中y1=1,其他元素为零,并定义排序函数f=[f1,f2,…fK]T,随机初始化该排序函数f,迭代计算f(t+1)=α*S*f(t)+(1-α)*y直至收敛,其中α∈[0,1),最后通过收敛的f,对文档进行排序。
实施例
如附图3所示,给出了图书交叉阅读方法的一个应用实例。下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)在系统已经预处理所有图书章节,得到章节文档指纹,并建立统一索引的情况下。假设用户对“糖尿病的治疗”这一章节感兴趣,点击“推荐”按钮,系统获取该章节的文本信息和该图书的类别信息等元数据。
(2)通过分词、词性标注、停用词去除和词组检测等自然语言处理技术提取该章节文本包含的名词或名词词组。
(3)对该章节计算文档特征向量和该章节所属的类别特征向量,并依据类别特征向量调节章节的文档特征向量,从而使得文档特征向量具有更强的语义表达能力。
(4)对章节的特征向量应用相似度哈希算法,得到文档指纹F,这里我们设定生成的文档指纹长度为64位。
(5)将步骤(4)得到的64位文档指纹F,以8位长度为单位分割,首先得到8个子串,对于每个子串,分别翻转其中的每一位,得到新的子串集合,即每一个子串对应8个新生成的子串,并且计算每个子串的权重,最后将所有的子串转换为十进制整数,作为语义单词集合。
(6)将步骤(5)得到的语义单词和元数据一起检索步骤(1)已经建立的统一索引,得到候选推荐文档集合。
(7)对候选推荐文档集合计算文档之间的距离,并利用用户的点击数据,计算文档之间的点击相似度。然后计算推荐文档之间的关联矩阵,并利用流形排序算法进行相关性排序。
(8)根据排序结果,选择前10个最相关的章节作为推荐章节,返回给用户,如附图3。
本实例的运行结果在附图3中显示,用户正在阅读的章节是“糖尿病的治疗”,推荐的结果是“治疗糖尿病的常用药物”、“糖尿病治疗的展望”、“糖尿病饮食治疗的原则”、“糖尿病治疗的目标”等,可以看出推荐的章节与查询章节的有很强的语义相关性,准确度较高,图书交叉阅读方法有良好的实用价值和应用前景。
Claims (4)
1.一种图书交叉阅读方法,其特征在于包括它的步骤如下:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
2.根据权利要求1所述的图书交叉阅读方法,其特征在于所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据和调节文档向量为 其中
4.根据权利要求1所述的图书交叉阅读方法,其特征在于所述步骤
(3)包括:
4.1系统从统一索引中返回K个相似文档,记为候选文档D={d1,d2,…dK},其中d1是查询文档,两个文档间的距离用d(di,dj)=α*hamming_dist(di,dj) +(1-α)*cos _dist(di,dj)计算,其中hamming_dist(di,dj)表示两文档之间的海明距离,cos _dist(di,dj)表示两文档元数据之间的距离,其中α∈[0,1);
4.2根据用户的点击日志,每个文档可以被其它的文档表示为:
4.3计算关联矩阵W,元素Wij = exp(-d2(di,dj )/2σ2)* (1 +Rij ),Wii = 0,其中σ∈[0,1),然后,对称规范化矩阵W得到矩阵S,其中D是对角矩阵,其元素(i,i)等于矩阵S第i行的行和;
4.4通过流行排序算法对候选文档排序:输入返回的前K个相似文档的初始排序向量y=[y1,y2,…,yK]T,其中y1=1,其他元素为零,并定义排序函数f=[f1,f2,…fK]T,随机初始化该排序函数f,迭代计算f(t+1)=α*S*f(t)+(1-α)*y直至收敛,其中α∈[0,1),最后通过收敛的f,对文档进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310601627.8A CN103714118B (zh) | 2013-11-22 | 2013-11-22 | 图书交叉阅读方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310601627.8A CN103714118B (zh) | 2013-11-22 | 2013-11-22 | 图书交叉阅读方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103714118A true CN103714118A (zh) | 2014-04-09 |
CN103714118B CN103714118B (zh) | 2017-02-08 |
Family
ID=50407093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310601627.8A Active CN103714118B (zh) | 2013-11-22 | 2013-11-22 | 图书交叉阅读方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103714118B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615768A (zh) * | 2015-02-13 | 2015-05-13 | 广州神马移动信息科技有限公司 | 文档的同本识别方法及装置 |
CN106326388A (zh) * | 2016-08-17 | 2017-01-11 | 乐视控股(北京)有限公司 | 一种信息处理方法和装置 |
CN106649597A (zh) * | 2016-11-22 | 2017-05-10 | 浙江大学 | 一种基于图书内容的图书书后索引自动构建方法 |
CN110019785A (zh) * | 2017-09-29 | 2019-07-16 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN111400695A (zh) * | 2020-04-09 | 2020-07-10 | 中国建设银行股份有限公司 | 一种设备指纹生成方法、装置、设备和介质 |
WO2020211393A1 (zh) * | 2019-04-16 | 2020-10-22 | 深圳壹账通智能科技有限公司 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
CN113378539A (zh) * | 2021-06-29 | 2021-09-10 | 华南理工大学 | 一种面向标准文档编写的模板推荐方法 |
CN114298696A (zh) * | 2022-01-24 | 2022-04-08 | 嘉应学院 | 一种基于云计算的数字图书馆知识管理系统 |
CN118069828A (zh) * | 2024-04-22 | 2024-05-24 | 曲阜师范大学 | 一种基于异质图和语义融合的文章推荐方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3132738B2 (ja) * | 1992-12-10 | 2001-02-05 | ゼロックス コーポレーション | テキスト検索方法 |
CN102012905B (zh) * | 2010-09-07 | 2016-10-26 | 郭恒勋 | 可作学习平台的手机、可定位的媒体播放处理方法及其装置 |
CN102542046A (zh) * | 2011-12-27 | 2012-07-04 | 纽海信息技术(上海)有限公司 | 一种基于图书内容的图书推荐方法 |
CN103294671B (zh) * | 2012-02-22 | 2018-04-27 | 深圳市世纪光速信息技术有限公司 | 文档的检测方法及系统 |
CN102902744B (zh) * | 2012-09-17 | 2015-02-11 | 杭州东信北邮信息技术有限公司 | 一种图书推荐方法 |
-
2013
- 2013-11-22 CN CN201310601627.8A patent/CN103714118B/zh active Active
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615768A (zh) * | 2015-02-13 | 2015-05-13 | 广州神马移动信息科技有限公司 | 文档的同本识别方法及装置 |
CN106326388A (zh) * | 2016-08-17 | 2017-01-11 | 乐视控股(北京)有限公司 | 一种信息处理方法和装置 |
CN106649597A (zh) * | 2016-11-22 | 2017-05-10 | 浙江大学 | 一种基于图书内容的图书书后索引自动构建方法 |
CN106649597B (zh) * | 2016-11-22 | 2019-10-01 | 浙江大学 | 一种基于图书内容的图书书后索引自动构建方法 |
CN110019785A (zh) * | 2017-09-29 | 2019-07-16 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN110019785B (zh) * | 2017-09-29 | 2022-03-01 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
WO2020211393A1 (zh) * | 2019-04-16 | 2020-10-22 | 深圳壹账通智能科技有限公司 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
CN111400695A (zh) * | 2020-04-09 | 2020-07-10 | 中国建设银行股份有限公司 | 一种设备指纹生成方法、装置、设备和介质 |
CN111400695B (zh) * | 2020-04-09 | 2024-05-10 | 中国建设银行股份有限公司 | 一种设备指纹生成方法、装置、设备和介质 |
CN113378539A (zh) * | 2021-06-29 | 2021-09-10 | 华南理工大学 | 一种面向标准文档编写的模板推荐方法 |
CN114298696A (zh) * | 2022-01-24 | 2022-04-08 | 嘉应学院 | 一种基于云计算的数字图书馆知识管理系统 |
CN118069828A (zh) * | 2024-04-22 | 2024-05-24 | 曲阜师范大学 | 一种基于异质图和语义融合的文章推荐方法 |
CN118069828B (zh) * | 2024-04-22 | 2024-06-28 | 曲阜师范大学 | 一种基于异质图和语义融合的文章推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103714118B (zh) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Blanco et al. | Fast and space-efficient entity linking for queries | |
CN103714118A (zh) | 图书交叉阅读方法 | |
Bhagavatula et al. | Methods for exploring and mining tables on wikipedia | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
Qi et al. | Exploring context and content links in social media: A latent space method | |
Wang et al. | Learning to reduce the semantic gap in web image retrieval and annotation | |
Pereira et al. | Using web information for author name disambiguation | |
Muñoz et al. | Using linked data to mine RDF from wikipedia's tables | |
US8341112B2 (en) | Annotation by search | |
Sun et al. | Tag‐based social image retrieval: An empirical evaluation | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
Oh et al. | CV-PCR: a context-guided value-driven framework for patent citation recommendation | |
Liu et al. | An image-based near-duplicate video retrieval and localization using improved edit distance | |
Shawon et al. | Website classification using word based multiple n-gram models and random search oriented feature parameters | |
CN103207864A (zh) | 一种网络小说内容近似度比对方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN105740448A (zh) | 面向话题的多微博时序文摘方法 | |
Li et al. | Efficiently mining high quality phrases from texts | |
CN111325033B (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
Jiang et al. | Delving deep into personal photo and video search | |
Escalante et al. | Multimodal indexing based on semantic cohesion for image retrieval | |
Wu et al. | Searching online book documents and analyzing book citations | |
Liang et al. | An efficient hierarchical near-duplicate video detection algorithm based on deep semantic features | |
Phadnis et al. | Framework for document retrieval using latent semantic indexing | |
CN106919565B (zh) | 一种基于MapReduce的文档检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |