CN113642323B - 基于网络结构的研究热点演变趋势检测方法、介质及设备 - Google Patents

基于网络结构的研究热点演变趋势检测方法、介质及设备 Download PDF

Info

Publication number
CN113642323B
CN113642323B CN202110952630.9A CN202110952630A CN113642323B CN 113642323 B CN113642323 B CN 113642323B CN 202110952630 A CN202110952630 A CN 202110952630A CN 113642323 B CN113642323 B CN 113642323B
Authority
CN
China
Prior art keywords
study
research
year
group
evolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110952630.9A
Other languages
English (en)
Other versions
CN113642323A (zh
Inventor
胡艳梅
刘佳
刘宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN202110952630.9A priority Critical patent/CN113642323B/zh
Publication of CN113642323A publication Critical patent/CN113642323A/zh
Application granted granted Critical
Publication of CN113642323B publication Critical patent/CN113642323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于网络结构的研究热点演变趋势检测方法、介质及设备,其包括以下步骤:A依照年份划分子集,将论文数据集以年为单位进行切割,得到每年的子论文数据集;B针对单一年的子论文数据集,构建作者合著网,其中每个节点代表一个作者,每条边代表对应的两个作者合著了论文,边的权值则设定为合著的论文篇数;为每个节点设定一个属性:对应作者在当年所发表论文的关键词集;C研究群体检测,包括对研究群体的划分和研究群体的表示;D研究热点检测;E对所有年的作者合著网进行研究群体和研究热点检测;F研究群体和研究热点演变分析,得到研究热点的演变趋势图。

Description

基于网络结构的研究热点演变趋势检测方法、介质及设备
技术领域
本发明属于文献研究热点检测和研究热点演变趋势检测技术领域,具体涉及一种基于网络结构的研究热点演变趋势检测方法。
背景技术
随着科学研究的持续深入以及跨学科研究的不断融合,文献资料作为学者研究的成果展示,逐渐在各个学术领域中被大量积累。学术领域的研究热点也随着时间不断变化。如何运用科学、智能的方法对文献进行综合分析,从庞大的文献数据库资源中,快速准确地检测出研究主题和研究热点并掌握其演变趋势,对科研人员选取研究方向,制定研究计划具有重要意义。
科研人员在进行学术调研时,为了快速掌握学术领域的研究热点,除了通过自身科研经验,查询、阅读和整理出学术领域研究热点外,常采用传统文献计量学的方法,即统计不同研究方向对应的文献发表数量以及相关作者发文数量等,确定研究热点。但仅通过关键词搜索文献来确定研究方向会在一定程度上漏掉某些研究内容,从而使得结果不够准确。同时,以上方法均需要科研人员亲自参与,势必会在结果上掺杂主观因素。
常见的文献计量工具通过突显检测查找出一段时间内数量急剧上升的突显词并以此为前沿术语。不过,科研人员在使用文献计量工具时普遍采用如下做法:以突显词作为特征词构建词共现网络,然后通过词共现网络探索研究热点。词共现网络是当下研究热点提取的主要方式。有学者(对比专利一、一种基于知识图谱的科学研究热点分析与预测方法)首先构建关键词共现网络,然后根据关键词共现频率衡量网络的点间距离并以此聚类关键词确定研究主题,接着将学科信息等结构化数据关联到关键词进行数据融合,形成科学知识图谱,最后解读知识图谱探测主题演变趋势。还有学者(对比专利二、融合词语义与词共现信息的研究前沿识别方法及设备)选择将论文数据进行时间切片并依据关键词共现频率构建单一时间切片的论文数据的关键词共现网络,然后使用词向量嵌入技术表示关键词并计算关键词之间语义相似度并对关键词共现网络节点做出基于语义的调整。进一步地,对调整后的关键词网络进行聚类形成多个簇团。最后对相邻时间切片的簇团进行相似度计算形成主题演化脉络图并基于此探究前沿主题及其热门技术。这些方法仅能从关键词共现的角度寻找研究热点,而未考虑研究热点的主要贡献者:论文作者。
科研合作是当今科学研究的主流形式,而作者间合作的相异紧密度会产生不同的研究群体。并且,作者合作的前提必定是具有相似或相同的研究内容,这使得同一研究群体内的部分研究内容是趋于一致的。因此,研究热点与背后的研究群体息息相关。越多的研究群体关注的研究内容就越能成为研究热点。作者合著网直观地体现了作者之间的合作关系。因此,本发明从作者合著网出发,利用其拓扑结构找出所有研究群体,然后通过研究群体中各作者所著论文关键词的语义确定研究主题,最后在各研究主题中依据关键词频次高低检测出研究热点。通过对不同年份的论文集做上述处理,除了可以检测出研究热点的演变趋势外,还能检测出为研究热点的形成做出贡献的研究群体。进一步地,通过追踪研究群体及其研究主题的演变情况,还可获得研究群体和研究主题的演变脉络。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于网络结构的研究热点趋势检测方法、介质及设备。本发明的技术方案如下:
基于网络结构的研究热点演变趋势检测方法,其包括以下步骤:
A依照年份划分子集
将论文数据集以年为单位进行切割,得到每年的子论文数据集;
B构建作者合著网
针对单一年的子论文数据集,构建作者合著网,其中每个节点代表一个作者,每条边代表对应的两个作者合著了论文,边的权值则设定为合著的论文篇数;为每个节点设定一个属性:对应作者在当年所发表论文的关键词集;
C研究群体检测,包括对研究群体的划分和研究群体的表示;
D研究热点检测;
E循环步骤B-D,直到所有年的研究群体和研究热点都已检测;
F研究群体和研究热点演变分析,得到研究热点的演变趋势图。
一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如以上任一项所述的基于网络结构的研究热点提取分析方法。
一种基于网络结构的研究热点演变趋势检测设备,其包括所述的计算机可读存储介质以及处理器,处理器用于调用和处理计算机可读存储介质中存储的计算机程序。
本发明的优点及有益效果如下:
本发明突破了传统探索研究热点普遍使用词共现网络的束缚,认为研究热点的形成离不开研究群体的支持,越多研究群体关注的研究内容越热门。本发明从作者合著网出发,通过检测研究群体达到检测研究热点及其演变趋势的目的。除此之外,本发明还可以:1)检测出为研究热点的形成做出贡献的研究群体,以及这些研究群体同时还关注了哪些其他研究内容;2)获得研究群体及其研究主题的演变脉络,为研究热点的演变做出更清晰的解释。
附图说明
图1是本发明提供优选实施例基于网络结构的研究热点趋势检测方法的工作流程图;
图2是研究群体-研究主题-研究热点关系图
图3是研究群体演变图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为基于网络结构的研究热点趋势检测方法的工作流程图,具体包括以下步骤:
A依照年份划分子集
将论文数据集以年为单位进行切割,得到每年的子论文数据集。
B构建作者合著网
针对单一年的子论文数据集,构建作者合著网。其中每个节点代表一个作者,每条边代表对应的两个作者合著了论文,边的权值则设定为合著的论文篇数。为每个节点设定一个属性:对应作者在当年所发表论文的关键词集。
C研究群体检测
C.a研究群体划分
利用作者合著网的拓扑结构将作者划分到不同的研究群体,同一研究群体内的作者交互密集(即合作密切),而不同研究群体之间的作者交互稀疏(即合作很少或几乎不合作)。
C.b研究群体表示
C1:针对每个研究群体,合并其所有作者的关键词集,并累计每个关键词出现的频次,然后将频次最高的3个关键词挑选出来构成该研究群体的高频关键词集。
C2:运用word2vec模型对研究群体的高频关键词集进行向量化:针对每个高频关键词,通过word2vec模型得到其中每个单词的词向量,然后将这些词向量的均值作为该高频关键词的词向量。
D研究热点检测
D1:研究主题检测:汇总所有研究群体对应的高频关键词集,并依照词向量对这些关键词进行聚类,每个类对应一个研究主题。
D2:研究群体-研究主题-研究热点关系图构建:1)针对每个研究群体,通过高频关键词集关联到研究主题:如果某个高频关键词属于某个研究主题,则这个研究主题就是该研究群体的一个研究主题。2)关联研究主题与研究热点:针对每个研究主题,其中频次高于阈值的关键词即为一个研究热点。
E循环步骤B-D,直到所有年的研究群体和研究热点都已检测;
F研究群体和研究热点演变分析
F1:对相邻年份的研究群体进行相似度计算,构建研究群体的演变图。
第t年的研究群体到第t+1年的研究群体/>的相似度计算如下:
第t+1年的研究群体到第t年的研究群体/>的相似度计算如下:
研究群体演变图通过如下步骤构建:a)将每个研究群体看作一个节点,同一年份的研究群体对应的节点为一组。b)在相邻年份的节点组之间建立连边:1)针对第t+1年的研究群体如果对于第t年的每个研究群体/>满足:/>和/>均小于阈值,则/>为一个在t+1年新形成的研究群体,且对应的节点不与第t年的任何节点产生连接。2)针对第t+1年的研究群体/>如果在第t年仅存在一个研究群体/>满足:和/>均大于阈值,则/>和/>为相邻年份的同一研究群体,且对应节点由一条边连接起来。3)针对第t年的研究群体/>如果在第t+1年的每一个研究群体/>满足:/>和/>均小于阈值,则/>在第t+1年消失了,且对应的节点不与第t+1年的任何节点产生连接。4)针对第t+1年的研究群体/>如果在第t年存在两个研究群体/>和/>满足:/> 和/>均大于阈值,则/>和/>在第t+1年合并为/>且/>和/>对应的节点分别连接到/>对应的节点。5)针对第t年的研究群体/>如果在第t+1年存在两个研究群体/>和/>满足:/>和/>均大于阈值,则/>在第t+1年分裂为/>和/>且/>对应的节点连接到/>和/>对应的节点。
F2:通过上述的研究群体演变图,还可进一步得出对应研究主题的演变:如果研究群体对应的一个研究主题/>与研究群体/>对应的一个研究主题/>之间的相似度大于阈值,则/>和/>属于同一个研究主题,也就是说相应研究群体的研究主题未发生明显变化。两个研究主题的相似度采用词向量均值的欧氏距离进行度量,计算公式如下:
其中vi为研究主题中全部关键词的词向量均值,vj为研究主题/>中全部关键词的词向量均值,K为词向量维度。
F3:统计每年的研究热点,以年份为横轴,频次为纵轴,画出每个研究热点的频次变化曲线,即可得到研究热点的演变趋势图。
图2为研究群体-研究主题-研究热点关系图。根据研究群体C的高频关键词集关联得到研究主题T,一个研究群体的研究内容可能属于多个研究主题,一个研究主题可能被多个研究群体关注。研究热点H由研究主题的高频关键词确定。
图3为研究群体演变图。研究群体随着时间变化可能发生的演变事件分为:分裂、消失、保持不变、合并和出现等。其中t时刻的研究群体C1在t+1时刻分裂成了C1,1和C1,2;t时刻的研究群体C2在t+1时刻消失;t时刻的研究群体C3在t+1时刻保持不变;t时刻的C4、C5在t+1时刻合并成一个研究群体C4,5;研究群体C6则是在t+1时刻新出现的一个研究群体。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (3)

1.基于网络结构的研究热点演变趋势检测方法,其特征在于,包括以下步骤:
A依照年份划分子集
将论文数据集以年为单位进行切割,得到每年的子论文数据集;
B构建作者合著网
针对单一年的子论文数据集,构建作者合著网,其中每个节点代表一个作者,每条边代表对应的两个作者合著了论文,边的权值则设定为合著的论文篇数;为每个节点设定一个属性:对应作者在当年所发表论文的关键词集;
C研究群体检测,包括对研究群体的划分和研究群体的表示;
D研究热点检测;
E循环步骤B-D,直到所有年的研究群体和研究热点都已检测;
F研究群体和研究热点演变分析,得到研究热点的演变趋势图;
所述步骤F研究群体和研究热点演变分析,具体包括:
F1:对相邻年份的研究群体进行相似度计算,构建研究群体的演变图;
第t年的研究群体到第t+1年的研究群体/>的相似度计算如下:
第t+1年的研究群体到第t年的研究群体/>的相似度计算如下:
F3:通过上述的研究群体演变图,得出对应研究主题的演变:
F4:统计每年的研究热点,以年份为横轴,频次为纵轴,画出每个研究热点的频次变化曲线,即可得到研究热点的演变趋势图;
所述F1研究群体演变图通过如下步骤构建:a)将每个研究群体看作一个节点,同一年份的研究群体对应的节点为一组;b)在相邻年份的节点组之间建立连边:1)针对第t+1年的研究群体如果对于第t年的每个研究群体/>满足:/>和/>均小于阈值,则/>为一个在t+1年新形成的研究群体,且对应的节点不与第t年的任何节点产生连接;2)针对第t+1年的研究群体/>如果在第t年仅存在一个研究群体/>满足:和/>均大于阈值,则/>和/>为相邻年份的同一研究群体,且对应节点由一条边连接起来;3)针对第t年的研究群体/>如果在第t+1年的每一个研究群体/>满足:/>和/>均小于阈值,则/>在第t+1年消失了,且对应的节点不与第t+1年的任何节点产生连接;4)针对第t+1年的研究群体/>如果在第t年存在两个研究群体/>和/>满足:/> 和/>均大于阈值,则/>和/>在第t+1年合并为/>且/>和/>对应的节点分别连接到/>对应的节点;5)针对第t年的研究群体/>如果在第t+1年存在两个研究群体/>和/>满足:/>和/>均大于阈值,则/>在第t+1年分裂为/>和/>且/>对应的节点连接到/>和/>对应的节点;
所述步骤C研究群体检测具体包括以下步骤:
C.a研究群体划分
利用作者合著网的拓扑结构将作者划分到不同的研究群体,同一研究群体内的作者交互密集即合作密切,而不同研究群体之间的作者交互稀疏,即合作很少或几乎不合作;
C.b研究群体表示
C1:针对每个研究群体,合并其所有作者的关键词集,并累计每个关键词出现的频次,然后将频次最高的3个关键词挑选出来构成该研究群体的高频关键词集;
C2:运用word2vec模型对研究群体的高频关键词集进行向量化:针对每个高频关键词,通过word2vec模型得到其中每个单词的词向量,然后将这些词向量的均值作为该高频关键词的词向量;
所述步骤D研究热点检测具体包括:
D1:研究主题检测:汇总所有研究群体对应的高频关键词集,并依照词向量对这些关键词进行聚类,每个类对应一个研究主题;
D2:研究群体-研究主题-研究热点关系图构建:1)针对每个研究群体,通过高频关键词集关联到研究主题:如果某个高频关键词属于某个研究主题,则这个研究主题就是该研究群体的一个研究主题;2)关联研究主题与研究热点:针对每个研究主题,其中频次高于阈值的关键词即为一个研究热点;
所述步骤F3:通过上述的研究群体演变图,得出对应研究主题的演变,具体包括:
如果研究群体对应的一个研究主题/>与相连接的研究群体/>对应的一个研究主题/>之间的相似度大于阈值,则/>和/>属于同一个研究主题,也就是说相应研究群体的研究主题未发生明显变化,两个研究主题的相似度采用词向量均值的欧氏距离进行度量,计算公式如下:
其中vi为研究主题中全部关键词的词向量均值,vj为研究主题/>中全部关键词的词向量均值,K为词向量维度。
2.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1所述的基于网络结构的研究热点演变趋势检测方法。
3.一种基于网络结构的研究热点演变趋势检测设备,其特征在于,包括如权利要求2所述的计算机可读存储介质以及处理器,处理器用于调用和处理计算机可读存储介质中存储的计算机程序。
CN202110952630.9A 2021-08-19 2021-08-19 基于网络结构的研究热点演变趋势检测方法、介质及设备 Active CN113642323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110952630.9A CN113642323B (zh) 2021-08-19 2021-08-19 基于网络结构的研究热点演变趋势检测方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110952630.9A CN113642323B (zh) 2021-08-19 2021-08-19 基于网络结构的研究热点演变趋势检测方法、介质及设备

Publications (2)

Publication Number Publication Date
CN113642323A CN113642323A (zh) 2021-11-12
CN113642323B true CN113642323B (zh) 2023-09-22

Family

ID=78422814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110952630.9A Active CN113642323B (zh) 2021-08-19 2021-08-19 基于网络结构的研究热点演变趋势检测方法、介质及设备

Country Status (1)

Country Link
CN (1) CN113642323B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984667A (zh) * 2018-06-29 2018-12-11 郑州中博奥信息技术有限公司 一种舆情监测系统
CN109858675A (zh) * 2018-12-28 2019-06-07 中译语通科技股份有限公司 一种专家学术生命力周期预测方法
CN110222172A (zh) * 2019-05-15 2019-09-10 北京邮电大学 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111126758A (zh) * 2019-11-15 2020-05-08 中南大学 一种学术团队影响力传播预测方法、设备和存储介质
CN112633011A (zh) * 2020-12-30 2021-04-09 清华大学 融合词语义与词共现信息的研究前沿识别方法及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US8606815B2 (en) * 2008-12-09 2013-12-10 International Business Machines Corporation Systems and methods for analyzing electronic text
US10075406B2 (en) * 2012-10-18 2018-09-11 Tu Orbit Inc. System and method for location and time based social networking

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984667A (zh) * 2018-06-29 2018-12-11 郑州中博奥信息技术有限公司 一种舆情监测系统
CN109858675A (zh) * 2018-12-28 2019-06-07 中译语通科技股份有限公司 一种专家学术生命力周期预测方法
CN110222172A (zh) * 2019-05-15 2019-09-10 北京邮电大学 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111126758A (zh) * 2019-11-15 2020-05-08 中南大学 一种学术团队影响力传播预测方法、设备和存储介质
CN112633011A (zh) * 2020-12-30 2021-04-09 清华大学 融合词语义与词共现信息的研究前沿识别方法及设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Topic Discovery in Scientific Literature;Yujian Huang 等;《Computer Supported Cooperative Work and Social Computing》;第481-491页 *
周玉芳.基于社会网络分析的我国学科服务研究的主要学术合作群体和热点研究.《现代情报》.2012,第32卷(第3期),第49-53页. *
基于网络结构的正则化逻辑回归;胡艳梅 等;《计算机科学》;第48卷(第7期);第281-291页 *
杨绍文.时序网络社区演化研究及应用——以DBLP中合著关系为例.《中国优秀硕士学位论文全文数据库 基础科学辑》.2018,第29-32页. *
近十年信息检索领域的研究热点与演化趋势研究——基于 SIGIR会议论文的分析;李跃艳 等;《数据分析与知识发现》(第4期);第13-24页 *
野舰耘.基于复杂网络技术的合著网络主题演化研究及应用.《中国优秀硕士学位论文全文数据库 基础科学辑》.2020,第5、27、37-39页. *

Also Published As

Publication number Publication date
CN113642323A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN111324784B (zh) 一种字符串处理方法及装置
US8751511B2 (en) Ranking of search results based on microblog data
US8429173B1 (en) Method, system, and computer readable medium for identifying result images based on an image query
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
Sun et al. Tag‐based social image retrieval: An empirical evaluation
Rekabsaz et al. Exploration of a threshold for similarity based on uncertainty in word embedding
Li et al. Real time personalized search on social networks
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CN108804576B (zh) 一种基于链接分析的域名层级结构探测方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
WO2012141934A1 (en) Method and apparatus of determining product category information
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
Chinnov et al. An overview of topic discovery in Twitter communication through social media analytics
US20140006369A1 (en) Processing structured and unstructured data
EP2786275A1 (en) Method and apparatus for information searching
CN110019785B (zh) 一种文本分类方法及装置
Sapul et al. Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms
US8370363B2 (en) Hybrid neighborhood graph search for scalable visual indexing
CN113642323B (zh) 基于网络结构的研究热点演变趋势检测方法、介质及设备
Singh et al. Multi-feature segmentation and cluster based approach for product feature categorization
CN113672710A (zh) 一种基于分布式检索专利数据的方法和系统
Li et al. Research on hot news discovery model based on user interest and topic discovery
CN116644338B (zh) 基于混合相似度的文献主题分类方法、装置、设备及介质
Li et al. iTopic: Influential topic discovery from information networks via keyword query
CN110188301A (zh) 用于网站的信息聚合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant