CN110275955A - 文本类型的识别方法、装置、存储介质和处理器 - Google Patents

文本类型的识别方法、装置、存储介质和处理器 Download PDF

Info

Publication number
CN110275955A
CN110275955A CN201910544442.5A CN201910544442A CN110275955A CN 110275955 A CN110275955 A CN 110275955A CN 201910544442 A CN201910544442 A CN 201910544442A CN 110275955 A CN110275955 A CN 110275955A
Authority
CN
China
Prior art keywords
curve
text
type
times cited
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910544442.5A
Other languages
English (en)
Other versions
CN110275955B (zh
Inventor
王杨
余敏槠
单桂华
高阳
田东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201910544442.5A priority Critical patent/CN110275955B/zh
Publication of CN110275955A publication Critical patent/CN110275955A/zh
Application granted granted Critical
Publication of CN110275955B publication Critical patent/CN110275955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本类型的识别方法、装置、存储介质和处理器。该方法包括:获取第一文本,其中,第一文本用于获取至少一个第一目标文本;确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数,其中,第一时间段内的累积被引次数随着第一时间段内的时间的增加而增加;通过第一时间段内的累积被引次数识别第一文本的类型。通过本发明,达到了在对文本进行搜索时,对文本的类型进行识别的效果。

Description

文本类型的识别方法、装置、存储介质和处理器
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本类型的识别方法、装置、存储介质和处理器。
背景技术
目前,通常通过在搜索框中输入搜索关键词/主题,或者选择要检索的关键词/主题,来获得按照一定依据排序的大量相关文本,该排序依据通常为文本的被引次数。
然而,发表时间久远的文本因为积累被引次数的时间较长,排名通常比较靠前。这样的文本中通常包含大量的关注度逐年降低的文本。对于用户而言,这些文本的重要性不是很高,不需要花时间去阅读,用户可能关心的是哪些关键词/主题的文本是该领域中经久不衰的文本,这些关键词/主题的文本通常涉及该领域的基础理论和技术,可以帮助刚接触该领域的研究人员快速了解当前领域;用户还可能关心的是哪些关键词/主题的文本是所选领域中的热点文本,这些关键词/主题的文本通常涉及所选领域的前沿技术,可以帮助研究人员把握发展趋势,寻找发展机会。
因而,在系统返回的大量相关文本中,是无法明确关键词/主题的类型的,从而无法快速找到用户感兴趣的文本,用户无法知晓哪些是相关主题中备受关注的前沿文本,哪些是相关关键词/主题中经久不衰的经典文本,哪些相关关键词/主题中的文本涉及的技术和理论已经成熟,存在无法对文本的类型进行识别的技术问题。
针对现有技术中在对文本进行搜索时,无法对文本的类型进行识别的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种文本类型的识别方法、装置、存储介质和处理器,以至少解决在对文本进行搜索时,无法对文本的类型进行识别的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了一种文本类型的识别方法。该方法包括:获取第一文本,其中,第一文本用于获取至少一个第一目标文本;确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数,其中,第一时间段内的累积被引次数随着第一时间段内的时间的增加而增加;通过第一时间段内的累积被引次数识别第一文本的类型。
可选地,通过第一时间段内的累积被引次数识别第一文本的类型包括:通过第一时间段内的累积被引次数和预定累积被引次数确定目标参数;在目标参数符合目标条件的情况下,将与目标条件对应的预定类型确定为第一文本的类型,其中,预定类型通过预先对文本样本进行分类得到。
可选地,第一时间段内的累积被引次数与第一曲线相对应,预定累积被引次数与第二曲线相对应,第一曲线和第二曲线的自变量为第一时间段内的时间,通过第一时间段内的累积被引次数和预定累积被引次数确定目标参数包括:通过第一曲线和第二曲线所围成的面积,确定目标参数中的第一参数,其中,当面积所在区域在第二曲线下方时,第一参数大于零,当面积所在的区域在第二曲线的上方时,第一参数小于零;分别获取第一曲线上的多个目标点到第二曲线的距离,得到多个距离,并将多个距离中的最大距离确定为目标参数中的第二参数,其中,目标点通过目标时间和与目标时间对应的累积被引次数形成。
可选地,在目标参数符合目标条件的情况下,将与目标条件对应的预定类型确定为第一文本的类型包括以下之一:在第一曲线和第二曲线具有交点,且交点满足第一条件,第一参数满足第二条件,第二参数满足第三条件的情况下,将第一预定类型确定为第一文本的类型,其中,第一预定类型的第一文本的被关注度在距离当前时间最近的时间段呈上升趋势;在第一曲线和第二曲线无交点,且第二参数满足第四条件的情况下,将第二预定类型确定为第一文本的类型,其中,第二预定类型的第一文本的被引用次数的变化幅度在第一目标阈值范围内;在第一曲线和第二曲线具有交点,且交点满足第五条件,第一参数满足第六条件,第二参数满足第三条件的情况下,将第三预定类型确定为第一文本的类型,其中,第三预定类型的第一文本的被关注度在距离当前时间最近的时间段呈下降趋势。
可选地,在第一曲线和第二曲线具有交点,且交点满足第一条件,第一参数满足第二条件,第二参数满足第三条件的情况下,将第一预定类型确定为第一文本的类型包括:在第一曲线和第二曲线具有交点,交点对应的累积被引次数小于等于第一曲线上的第一点对应的累积被引次数,且大于第二曲线上的第二点对应的累积被引次数,第一参数大于第一阈值,第二参数大于等于第二阈值的情况下,将第一预定类型确定为第一文本的类型,其中,第一点与交点在第一曲线上左相邻或相同,第二点与交点在第一曲线上右相邻。
可选地,在第一曲线和第二曲线无交点,且第二参数满足第四条件的情况下,将第二预定类型确定为第一文本的类型包括:在第一曲线和第二曲线无交点,且第二参数小于第二阈值的情况下,将第二预定类型确定为第一文本的类型。
可选地,在第一曲线和第二曲线具有交点,且交点满足第五条件,第一参数满足第六条件,第二参数满足第三条件的情况下,将第三预定类型确定为第一文本的类型包括:在第一曲线和第二曲线具有交点,交点对应的累积被引次数大于等于第一曲线上的第一点对应的累积被引次数,且小于第二曲线上的第二点对应的累积被引次数,第一参数小于第一阈值,第二参数大于等于第二阈值的情况下,将第三预定类型确定为第一文本的类型,其中,第一点与交点在第一曲线上左相邻或相同,第二点与交点在第一曲线上右相邻。
可选地,在通过第一时间段内的累积被引次数识别第一文本的类型之前,该方法还包括:通过第二文本获取文本样本中的至少一个第二目标文本;获取至少一个第二目标文本在第二时间段内的历年被引次数和在第二时间段内的累积被引次数,其中,历年被引次数为至少一个第二目标文本在第二时间段内的被引次数之和与至少一个第二目标文本的数量之间的比值,第二时间段内的累积被引次数随着第二时间段内的时间的增加而增加;根据历年被引次数和第二时间段内的累积被引次数确定多个子预定类型;通过多个子预定类型确定预定类型。
可选地,历年被引次数与第三曲线相对应,第二时间段内的累积被引次数曲线与第四曲线相对应,预定累积被引次数与第二曲线相对应,第三曲线、第四曲线和第二曲线的自变量为第一时间段内的时间,根据历年被引次数和第二时间段内的累积被引次数确定多个子预定类型包括:将第三曲线在第二时间段内总体呈上升趋势,且第三曲线在距离当前时间最近的时间段对应的历年被引次数大于距离当前时间最远的时间段对应的历年被引次数,第四曲线呈凹形,且第四曲线与第二曲线除两端交点之外无交点的类型,确定为第一子预定类型;将第三曲线在距离当前时间最近的时间段呈上升趋势,在距离当前时间最近的时间段对应的历年被引次数和在距离当前时间最远的时间段对应的历年被引次数,均大于在距离当前时间最近的时间段和距离当前时间最远的时间段之间的时间段对应的历年被引次数,第四曲线与第二曲线具有除端点以外的多个交点,第四曲线中的在距离当前时间最近的交点之后的曲线呈凹形的类型,确定为第二子预定类型;将第三曲线的波动幅度在第二目标阈值范围内,第四曲线与第二曲线的走势相同的类型,确定为第三子预定类型;将第三曲线在距离当前时间最远的时间段对应的历年被引次数大于在距离当前时间最近的时间段对应的历年被引次数,第四曲线呈凸形,且第四曲线与第二曲线除两端交点之外无交点的类型,确定为第四子预定类型;将第三曲线在距离当前时间最近的时间段对应的历年被引次数和在距离当前时间最远的时间段对应的历年被引次数,均小于在距离当前时间最近的时间段和距离当前时间最远的时间段之间的时间段对应的历年被引次数,第四曲线与第二曲线具有除端点以外的多个交点,第四曲线中的在距离当前时间最近的交点之后的曲线呈凸形的类型,确定为第五子预定类型;将第三曲线的波动幅度超过第三目标阈值范围,第四曲线与第二曲线的走势相同的类型,确定为第六子预定类型。
可选地,通过多个子预定类型确定预定类型包括:将第一子预定类型和第二子预定类型确定为第一预定类型,其中,第一预定类型的文本的被关注度在距离当前时间最近的时间段呈上升趋势;将第三子预定类型确定为第二预定类型,其中,第二预定类型的文本的被引用次数的变化幅度在第一目标阈值范围内;将第四子预定类型、第五子预定类型和第六子预定类型确定为第三预定类型,其中,第三预定类型的文本的被关注度在距离当前时间最近的时间段呈下降趋势。
可选地,在通过第一时间段内的累积被引次数识别第一文本的类型之后,该方法还包括:将第一文本的类型通过目标标识显示在目标界面上,其中,目标界面用于显示至少一个第一目标文本。
为了实现上述目的,根据本发明的另一方面,还提供了一种文本类型的识别装置。该装置包括:获取单元,用于获取第一文本,其中,第一文本用于获取至少一个第一目标文本;确定单元,用于确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数,其中,第一时间段内的累积被引次数随着第一时间段内的时间的增加而增加;识别单元,用于通过第一时间段内的累积被引次数识别第一文本的类型。
为了实现上述目的,根据本发明的另一方面,还提供了一种存储介质。该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的文本类型的识别方法。
为了实现上述目的,根据本发明的另一方面,还提供了一种处理器。该处理器用于运行程序,其中,程序运行时执行本发明实施例的文本类型的识别方法。
通过本发明,采用获取第一文本,其中,第一文本用于获取至少一个第一目标文本;确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数,其中,第一时间段内的累积被引次数随着第一时间段内的时间的增加而增加;通过第一时间段内的累积被引次数识别第一文本的类型。也就是说,通过第一文本所获取到的目标文本的累积被引次数,来识别第一文本的类型,从而避免仅仅按照文本的被引次数返回搜索到的文本,导致无法识别文本的类型,解决了在对文本进行搜索时,无法对文本的类型进行识别的技术问题,达到了在对文本进行搜索时,对文本的类型进行识别的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本类型的识别方法的流程图;
图2是根据本发明实施例的一种六类文章的历年被引次数和历年累积被引次数曲线的示意图;
图3是根据本发明实施例的一种学术论文推荐系统的显示的界面示意图;以及
图4是根据本发明实施例的一种文本类型的识别装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本发明实施例提供了一种文本类型的识别方法。
图1是根据本发明实施例的一种文本类型的识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S102,获取第一文本,其中,第一文本用于获取至少一个第一目标文本。
在本发明上述步骤S102提供的技术方案中,第一文本为用于获取至少一个第一目标文本的文本,可以为关键词、主题等,比如,关键词为“visual analysis”,主题为“图像处理方法”等,此处不做任何限制,可以在用于研究人员获取文本的系统的搜索框中,进行输入或者进行选择,其中,用于研究人员获取文本的系统可以为文本搜索系统、文本推荐系统,文本搜索系统可以为学术搜索系统,文本推荐系统可以为学术推荐系统,此处不做任何限制。
该实施例的第一目标文本可以为学术论文、技术说明书、专利的公开文本等文献,此处不做任何限制,至少一个第一目标文本通过第一文本相联系起来,比如,第一文本为至少一个第一目标文本的主题。
步骤S104,确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数,其中,第一时间段内的累积被引次数随着第一时间段内的时间的增加而增加。
在本发明上述步骤S104提供的技术方案中,第一时间段可以为预先设定的时间段[T1,T2],其中,T1<T2,第一时间段内的累积被引次数为至少一个第一目标文本在第一时间段内的时间T∈[T1,T2]上的累积被引次数,其中,第一目标文本在第一时间段内的时间T的累积被引次数可以通过f(T)进行表示,为从该第一目标文本发表的时间起到时间T为止,该第一目标文本在每一单位时间的被引次数之和,得到该第一目标文本的累积被引次数,其中,单位时间可以为年,这样至少一个第一目标文本在第一时间段内的累积被引次数为每个第一目标文本在时间T对应的累积被引次数之和,随着时间T的增加而增加。
可选地,该实施例的一个第一文本下的至少一个第一目标文本可以视为一个整体,按照一篇文本的处理方法进行计算,可以通过进行表示,其中,CI可以用于表示一篇第一目标文本在第I时间单位的累积被引次数,T0用于表示一个第一目标文本的发表时间或者多个第一目标文本中发表最早的第一目标文本的发表时间。在时间单位为年的情况下,该实施例的至少一个第一目标文本在第一时间段内的累积被引次数也可以为历年累积被引次数。
步骤S106,通过第一时间段内的累积被引次数识别第一文本的类型。
在本发明上述步骤S106提供的技术方案中,在确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数之后,通过第一时间段内的累积被引次数识别第一文本的类型,可以将预先确定的类型确定为第一文本的类型,该第一文本的类型可以反映出至少一个第一目标文本的类型。
该实施例的预先确定的类型可以包括前沿热点型、基础理论/技术型、成熟衰落型。其中,前沿热点型的第一文本在近期的被关注度具有上升趋势,该类第一文本通常包含前沿技术或研究热点,通过第一文本搜索到的第一目标文本对研究人员来说是最具有阅读价值的;基础理论/技术型的第一文本被研究者的引用次数一直以来都比较平均,它们可以是一些基础性的理论或技术,众多研究者的工作均有涉及,通过这类第一文本搜索到的第一目标文本对领域新人具有非常重要的价值,通过阅读这类第一目标文本,研究者可以快速掌握该领域的基础理论或基础技术;通过成熟衰落型的第一文本搜索到的第一目标文本均在某些阶段受到较大关注,但近期的被关注度逐渐下降,通常包括一些已成熟的理论/技术,或已经过时的理论/技术,这些第一目标文本对于正在寻找研究热点的研究人员不具有阅读价值,但正在研发产品的公司可能需要了解已经成熟的技术来降低产品风险。
该实施例可以通过识别第一文本的类型使得用户快速找到研究人员感兴趣的文本的类型、找出相关主题中备受关注的前沿文本、找出经久不衰的经典文本,从而提高了对文本进行处理的效率。
下面对该实施例的通过第一时间段内的累积被引次数识别第一文本的类型的方法进行介绍。
作为一种可选的实施方式,步骤S106,通过第一时间段内的累积被引次数识别第一文本的类型包括:通过第一时间段内的累积被引次数和预定累积被引次数确定目标参数;在目标参数符合目标条件的情况下,将与目标条件对应的预定类型确定为第一文本的类型,其中,预定类型通过预先对文本样本进行分类得到。
该实施例获取预定累积被引次数,该预定累积被引次数可以为参考累积被引次数,通过第一时间段内的累积被引次数和预定累积被引次数确定目标参数,该目标参数可以包括通过累积被引参数的曲线和预定累积被引次数的曲线确定的面积,还可以包括第一时间段内的累积被引次数的曲线上的多个点分别到预定累积次数的曲线的距离中的最大距离。该实施例的目标参数可以满足不同的条件,其中,不同的条件对应不同的预定类型,因而判断目标参数是否判断目标条件,如果判断出目标参数满足目标条件,则可以将与目标条件对应的预定类型确定为第一文本的类型,其中,预定类型通过预先对文本样本进行分类得到的,可以包括上述前沿热点型、基础理论/技术型、成熟衰落型。
作为一种可选的实施方式,第一时间段内的累积被引次数与第一曲线相对应,预定累积被引次数与第二曲线相对应,第一曲线和第二曲线的自变量为第一时间段内的时间,通过第一时间段内的累积被引次数和预定累积被引次数确定目标参数包括:通过第一曲线和第二曲线所围成的面积,确定目标参数中的第一参数,其中,当面积所在区域在第二曲线下方时,第一参数大于零,当面积所在的区域在第二曲线的上方时,第一参数小于零;分别获取第一曲线上的多个目标点到第二曲线的距离,得到多个距离,并将多个距离中的最大距离确定为目标参数中的第二参数,其中,目标点通过目标时间和与目标时间对应的累积被引次数形成。
在该实施例中,第一时间段内的累积被引次数可以通过第一曲线进行表示,该第一曲线也即历年累积被引次数曲线,可以为对第一时间段内的各个时间上的累积被引次数进行归一化处理得到,比如,该第一曲线可以通过进行表示,其中,自变量为第一时间段内的T,f(T)用于表示第一目标文本在第一时间段内的时间T的累积被引次数,f(T2)用于表示第一目标文本在第一时间段内的时间T2的累积被引次数,从而方便与预定累积被引次数所对应的第二曲线相对应;该实施例的第二曲线也即参考线,可以通过进行表示,其中,自变量为第一时间段内的T。
该实施例的文本的类型识别方法可以基于对Bcp指数的改进进行,其中,Bcp指数是杜建借鉴Ke et al.(2015)的睡美人指数(B指数)基本框架所提出的指标,该指标不仅能识别出特征明显的睡美人文献,对总被引次数和历年被引次数较低的睡美人文献也具有较高的敏感度。其中,睡美人文献是指文本在发表前期被引次数很低,突然从某一时间开始就被大量关注的文本,这类文献通常是具有变革性的研究成果。
可选地,该实施例的目标参数中的第一参数可以为上述Bcp,可以通过第一曲线和第二曲线所围成的面积进行确定,其中,当所围成的面积所在区域在第二曲线下方时,第一参数大于零,当所围城的面积所在的区域在第二曲线的上方时,第一参数小于零,可以通过进行表示。
可选地,获取第一曲线上的目标点到参考线的距离,可以通过获得第一曲线上的多个目标点到第二曲线的距离,得到多个距离,其中,目标点通过目标时间T和与目标时间T对应的累积被引次数形成,该与目标时间T对应的累积被引次数可以为归一化处理后的累积被引次数。这样在第一时间段[T1,T2],从多个距离中获取最大距离D(TD),将该最大距离确定为目标参数中的第二参数,比如,D(TD)=Maximum(d(T),T∈[T1,T2])。
作为一种可选的实施方式,在目标参数符合目标条件的情况下,将与目标条件对应的预定类型确定为第一文本的类型包括以下之一:在第一曲线和第二曲线具有交点,且交点满足第一条件,第一参数满足第二条件,第二参数满足第三条件的情况下,将第一预定类型确定为第一文本的类型,其中,第一预定类型的第一文本的被关注度在距离当前时间最近的时间段呈上升趋势;在第一曲线和第二曲线无交点,且第二参数满足第四条件的情况下,将第二预定类型确定为第一文本的类型,其中,第二预定类型的第一文本的被引用次数的变化幅度在第一目标阈值范围内;在第一曲线和第二曲线具有交点,且交点满足第五条件,第一参数满足第六条件,第二参数满足第三条件的情况下,将第三预定类型确定为第一文本的类型,其中,第三预定类型的第一文本的被关注度在距离当前时间最近的时间段呈下降趋势。
在该实施例中,第一曲线和第二曲线可以有若干个交点(除两端点的交点之外),可选地,当存在交点时,可以将最接近当前年份的交点定义为(Tp,cc(Tp))。判断交点(Tp,cc(Tp))是否满足第一条件,第一参数Bcp是否满足第二条件,第二参数D(TD)是否满足第三条件,在交点(Tp,cc(Tp))满足第一条件,第一参数Bcp满足第二条件,第二参数D(TD)满足第三条件的情况下,可以将第一预定类型确定为第一文本的类型,该第一预定类型的第一文本的被关注度在距离当前时间最近的时间段呈上升趋势,该第一预定类型的第一文本通常包含前沿技术或研究热点,通过该第一文本搜索出来的第一目标文本对研究人员来说是最具有阅读价值的,也即,第一预定类型为前沿热点型。
在该实施例中,第一曲线和第二曲线也可以无交点,在这种情况下,可以判断第二参数D(TD)是否满足第四条件,如果判断出第二参数D(TD)满足第四条件,则可以将第二预定类型确定为第一文本的类型,该第二预定类型的第一文本的被引用次数的变化幅度在第一目标阈值范围内,也即,一直都比较平均,该类型的第一文本可以为一些基础性的理论或技术,众多研究者的工作均有涉及,通过该类型的第一文本搜索出来的文本对领域新人具有非常重要的价值,通过阅读这类文本,研究者可以快速掌握该领域的基础理论或基础技术,也即,第二预定类型为基础理论/技术型。
在该实施例中,第一曲线和第二曲线可以具有交点(Tp,cc(Tp)),判断交点(Tp,cc(Tp))是否满足第五条件,判断第一参数Bcp是否满足第六条件,判断第二参数D(TD)是否满足第三条件,如果判断出交点(Tp,cc(Tp))满足第五条件,第一参数Bcp满足第六条件,第二参数D(TD)满足第三条件,则将第三预定类型确定为第一文本的类型,通过该第三预定类型的第一文本搜索到的第一目标文本的被关注度在距离当前时间最近的时间段呈下降趋势,可以是近期的被关注度逐年下降,而早某些阶段受到极大关注,通过该第三预定类型的第一文本搜索到的第一目标文本可以是一些已成熟的理论/技术,或已经过时的理论/技术,该种第一目标文本对于正在寻找研究热点的研究人员不具有阅读价值,但正在研发产品的公司可能需要了解已经成熟的技术来降低产品风险。
下面分别对上述第一条件、第二条件、第三条件、第四条件、第五条件和第六条件进行说明。
作为一种可选的实施方式,在第一曲线和第二曲线具有交点,且交点满足第一条件,第一参数满足第二条件,第二参数满足第三条件的情况下,将第一预定类型确定为第一文本的类型包括:在第一曲线和第二曲线具有交点,交点对应的累积被引次数小于等于第一曲线上的第一点对应的累积被引次数,且大于第二曲线上的第二点对应的累积被引次数,第一参数大于第一阈值,第二参数大于等于第二阈值的情况下,将第一预定类型确定为第一文本的类型,其中,第一点与交点在第一曲线上左相邻或相同,第二点与交点在第一曲线上右相邻。
在该实施例中,第一曲线和第二曲线具有交点(Tp,cc(Tp)),在第一曲线上,与该交点左相邻的第一点可以为TI,与该交点右相邻的第二点可以为TI+1,第一点TI和第二点TI+1可以是交点(Tp,cc(Tp))附近的两个年份(Tp可能是非整数),第一点TI也可以与交点相同。
判断交点cc(Tp)对应的累积被引次数是否小于等于第一曲线上的第一点cc(TI)对应的累积被引次数,且大于第二曲线上的第二点对应的累积被引次数cc(TI+1),也即,判断cc(TI)≥cc(Tp)>cc(TI+1)是否成立,以及判断第一参数Bcp是否大于第一阈值,第二参数D(TD)是否大于等于第二阈值,其中,第一阈值可以为0,第二阈值可以为threshold,可以根据数据集特征自主调节,该实施例可以使用0.1能较好地识别各类第一文本(关键词/主题),如果判断出交点cc(Tp)对应的累积被引次数小于等于第一曲线上的第一点cc(TI)对应的累积被引次数,且大于第二曲线上的第二点对应的累积被引次数cc(TI+1),第一参数Bcp大于第一阈值,第二参数D(tD)大于等于第二阈值,则将第一预定类型确定为第一文本的类型,比如,将前沿热点型确定为第一文本的类型。
作为一种可选的实施方式,在第一曲线和第二曲线无交点,且第二参数满足第四条件的情况下,将第二预定类型确定为第一文本的类型包括:在第一曲线和第二曲线无交点,且第二参数小于第二阈值的情况下,将第二预定类型确定为第一文本的类型。
在该实施例中,第一曲线和第二曲线可以无交点,在这种情况下,判断第二参数是否小于第二阈值,该第二阈值可以为上述threshold。如果判断出第二参数小于第二阈值,则将第二预定类型确定为第一文本的类型,比如,将基础理论/技术型确定为第一文本的类型。
作为一种可选的实施方式,在第一曲线和第二曲线具有交点,且交点满足第五条件,第一参数满足第六条件,第二参数满足第三条件的情况下,将第三预定类型确定为第一文本的类型包括:在第一曲线和第二曲线具有交点,交点对应的累积被引次数大于等于第一曲线上的第一点对应的累积被引次数,且小于第二曲线上的第二点对应的累积被引次数,第一参数小于第一阈值,第二参数大于等于第二阈值的情况下,将第三预定类型确定为第一文本的类型,其中,第一点与交点在第一曲线上左相邻或相同,第二点与交点在第一曲线上右相邻。
在该实施例中,第一曲线和第二曲线可以有交点(Tp,ccTp)),判断交点(Tp,cc(Tp))对应的累积被引次数cc(Tp)是否大于等于第一曲线上的第一点对应的累积被引次数cc(TI),且小于第二曲线上的第二点对应的累积被引次数cc(TI+1),也即,判断cc(TI)≤cc(Tp)<cc(TI+1)是否成立,并且判断第一参数Bcp是否小于第一阈值,第二参数是否大于等于第二阈值,其中,第一阈值可以为0,第二阈值可以为上述threshold。判断交点(Tp,cc(Tp))对应的累积被引次数cc(Tp)大于等于第一曲线上的第一点对应的累积被引次数cc(TI),且小于第二曲线上的第二点对应的累积被引次数cc(TI+1),第一参数Bcp小于第一阈值,第二参数大于等于第二阈值,则将第三预定类型确定为第一文本的类型,比如,将成熟衰落型确定为第一文本的类型。
作为一种可选的实施方式,在通过第一时间段内的累积被引次数识别第一文本的类型之前,该方法还包括:通过第二文本获取文本样本中的至少一个第二目标文本;获取至少一个第二目标文本在第二时间段内的历年被引次数和在第二时间段内的累积被引次数,其中,历年被引次数为至少一个第二目标文本在第二时间段内的被引次数之和与至少一个第二目标文本的数量之间的比值,第二时间段内的累积被引次数随着第二时间段内的时间的增加而增加;根据历年被引次数和第二时间段内的累积被引次数确定多个子预定类型;通过多个子预定类型确定预定类型。
在该实施例中,在通过第一时间段内的累积被引次数识别第一文本的类型之前,需要确定文本的类型都可以有哪些,也即,对文本的类型进行分类。该实施例可以预先采集文本样本,该文本样本中包括至少一个第二目标文本,可以获取至少一个第二目标文本在第二时间段(比如,时间段[t1,t2])内的历年被引次数和在第二时间段内的累积被引次数。
该实施例的历年被引次数可以为至少一个第二目标文本在第二时间段内的被引次数之和与至少一个第二目标文本的数量之间的比值,其中,在第二时间段[t1,t2]中,t1<t2,至少一个第二目标文本的数量可以通过进行表示,其中,Ni可以用于表示第i(t1i≤t2)年发表的第二目标文本的数量,将第一文本下的所有第一目标文本视为一个整体,可以认为是一篇文本,可以通过来表示第二目标文本的历年被引次数,其中,Pi用于表示第i年第一文本(比如,主题)下的至少一个第二目标文本的集合,Cj用于表示第i年的第j篇第二目标文本的被引次数。
该实施例的第二时间段内的累积被引次数为至少一个第二目标文本在第二时间段内的时间t∈[t1,t2]上的累积被引次数,其中,第二目标文本在第二时间段内的时间t的累积被引次数可以通过f(t)进行表示,为从该第二目标文本发表的时间起到时间t为止,该第二目标文本在每一单位时间的被引次数之和,得到该第二目标文本的累积被引次数,其中,单位时间可以为年,这样至少一个第二目标文本在第二时间段内的累积被引次数为每个第二目标文本在时间t对应的累积被引次数之和,随着时间t的增加而增加。
可选地,该实施例的一个第二文本下的至少一个第二目标文本可以视为一个整体,按照一篇文本的处理方法进行计算,可以通过进行表示,其中,Ci可以用于表示一篇第二目标文本在第i时间单位的累积被引次数,t0用于表示一个第二目标文本的发表时间或者多个第二目标文本中发表最早的第二目标文本的发表时间。在时间单位为年的情况下,该实施例的至少一个第二目标文本在第二时间段内的累积被引次数也可以为历年累积被引次数。
作为一种可选的实施方式,历年被引次数与第三曲线相对应,第二时间段内的累积被引次数曲线与第四曲线相对应,预定累积被引次数与第二曲线相对应,第三曲线、第四曲线和第二曲线的自变量为第一时间段内的时间,根据历年被引次数和第二时间段内的累积被引次数确定多个子预定类型包括:将第三曲线在第二时间段内总体呈上升趋势,且第三曲线在距离当前时间最近的时间段对应的历年被引次数大于距离当前时间最远的时间段对应的历年被引次数,第四曲线呈凹形,且第四曲线与第二曲线除两端交点之外无交点的类型,确定为第一子预定类型;将第三曲线在距离当前时间最近的时间段呈上升趋势,在距离当前时间最近的时间段对应的历年被引次数和在距离当前时间最远的时间段对应的历年被引次数,均大于在距离当前时间最近的时间段和距离当前时间最远的时间段之间的时间段对应的历年被引次数,第四曲线与第二曲线具有除端点以外的多个交点,第四曲线中的在距离当前时间最近的交点之后的曲线呈凹形的类型,确定为第二子预定类型;将第三曲线的波动幅度在第二目标阈值范围内,第四曲线与第二曲线的走势相同的类型,确定为第三子预定类型;将第三曲线在距离当前时间最远的时间段对应的历年被引次数大于在距离当前时间最近的时间段对应的历年被引次数,第四曲线呈凸形,且第四曲线与第二曲线除两端交点之外无交点的类型,确定为第四子预定类型;将第三曲线在距离当前时间最近的时间段对应的历年被引次数和在距离当前时间最近的时间段对应的历年被引次数,均小于在距离当前时间最近的时间段和距离当前时间最远的时间段之间的时间段对应的历年被引次数,第四曲线与第二曲线具有除端点以外的多个交点,第四曲线中的在距离当前时间最近的交点之后的曲线呈凸形的类型,确定为第五子预定类型;将第三曲线的波动幅度超过第三目标阈值范围,第四曲线与第二曲线的走势相同的类型,确定为第六子预定类型。
在该实施例中,历年被引次数可以通过第三曲线进行表示,第二时间段内的累积被引次数可以通过第四曲线进行表示,该第四曲线也即历年累积被引次数曲线,可以为对第二时间段内的各个时间上的累积被引次数进行归一化处理得到,比如,该第四曲线可以通过进行表示,其中,自变量为第二时间段内的t,f(t)用于表示第二目标文本在第一时间段内的时间t的累积被引次数,f(t2)用于表示第二目标文本在第二时间段内的时间t2的累积被引次数,从而方便与预定累积被引次数所对应的第二曲线相对应;该实施例的第二曲线也即参考线,可以通过进行表示,其中,自变量为第二时间段内的t。
可选地,该实施例的第一子预定类型(SubtypeI)满足以下特点:第三曲线在第二时间段内总体呈现上升趋势,且第三曲线在距离当前时间最近的时间段对应的历年被引次数大于距离当前时间最远的时间段对应的历年被引次数,也即,历年被引次数集中在后期,而在初期较少,另外,第四曲线呈凹形,也即,呈下弓型,第四曲线与第二曲线除两端交点之外无交点。通过该第一子预定类型的第二文本(关键词/主题)所搜索出来的第二目标文本在刚发表时或出现时不被关注,但从某一年起越来越受关注,且被关注度一直没有消退。这可能意味着该类型的第二文本所搜索出来的第二目标文本涉及颠覆性的或超前的技术,其价值需要一段时间被慢慢认可。
可选地,该实施例的第二子预定类型(SubtypeII)满足以下特点:第三曲线在距离当前时间最近的时间段呈上升趋势,比如,在近几年呈现上升趋势,在距离当前时间最近的时间段对应的历年被引次数和在距离当前时间最远的时间段对应的历年被引次数,均大于在距离当前时间最近的时间段和距离当前时间最远的时间段之间的时间段对应的历年被引次数,也即,历年被引次数集中在前期和后期,中期较少,第四曲线与第二曲线具有除端点以外的多个交点,第四曲线中的在距离当前时间最近的交点之后的曲线呈凹形,比如,历年累积被引曲线与参考线最近一次相交的年份至年份t之间的历年累积被引次数曲线呈现下弓型。通过该类型的第二文本搜索出的第二目标文本可能具有较大的价值,在一开始就被关注,但是由于技术限制等因素,相关研究已达到瓶颈,关注度逐渐降低,但是在从某一年技术突破之后,该第二文本将再次被关注。
可选地,该实施例的第三子预定类型(SubtypeIII)具有以下特点:第三曲线的波动幅度在第二目标阈值范围内,该第二目标阈值范围使得历年被引次数曲线在一定范围内小幅波动,第四曲线与第二曲线的走势相同的类型,第四曲线可以贴着第二曲线,比如,历年累积被引次数曲线与参考线走势一致,且几乎是贴着参考线的。通过这类第二文本所搜索出来的第二目标文本自发表或出现以来被一直关注,且其被关注度没有消退的迹象,很可能涉及经典理论或基础技术。
可选地,该实施例的第四子预定类型(SubtypeIV)具有以下特点:第三曲线在距离当前时间最远的时间段对应的历年被引次数大于在距离当前时间最近的时间段对应的历年被引次数,也即,历年被引次数集中在前期,后期较少,第四曲线呈凸形,比如,历年累积被引次数曲线呈现上弓型,且第四曲线与第二曲线除两端交点之外无交点的类型,确定为第四子预定类型。通过该类第二文本所搜索出的第二目标文本在刚发表或刚出现时备受关注,但随着时间推移,就已经不再被关注。
可选地,该实施例的第五子预定类型(SubtypeV)具有以下特点:第三曲线在距离当前时间最近的时间段对应的历年被引次数和在距离当前时间最远的时间段对应的历年被引次数,均小于在距离当前时间最近的时间段和距离当前时间最远的时间段之间的时间段对应的历年被引次数,也即,历年被引次数集中在中期,前期和后期较少,第四曲线与第二曲线具有除端点以外的多个交点,第四曲线中的在距离当前时间最近的交点之后的曲线呈凸形,比如,历年累积被引曲线与参考线最近一次相交的年份至年份t之间的历年累积被引次数曲线呈现上弓型。通过该类型的第二文本搜索到的第二目标文本自发表或出现以来被关注过,但最近被关注度已衰退。
可选地,该实施例的第六子预定类型(SubtypeVI)具有以下特点:第三曲线的波动幅度超过第三目标阈值范围,该第三目标阈值使得第三曲线呈现大起大落的趋势,第四曲线与第二曲线的走势相同,比如,历年累积被引次数曲线与参考线呈现相同的趋势,但波动幅度很大。
作为一种可选的实施方式,通过多个子预定类型确定预定类型包括:将第一子预定类型和第二子预定类型确定为第一预定类型,其中,第一预定类型的文本的被关注度在距离当前时间最近的时间段呈上升趋势;将第三子预定类型确定为第二预定类型,其中,第二预定类型的文本的被引用次数的变化幅度在第一目标阈值范围内;将第四子预定类型、第五子预定类型和第六子预定类型确定为第三预定类型,其中,第三预定类型的文本的被关注度在距离当前时间最近的时间段呈下降趋势。
在该实施例中,可以根据实际需求,将上述六种类型的第二文本归纳成三类,可以将第一子预定类型和第二子预定类型确定为第一预定类型,也即,确定为前沿热点型,前沿热点型的文本的被关注度在距离当前时间最近的时间段呈上升趋势;将第三子预定类型确定为第二预定类型,也即,确定为基础理论/技术型,基础理论/技术型的文本的被引用次数的变化幅度在第一目标阈值范围内,比如,基础理论/技术型的文本被研究者的引用次数一直以来都比较平均,可以是一些基础性的理论或技术;将第四子预定类型、第五子预定类型和第六子预定类型确定为第三预定类型,也即,确定为成熟衰落型,该成熟衰落型的文本的被关注度在距离当前时间最近的时间段呈下降趋势,也即,近期的被关注度逐年下降,但是在某些阶段可以受到较大关注。
需要说明的是,上述第一预定类型、第二预定类型和第三预定类型仅为本发明实施例的优选实施方式,并不代表本发明实施例的文本的类型仅为上述第一预定类型、第二预定类型和第三预定类型,任何可以通过识别出文本的类型向用户进行有效推荐文本的类型,都在该实施例的范围之内,此处不再一一举例说明。
作为一种可选的实施方式,在通过第一时间段内的累积被引次数识别第一文本的类型之后,该方法还包括:将第一文本的类型通过目标标识显示在目标界面上,其中,目标界面用于显示至少一个第一目标文本。
在该实施例中,第一文本的类型可以通过目标标识进行标识,比如,通过“T”标出久经考验的文本,通过“N”标出近期发表的具有较大影响力的文本等。在通过第一时间段内的累积被引次数识别第一文本的类型之后,将第一文本的类型通过目标标识显示在目标界面上,也即,目标界面不仅显示出至少一个第一目标文本,还可以显示出至少一个第一目标文本的类型。
在该实施例中,获取第一文本,该第一文本用于获取至少一个第一目标文本;确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数,第一时间段内的累积被引次数随着第一时间段内的时间的增加而增加,通过第一时间段内的累积被引次数识别第一文本的类型。也就是说,通过第一文本所获取到的目标文本的累积被引次数,来识别第一文本的类型,从而避免仅仅按照文本的被引次数返回搜索到的文本,导致无法识别文本的类型,解决了在对文本进行搜索时,无法对文本的类型进行识别的技术问题,达到了在对文本进行搜索时,对文本的类型进行识别的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例2
下面结合优选的实施例对本发明的技术方案进行举例说明。
为了提高学术论文搜索系统或推荐系统中论文推荐的有效性,本该实施例可以根据历年被引次数和累积被引次数定义三种论文/主题的类型(比如,前沿热点型、基础理论/技术型、成熟衰落型),并通过对Bcp指数的改进,提出了相应的类型识别方法。经相关数据以及领域专家验证,根据该实施例的分类推荐的前沿热点型、基础理论/技术型论文中,包含该领域备受关注的前沿文章和经久不衰的经典文章,从而通过对学术论文进行分类和识别,能为用户提供更有效的推荐,帮助研究人员在海量文献数据中快速找到更值得阅读的文章。
此外,对于刚开始学术生涯的研究人员而言,快速了解领域现状并找到相应的研究热点可以大大缩短探索期,加快领域知识积累,帮助其更快地出结果;而对于研发产品的公司而言,需要找到成熟的技术来降低产品研发风险。因此,关键词/主题的分类与识别的重要性随之可见。当用户选择一个关键词或主题时,可以获得该关键词/主题的类型,从而帮助用户判断是否需要进一步深入该领域。
该实施例可以包括以下步骤:
M1,根据累积被引用曲线对关键词/主题进行分类;
M2,拓展Bcp指数,识别关键词/主题的类型。
在M1中,对关键词/主题进行分类,可以分成前沿热点型、基础理论/技术型、成熟衰落型这三类,在M2中就是去识别这三类的关键词/主题的类型。
下面对该实施例的M1中涉及的相关定义以及分类方法进行。
D1,在时间段[t1,t2]中,t1<t2,发表的某一主题的文章的数量为N(t1,t2),等于每年发表的某一主题的文章的数量之和,可以通过下述公式(1)表示:
其中,Ni可以用于表示第i(t1i≤t2)年发表的文章的数量。
D2,在时间段[t1,t2]中,t1<t2,某一主题的被引次数C(t1,t2)等于该主题下所有文章在时间段[t1,t2]期间的被引次数之和与该[t1,t2]期间内该主题下所有文章的数量之间的比值,也即,将该主题下的所有文章的集合视为一个整体,可以认为是一篇文章,可以通过如下公式(2)进行表示:
其中,Pi用于表示第i年该主题下的文章的集合,Cj用于表示第i年的第j篇文章的被引次数,N(t1,t2)用于表示该主题下在时间段[t1,t2]内发表的文章的数量之和。
D3,在时间段[t1,t2]中,t1<t2,一篇文章在t年份的累积被引次数可以用f(t)表示,其等于从该文章发表的年份起到第t年为止该文章在每一年的被引次数之和;由D2的定义可知,一个主题下的所有文章的集合可以视为一个整体,按照一篇文章的处理方法进行计算,可以通过如下公式(3)进行表示:
其中,Ci用于表示一篇文章在第i年的累积被引次数,t0用于表示一篇文章的发表年份或者一个主题下所有论文中发表最早的文章的发表年份。
D4,为便于比较,该实施例对累积被引次数进行归一化处理,且后文提及的累积被引曲线都指的是根据如下公式(4)所获得的曲线。
D5:在时间段[t1,t2]中,t1<t2,可以定义一条参考线l(t),该参考线的起点为t1年份的累积被引次数所对应的点,(t1,cc(t1)),终点为t2年份的累积被引次数所对应的点,(t2,cc(t2)),可以通过如下公式(5)表示:
该参考线与累积被引次数曲线存在零个或若干个交点(除了两端的交点之外)。当存在交点时,可以将最接近当前年份的交点定义为P(tp,cc(tp))。
根据D2(某一主题A的被引次数C(t1,t2))获取某一主题的历年被引次数曲线,根据D4获取某一主题的历年累积被引次数曲线,可将文章初步分成六类(SubtypeI,SubtypeII类,SubtypeIII类,SubtypeIV类,SubtypeV类,SubtypeVI类),如图2中的(a)-(f)。其中,图2是根据本发明实施例的一种六类文章的历年被引次数和历年累积被引次数曲线的示意图,如图2所示,横轴为年份,纵轴为每年的被引次数C(t1,t2)的值,图2中的(g)-(l)所展示的六类论文的历年累积被引次数曲线图,横轴为年份,纵轴为累积被引次数C(t1,t2)的值。
SubtypeI类的历年被引次数曲线总体呈现上升趋势,且被引次数集中在后期,在初期较少;历年累积被引次数曲线呈现下弓型,且历年累积被引次数曲线与参考线无交点(除两端交点外)。该Subtype类型的关键词/主题在刚发表时或出现时不被关注,但从某一年起越来越受关注,且被关注度一直没有消退,这可能意味着该类型的关键词/主题涉及颠覆性的或超前的技术,其价值需要一段时间被慢慢被认可。
SubtypeII类的被引次数集中在前期和后期,中期较少,但近几年呈现上升趋势;历年累积被引次数曲线与参考线有若干个交点(除两端交点外),且最近一次相交(P点)的年份至后面的年份之间的历年累积被引次数曲线呈现下弓型。该类型的关键词/主题可能具有较大的价值,在一开始就被关注,但由于技术限制等因素,相关研究达到瓶颈,关注度逐渐降低。在从某一年技术突破后,该关键词/主题再次被关注。
SubtypeIII的历年被引次数曲线在一定范围内小幅波动;历年累积被引次数曲线与参考线的走势一致,且几乎是贴着参考线的。该类关键词/主题自发表或出现以来被一直关注,且其被关注度没有消退的迹象,很可能涉及经典理论或基础技术。
SubtypeIV的历年被引次数集中在前期,后期较少;历年累积被引次数曲线呈现上弓型,且历年累积被引次数曲线与参考线无交点(除两端交点外)。该类关键词/主题在刚发表或刚出现时备受关注,但随着时间推移,已经不再被关注。
SubtypeV的历年被引次数集中在中期,前期和后期较少;历年累积被引曲线与参考线有若干个交点(除两端交点外),且最近一次相交(P点)的年份至后面的年份之间的历年累积被引次数曲线呈现上弓型。该类型的关键词/主题自发表或出现以来被关注过,但最近被关注度已衰退。
SubtypeVI的历年被引次数曲线呈现大起大落趋势;历年累积被引次数曲线与参考线呈现相同的趋势,但波动幅度很大。该现象通常出现在总被引次数较少的关键词/主题中,基本不会出现在高被引的关键词/主题中。
在M1中,该实施例根据实际需求,将上述六种类型的关键词/主题归纳成三类:
前沿热点型(T1):包括SubtypeI类和SubtypeII类,前沿热点型的关键词/主题在近期的被关注度具有上升趋势,该类关键词/主题通常包含前沿技术或研究热点,这样的文章对研究人员来说是最具有阅读价值的,可以将它们归成一类。
基础理论/技术型(T2):包括SubtypeIII类。该类关键词/主题被研究者的引用次数一直以来都比较平均,通常是一些基础性的理论或技术,众多研究者的工作均有涉及。这类文章对领域新人具有非常重要的价值,通过阅读这类文章,研究者可以快速掌握该领域的基础理论或基础技术。
成熟衰落型(T3):包括SubtypeIV类、SubtypeV类和SubtypeVI类组成。该类文章均在某些阶段受到较大关注,但近期的被关注度逐年下降。这些通常是一些已成熟的理论/技术,或已经过时的理论/技术。这些文章对于正在寻找研究热点的研究人员不具有阅读价值,但正在研发产品的公司可能需要了解已经成熟的技术来降低产品风险。
下面对该实施例的M2中涉及的相关定义以及类型识别方法进行介绍。
Bcp指数是杜建借鉴Ke et al.(2015)的睡美人指数(B指数)基本框架所提出的指标,该指标不仅能够识别出特征明显的睡美人文献,并且对总被引次数和年度(历年)被引次数较低的睡美人文献也具有较高的敏感度。睡美人文献是指论文发表前期被引次数很低,突然从某一年开始被大量关注的文献。这类文献通常是具有变革性的研究成果。该实施例基于Bcp指数,提出了一种用于识别M1中的三类论文/主题的方法,具体内容如下。
D5,参考线可以通过如上公式(5)进行表示。
D6,在时间段[t1,t2]中,t1<t2,Bcp指数等于参考线和累积被引次数曲线围城的面积,当所围面积在参考线下方时,该指数大于零,反之小于零,可以通过如下公式(6)进行表示:
D7,历年累积被引次数曲线上的点到参考线的距离d(t)可以通过如下公式(7)表示:
D8,在在时间段[t1,t2]中,t1<t2,最大距离可以通过如下公式(8)表示:
D(tD)=Maximum(d(t),t∈[t1,t2]) (8)
该实施例提出的类型识别方法可以通过如下表1进行表示。
表1类型与满足的条件对照表
类型 交点 B<sub>cp</sub>(t∈[t<sub>p</sub>,t<sub>2</sub>])
T1(前沿热点型) cc(t<sub>i</sub>)≥cc(t<sub>p</sub>)&gt;cc(t<sub>i</sub>+1) B<sub>cp</sub>&gt;0,D(t<sub>D</sub>)≥threshold
T2(基础理论/技术型) / D(t<sub>D</sub>)&lt;threshold
T3(成熟衰落型) cc(t<sub>i</sub>)≤cc(t<sub>p</sub>)&lt;cc(t<sub>i</sub>+1) B<sub>cp</sub>&lt;0,D(t<sub>D</sub>)≥threshold
表1是根据本发明实施例的类型与满足的条件对照表,其中,ti和ti+1是交点(tp,cc(tp))附近的两个年份(tp可能是非整数),tp∈[ti,ti+1);threshold可以根据数据集特征自主调节,该实施例可以使用0.1能较好地识别各类关键词/主题,从而提高了对文本进行处理的效率。
下面通过举例对本发明实施例的上述方法进行说明。
图3是根据本发明实施例的一种学术论文推荐系统的显示的界面示意图。如图3所示,该实施例可以根据上述方法建立了IEEE VIS学术论文推荐系统,当用户选择关键词“visual analysis”时,在推荐的前20篇文章中,有3篇文章已经被IEEE VIS评为“Test ofTime Awards”文章,通过“T”进行标识,有3篇是近5年发表的具有较大影响力的文章,通过“N”进行标识,其余文章均为一直被关注的文章。
需要说明的是,图3所示的20篇英文文章仅为该实施例对文本的一种示例,并不对本申请实施例的文本造成限定,任何形式的文本都在该实施例的范围之内,此处不再一一举例说明。
该实施例的论文推荐系统用于执行本发明实施例的关键词/主题分类及识别方法,通过领域专家进行使用,在推荐结果中包含了相关领域的必读文章,尤其是用“T”标识出来的久经考验的文章,且推荐排名都很靠前,从而验证了该实施例上述方法的有效性。
实施例3
本发明实施例还提供了一种文本类型的识别装置。需要说明的是,该实施例的声音检测装置可以用于执行本发明实施例的文本类型的识别装置。
图4是根据本发明实施例的一种文本类型的识别装置的示意图。如图4所示,该文本类型的识别装置400包括:获取单元10、确定单元20和识别单元30。
获取单元10,用于获取第一文本,其中,第一文本用于获取至少一个第一目标文本。
确定单元20,用于确定获取到的至少一个第一目标文本在第一时间段内的累积被引次数,其中,第一时间段内的累积被引次数随着第一时间段内的时间的增加而增加。
识别单元30,用于通过第一时间段内的累积被引次数识别第一文本的类型。
在该实施例中,通过第一文本所获取到的目标文本的累积被引次数,来识别第一文本的类型,从而避免仅仅按照文本的被引次数返回搜索到的文本,导致无法识别文本的类型,解决了在对文本进行搜索时,无法对文本的类型进行识别的技术问题,达到了在对文本进行搜索时,对文本的类型进行识别的效果。
实施例4
本发明实施例提供了一种存储介质。该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的文本类型的识别方法。
实施例5
本发明实施例提供了一种处理器。该处理器用于运行程序,其中,程序运行时执行本发明实施例的文本类型的识别方法。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文本类型的识别方法,其特征在于,包括:
获取第一文本,其中,所述第一文本用于获取至少一个第一目标文本;
确定获取到的所述至少一个第一目标文本在第一时间段内的累积被引次数,其中,所述第一时间段内的累积被引次数随着所述第一时间段内的时间的增加而增加;
通过所述第一时间段内的累积被引次数识别所述第一文本的类型。
2.根据权利要求1所述的方法,其特征在于,通过所述第一时间段内的累积被引次数识别所述第一文本的类型包括:
通过所述第一时间段内的累积被引次数和预定累积被引次数确定目标参数;
在所述目标参数符合目标条件的情况下,将与所述目标条件对应的预定类型确定为所述第一文本的类型,其中,所述预定类型通过预先对文本样本进行分类得到。
3.根据权利要求2所述的方法,其特征在于,所述第一时间段内的累积被引次数与第一曲线相对应,所述预定累积被引次数与第二曲线相对应,所述第一曲线和所述第二曲线的自变量为所述第一时间段内的时间,通过所述第一时间段内的累积被引次数和预定累积被引次数确定目标参数包括:
通过第一曲线和第二曲线所围成的面积,确定所述目标参数中的第一参数,其中,当所述面积所在区域在所述第二曲线下方时,所述第一参数大于零,当所述面积所在的区域在所述第二曲线的上方时,所述第一参数小于零;
分别获取所述第一曲线上的多个目标点到所述第二曲线的距离,得到多个距离,并将所述多个距离中的最大距离确定为所述目标参数中的第二参数,其中,所述目标点通过目标时间和与所述目标时间对应的累积被引次数形成。
4.根据权利要求3所述的方法,其特征在于,在所述目标参数符合目标条件的情况下,将与所述目标条件对应的预定类型确定为所述第一文本的类型包括以下之一:
在所述第一曲线和所述第二曲线具有交点,且所述交点满足第一条件,所述第一参数满足第二条件,所述第二参数满足第三条件的情况下,将第一预定类型确定为所述第一文本的类型,其中,所述第一预定类型的所述第一文本的被关注度在距离当前时间最近的时间段呈上升趋势;
在所述第一曲线和所述第二曲线无交点,且所述第二参数满足第四条件的情况下,将第二预定类型确定为所述第一文本的类型,其中,所述第二预定类型的所述第一文本的被引用次数的变化幅度在第一目标阈值范围内;
在所述第一曲线和所述第二曲线具有交点,且所述交点满足第五条件,所述第一参数满足第六条件,所述第二参数满足第三条件的情况下,将第三预定类型确定为所述第一文本的类型,其中,所述第三预定类型的所述第一文本的被关注度在距离当前时间最近的时间段呈下降趋势。
5.根据权利要求4所述的方法,其特征在于,在所述第一曲线和所述第二曲线具有交点,且所述交点满足第一条件,所述第一参数满足第二条件,所述第二参数满足第三条件的情况下,将第一预定类型确定为所述第一文本的类型包括:
在所述第一曲线和所述第二曲线具有交点,所述交点对应的累积被引次数小于等于所述第一曲线上的第一点对应的累积被引次数,且大于所述第二曲线上的第二点对应的累积被引次数,所述第一参数大于第一阈值,所述第二参数大于等于第二阈值的情况下,将所述第一预定类型确定为所述第一文本的类型,其中,所述第一点与所述交点在所述第一曲线上左相邻或相同,所述第二点与所述交点在所述第一曲线上右相邻。
6.根据权利要求4所述的方法,其特征在于,在所述第一曲线和所述第二曲线无交点,且所述第二参数满足第四条件的情况下,将第二预定类型确定为所述第一文本的类型包括:
在所述第一曲线和所述第二曲线无交点,且所述第二参数小于第二阈值的情况下,将所述第二预定类型确定为所述第一文本的类型。
7.根据权利要求4所述的方法,其特征在于,在所述第一曲线和所述第二曲线具有交点,且所述交点满足第五条件,所述第一参数满足第六条件,所述第二参数满足第三条件的情况下,将第三预定类型确定为所述第一文本的类型包括:
在所述第一曲线和所述第二曲线具有交点,所述交点对应的累积被引次数大于等于所述第一曲线上的第一点对应的累积被引次数,且小于所述第二曲线上的第二点对应的累积被引次数,所述第一参数小于第一阈值,所述第二参数大于等于第二阈值的情况下,将所述第三预定类型确定为所述第一文本的类型,其中,所述第一点与所述交点在所述第一曲线上左相邻或相同,所述第二点与所述交点在所述第一曲线上右相邻。
8.根据权利要求2所述的方法,其特征在于,在通过所述第一时间段内的累积被引次数识别所述第一文本的类型之前,所述方法还包括:
通过第二文本获取所述文本样本中的至少一个第二目标文本;
获取所述至少一个第二目标文本在第二时间段内的历年被引次数和在所述第二时间段内的累积被引次数,其中,所述历年被引次数为所述至少一个第二目标文本在所述第二时间段内的被引次数之和与所述至少一个第二目标文本的数量之间的比值,所述第二时间段内的累积被引次数随着所述第二时间段内的时间的增加而增加;
根据所述历年被引次数和所述第二时间段内的累积被引次数确定多个子预定类型;
通过所述多个子预定类型确定所述预定类型。
9.根据权利要求8所述的方法,其特征在于,所述历年被引次数与第三曲线相对应,所述第二时间段内的累积被引次数曲线与第四曲线相对应,预定累积被引次数与第二曲线相对应,所述第三曲线、所述第四曲线和所述第二曲线的自变量为所述第一时间段内的时间,根据所述历年被引次数和所述第二时间段内的累积被引次数确定多个子预定类型包括:
将所述第三曲线在所述第二时间段内总体呈上升趋势,且所述第三曲线在距离当前时间最近的时间段对应的历年被引次数大于距离所述当前时间最远的时间段对应的历年被引次数,所述第四曲线呈凹形,且所述第四曲线与所述第二曲线除两端交点之外无交点的类型,确定为第一子预定类型;
将所述第三曲线在距离当前时间最近的时间段呈上升趋势,在距离所述当前时间最近的时间段对应的历年被引次数和在距离所述当前时间最远的时间段对应的历年被引次数,均大于在距离所述当前时间最近的时间段和距离所述当前时间最远的时间段之间的时间段对应的历年被引次数,所述第四曲线与第二曲线具有除端点以外的多个交点,所述第四曲线中的在距离所述当前时间最近的所述交点之后的曲线呈凹形的类型,确定为第二子预定类型;
将所述第三曲线的波动幅度在第二目标阈值范围内,所述第四曲线与所述第二曲线的走势相同的类型,确定为第三子预定类型;
将所述第三曲线在距离当前时间最远的时间段对应的历年被引次数大于在距离当前时间最近的时间段对应的历年被引次数,所述第四曲线呈凸形,且所述第四曲线与所述第二曲线除两端交点之外无交点的类型,确定为第四子预定类型;
将所述第三曲线在距离所述当前时间最近的时间段对应的历年被引次数和在距离所述当前时间最远的时间段对应的历年被引次数,均小于在距离所述当前时间最近的时间段和距离所述当前时间最远的时间段之间的时间段对应的历年被引次数,所述第四曲线与第二曲线具有除端点以外的多个交点,所述第四曲线中的在距离所述当前时间最近的所述交点之后的曲线呈凸形的类型,确定为第五子预定类型;
将所述第三曲线的波动幅度超过第三目标阈值范围,所述第四曲线与所述第二曲线的走势相同的类型,确定为第六子预定类型。
10.根据权利要求9所述的方法,其特征在于,通过所述多个子预定类型确定所述预定类型包括:
将所述第一子预定类型和所述第二子预定类型确定为第一预定类型,其中,所述第一预定类型的文本的被关注度在距离当前时间最近的时间段呈上升趋势;
将所述第三子预定类型确定为第二预定类型,其中,所述第二预定类型的文本的被引用次数的变化幅度在第一目标阈值范围内;
将所述第四子预定类型、所述第五子预定类型和所述第六子预定类型确定为第三预定类型,其中,所述第三预定类型的文本的被关注度在距离所述当前时间最近的时间段呈下降趋势。
11.根据权利要求1至10中任意一项所述的方法,其特征在于,在通过所述第一时间段内的累积被引次数识别所述第一文本的类型之后,所述方法还包括:
将所述第一文本的类型通过目标标识显示在目标界面上,其中,所述目标界面用于显示所述至少一个第一目标文本。
12.一种文本类型的识别装置,其特征在于,包括:
获取单元,用于获取第一文本,其中,所述第一文本用于获取至少一个第一目标文本;
确定单元,用于确定获取到的所述至少一个第一目标文本在第一时间段内的累积被引次数,其中,所述第一时间段内的累积被引次数随着所述第一时间段内的时间的增加而增加;
识别单元,用于通过所述第一时间段内的累积被引次数识别所述第一文本的类型。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的方法。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至11中任意一项所述的方法。
CN201910544442.5A 2019-06-21 2019-06-21 文本类型的识别方法、装置、存储介质和处理器 Active CN110275955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910544442.5A CN110275955B (zh) 2019-06-21 2019-06-21 文本类型的识别方法、装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544442.5A CN110275955B (zh) 2019-06-21 2019-06-21 文本类型的识别方法、装置、存储介质和处理器

Publications (2)

Publication Number Publication Date
CN110275955A true CN110275955A (zh) 2019-09-24
CN110275955B CN110275955B (zh) 2022-11-15

Family

ID=67961571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910544442.5A Active CN110275955B (zh) 2019-06-21 2019-06-21 文本类型的识别方法、装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN110275955B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930041A (zh) * 2012-11-12 2013-02-13 江苏外博资讯有限公司 一种基于用户行为信息的检索结果实时更新方法及其系统
CN105740452A (zh) * 2016-02-03 2016-07-06 北京工业大学 基于PageRank和时间衰减的科技文献重要度评价方法
CN106202313A (zh) * 2016-07-01 2016-12-07 西安电子科技大学 面向学术元搜索的检索结果合成排序方法
CN108614867A (zh) * 2018-04-12 2018-10-02 科技部科技评估中心 基于学术论文的技术前沿性指数计算方法及系统
CN108920692A (zh) * 2018-07-13 2018-11-30 北京市科学技术情报研究所 一种基于论文引用关系的作者排序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930041A (zh) * 2012-11-12 2013-02-13 江苏外博资讯有限公司 一种基于用户行为信息的检索结果实时更新方法及其系统
CN105740452A (zh) * 2016-02-03 2016-07-06 北京工业大学 基于PageRank和时间衰减的科技文献重要度评价方法
CN106202313A (zh) * 2016-07-01 2016-12-07 西安电子科技大学 面向学术元搜索的检索结果合成排序方法
CN108614867A (zh) * 2018-04-12 2018-10-02 科技部科技评估中心 基于学术论文的技术前沿性指数计算方法及系统
CN108920692A (zh) * 2018-07-13 2018-11-30 北京市科学技术情报研究所 一种基于论文引用关系的作者排序方法

Also Published As

Publication number Publication date
CN110275955B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN102968417B (zh) 一种应用于计算机网络中的搜索方法和系统
EP1435581B1 (en) Retrieval of structured documents
CN103577501B (zh) 热点话题搜索系统及热点话题搜索方法
US20070250500A1 (en) Multi-directional and auto-adaptive relevance and search system and methods thereof
CN109033101B (zh) 标签推荐方法及装置
CN104077407B (zh) 一种智能数据搜索系统及方法
US20100057559A1 (en) method of choosing advertisements to be shown to a search engine user
CN100419755C (zh) 用于文件数据分析的方法及系统
CN102360358A (zh) 关键词推荐方法及系统
CN106951415A (zh) 一种商户名称搜索方法和装置
CN103309869B (zh) 数据对象的展示关键词推荐方法及系统
EP2856357A2 (en) Related notes and multi-layer search in personal and shared content
Koopman et al. Mutual information based labelling and comparing clusters
CN107247743A (zh) 一种司法类案检索方法及系统
CN107832444A (zh) 基于搜索日志的事件发现方法及装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
Takamura et al. Text summarization model based on the budgeted median problem
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
Wang A personalized collaborative recommendation approach based on clustering of customers
Siebert et al. Extending a research-paper recommendation system with scientometric measures
US20130332440A1 (en) Refinements in Document Analysis
CN107239448B (zh) 一种解释性主成分分析方法
KR101081947B1 (ko) 대용량 데이터를 위한 하이브리드 추천 방법 및 시스템
CN109344232A (zh) 一种舆情信息检索方法及终端设备
CN110275955A (zh) 文本类型的识别方法、装置、存储介质和处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant