CN107229738A - 一种基于文档评分模型和相关度的学术论文搜索排序方法 - Google Patents
一种基于文档评分模型和相关度的学术论文搜索排序方法 Download PDFInfo
- Publication number
- CN107229738A CN107229738A CN201710461109.9A CN201710461109A CN107229738A CN 107229738 A CN107229738 A CN 107229738A CN 201710461109 A CN201710461109 A CN 201710461109A CN 107229738 A CN107229738 A CN 107229738A
- Authority
- CN
- China
- Prior art keywords
- mrow
- paper
- document
- search
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文档评分模型和相关度的学术论文搜索排序方法。该方法包含以下步骤:对论文库中的数据进行预处理,得到论文基本信息,包括发表年份、发表期刊质量、引用次数,同时记录论文被点击查看的次数,作为反馈值;对论文以时间、质量和搜索反馈三个因素建立论文文档评分模型;结合搜索词与论文文档的相关度以及论文文档评分模型,计算得到搜索词相关的论文文档集合中每篇论文文档的综合评分;根据该综合评分对搜索结果进行排序并返回。本发明在搜索过程中综合考虑了多方面因素,对论文本身建立文档评分模型,克服了搜索引擎对于多搜索目的处理上的不足,使得论文搜索的准确率和搜索体验有了很大的改善。
Description
技术领域
本发明涉及搜索引擎领域,具体涉及一种基于文档评分模型和相关度的学术论文搜索排序方法。
背景技术
学术科研发展十分迅速,成果日新月异,大多数学术科研成果都以论文的形式进行公开和发表,并在学术界和工业界交流传播。显然,针对论文库中庞大的论文集,进行高效和准确地搜索是非常重要和有意义的。
搜索引擎的出现,正是为了解决如何在海量数据中获取有用信息的问题。搜索引擎整体大致可以分为两个部分,即对数据的索引和对索引数据的搜索。对于第二部分搜索,又可以分为两个步骤,先寻找出当前搜索词相关的文档,然后根据一定的策略对这些文档进行排序,生成搜索结果。
传统的通用搜索引擎是根据相关度的高低来衡量搜索结果与搜索词的符合程度,但这对于学术论文这样特定领域的搜索并不是很合理。对于学术论文的搜索,搜索者通常更希望内容相关度更紧密、期刊质量更高、发表时间更新的论文排在搜索结果的前面。当前学术搜索引擎对于多搜索目的的处理有所不足,无法同时满足多种需求,或者效果较差,影响了搜索的准确率和搜索体验。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于文档评分模型和相关度的学术论文搜索排序方法,以满足学术论文搜索领域的特殊需求,提高学术论文搜索的准确率和用户体验。
本发明方法的具体内容如下:
1.对论文库进行预处理
搜索前,先对论文库进行预处理和标准化工作,得到每篇论文的发表年份dt、发表期刊的等级dr、论文被引用次数dc以及论文搜索后的被点击查看次数dv。将这些数据连同论文内容本身都加入到搜索引擎的索引库中,使之可以在搜索评分的时候被使用。
2.基于文档评分模型和相关度的学术论文搜索排序方法
2.1建立论文文档评分模型
当搜索者输入搜索词Q进行搜索的时候,搜索引擎首先会得到与当前搜索词相关的论文文档集合D。对于D中每一篇论文文档d建立评分模型。论文文档评分模型P(d)可由下面的公式得到:
P(d)=T(d)M(d)F(d)
T(d)代表论文文档的时间因子:
其中dt为论文的发表年份。θ为一个常数年份值,通常取当前年份和论文库中论文的最早发表年份的中间值,即
current_year表示当前年份,oldest_year表示论文库中最早的论文的发表年份。α、β、γ分别为调节因子,调节时间因素对于评分的影响。
M(d)代表论文文档的质量因子:
M(d)=[log(dc+1)]·g(dr)
其中dc为论文被引用次数,引用次数越多,说明该篇论文质量越高,质量因子会越大。dr为论文发表期刊的等级,一般来说,期刊的质量越高,发表在该期刊上面的论文的质量也越高,所以为每种论文期刊等级设定对应的常数影响值g(dr)。
F(d)代表论文文档的反馈因子:
其中dv为论文被搜索之后点击查看的次数,用该值作为搜索的反馈值,反馈值作为一个激励值来反向影响搜索结果。如果某篇论文在被搜索出来之后经常被点击查看,则可以认为该篇论文价值较大,可以适当提高该篇论文文档的评分分值。δ的值为一个常数值,代表论文被点击查看次数的阈值,在该阈值以下,随着点击查看次数的增加,文档反馈因子的值增加较快,在该阈值以上,随着点击查看次数的增加,文档反馈因子的值增加较慢,并接近上限值。当点击查看次数dv与δ的相等的时候,F(d)反馈因子的值达到其上限的90%。该值可根据论文库中论文的平均点击查看次数数据灵活修改。F(d)的取值范围为[1,2),这样可以控制搜索反馈对于搜索评分的影响在一个较小的范围中。
由上所述,P(d)具体描述如下:
2.2计算综合评分
每篇论文文档的综合评分由两部分组成,即搜索词与论文文档的相关度R(Q,d),以及论文文档评分模型P(d)。
对于某一搜索词Q,如果它可以分成多个更小的词,那么搜索引擎的分词工具就会将其分为多个语素qi。所以需要分别计算每个语素与论文文档的评分,最后进行求和得到R(Q,d)。
因此论文文档的综合评分Score(Q,d)可以表示为如下:
Score(Q,d)=R(Q,d)P(d)
w(qi)代表语素qi的权重,如果当前语素在许多文档中都出现,说明该语素在当前搜索关键词中的重要性比较低,因此在评分中可以将其权重调低。此处使用逆文档频率(工DF)来计算语素权重:
其中,N表示论文库中所有文档的数量,n(qi)表示包含语素qi的文档的数量。分子分母同时加上0.5是为了防止在没有任何文档包含语素qi的情况下,分母出现零的情况。
R(qi,d)代表语素qi与论文文档d之间的相关度评分,此处采用概率模型来表征两者的相关度,在计算相关度评分上面,概率模型的表现比传统空间向量模型更优秀。有:
其中,fi表示语素qi在论文文档d中出现的次数,dl为d的长度,avgdl则为所有论文文档的平均长度。k1和b为调节因子,调节词频和论文文档长度对于相关度的影响。
综合起来,论文文档综合评分的公式如下:
2.3搜索结果排序并返回
依次计算得到搜索结果相关论文文档集合D中每篇文档的综合评分,根据该评分对D中的论文文档进行排序并返回结果,搜索者即可得到搜索词的相关论文搜索排序结果。
与现有技术相比,本发明的有益效果:
本发明在对论文进行搜索的时候,增加了对论文本身的一些因素如论文发表年份,论文发表期刊等级,论文被引用次数的考虑,同时还增加了对搜索反馈的考虑。在此基础上对论文文档本身建立了评分模型。这样做,可以使得内容相关度更紧密、期刊质量更高、发表时间更新的论文更容易被搜索出来,克服了搜索引擎对于多搜索目的处理上的不足。
同时论文本身与搜索词的相关度评分用概率模型来代替向量空间模型。最后结合搜索词与论文文档的相关度评分和论文文档自身的评分,可以对每篇相关论文计算出一个综合的评分。以此评分来对搜索结果进行排序,返回搜索结果。应用证明,本发明对于论文搜索的准确率和搜索体验有了很大的改善。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明进一步说明。
图1描述了本发明的流程图,下面结合图1给出详细说明。
步骤1,对论文库进行预处理
如图1所示,搜索前,先对论文库进行预处理和标准化工作,得到每篇论文的发表年份dt、发表期刊的等级dr、论文被引用次数dc以及论文搜索后的被点击查看次数dv。之后将这些数据连同论文内容本身都加入到搜索引擎的索引库中,使之可以在搜索评分的时候被使用。
步骤2,基于文档评分模型和相关度的学术论文搜索排序方法
步骤2.1,建立论文文档评分模型
在搜索过程中,当搜索者输入搜索词Q进行搜索的时候,搜索引擎首先会得到与当前搜索词相关的论文文档集合D。
对D中的每一篇论文文档d建立评分模型。论文文档评分模型P(d)可由下面的公式得到:
P(d)=T(d)M(d)F(d)
T(d)代表论文文档的时间因子:
其中dt为论文的发表年份。θ为一个常数年份值,通常取当前年份和论文库中论文的最早发表年份的中间值,即
current_year表示当前年份,oldest_year表示论文库中最早的论文的发表年份。例如当前为2017年,论文库中最早的论文的发表年份为2000年,则取θ为2008。α、β、γ分别为调节因子,调节时间因素对于评分的影响,此处可取α=0.5,β=0.5,γ=0.75。上述调节因子值使得T(d)的取值范围限定在(0.75,1.25),年份早于θ的论文分值会受到衰减,而晚于θ的论文则可以得到奖励。
M(d)代表论文文档的质量因子:
M(d)=[log(dc+1)]·g(dr)
其中dc为论文被引用次数,引用次数越多,说明该篇论文质量越高,质量因子会越大。dr为论文发表期刊的等级,一般来说,期刊的质量越高,发表在该期刊上面的论文的质量也越高,所以为每种论文期刊等级设定对应的常数影响值g(dr)。
F(d)代表论文文档的反馈因子:
其中dv为论文被搜索之后点击查看的次数,用该值作为搜索的反馈值,反馈值作为一个激励值来反向影响搜索结果。如果某篇论文在被搜索出来之后经常被点击查看,则可以认为该篇论文价值较大,可以适当提高该篇论文文档的评分分值。δ的值为一个常数值,代表论文被点击查看次数的阈值,在该阈值以下,随着点击查看次数的增加,文档反馈因子的值增加较快,在该阈值以上,随着点击查看次数的增加,文档反馈因子的值增加较慢,并接近上限值。当点击查看次数dv与δ的相等的时候,F(d)反馈因子的值达到其上限的90%。该值可根据论文库中论文的平均点击查看次数数据灵活修改。例如取δ=1000,表示大多数论文的点击查看次数都在1000次以下,点击查看次数在1000次以上的论文的搜索反馈因子基本达到上限。F(d)的取值范围为[1,2),这样可以控制搜索反馈对于搜索评分的影响在一个较小的范围中。
由上所述,P(d)具体描述如下:
如图1流程图所示,在计算得到论文文档的时间因子、质量因子以及反馈因子之后,论文文档评分模型也就可以计算得到了。
步骤2.2,计算综合评分
在得到每篇论文文档的文档模型评分之后,就可以计算论文文档的综合评分了。每篇论文文档的综合评分由两部分组成,即搜索词与论文文档的相关度R(Q,d),以及论文文档评分模型P(d)。
对于某一搜索词Q,如果它可以分成多个更小的词,那么搜索引擎的分词工具就会将其分为多个语素qi。所以需要分别计算每个语素与论文文档的评分,最后进行求和得到R(Q,d)。
因此论文文档的综合评分Score(Q,d)可以表示为如下:
Score(Q,d)=R(Q,d)P(d)
w(qi)代表语素qi的权重,如果当前语素在许多文档中都出现,说明该语素在当前搜索关键词中的重要性比较低,因此在评分中可以将其权重调低。此处使用逆文档频率(IDF)来计算语素权重:
其中,N表示论文库中所有文档的数量,n(qi)表示包含语素qi的文档的数量。分子分母同时加上0.5是为了防止在没有任何文档包含语素qi的情况下,分母出现零的情况。
R(qi,d)代表语素qi与论文文档d之间的相关度评分,此处采用概率模型来表征两者的相关度,在计算相关度评分上面,概率模型的表现比传统空间向量模型更优秀。有:
其中,fi表示语素qi在论文文档d中出现的次数,dl为d的长度,avgdl则为所有论文文档的平均长度。k1和b为调节因子,调节词频和论文文档长度对于相关度的影响。根据经验,一般取k1=1.2,b=0.75。
综合起来,论文文档综合评分的公式如下:
先计算当前搜索词Q的每个语素qi的权重w(qi),语素与论文文档d的相关度评分R(qi,d),并进行求和得到搜索词与论文文档的相关度R(Q,d),再计算论文文档评分模型的分值P(d),两者相乘得到搜索词Q与当前论文文档d的综合评分Score(Q,d)。
步骤2.3,搜索结果排序并返回
如图1所示,依次计算得到搜索结果相关论文文档集合D中每篇文档的综合评分,根据该评分对D中的论文文档进行排序并返回结果,搜索者即可得到搜索词的相关论文搜索排序结果。
Claims (6)
1.一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于,该方法包含如下步骤:
步骤1:对论文库进行预处理
a)搜索前,先对论文库进行预处理和标准化工作,得到每篇论文的发表年份dt、发表期刊的等级dr、论文被引用次数dc以及论文搜索后的被点击查看次数dv;
b)将这些数据连同论文内容本身都加入到搜索引擎的索引库中,使之可以在搜索评分的时候被使用;
步骤2:基于文档评分模型和相关度的学术论文搜索排序
步骤2.1:对论文文档建立评分模型
a)在搜索过程中,得到搜索词Q的搜索结果论文文档集合D;
b)对于集合D中每一篇论文文档d建立论文文档评分模型P(d):
P(d)=T(d)M(d)F(d)
T(d)代表论文文档的时间因子,P(d)代表论文文档的质量因子,F(d)代表论文文档的反馈因子;
c)先计算论文文档的时间因子T(d);
d)再计算论文文档的质量因子M(d);
e)接着计算论文文档的反馈因子F(d);
f)根据上面的计算结果,得到论文文档评分模型分值P(d);
步骤2.2:计算综合评分
a)每篇论文文档的综合评分由两部分组成,即搜索词与论文文档的相关度R(Q,d),以及论文文档评分模型P(d);对于某一搜索词Q,如果它可以分成多个更小的词,那么搜索引擎的分词工具就会将其分为多个语素qi;所以分别计算每个语素与论文文档的评分,最后进行求和得到R(Q,d);所以有:
Score(Q,d)=R(Q,d)P(d)
<mrow>
<mi>R</mi>
<mrow>
<mo>(</mo>
<mi>Q</mi>
<mo>,</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mi>i</mi>
<mi>n</mi>
</munderover>
<mi>w</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>R</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
</mrow>
w(qi)代表语素qi的权重,R(qi,d)代表语素qi与论文文档d之间的相关度评分;
b)先计算语素qi的权重w(qi);
c)再计算语素qi与论文文档d之间的相关度评分R(qi,d);
d)计算出每个语素qi与论文文档d之间的相关度评分之后进行求和,得到搜索词Q与论文文档d的相关度评分R(Q,d);
e)最后结合论文文档评分模型分值P(d),计算得到搜索词Q与当前文档d的综合评分Score(Q,d);
步骤2.3:搜索结果排序并返回
a)依次计算相关论文文档集合D中每篇文档的综合评分;
b)根据该评分对集合D中的论文文档进行排序;
b)返回排序后的结果给搜索者。
2.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:
步骤2.1中论文文档的时间因子T(d)按如下公式计算:
<mrow>
<mi>T</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mi>&alpha;</mi>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>&beta;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>+</mo>
<mi>&gamma;</mi>
</mrow>
其中dt为论文的发表年份;θ为一个常数年份值,取当前年份和论文库中论文的最早发表年份的中间值,即
<mrow>
<mi>&theta;</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>c</mi>
<mi>u</mi>
<mi>r</mi>
<mi>r</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mo>_</mo>
<mi>y</mi>
<mi>e</mi>
<mi>a</mi>
<mi>r</mi>
<mo>-</mo>
<mi>o</mi>
<mi>l</mi>
<mi>d</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mo>_</mo>
<mi>y</mi>
<mi>e</mi>
<mi>a</mi>
<mi>r</mi>
</mrow>
<mn>2</mn>
</mfrac>
<mo>+</mo>
<mi>o</mi>
<mi>l</mi>
<mi>d</mi>
<mi>e</mi>
<mi>s</mi>
<mi>t</mi>
<mo>_</mo>
<mi>y</mi>
<mi>e</mi>
<mi>a</mi>
<mi>r</mi>
</mrow>
current_year表示当前年份,oldest_year表示论文库中最早的论文的发表年份;α、β、γ分别为调节因子,调节时间因素对于评分的影响。
3.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:
步骤2.1中论文文档质量因子M(d)按如下公式计算:
M(d)=[log(dc+1)]·g(dr)
其中dc为论文被引用次数,dr为论文发表期刊的等级,g(dr)为每种论文期刊等级对应的常数影响值。
4.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:
步骤2.1中论文文档反馈因子F(d)按如下公式计算:
<mrow>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mfrac>
<mrow>
<mi>ln</mi>
<mn>10</mn>
</mrow>
<mi>&delta;</mi>
</mfrac>
<msub>
<mi>d</mi>
<mi>v</mi>
</msub>
</mrow>
</msup>
<mo>+</mo>
<mn>2</mn>
</mrow>
其中dv为论文被搜索之后点击查看的次数,δ为一个常数值,代表论文被点击查看次数的阈值。
5.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:
步骤2.2中语素qi的权重w(qi)按如下公式计算:
<mrow>
<mi>w</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>log</mi>
<mfrac>
<mrow>
<mi>N</mi>
<mo>-</mo>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>0.5</mn>
</mrow>
<mrow>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>0.5</mn>
</mrow>
</mfrac>
</mrow>
其中,N表示论文库中所有文档的数量,n(qi)表示包含语素qi的文档的数量。
6.根据权利要求1所述的一种基于文档评分模型和相关度的学术论文搜索排序方法,其特征在于:
步骤2.2中语素qi与论文文档d之间的相关度评分R(qi,d)按如下公式计算:
<mrow>
<mi>R</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>q</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>k</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>k</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>b</mi>
<mo>+</mo>
<mi>b</mi>
<mfrac>
<mrow>
<mi>d</mi>
<mi>l</mi>
</mrow>
<mrow>
<mi>a</mi>
<mi>v</mi>
<mi>g</mi>
<mi>d</mi>
<mi>l</mi>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,fi表示语素qi在论文文档d中出现的次数,dl为d的长度,avgdl则为所有论文文档的平均长度;k1和b为调节因子,调节词频和论文文档长度对于相关度的影响。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710461109.9A CN107229738B (zh) | 2017-06-18 | 2017-06-18 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710461109.9A CN107229738B (zh) | 2017-06-18 | 2017-06-18 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107229738A true CN107229738A (zh) | 2017-10-03 |
CN107229738B CN107229738B (zh) | 2020-04-03 |
Family
ID=59935083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710461109.9A Active CN107229738B (zh) | 2017-06-18 | 2017-06-18 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107229738B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832412A (zh) * | 2017-11-06 | 2018-03-23 | 浙江工业大学 | 一种基于文献引用关系的刊物聚类方法 |
CN107862028A (zh) * | 2017-10-27 | 2018-03-30 | 湖北三新文化传媒有限公司 | 建立标准学术模型方法、服务器及存储介质 |
CN108763520A (zh) * | 2018-05-31 | 2018-11-06 | 杭州电子科技大学 | 一种面向技术领域的专业人才搜索方法 |
CN110825942A (zh) * | 2019-10-22 | 2020-02-21 | 清华大学 | 一种论文质量的计算方法及系统 |
CN111753167A (zh) * | 2020-06-22 | 2020-10-09 | 北京百度网讯科技有限公司 | 搜索处理方法、装置、计算机设备和介质 |
CN112100213A (zh) * | 2020-09-07 | 2020-12-18 | 中国人民解放军海军工程大学 | 船舶设备技术数据搜索排序方法 |
CN115686432A (zh) * | 2022-12-30 | 2023-02-03 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101501630A (zh) * | 2006-01-31 | 2009-08-05 | 王啸云 | 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法 |
CN101996200A (zh) * | 2009-08-19 | 2011-03-30 | 华为技术有限公司 | 一种搜索文档的方法和装置 |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
CN105740386A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 基于排序集成的论文搜索方法及装置 |
CN105955975A (zh) * | 2016-04-15 | 2016-09-21 | 北京大学 | 一种面向学术文献的知识推荐方法 |
CN105956010A (zh) * | 2016-04-20 | 2016-09-21 | 浙江大学 | 基于分布式表征和局部排序的分布式信息检索集合选择方法 |
-
2017
- 2017-06-18 CN CN201710461109.9A patent/CN107229738B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101501630A (zh) * | 2006-01-31 | 2009-08-05 | 王啸云 | 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法 |
CN101996200A (zh) * | 2009-08-19 | 2011-03-30 | 华为技术有限公司 | 一种搜索文档的方法和装置 |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
CN105740386A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 基于排序集成的论文搜索方法及装置 |
CN105955975A (zh) * | 2016-04-15 | 2016-09-21 | 北京大学 | 一种面向学术文献的知识推荐方法 |
CN105956010A (zh) * | 2016-04-20 | 2016-09-21 | 浙江大学 | 基于分布式表征和局部排序的分布式信息检索集合选择方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862028A (zh) * | 2017-10-27 | 2018-03-30 | 湖北三新文化传媒有限公司 | 建立标准学术模型方法、服务器及存储介质 |
CN107832412A (zh) * | 2017-11-06 | 2018-03-23 | 浙江工业大学 | 一种基于文献引用关系的刊物聚类方法 |
CN107832412B (zh) * | 2017-11-06 | 2020-06-30 | 浙江工业大学 | 一种基于文献引用关系的刊物聚类方法 |
CN108763520A (zh) * | 2018-05-31 | 2018-11-06 | 杭州电子科技大学 | 一种面向技术领域的专业人才搜索方法 |
CN108763520B (zh) * | 2018-05-31 | 2021-07-02 | 杭州电子科技大学 | 一种面向技术领域的专业人才搜索方法 |
CN110825942A (zh) * | 2019-10-22 | 2020-02-21 | 清华大学 | 一种论文质量的计算方法及系统 |
CN111753167A (zh) * | 2020-06-22 | 2020-10-09 | 北京百度网讯科技有限公司 | 搜索处理方法、装置、计算机设备和介质 |
CN111753167B (zh) * | 2020-06-22 | 2024-01-12 | 北京百度网讯科技有限公司 | 搜索处理方法、装置、计算机设备和介质 |
CN112100213A (zh) * | 2020-09-07 | 2020-12-18 | 中国人民解放军海军工程大学 | 船舶设备技术数据搜索排序方法 |
CN115686432A (zh) * | 2022-12-30 | 2023-02-03 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN107229738B (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229738A (zh) | 一种基于文档评分模型和相关度的学术论文搜索排序方法 | |
CN104866572B (zh) | 一种网络短文本聚类方法 | |
CN103020164B (zh) | 一种基于多语义分析和个性化排序的语义检索方法 | |
EP3392758A1 (en) | System and method for ranking search results within citation intensive documents | |
Singh et al. | Vector space model: an information retrieval system | |
CN102495860B (zh) | 基于语言模型的专家推荐方法 | |
US20100325105A1 (en) | Generating ranked search results using linear and nonlinear ranking models | |
US20100281023A1 (en) | Relevancy scoring using query structure and data structure for federated search | |
US8682907B1 (en) | Evaluation of substitute terms | |
CN105224695A (zh) | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 | |
CN101355457B (zh) | 测试方法及测试设备 | |
CN103119584B (zh) | 机器翻译测评装置及方法 | |
CN103729359A (zh) | 一种推荐搜索词的方法及系统 | |
CN103514255A (zh) | 一种基于项目层次类别的协同过滤推荐方法 | |
CN102841946A (zh) | 商品数据检索排序及商品推荐方法和系统 | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
AU2013231149B2 (en) | Systems and methods for keyword research and content analysis | |
CN104462399B (zh) | 搜索结果的处理方法及装置 | |
CN111324807A (zh) | 基于信任度的协同过滤推荐方法 | |
Chan et al. | Options pricing under the one-dimensional jump-diffusion model using the radial basis function interpolation scheme | |
CN111160859A (zh) | 一种基于svd++和协同过滤的人力资源岗位推荐方法 | |
CN106204153A (zh) | 一种基于属性比重相似性的两步预测Top‑N推荐算法 | |
CN106997340A (zh) | 词库的生成以及利用词库的文档分类方法及装置 | |
Savanur | Application of Bradford's Law of Scattering to the Economics Literature of India and China: A Comparative Study | |
CN107609142A (zh) | 一种基于扩展布尔检索模型的大数据专利检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |