CN105488113B - 论文的搜索方法、装置及搜索引擎 - Google Patents
论文的搜索方法、装置及搜索引擎 Download PDFInfo
- Publication number
- CN105488113B CN105488113B CN201510817344.6A CN201510817344A CN105488113B CN 105488113 B CN105488113 B CN 105488113B CN 201510817344 A CN201510817344 A CN 201510817344A CN 105488113 B CN105488113 B CN 105488113B
- Authority
- CN
- China
- Prior art keywords
- paper
- described search
- demand
- search word
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种论文的搜索方法、装置及搜索引擎,其中该方法包括:获取用户输入的搜索词;根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略;根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,并将搜索结果页面提供给用户。该方法在用户输入搜索词进行论文搜索时,经过机器挖掘和大数据分析,确定用户的需求类型并分析该需求的强度,最终为用户优先展现需求强度高的结果,并且,在整个搜索过程中,用户只需在输入框中输入搜索词即可,相比传统的高级搜索方式,省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
Description
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种论文的搜索方法、装置以及一种搜索引擎。
背景技术
相关技术中,论文的搜索方法一般包括两个搜索方式:一种是直接搜索,即获取用户输入的搜索词之后,直接根据该搜索词进行相应的搜索,并将直接搜索到的结果提供给用户;另一种是高级搜索,即为用户提供高级搜索接口,用户进入该接口填写需求论文的相关属性信息,如该需求论文的作者、标题、包含的字句等,之后,根据用户填写的这些相关属性信息进行搜索,得到比较精确的搜索结果并提供给用户。
但是,目前存在的问题是:针对直接搜索方式来说,无法精确判断用户的需求,呈现给用户的结果很可能并不是用户想要的,比如搜索“武夷山”,用户真实需求是研究武夷山脉的文献,而得到的搜索结果却是作者武夷山发表的论文;针对高级搜索方式来说,虽然可以定位用户特定的需求,但是会增加用户的操作步长,如用户需求点击高级入口,然后输入关键词发起搜索,导致用户的寻找和判断成本增加,并且,由于高级语法严格的限制,所以搜索出来的结果只能够满足用户的单一类型需求,对于类型的需求无法满足,用户必须要再换一组搜索词和搜索策略才能完成,导致用户体验变差。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种论文的搜索方法。该方法可以省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
本发明的第二个目的在于提出一种论文的搜索装置。
本发明的第三个目的在于提出一种搜索引擎。
为达上述目的,本发明第一方面实施例的论文的搜索方法,包括:获取用户输入的搜索词;根据所述搜索词确定所述用户的需求类型,并根据所述需求类型确定对应的引导策略;根据所述引导策略和所述搜索词生成论文的相关搜索结果并展现在搜索结果页面,并将所述搜索结果页面提供给所述用户。
本发明实施例的论文的搜索方法,可先获取用户输入的搜索词,之后,可根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略,然后,根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,并将搜索结果页面提供给用户,即在用户输入搜索词进行论文搜索时,经过机器挖掘和大数据分析,确定用户的需求类型并分析该需求的强度,最终为用户优先展现需求强度高的结果,并且,在整个搜索过程中,用户只需在输入框中输入搜索词即可,相比传统的高级搜索方式,省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
为达上述目的,本发明第二方面实施例的论文的搜索装置,包括:获取模块,用于获取用户输入的搜索词;确定模块,用于根据所述搜索词确定所述用户的需求类型,并根据所述需求类型确定对应的引导策略;生成模块,用于根据所述引导策略和所述搜索词生成论文的相关搜索结果并展现在搜索结果页面;提供模块,用于将所述搜索结果页面提供给所述用户。
本发明实施例的论文的搜索装置,可通过获取模块获取用户输入的搜索词,确定模块根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略,生成模块根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,提供模块将搜索结果页面提供给用户,即在用户输入搜索词进行论文搜索时,经过机器挖掘和大数据分析,确定用户的需求类型并分析该需求的强度,最终为用户优先展现需求强度高的结果,并且,在整个搜索过程中,用户只需在输入框中输入搜索词即可,相比传统的高级搜索方式,省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
为达上述目的,本发明第三方面实施例的搜索引擎,包括本发明第二方面实施例的论文的搜索装置。
本发明实施例的搜索引擎,可通过搜索装置中的获取模块获取用户输入的搜索词,确定模块根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略,生成模块根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,提供模块将搜索结果页面提供给用户,即在用户输入搜索词进行论文搜索时,经过机器挖掘和大数据分析,确定用户的需求类型并分析该需求的强度,最终为用户优先展现需求强度高的结果,并且,在整个搜索过程中,用户只需在输入框中输入搜索词即可,相比传统的高级搜索方式,省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的论文的搜索方法的流程图;
图2是根据本发明一个具体实施例的论文的相关搜索结果展现在搜索结果页面的示例图;
图3是根据本发明另一个具体实施例的论文的相关搜索结果展现在搜索结果页面的示例图;
图4(a)、(b)和(c)是根据本发明实施例的搜索结果页面的示例图;
图5是根据本发明一个实施例的论文的搜索装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的论文的搜索方法、装置及搜索引擎。
图1是根据本发明一个实施例的论文的搜索方法的流程图。如图1所示,该论文的搜索方法可以包括:
S101,获取用户输入的搜索词。
例如,可获取用户在搜索引擎的输入框中输入的搜索词。其中,在本发明的实施例中,该搜索词可以是汉字、字母、数字等。
S102,根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略。
其中,在本发明的实施例中,需求类型可包括但不限于单篇类需求、学者类需求和期刊/会议类需求等。
具体而言,在本发明的实施例中,根据搜索词确定用户的需求类型的具体实现过程可如下:将搜索词与预先生成的搜索需求库中的样本搜索词进行匹配;如果搜索词与样本搜索词匹配,则将与样本搜索词对应的样本需求类型确定为用户的需求类型。
可选地,在本发明的实施例中,上述搜索需求库可通过以下步骤预先生成的:搜集多个用户输入的多个样本搜索词,并对搜集到的多个样本搜索词进行大数据挖掘以生成多个样本需求类型;建立多个样本搜索词与多个样本需求类型的对应关系以生成搜索需求库。
也就是说,可预先通过对大量用户日常输入的样本搜索词(即query)进行大量的数据挖掘,分析并归纳出用户需求的集中类型,该样本需求类型可包括但不限于单篇类需求、刊物类需求、主题类需求、学者类需求等。然后,可通过对输入的样本搜索词和这些样本需求类型进行匹配,以建立样本搜索词与样本需求类型的对应关系以生成搜索需求库。例如,样本搜索词为“machine learning”,则对应的样本需求类型为期刊/会议类需求。当用户在线搜索时,可将用户输入的搜索词与搜索需求库众的样本搜索词进行比对,并将匹配的样本搜索词对应的样本需求类型作为该用户的需求类型。
在确定用户的需求类型之后,根据需求类型确定对应的引导策略的具体实现过程可如下:当需求类型为单篇类需求时,确定引导策略为单篇类引导策略;当需求类型为学者类需求时,确定引导策略为学者类引导策略;当需求类型为期刊/会议类需求时,确定引导策略为期刊/会议类引导策略。
S103,根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,并将搜索结果页面提供给用户。
具体地,在确定引导策略之后,可根据该引导策略和用户输入的搜索词进行搜索引导,得到对应的论文的相关搜索结果,并将该搜索结果按照引导策略展现在搜索结果页面,最后,可将该搜索结果页面提供给用户。
在本发明的实施例中,当确定引导策略为单篇类引导策略时,如图2所示,根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面的具体实现过程可包括:
S201,根据搜索词和预设的论文库中论文的标题字符串计算搜索词与标题字符串之间的编辑距离。
其中,在本发明的实施例中,上述编辑距离可理解为搜索词与标题字符串这两个字串之间,由一个转成另一个所需的最少编辑操作次数。
具体地,可对该搜索词进行去除无意义字符后切词,并对论文库中的论文的标题进行去除无意义字符后切词,之后,可计算论文的标题和搜索词以切词为粒度的编辑距离,通过该编辑距离的大小来判定该搜索词与一篇论文的精确命中程度。
S202,当编辑距离为第一预设值时,确定论文的标题与搜索词完全精确命中,并统计完全精确命中的论文的数目。
其中,在本发明的实施例中,上述第一预设值可为0。具体地,当编辑距离为0时,可表明该搜索词与该标题完全精确命中,并可通过对这类标题完全精确命中的论文的数目进行统计。
S203,当完全精确命中的论文的数目小于或等于第二预设值时,将完全精确命中的论文全部展现在搜索结果页面,其中,完全精确命中的论文在搜索结果页面的展现排列优先级高于不完全精确命中的论文的展现排列优先级。
优选地,在本发明的实施例中,上述第二预设值可为3。具体地,可将统计得到的标题完全精确命中的论文的数目与该第二预设值进行大小比较,当标题完全精确命中的论文的数目小于或等于该第二预设值(如3)时,可将这些标题完全精确命中的论文强制查到搜索结果页面中的搜索结果前三位置进行展现。
S204,当完全精确命中的论文的数目大于第二预设值时,将所有完全精确命中的论文进行聚合,并将聚合后的部分完全精确命中的论文展现在搜索结果页面。
例如,当标题完全精确命中的论文的数目大于该第二预设值(如3)时,可先将所有标题完全精确命中的论文进行聚合,并参考这些论文的引用数、期刊影响力、作者影响力等,参数,取综合质量最好的前三结果,并单独以阿拉丁聚合的样式放在自然结果的前面。当用户通过点击“显示全部”,则能跳转到查看其他全部标题完全精确命中的论文。如图4(a)所示,以搜索词“神经网络集成”为例,可得到多个与该搜索词完全精确命中的论文,将这些论文进行聚合,并将聚合后的前3个综合因素最好的论文展现在搜索结果页面的最上方,并为用户提供显示全部功能的入口,用户通过点击该入口可以查看全部标题完全精确命中的论文。
由此,将所有命中文章标题的单篇文章集成在一起,放在搜索结果作为单篇的引导提示,用户可以从这里直接查看该单篇,同时对于不是单篇需求的用户,在提示下方也有主题命中的结果(即标题不完全精确命中的论文)展示,满足了单篇和主题两种需求的检索。
在本发明的实施例中,当确定引导策略为学者类引导策略时,如图3所示,根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面的具体实现过程可包括:
S301,获取与搜索词精确命中的标题所对应的论文以及与搜索词精确命中的作者所对应的论文。
具体地,首先可预先将论文库中的所有论文标题和人名建立倒排索引,之后,可根据搜索词和倒排索引找到与搜索词相关的论文,然后,根据搜索词通过精确命中的计算方法来计算出该搜索词是否精确命中论文库中的人名或论文标题。其中,在本发明的实施例中,上述精确命中的方法可为:根据搜索词的所有的term(切词)的命中位置在目标文本中是否连续来判断,若是,则判断精确命中,否则判断未精确命中。例如,搜索词为机器,目标文本为机器学习,则搜索词“机器”精确命中了目标文本“机器学习”。
也就是说,可先根据搜索词和倒排索引找到与搜索词相关的论文,之后,可通过上述精确命中的方式计算搜索词是否精确命中这些相关论文的某个作者,如果是,则说明该论文作者名字中包含该搜索词,此时可将该论文标记为命中人名标记,同时,还可通过上述精确命中的方式计算搜索词是否精确命中这些相关论文的标题,如果是,则将该论文标记为命中标题标记,如果该搜索词与这些相关论文的作者以及标题均未精确命中,则可将这类论文标记为其他。
S302,对搜索词进行人名需求识别,确定搜索词对应的人名需求强度。
需要说明的是,在本发明的实施例中,可预先搜集论文库中人名,并根据这些人名构建人名词典。具体地,首先,可对论文库中的人名进行切词,并通过频次挖掘得到常见人名term(术语),得到人名term和频次的对应关系词典,称为人名term词典。然后,对期刊/会议名等信息进行非人名term的挖掘,比如“machine”“learning”等经常在期刊名中出现的term。这一类非人名term主要是用来进行非人名需求的判断,生成非人名term词典。最后,还可搜集所有著名学者名,并将这些著名学者名集合在一起以建立一个人名白名单。
在本实施例中,可将搜索词与上述预先建立的人名白名单进行匹配,以实现对该搜索词进行人名需求识别的目的,即,可判断该搜索词是否存在于该人名白名单中,若是,则将该搜索词的人名需求强度设置为高,否则对该搜索词进行人名切词(term),并将每个term进行非人名term词典的查询,如果两个以上的term出现在非人名term词典中,则可将该搜索词的人名需求强度设置为非人名;否则,计算搜索词的每个term在人名term词典中的频次,如果单人名term频次及所有人名term的频次均达到阈值,则判断该搜索词有人名需求,可将该搜索词的人名需求强度设置为中,如果单人名term频次或所有人名term的频次中的任一个不能达到阈值,则可将该搜索词的人名需求强度设置为低。
S303,当人名需求强度为非人名时,将与搜索词精确命中的标题所对应的论文展现在搜索结果页面。
具体地,当搜索词对应的人名需求强度为非人名时,可将有命中标题标记的论文排在搜索结果页面中的最上方,其他论文紧跟,有命中人名标记的论文排在这两类论文的后面。可以理解,上述标记均不在搜索结果页面中做任何提示。
S304,当人名需求强度为高时,将与搜索词精确命中的作者所对应的论文展现在搜索结果页面。
具体地,当搜索词对应的人名需求强度为高时,可优先将有命中人名标记的论文排在搜索结果页面中的最上方,有命中标题标记的论文紧跟,其他的论文在前两类论文的后面,满足了作者的人名检索需求。其中,在搜索结果页面的前端还可进行提示,例如,如图4(b)所示,“以下为您显示作者“袁隆平”发表的文献,仍然搜索关键词:“袁隆平”,当用户点击该“袁隆平”时,则跳转搜索结果页面,并将之前有命中标题标记的论文排到前面,其他的论文紧跟,命中人名标记的论文排到后面,以满足作者的主题检索需求。
S305,当人名需求强度为中时,判断与搜索词精确命中的标题所对应的论文的数目与搜索词精确命中的作者所对应的论文的数目的比值是否大于或等于第三预设值,若是,则将与搜索词精确命中的作者所对应的论文展现在搜索结果页面,否则将与搜索词精确命中的标题所对应的论文展现在搜索结果页面。
具体地,当搜索词对应的人名需求强度为中时,可对命中人名标记的论文和命中标题标记的论文进行个数统计,当命中人名的论文数目/命中标题的论文数目大于或等于阈值(即上述第三预设值)时,可优先将有命中人名标记的论文排在搜索结果页面中的最上方,有命中标题标记的论文紧跟,其他的论文在前两类论文的后面,满足了作者的人名检索需求。
当命中人名的论文数目/命中标题的论文数目小于阈值(即上述第三预设值)时,可将命中标题的论文优先排到前面,其他论文紧跟,有人名标记的论文在搜索结果页面的最后面,并在搜索结果页面的前端进行提示,例如,如图4(c)所示,“您是不是要找作者武夷山发表的文献”,当用户点击提示中的“武夷山”时,可以人名高级语法进行论文的召回,返回作者为“武夷山”的所有论文,简单直接。由此,通过为用户提供快速切换的入口,省去了用户各种变换搜索词的麻烦,提升了用户的搜索体验。
在本发明的实施例中,当确定引导策略为期刊/会议类引导策略时,根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面的具体实现过程可如下:将搜索词与预先生成的期刊会议词典进行匹配;当搜索词与期刊会议词典中期刊/会议的字符串匹配时,将匹配的期刊/会议上的论文展现在搜索结果页面。其中,可预先对论文库进行大数据挖掘,抽取期刊名和会议名,并根据抽取到的期刊名和会议名构造期刊会议词典。
具体地,当获取到用户输入的搜索词之后,可根据该搜索词直接与期刊会议词典进行匹配,并以匹配到的期刊/会议名进行高级语法发起检索,得到发表在当前该期刊/会议上的论文,并将这些论文展现在搜索结果页面中以供用户查看。
需要说明的是,在本发明的一个实施例中,当上述三种引导策略提示同时出现两种甚至三种时,由于期刊和会议是配置的词典,可信度比较高,同时考虑到由于一些论文期刊被提取成title的情况,所以,当提示冲突时,优先展现期刊和会议引导提示,其次是展现单篇聚合引导提示,主要是考虑到有多篇完全精确命中title的论文时,用户有人名需求的可信度下降。
本发明实施例的论文的搜索方法,可先获取用户输入的搜索词,之后,可根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略,然后,根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,并将搜索结果页面提供给用户,即在用户输入搜索词进行论文搜索时,经过机器挖掘和大数据分析,确定用户的需求类型并分析该需求的强度,最终为用户优先展现需求强度高的结果,并且,在整个搜索过程中,用户只需在输入框中输入搜索词即可,相比传统的高级搜索方式,省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
为了实现上述实施例,本发明还提出了一种论文的搜索装置。
图5是根据本发明一个实施例的论文的搜索装置的结构框图。如图5所示,该论文的搜索装置可以包括:获取模块10、确定模块20、生成模块30和提供模块40。
具体地,获取模块10可用于获取用户输入的搜索词。例如,获取模块10可获取用户在搜索引擎的输入框中输入的搜索词。其中,在本发明的实施例中,该搜索词可以是汉字、字母、数字等。
确定模块20可用于根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略。其中,在本发明的实施例中,需求类型可包括但不限于单篇类需求、学者类需求和期刊/会议类需求等。
更具体地,确定模块20可将搜索词与预先生成的搜索需求库中的样本搜索词进行匹配;如果搜索词与样本搜索词匹配,则将与样本搜索词对应的样本需求类型确定为用户的需求类型。
可选地,在本发明的实施例中,论文的搜索装置还可包括预先处理模块,该预先处理模块可预先搜集多个用户输入的多个样本搜索词,并对搜集到的多个样本搜索词进行大数据挖掘以生成多个样本需求类型;建立多个样本搜索词与多个样本需求类型的对应关系以生成搜索需求库。
也就是说,预先处理模块可预先通过对大量用户日常输入的样本搜索词(即query)进行大量的数据挖掘,分析并归纳出用户需求的集中类型,该样本需求类型可包括但不限于单篇类需求、刊物类需求、主题类需求、学者类需求等,然后,可通过对输入的样本搜索词和这些样本需求类型进行匹配,以建立样本搜索词与样本需求类型的对应关系以生成搜索需求库。例如,样本搜索词为“machine learning”,则对应的样本需求类型为期刊/会议类需求。当用户在线搜索时,可将用户输入的搜索词与搜索需求库众的样本搜索词进行比对,并将匹配的样本搜索词对应的样本需求类型作为该用户的需求类型。
具体而言,在本发明的实施例中,在确定用户的需求类型之后,确定模块20据需求类型确定对应的引导策略的具体实现过程可如下:在需求类型为单篇类需求时,确定引导策略为单篇类引导策略;在需求类型为学者类需求时,确定引导策略为学者类引导策略;在需求类型为期刊/会议类需求时,确定引导策略为期刊/会议类引导策略。
生成模块30可用于根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面。更具体地,在确定模块20确定引导策略之后,生成模块30可根据该引导策略和用户输入的搜索词进行搜索引导,得到对应的论文的相关搜索结果,并将该搜索结果按照引导策略展现在搜索结果页面。
在本发明的实施例中,在确定引导策略为单篇类引导策略时,生成模块30具体用于:根据搜索词和预设的论文库中论文的标题字符串计算搜索词与标题字符串之间的编辑距离;在编辑距离为第一预设值时,确定论文的标题与搜索词完全精确命中,并统计完全精确命中的论文的数目;在完全精确命中的论文的数目小于或等于第二预设值时,将完全精确命中的论文全部展现在搜索结果页面,其中,完全精确命中的论文在搜索结果页面的展现排列优先级高于不完全精确命中的论文的展现排列优先级;在完全精确命中的论文的数目大于第二预设值时,将所有完全精确命中的论文进行聚合,并将聚合后的部分完全精确命中的论文展现在搜索结果页面。具体的实现过程可参照上述方法对应实施例的描述,在此不再赘述。
在本发明的实施例中,在确定引导策略为学者类引导策略时,生成模块30具体用于:获取与搜索词精确命中的标题所对应的论文以及与搜索词精确命中的作者所对应的论文;对搜索词进行人名需求识别,确定搜索词对应的人名需求强度;在人名需求强度为非人名时,将与搜索词精确命中的标题所对应的论文展现在搜索结果页面;在人名需求强度为高时,将与搜索词精确命中的作者所对应的论文展现在搜索结果页面;在人名需求强度为中时,判断与搜索词精确命中的标题所对应的论文的数目与搜索词精确命中的作者所对应的论文的数目的比值是否大于或等于第三预设值,若是,则将与搜索词精确命中的作者所对应的论文展现在搜索结果页面,否则将与搜索词精确命中的标题所对应的论文展现在搜索结果页面。具体的实现过程可参照上述方法对应实施例的描述,在此不再赘述。
在本发明的实施例中,在确定引导策略为期刊/会议类引导策略时,生成模块30具体用于:将搜索词与预先生成的期刊会议词典进行匹配;当搜索词与期刊会议词典中期刊/会议的字符串匹配时,将匹配的期刊/会议上的论文展现在搜索结果页面。具体的实现过程可参照上述方法对应实施例的描述,在此不再赘述。
提供模块40可用于将搜索结果页面提供给用户。
本发明实施例的论文的搜索装置,可通过获取模块获取用户输入的搜索词,确定模块根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略,生成模块根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,提供模块将搜索结果页面提供给用户,即在用户输入搜索词进行论文搜索时,经过机器挖掘和大数据分析,确定用户的需求类型并分析该需求的强度,最终为用户优先展现需求强度高的结果,并且,在整个搜索过程中,用户只需在输入框中输入搜索词即可,相比传统的高级搜索方式,省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
为了实现上述实施例,本发明还提出了一种搜索引擎,该搜索引擎可包括上述任一个实施例所述的论文的搜索装置。
本发明实施例的搜索引擎,可通过搜索装置中的获取模块获取用户输入的搜索词,确定模块根据搜索词确定用户的需求类型,并根据需求类型确定对应的引导策略,生成模块根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面,提供模块将搜索结果页面提供给用户,即在用户输入搜索词进行论文搜索时,经过机器挖掘和大数据分析,确定用户的需求类型并分析该需求的强度,最终为用户优先展现需求强度高的结果,并且,在整个搜索过程中,用户只需在输入框中输入搜索词即可,相比传统的高级搜索方式,省去了用户研究高级搜索的时间,将用户的搜索流程及步骤变得更加便捷化、人性化,大大提升了用户体验。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (11)
1.一种论文的搜索方法,其特征在于,包括以下步骤:
获取用户输入的搜索词;
根据所述搜索词确定所述用户的需求类型,并根据所述需求类型确定对应的引导策略,其中,所述需求类型包括单篇类需求;
根据所述引导策略和所述搜索词生成论文的相关搜索结果并展现在搜索结果页面,并将所述搜索结果页面提供给所述用户;
其中,当所述需求类型为所述单篇类需求,确定所述引导策略为单篇类引导策略时,所述根据引导策略和所述搜索词生成论文的相关搜索结果并展现在搜索结果页面包括:
根据所述搜索词和预设的论文库中论文的标题字符串计算所述搜索词与所述标题字符串之间的编辑距离;
当所述编辑距离为第一预设值时,确定所述论文的标题与所述搜索词完全精确命中,并统计所述完全精确命中的论文的数目;
当所述完全精确命中的论文的数目小于或等于第二预设值时,将所述完全精确命中的论文全部展现在所述搜索结果页面,其中,所述完全精确命中的论文在所述搜索结果页面的展现排列优先级高于不完全精确命中的论文的展现排列优先级;
当所述完全精确命中的论文的数目大于所述第二预设值时,将所有所述完全精确命中的论文进行聚合,并将聚合后的部分所述完全精确命中的论文展现在所述搜索结果页面。
2.如权利要求1所述的论文的搜索方法,其特征在于,所述需求类型还包括学者类需求和期刊/会议类需求。
3.如权利要求2所述的论文的搜索方法,其特征在于,所述根据需求类型确定对应的引导策略包括:
当所述需求类型为所述学者类需求时,确定所述引导策略为学者类引导策略;
当所述需求类型为所述期刊/会议类需求时,确定所述引导策略为期刊/会议类引导策略。
4.如权利要求3所述的论文的搜索方法,其特征在于,当确定所述引导策略为所述学者类引导策略时,所述根据引导策略和所述搜索词生成论文的相关搜索结果并展现在搜索结果页面包括:
获取与所述搜索词精确命中的标题所对应的论文以及与所述搜索词精确命中的作者所对应的论文;
对所述搜索词进行人名需求识别,确定所述搜索词对应的人名需求强度;
当所述人名需求强度为非人名时,将所述与所述搜索词精确命中的标题所对应的论文展现在所述搜索结果页面;
当所述人名需求强度为高时,将所述与所述搜索词精确命中的作者所对应的论文展现在所述搜索结果页面;
当所述人名需求强度为中时,判断所述与所述搜索词精确命中的标题所对应的论文的数目与所述搜索词精确命中的作者所对应的论文的数目的比值是否大于或等于第三预设值,若是,则将所述与所述搜索词精确命中的作者所对应的论文展现在所述搜索结果页面,否则将所述与所述搜索词精确命中的标题所对应的论文展现在所述搜索结果页面。
5.如权利要求3或4所述的论文的搜索方法,其特征在于,当确定所述引导策略为所述期刊/会议类引导策略时,所述根据引导策略和所述搜索词生成论文的相关搜索结果并展现在搜索结果页面包括:
将所述搜索词与预先生成的期刊会议词典进行匹配;
当所述搜索词与所述期刊会议词典中期刊/会议的字符串匹配时,将所述匹配的期刊/会议上的论文展现在所述搜索结果页面。
6.一种论文的搜索装置,其特征在于,包括:
获取模块,用于获取用户输入的搜索词;
确定模块,用于根据所述搜索词确定所述用户的需求类型,并根据所述需求类型确定对应的引导策略,其中,所述需求类型包括单篇类需求;
生成模块,用于根据所述引导策略和所述搜索词生成论文的相关搜索结果并展现在搜索结果页面;
提供模块,用于将所述搜索结果页面提供给所述用户;
其中,当所述需求类型为所述单篇类需求,确定所述引导策略为单篇类引导策略时,所述生成模块具体用于:
根据所述搜索词和预设的论文库中论文的标题字符串计算所述搜索词与所述标题字符串之间的编辑距离;
在所述编辑距离为第一预设值时,确定所述论文的标题与所述搜索词完全精确命中,并统计所述完全精确命中的论文的数目;
在所述完全精确命中的论文的数目小于或等于第二预设值时,将所述完全精确命中的论文全部展现在所述搜索结果页面,其中,所述完全精确命中的论文在所述搜索结果页面的展现排列优先级高于不完全精确命中的论文的展现排列优先级;
在所述完全精确命中的论文的数目大于所述第二预设值时,将所有所述完全精确命中的论文进行聚合,并将聚合后的部分所述完全精确命中的论文展现在所述搜索结果页面。
7.如权利要求6所述的论文的搜索装置,其特征在于,所述需求类型还包括学者类需求和期刊/会议类需求。
8.如权利要求7所述的论文的搜索装置,其特征在于,所述确定模块具体用于:
在所述需求类型为所述学者类需求时,确定所述引导策略为学者类引导策略;
在所述需求类型为所述期刊/会议类需求时,确定所述引导策略为期刊/会议类引导策略。
9.如权利要求8所述的论文的搜索装置,其特征在于,在确定所述引导策略为所述学者类引导策略时,所述生成模块具体用于:
获取与所述搜索词精确命中的标题所对应的论文以及与所述搜索词精确命中的作者所对应的论文;
对所述搜索词进行人名需求识别,确定所述搜索词对应的人名需求强度;
在所述人名需求强度为非人名时,将所述与所述搜索词精确命中的标题所对应的论文展现在所述搜索结果页面;
在所述人名需求强度为高时,将所述与所述搜索词精确命中的作者所对应的论文展现在所述搜索结果页面;
在所述人名需求强度为中时,判断所述与所述搜索词精确命中的标题所对应的论文的数目与所述搜索词精确命中的作者所对应的论文的数目的比值是否大于或等于第三预设值,若是,则将所述与所述搜索词精确命中的作者所对应的论文展现在所述搜索结果页面,否则将所述与所述搜索词精确命中的标题所对应的论文展现在所述搜索结果页面。
10.如权利要求8或9所述的论文的搜索装置,其特征在于,在确定所述引导策略为所述期刊/会议类引导策略时,所述生成模块具体用于:
将所述搜索词与预先生成的期刊会议词典进行匹配;
当所述搜索词与所述期刊会议词典中期刊/会议的字符串匹配时,将所述匹配的期刊/会议上的论文展现在所述搜索结果页面。
11.一种搜索引擎,其特征在于,包括:如权利要求6至10中任一项所述的论文的搜索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510817344.6A CN105488113B (zh) | 2015-11-23 | 2015-11-23 | 论文的搜索方法、装置及搜索引擎 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510817344.6A CN105488113B (zh) | 2015-11-23 | 2015-11-23 | 论文的搜索方法、装置及搜索引擎 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488113A CN105488113A (zh) | 2016-04-13 |
CN105488113B true CN105488113B (zh) | 2018-12-21 |
Family
ID=55675088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510817344.6A Active CN105488113B (zh) | 2015-11-23 | 2015-11-23 | 论文的搜索方法、装置及搜索引擎 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488113B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708934A (zh) * | 2016-11-16 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的学术文献搜索方法和装置 |
CN108664515B (zh) * | 2017-03-31 | 2019-09-17 | 北京三快在线科技有限公司 | 一种搜索方法及装置,电子设备 |
CN107180159A (zh) * | 2017-06-19 | 2017-09-19 | 上海德启信息科技有限公司 | 一种目标数据获取方法和装置 |
CN112749266B (zh) * | 2021-01-19 | 2023-03-21 | 海尔数字科技(青岛)有限公司 | 一种工业问答方法、装置、系统、设备及存储介质 |
CN114969391B (zh) * | 2022-07-29 | 2022-11-18 | 华中科技大学同济医学院附属协和医院 | 文章数据搜索方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7788274B1 (en) * | 2004-06-30 | 2010-08-31 | Google Inc. | Systems and methods for category-based search |
CN103914553A (zh) * | 2014-04-14 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 搜索方法和搜索引擎 |
CN104239481A (zh) * | 2014-09-04 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 搜索方法、系统和网络机器人 |
CN104239570A (zh) * | 2014-09-30 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 论文的搜索方法及装置 |
CN104731926A (zh) * | 2015-03-27 | 2015-06-24 | 百度在线网络技术(北京)有限公司 | 推荐词的展现方法和装置 |
CN104794242A (zh) * | 2015-05-11 | 2015-07-22 | 何杨洲 | 一种搜索方法 |
CN104899281A (zh) * | 2015-06-01 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 学术文章处理方法和学术文章的搜索处理方法及装置 |
-
2015
- 2015-11-23 CN CN201510817344.6A patent/CN105488113B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7788274B1 (en) * | 2004-06-30 | 2010-08-31 | Google Inc. | Systems and methods for category-based search |
CN103914553A (zh) * | 2014-04-14 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 搜索方法和搜索引擎 |
CN104239481A (zh) * | 2014-09-04 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 搜索方法、系统和网络机器人 |
CN104239570A (zh) * | 2014-09-30 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 论文的搜索方法及装置 |
CN104731926A (zh) * | 2015-03-27 | 2015-06-24 | 百度在线网络技术(北京)有限公司 | 推荐词的展现方法和装置 |
CN104794242A (zh) * | 2015-05-11 | 2015-07-22 | 何杨洲 | 一种搜索方法 |
CN104899281A (zh) * | 2015-06-01 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 学术文章处理方法和学术文章的搜索处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105488113A (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105488113B (zh) | 论文的搜索方法、装置及搜索引擎 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
WO2014169334A1 (en) | Methods and systems for improved document comparison | |
US8655648B2 (en) | Identifying topically-related phrases in a browsing sequence | |
EP1391834A2 (en) | Document retrieval system and question answering system | |
EP2577521A2 (en) | Detection of junk in search result ranking | |
CN100432996C (zh) | 基于网页页面布局提取网页核心内容的系统、方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN107220307A (zh) | 网页搜索方法和装置 | |
CN107844493A (zh) | 一种文件关联方法及系统 | |
CN103823868A (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
Trieschnigg et al. | TNO Hierarchical topic detection report at TDT 2004 | |
Bartík | Text-based web page classification with use of visual information | |
Yoon et al. | A conference paper exploring system based on citing motivation and topic | |
KR101104753B1 (ko) | 구조계산서 텍스트 정보의 계층 구조 추출 방법 | |
Ramezani et al. | Automated text summarization: An overview | |
Ibrahim et al. | Exquisite: explaining quantities in text | |
CN106570116A (zh) | 基于人工智能的搜索结果的聚合方法及装置 | |
Wu et al. | An efficient linear text segmentation algorithm using hierarchical agglomerative clustering | |
KR20080039864A (ko) | 문서분석을 위한 사용자 인터페이스 시스템 | |
CN104699847B (zh) | 网页摘要抽取方法及其装置 | |
Keller et al. | GRABEX: A graph-based method for web site block classification and its application on mining breadcrumb trails | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
Lim et al. | Generalized and lightweight algorithms for automated web forum content extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |