CN106708934A - 基于人工智能的学术文献搜索方法和装置 - Google Patents

基于人工智能的学术文献搜索方法和装置 Download PDF

Info

Publication number
CN106708934A
CN106708934A CN201611025406.0A CN201611025406A CN106708934A CN 106708934 A CN106708934 A CN 106708934A CN 201611025406 A CN201611025406 A CN 201611025406A CN 106708934 A CN106708934 A CN 106708934A
Authority
CN
China
Prior art keywords
academic
term
document
target literature
academic documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611025406.0A
Other languages
English (en)
Inventor
张显
卢家广
徐学睿
黄岳
张晓婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611025406.0A priority Critical patent/CN106708934A/zh
Publication of CN106708934A publication Critical patent/CN106708934A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于人工智能的学术文献搜索方法和装置,通过当根据用户输入的检索词,确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用该检索词进行搜索,进而根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成目标文献的来源信息,当目标文献唯一时,在搜索结果页面上展示目标文献的基本信息以及来源信息。由于在搜索结果页面上展示了该目标文献的基本信息以及来源信息,极大方便了用户根据来源信息直接进行下载,解决了现有技术中针对学术文献的搜索过程操作不便捷的技术问题。

Description

基于人工智能的学术文献搜索方法和装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于人工智能的学术文献搜索方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
基于人工智能对科研工作者的搜索行为进行分析,可以得知科研工作者这类用户在搜索科研文献时,其目的是通过搜索结果能够尽快获取到与用户所输入的检索词相关的学术文献,例如:论文、期刊、书籍等等。但在现有技术中,用户输入检索词后,返回的搜索结果往往是包含检索词的网页链接。用户需要在结果页面逐个点击网页链接查看网页之后,才能够判断出通过哪个网页能够获取到所需的学术文献。
可见,现有技术中,学术文献的搜索过程操作不够便捷,用户逐个点击网页链接查看网页,以辨别通过哪个网页能够获取到所需的学术文献的过程较为繁琐。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的学术文献搜索方法,以解决现有技术中针对学术文献的搜索过程操作不便捷的技术问题,避免用户逐个点击网页链接查看网页,辨别通过哪个网页能够获取到所需的学术文献的过程。
本发明的第二个目的在于提出一种基于人工智能的学术文献搜索装置。
本发明的第三个目的在于提出另一种基于人工智能的学术文献搜索装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的学术文献搜索方法,包括:
当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;
根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;
当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
本发明实施例的基于人工智能的学术文献搜索方法,通过当根据用户输入的检索词,确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用该检索词进行搜索,以得到匹配的文献,进而根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成目标文献的来源信息,当目标文献唯一时,在搜索结果页面上展示目标文献的基本信息以及来源信息。由于当目标文献唯一时,在搜索结果页面上展示了该目标文献的基本信息以及来源信息,极大方便了用户根据来源信息直接进行下载,避免了用户逐个点击网页链接查看网页,辨别通过哪个网页能够获取到所需的学术文献的过程,从而解决了现有技术中针对学术文献的搜索过程操作不便捷的技术问题。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的学术文献搜索装置,包括:
搜索模块,用于当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;
合并模块,用于根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;
展示模块,用于当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
本发明实施例的基于人工智能的学术文献搜索装置,通过当根据用户输入的检索词,确定出搜索需求为学术文献时,搜索模块在用于维护学术文献的各个学术库中,利用该检索词进行搜索,以得到匹配的文献,进而合并模块根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成目标文献的来源信息,当目标文献唯一时,展示模块在搜索结果页面上展示目标文献的基本信息以及来源信息。由于在搜索结果页面上展示了该目标文献的基本信息以及来源信息,极大方便了用户根据来源信息直接进行下载,避免了用户逐个点击网页链接查看网页,辨别通过哪个网页能够获取到所需的学术文献的过程,从而解决了现有技术中针对学术文献的搜索过程操作不便捷的技术问题。
为达上述目的,本发明第三方面实施例提出了另一种基于人工智能的学术文献搜索装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于人工智能的学术文献搜索方法,所述方法包括:当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的学术文献搜索方法,所述方法包括:当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于人工智能的学术文献搜索方法的流程示意图;
图2为本实施例提供的另一种基于人工智能的学术文献搜索方法的流程示意图;
图3为搜索结果的示意图;
图4为本发明实施例提供的一种基于人工智能的学术文献搜索装置的结构示意图;以及
图5为本发明实施例提供的又一种基于人工智能的学术文献搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的学术文献搜索方法和装置。
图1为本发明实施例所提供的一种基于人工智能的学术文献搜索方法的流程示意图,如图1所示,该基于人工智能的学术文献搜索方法包括以下步骤:
步骤101,当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献。
具体地,在搜索引擎所运行的服务器端,可以采用需求分析的方式,根据用户的检索词,输入预先设置的用于对用户的搜索需求进行分析的DA模块,判断用户的搜索需求是否为学术文献。具体来说,用户可能采用一些比较宽泛的检索词进行搜索,这里就需要DA模块结合数据挖掘的一些方法,确定出用户的搜索需求,例如结合历史搜索行为等,当然,用户还可能直接采用一些明确体现搜索需求的检索词进行搜索,则DA模块可以直接根据检索词确定用户的搜索需求。
可见,本步骤中通过用户的输入的检索词,便可以确定用户的检索需求,进而在维护学术文献的学术库中直接进行搜索,避免了现有技术中需要用户点击选项确定搜索需求的过程,简化了用户操作,优化了用户的搜索体验。
步骤102,根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成目标文献的来源信息。
其中,目标文献在各个学术库中的地址,一般来说,是用于从该学术库下载该目标文献的地址,可以是下载入口网络链接,也可以是存储地址。
具体地,基本信息包括标题、作者、期刊、年份、关键词和摘要中的一个或多个,根据文献的基本信息,在匹配得到的文献中,确定哪些学术文献同属于一篇学术文献。针对所判断出同属于一篇目标文献的学术文献,通过对各个学术库的前述所提及的地址进行合并的方式,生成目标文献的来源信息。
步骤103,当目标文献唯一时,在搜索结果页面上展示目标文献的基本信息以及来源信息。
具体地,服务器端向用户端返回的搜索结果页面上,在第一页显示目标文献的基本信息以及来源信息,避免了用户需要点击多个链接进行查看的过程。这里仅仅在目标文献唯一时,才会在搜索结果页面上进行展示,是因为当在多个学术库中进行搜索得到的匹配的文献,若均属于同一篇目标文献,则说明用户具有极大的概率是在搜索这一篇学术文献,因此,可以在搜索结果页面上直接对这一篇学术文献进行展示。反之,若目标文献不唯一,则无法精确地确定用户的搜索需求,可以在搜索结果页面上提供多种搜索结果,而不应仅显示目标文献的基本信息以及来源信息,以便用户从中选择出所需的搜索结果。
本实施例中,通过当根据用户输入的检索词,确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用该检索词进行搜索,以得到匹配的文献,进而根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成目标文献的来源信息,在搜索结果页面上展示目标文献的基本信息以及来源信息。由于在搜索结果页面上展示了该目标文献的基本信息以及来源信息,极大方便了用户根据来源信息直接进行下载,避免了用户逐个点击网页链接查看网页,辨别通过哪个网页能够获取到所需的学术文献的过程,从而解决了现有技术中针对学术文献的搜索过程操作不便捷的技术问题。
为了清楚说明上一实施例,本实施例提供了另一种基于人工智能的学术文献搜索方法,图2为本实施例提供的另一种基于人工智能的学术文献搜索方法的流程示意图,如图2所示,该基于人工智能的学术文献搜索方法可以包括以下步骤:
步骤201,当根据检索词进行搜索需求分析,确定搜索需求为学术文献时,对检索词去除掉无实意的字符后,进行切词处理。
具体地,在确定用户的搜索需求为学术文献时,直接采用与学术文献相关的学术库进行搜索。在搜索之前,为了避免检索词中的一些无实意的字符在进行匹配的过程中造成信息干扰,可以预先对检索词进行处理,从而去除掉无实意的字符,并切分为多个有具体含义的词条。
步骤202,对各个学术库中学术文献的标题去除掉无实意的字符后,进行切词处理。
具体地,可以参照对检索词的处理方法,对学术文献的标题采用相似方式进行处理,以进一步提高学术文献的标题与检索词的匹配程度,降低由于字符不完全对应所造成的信息干扰。
步骤203,计算切词处理后的检索词和标题之间的编辑距离。
具体地,编辑距离是指两个字串之间,由一个转换为另一个所需要的最少编辑操作次数,可以通过编辑距离判断检索词和标题之间的匹配程度。当编辑距离为零时,表示检索词和标题完全精确匹配。
步骤204,判断是否存在编辑距离为零的标题,若是则执行步骤206,否则执行步骤205。
具体地,如果编辑距离为零,则说明存在与检索词完全精确匹配的学术文献。
步骤205,将满足匹配条件的学术文献,作为匹配得到的文献。
在实际操作过程中,为了扩大匹配中的学术文献的范围,可以适当对目标距离的取值进行调整。
作为一种可能的实现方式,匹配条件可以包括:若所述检索词识别为中文,在所述切词处理后的检索词包含的词条数目不小于第一阈值的情况下,将满足所述编辑距离小于目标距离的学术文献作为所述匹配得到的文献;若所述检索词识别为英文,在所述切词处理后的检索词包含的词条数目不小于第二阈值的情况下,将满足所述编辑距离小于所述目标距离的学术文献作为所述匹配得到的文献;其中,所述第二阈值大于所述第一阈值。
例如:通过我们对用户的检索词进行分析发现,有时候用户输入的检索词(query)和实际文献的标题(title)有偏差,并不一定是完全一致的,比如用户输入的检索词query=“Evaluation of suitability of bankruptcy prediction model”,实际用户所需查询的标题title=“Evaluation of suitability of bankruptcy prediction models”,最后一个单词少输入了一个“s”。因此,考虑到用户输入的检索词的误差,倘若没有编辑距离为0的文献,我们可以适当放宽编辑距离。如具体判断检索词和文献的标题是否匹配的匹配条件为:
(1)中文检索词,切词的词条数为5个及以上,编辑距离在2以下。
(2)英文检索词,切词的词条数,一般为单词数,在6及以上,编辑距离在2以下。
这里在判断编辑距离是否小于目标距离的同时,结合词条数判断检索词和文献的标题是否匹配,主要是为了减少检索词所含词条较少的情况下,造成的搜索误差。
步骤206,在匹配得到的文献中,根据基本信息,统计属于同一篇的各学术文献。
具体地,在判断学术文献是否为同一篇时,具体可以根据标题、作者、期刊、年份、关键词和摘要等这些基本信息进行判断。
步骤207,判断匹配得到的文献是否均同属于目标文献,若是则执行步骤208,否则结束流程,采用普通网页搜索方式进行搜索。
之所以仅在匹配得到的文献是否均同属于目标文献时,才采用本实施例中的结构化方式呈现目标文献的基本信息、来源信息和参考文献,这是由于,如果匹配得到的文献是否均同属于唯一的一篇目标文献,说明用户想要的结果就是这一单篇文献,否则,说明用户的需求不确定,需要进一步根据用户的后续搜索逐步明确用户需求。
步骤208,将目标文献标注为单篇标记,生成目标文献的展示内容。
其中,展示内容包括所述目标文献的基本信息、来源信息和参考文献中的一个或多个。
具体地,若为属于同一篇学术文献,即同属于目标文献,在对目标文献标注为单篇标记之后,识别各个学术库中的目标文献的下载条件,以利用所述下载条件对各个学术库中的目标文献的地址进行标注对各个学术库中的经过标注的地址进行合并,以生成目标文献的来源信息。进而,将步骤206中所采用的基本信息作为目标文献的基本信息。另外,还可以将目标文献所引用的文献作为参考文献。
步骤209,将具有所述单篇标记的目标文献排序在搜索结果的第一位。
步骤210,根据用户预先设定的顺序,以结构化方式依次展示所述目标文献的各展示内容。
具体地,在搜索结果的第一位,根据用户预先设定的顺序,以结构化方式依次展示所述目标文献的各展示内容;其中,图3为搜索结果的示意图,如图3所示,展示内容包括所述目标文献的基本信息、来源信息和参考文献中的一个或多个。
通过上述过程,在用户精确需求的目标文献上标注单篇标记,在前端展现时,根据单篇标记,对这条搜索结果,扩展的原有展现的样式,不仅局限于只显示标题和摘要,而是把其他结构化的信息,如作者、期刊等基本信息,以及目标文献的来源信息,以及参考文献等等,全部都在第一页中展现,直接呈现给用户,避免用户多次点击跳转才能查看到这些信息。
本实施例中,通过当根据用户输入的检索词,确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用该检索词进行搜索,以得到匹配的文献,进而根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成目标文献的来源信息,在搜索结果页面上展示目标文献的基本信息以及来源信息。由于在搜索结果页面上展示了该目标文献的基本信息以及来源信息,极大方便了用户根据来源信息直接进行下载,避免了用户逐个点击网页链接查看网页,辨别通过哪个网页能够获取到所需的学术文献的过程,从而解决了现有技术中针对学术文献的搜索过程操作不便捷的技术问题。
为了实现上述实施例,本发明还提出一种基于人工智能的学术文献搜索装置。
图4为本发明实施例提供的一种基于人工智能的学术文献搜索装置的结构示意图。
如图4所示,该基于人工智能的学术文献搜索装置包括:搜索模块41、合并模块42和展示模块43。
搜索模块41,用于当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献。
合并模块42,用于根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息。
展示模块43,用于当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
进一步地,在本发明实施例的一种可能的实现方式中,展示单元43,具体用于:在搜索结果的第一位,根据用户预先设定的顺序,以结构化方式依次展示所述目标文献的各展示内容;其中,所述展示内容包括所述目标文献的基本信息、来源信息和参考文献的一个或多个。
需要说明的是,前述对基于人工智能的学术文献搜索方法实施例的解释说明也适用于该实施例的基于人工智能的学术文献搜索装置,此处不再赘述。
基于上述实施例,本发明实施例还提供了又一种基于人工智能的学术文献搜索装置的可能的实现方式,图5为本发明实施例提供的又一种基于人工智能的学术文献搜索装置的结构示意图,在上一实施例的基础上,如图5所示,搜索模块41,包括:分析单元411、处理单元412和搜索单元413。
分析单元411,用于当获取到用户输入的检索词时,根据所述检索词进行搜索需求分析,以确定搜索需求为学术文献。
处理单元412,用于对检索词,以及对各个学术库中学术文献的标题去除掉无实意的字符后,进行切词处理。
搜索单元413,用于根据切词处理后的检索词和标题之间的编辑距离,选取出所述匹配得到的文献。
进一步地,在本发明实施例的一种可能的实现方式中,搜索单元413,具体用于:
若所述检索词识别为中文,在所述切词处理后的检索词包含的词条数目不小于第一阈值的情况下,将满足所述编辑距离小于目标距离的学术文献作为所述匹配得到的文献;
若所述检索词识别为英文,在所述切词处理后的检索词包含的词条数目不小于第二阈值的情况下,将满足所述编辑距离小于所述目标距离的学术文献作为所述匹配得到的文献;其中,所述第二阈值大于所述第一阈值。
进一步地,在本发明实施例的一种可能的实现方式中,合并模块42,包括:判断单元421、识别单元422和合并单元423。
判断单元421,用于根据文献的基本信息,判断各个学术库中匹配得到的文献是否为属于同一篇学术文献的目标文献。
其中,所述基本信息包括标题、作者、期刊、年份、关键词和摘要中的一个或多个。
识别单元422,用于若为同一篇学术文献,识别各个学术库中的目标文献的下载条件,以利用所述下载条件对各个学术库中的目标文献的地址进行标注。
合并单元423,用于对各个学术库中的经过标注的地址进行合并,以生成所述目标文献的来源信息。
进一步地,在本发明实施例的一种可能的实现方式中,展示模块43,包括:标注单元431和展示单元432。
标注单元431,用于若所述匹配得到的文献均同属于目标文献,将所述目标文献标注为单篇标记。
展示单元432,用于在显示搜索结果页面时,将具有所述单篇标记的目标文献排序在搜索结果的第一位,以结构化方式进行展示。
本发明实施例中,通过当根据用户输入的检索词,确定出搜索需求为学术文献时,搜索模块在用于维护学术文献的各个学术库中,利用该检索词进行搜索,以得到匹配的文献,进而合并模块根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成目标文献的来源信息,当目标文献唯一时,展示模块在搜索结果页面上展示目标文献的基本信息以及来源信息。由于在搜索结果页面上展示了该目标文献的基本信息以及来源信息,极大方便了用户根据来源信息直接进行下载,避免了用户逐个点击网页链接查看网页,辨别通过哪个网页能够获取到所需的学术文献的过程,从而解决了现有技术中针对学术文献的搜索过程操作不便捷的技术问题。
为了实现上述实施例,本发明还提出另一种基于人工智能的学术文献搜索装置,包括:处理器,以及用于存储所述处理器可执行指令的存储器。
其中,处理器被配置为:当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于人工智能的学术文献搜索方法,所述方法包括:当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的学术文献搜索方法,所述方法包括:当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种基于人工智能的学术文献搜索方法,其特征在于,包括以下步骤:
当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;
根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;
当所述目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
2.根据权利要求1所述的基于人工智能的学术文献搜索方法,其特征在于,所述当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献,包括:
当获取到用户输入的检索词时,根据所述检索词进行搜索需求分析,以确定搜索需求为学术文献;
对检索词,以及对各个学术库中学术文献的标题去除掉无实意的字符后,进行切词处理;
根据切词处理后的检索词和标题之间的编辑距离,选取出所述匹配得到的文献。
3.根据权利要求2所述的基于人工智能的学术文献搜索方法,其特征在于,所述根据切词处理后的检索词和标题之间的编辑距离,选取出所述匹配得到的文献,包括:
若所述检索词识别为中文,在所述切词处理后的检索词包含的词条数目不小于第一阈值的情况下,将满足所述编辑距离小于目标距离的学术文献作为所述匹配得到的文献;
若所述检索词识别为英文,在所述切词处理后的检索词包含的词条数目不小于第二阈值的情况下,将满足所述编辑距离小于所述目标距离的学术文献作为所述匹配得到的文献;其中,所述第二阈值大于所述第一阈值。
4.根据权利要求1-3任一项所述的基于人工智能的学术文献搜索方法,其特征在于,所述根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息,包括
根据文献的基本信息,判断各个学术库中匹配得到的文献是否为属于同一篇学术文献的目标文献;其中,所述基本信息包括标题、作者、期刊、年份、关键词和摘要中的一个或多个;
若为同一篇学术文献,识别各个学术库中的目标文献的下载条件,以利用所述下载条件对各个学术库中的目标文献的地址进行标注;
对各个学术库中的经过标注的地址进行合并,以生成所述目标文献的来源信息。
5.根据权利要求1-3任一项所述的基于人工智能的学术文献搜索方法,其特征在于,所述当目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息,包括:
若所述匹配得到的文献均同属于目标文献,将所述目标文献标注为单篇标记;
在显示搜索结果页面时,将具有所述单篇标记的目标文献排序在搜索结果的第一位,以结构化方式进行展示。
6.根据权利要求5所述的基于人工智能的学术文献搜索方法,其特征在于,所述将具有所述单篇标记的目标文献排序在搜索结果的第一位,以结构化方式进行展示,包括:
在搜索结果的第一位,根据用户预先设定的顺序,以结构化方式依次展示所述目标文献的各展示内容;其中,所述展示内容包括所述目标文献的基本信息、来源信息和参考文献中的一个或多个。
7.一种基于人工智能的学术文献搜索装置,其特征在于,包括:
搜索模块,用于当根据用户输入的检索词确定出搜索需求为学术文献时,在用于维护学术文献的各个学术库中,利用所述检索词进行搜索,以得到匹配的文献;
合并模块,用于根据文献的基本信息,在匹配得到的文献中,将判断出同属于目标文献的各学术文献在对应学术库中的地址进行合并,以生成所述目标文献的来源信息;
展示模块,用于当所述目标文献唯一时,在搜索结果页面上展示所述目标文献的基本信息以及来源信息。
8.根据权利要求7所述的基于人工智能的学术文献搜索装置,其特征在于,所述搜索模块,包括:
分析单元,用于当获取到用户输入的检索词时,根据所述检索词进行搜索需求分析,以确定搜索需求为学术文献;
处理单元,用于对检索词,以及对各个学术库中学术文献的标题去除掉无实意的字符后,进行切词处理;
搜索单元,用于根据切词处理后的检索词和标题之间的编辑距离,选取出所述匹配得到的文献。
9.根据权利要求8所述的基于人工智能的学术文献搜索装置,其特征在于,所述搜索单元,具体用于:
若所述检索词识别为中文,在所述切词处理后的检索词包含的词条数目不小于第一阈值的情况下,将满足所述编辑距离小于目标距离的学术文献作为所述匹配得到的文献;
若所述检索词识别为英文,在所述切词处理后的检索词包含的词条数目不小于第二阈值的情况下,将满足所述编辑距离小于所述目标距离的学术文献作为所述匹配得到的文献;其中,所述第二阈值大于所述第一阈值。
10.根据权利要求7-9任一项所述的基于人工智能的学术文献搜索装置,其特征在于,所述合并模块,包括:
判断单元,用于根据文献的基本信息,判断各个学术库中匹配得到的文献是否为属于同一篇学术文献的目标文献;其中,所述基本信息包括标题、作者、期刊、年份、关键词和摘要中的一个或多个;
识别单元,用于若为同一篇学术文献,识别各个学术库中的目标文献的下载条件,以利用所述下载条件对各个学术库中的目标文献的地址进行标注;
合并单元,用于对各个学术库中的经过标注的地址进行合并,以生成所述目标文献的来源信息。
11.根据权利要求7-9任一项所述的基于人工智能的学术文献搜索装置,其特征在于,所述展示模块,包括:
标注单元,用于若所述匹配得到的文献均同属于目标文献,将所述目标文献标注为单篇标记;
展示单元,用于在显示搜索结果页面时,将具有所述单篇标记的目标文献排序在搜索结果的第一位,以结构化方式进行展示。
12.根据权利要求11所述的基于人工智能的学术文献搜索装置,其特征在于,所述展示单元,具体用于:
在搜索结果的第一位,根据用户预先设定的顺序,以结构化方式依次展示所述目标文献的各展示内容;其中,所述展示内容包括所述目标文献的基本信息、来源信息和参考文献的一个或多个。
CN201611025406.0A 2016-11-16 2016-11-16 基于人工智能的学术文献搜索方法和装置 Pending CN106708934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611025406.0A CN106708934A (zh) 2016-11-16 2016-11-16 基于人工智能的学术文献搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611025406.0A CN106708934A (zh) 2016-11-16 2016-11-16 基于人工智能的学术文献搜索方法和装置

Publications (1)

Publication Number Publication Date
CN106708934A true CN106708934A (zh) 2017-05-24

Family

ID=58940148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611025406.0A Pending CN106708934A (zh) 2016-11-16 2016-11-16 基于人工智能的学术文献搜索方法和装置

Country Status (1)

Country Link
CN (1) CN106708934A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407890A (zh) * 2021-07-19 2021-09-17 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404017A (zh) * 2007-10-05 2009-04-08 富士通株式会社 智能排序的搜索结果
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
US20150134597A1 (en) * 2013-11-08 2015-05-14 Ubc Late Stage, Inc. Document analysis and processing systems and methods
CN104794242A (zh) * 2015-05-11 2015-07-22 何杨洲 一种搜索方法
CN105447169A (zh) * 2015-12-07 2016-03-30 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置
CN105488113A (zh) * 2015-11-23 2016-04-13 百度在线网络技术(北京)有限公司 论文的搜索方法、装置及搜索引擎

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404017A (zh) * 2007-10-05 2009-04-08 富士通株式会社 智能排序的搜索结果
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
US20150134597A1 (en) * 2013-11-08 2015-05-14 Ubc Late Stage, Inc. Document analysis and processing systems and methods
CN104794242A (zh) * 2015-05-11 2015-07-22 何杨洲 一种搜索方法
CN105488113A (zh) * 2015-11-23 2016-04-13 百度在线网络技术(北京)有限公司 论文的搜索方法、装置及搜索引擎
CN105447169A (zh) * 2015-12-07 2016-03-30 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407890A (zh) * 2021-07-19 2021-09-17 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质
CN113407890B (zh) * 2021-07-19 2024-01-12 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN103514299B (zh) 信息搜索方法和装置
US7954053B2 (en) Extraction of datapoints from markup language documents
US11042594B2 (en) Artificial intelligence for product data extraction
CN105159977B (zh) 信息交互处理方法及装置
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN109145215A (zh) 网络舆情分析方法、装置及存储介质
CN106874248A (zh) 基于人工智能的文章生成方法和装置
US20150154307A1 (en) Using reading levels in responding to requests
CN106815192A (zh) 模型训练方法及装置和语句情感识别方法及装置
CN110633264B (zh) 应用专利数据库的研发辅助系统及其方法
US10942973B2 (en) Automatically generating and evaluating candidate terms for trademark clearance
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN110019642A (zh) 一种相似文本检测方法及装置
CN105975639A (zh) 搜索结果排序方法和装置
Sivakumar Effectual web content mining using noise removal from web pages
US20230080407A1 (en) Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN108153754B (zh) 一种数据处理方法及其装置
US11120362B2 (en) Identifying a product in a document
US11409814B2 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
Bu et al. An FAR-SW based approach for webpage information extraction
CN109388723A (zh) 基于内容的图像管理和选择

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170524