CN104239570B - 论文的搜索方法及装置 - Google Patents

论文的搜索方法及装置 Download PDF

Info

Publication number
CN104239570B
CN104239570B CN201410519986.3A CN201410519986A CN104239570B CN 104239570 B CN104239570 B CN 104239570B CN 201410519986 A CN201410519986 A CN 201410519986A CN 104239570 B CN104239570 B CN 104239570B
Authority
CN
China
Prior art keywords
author
paper
name
entity identifier
property parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410519986.3A
Other languages
English (en)
Other versions
CN104239570A (zh
Inventor
马晋
薛洪贺
汪洋
张博
张扬
苑雪冉
曹冰
张晓婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410519986.3A priority Critical patent/CN104239570B/zh
Publication of CN104239570A publication Critical patent/CN104239570A/zh
Application granted granted Critical
Publication of CN104239570B publication Critical patent/CN104239570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种论文的搜索方法,包括:接收搜索词;根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,多个属性参数中至少有部分属性参数具有对应的实体标识;以及当搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供。本发明实施例的方法,彻底解决了实体重名、长搜索词的部分匹配等的问题,提高了搜索结果的精确度,提升了用户体验。本发明还公开了一种论文的搜索装置。

Description

论文的搜索方法及装置
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种论文的搜索方法及装置。
背景技术
目前,在学术科研领域,学者/学生/科研工作者等对某个知识的研究成果最终会以论文的方式进行发表,而发表的论文本身包括了很多属性,例如,论文作者姓名、论文发表处(包括期刊、会议、学位论文等)。然而,多篇论文的相同属性之间又构成了各自的属性集合,论文集和属性集之间的关联形成了论文的知识图谱,用户可通过图谱中的任何一个属性都可以查看与其相关的其他属性的信息,但因为目前存在的论文数量巨大,因此构成的属性集合数量也很大,且属性集合中存在着大量的相同名称但含义不同的属性,使得检索速度很慢且无法精确找到对应信息。
相关技术中,可通过搜索语法制定定向搜索作者姓名或发表机构名,搜索出目标结果,目前一般仅做字面上的文本匹配。例如,如图1(a)所示,当用户在搜索引擎中输入搜索词“南瓜组培根根系分泌物的化感效应研究”时,搜索引擎可根据该搜索词为用户提供相关的搜索结果,当用户点击搜索结果中的“李明”时,搜索引擎可将“李明”作为搜索词进行搜索,以得到与“李明”相关的搜索结果。又如,如图1(b)所示,当用户在搜索引擎中输入搜索词“journal:(生态学报)”时,搜索引擎可根据该搜索词为用户提供相关的搜索结果。
但是,相关技术中存在的问题是:(1)无法实现重名作者的消歧,例如,当用户点击如图1(a)中作者“李明”来发起搜索时,用户希望搜索到与论文《南瓜组培根根系分泌物的化感效应研究》的发表者“李明”相关的结果,而非其他机构的“李明”。然而,通过相关技术中的搜索方法,得到的搜索结果的“李明”来自各个领域,与目标的李明完全不是同一个人,无法满足用户的精确人名查询需求;(2)无法解决长query(搜索词)的部分匹配问题,例如,如图1(b)所示,使用“journal:(生态学报)”搜索《生态学报》发表的论文,可以看到《应用生态学报》也会被检出,传统靠关键字匹配方式的搜索,无法解决部分匹配问题,从而导致搜索结果可能不精确,导致用户体验变差。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种论文的搜索方法。该方法可以彻底解决实体重名、长搜索词的部分匹配等的问题,提高搜索结果的精确度,提升用户体验。
本发明的第二个目的在于提出一种论文的搜索装置。
为了实现上述目的,本发明第一方面实施例的论文的搜索方法,包括:S1、接收搜索词;S2、根据所述搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,所述多个属性参数中至少有部分属性参数具有对应的实体标识;以及S3、当搜索结果中的属性参数被触发时,根据所述属性参数对应的实体标识生成新的搜索结果并提供。
本发明实施例的论文的搜索方法,可先接收搜索词,之后根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,多个属性参数中至少有部分属性参数具有对应的实体标识,当搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供,即由于属性参数可作为一个实体,通过将实体转换为实体标识,根据实体标识的唯一性,获得与其对应的搜索结果,彻底解决了实体重名、长搜索词的部分匹配等的问题,提高了搜索结果的精确度,提升了用户体验。
为了实现上述目的,本发明第二方面实施例的论文的搜索装置,包括:接收模块,用于接收搜索词;第一生成模块,用于根据所述搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,所述多个属性参数中至少有部分属性参数具有对应的实体标识;以及第二生成模块,用于在搜索结果中的属性参数被触发时,根据所述属性参数对应的实体标识生成新的搜索结果并提供。
本发明实施例的论文的搜索装置,可通过接收模块接收搜索词,第一生成模块根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,多个属性参数中至少有部分属性参数具有对应的实体标识,第二生成模块在搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供,即由于属性参数可作为一个实体,通过将实体转换为实体标识,根据实体标识的唯一性,获得与其对应的搜索结果,彻底解决了实体重名、长搜索词的部分匹配等的问题,提高了搜索结果的精确度,提升了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1(a)和(b)是现有技术中论文的搜索方法的示例图;
图2是根据本发明一个实施例的论文的搜索方法的流程图;
图3是根据本发明一个实施例的生成实体标识的流程图;
图4是根据本发明另一个实施例的生成实体标识的流程图;
图5是根据本发明一个实施例的摘要在展现页面进行展示的示意图;
图6(a)和(b)是根据本发明一个实施例的论文的搜索方法的示例图;
图7是根据本发明一个实施例的论文的搜索装置的结构示意图;
图8是根据本发明另一个实施例的论文的搜索装置的结构示意图;以及
图9是根据本发明又一个实施例的论文的搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
为了解决在通过相关技术中的论文搜索方法进行论文搜索时,无法实现重名作者的消歧、且无法解决长query(搜索词)的部分匹配等的问题,本发明提出了一种论文的搜索方法及装置。具体地,下面参考附图描述本发明实施例的论文的搜索方法及装置。
本发明提出一种论文的搜索方法,包括:S1、接收搜索词;S2、根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,多个属性参数中至少有部分属性参数具有对应的实体标识;以及S3、当搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供。
图2是根据本发明一个实施例的论文的搜索方法的流程图。如图2所示,该论文的搜索方法可以包括:
S201,接收搜索词。
其中,在本发明的实施例中,搜索词可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。
例如,搜索引擎可接收用户通过浏览器提供的输入框中输入的搜索词。
S202,根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,多个属性参数中至少有部分属性参数具有对应的实体标识。
具体地,在接收到搜索词之后,可根据搜索词进行搜索,以生成与搜索词相关的多个搜索结果,并将该多个搜索结果展现在搜索结果展示页面以提供给用户,从而方便用户的查看。
应当理解,在本发明的实施例中,属性参数可包括但不限于标题、关键词、作者姓名、作者所处机构和发表处等。也就是说,每个搜索结果中可包括至少两个属性参数,如标题、关键词、作者姓名和发表处等。多个属性参数中至少有部分属性参数具有对应的实体标识。其中,在本发明的实施例中,具有实体标识的属性参数可包括作者姓名和/或发表处等。
还可以理解,属性参数如作者姓名、作者所处机构和发表处等可称为实体,实体标识可理解为是作者姓名、作者所处机构和发表处等实体的唯一标识。由于不同实体之间会存在重名的问题、全称和简称表达不一致的问题。为了解决实体存在的上述问题,可通过消歧策略根据实体(如作者姓名、作者所处机构或发表处等)以生成与实体对应的实体标识,从而通过实体标识使得实体既能区别于其他实体又能尽最大程序包含自己的信息。下面可参考附图中的图3和图4以对实体标识的生成过程进行具体描述。
在本发明的一个实施例中,如图3所示,实体标识可被预先生成,即在接收搜索词(即上述S201)之前,该论文的搜索方法还可包括以下步骤以生成实体标识:
S301,获取多个论文。
S302,从多个论文中分别抽取每个论文对应的作者姓名和作者所处机构。
具体地,可先对每个论文进行结构解析,以得到每个论文的结构化信息,如论文标题、摘要、关键词、作者姓名、作者所处机构、论文正文内容等,之后可从结构化信息中抽取出每个论文对应的作者姓名和作者所处机构。然后,可以作者姓名为主键将每个论文中的所有作者姓名汇集在一起,得到作者姓名的聚簇。最后,可对作者姓名进行判断,判断作者姓名是否为唯一,即该作者姓名是否存在重名。
S303,如果论文对应的作者姓名为唯一,则根据作者姓名生成实体标识。
具体地,当判断该论文对应的作者姓名为唯一,即该作者姓名不存在重名时,可通过预设的编码规则将作者姓名进行编码以生成与作者姓名对应的实体标识。
S304,如果论文对应的作者姓名不为唯一,则根据作者姓名和作者所处机构生成实体标识。
具体地,当判断该论文对应的作者姓名不为唯一,即该作者姓名存在重名时,可通过预设的编码规则将作者姓名和作者所处机构进行编码以生成与作者姓名和作者所处机构对应的实体标识。这是由于在同一个机构中不一定具有相同姓名的作者,由此,解决了不同实体之间会存在重名的问题。
其中,在本发明的实施例中,预设的编码规则可以是一个预先约定的编码规则,可以按以下两种方式产出:
方式1:将消歧后的作者姓名(或作者姓名+作者所处机构)赋予连续递增的整数,这个整数就是作者姓名(或作者姓名+作者所处机构)的实体标识例如,论文具有两个不同的作者,作者姓名分别为“张三”、“李四”,则可将这两个作者姓名赋予连续递增的整数,如“张三”对应的实体标识为“14268442”、“李四”对应的实体标识为“14268443”。
方式2:对作者姓名(或作者姓名+作者所处机构)做数字签名,签名结果作为作者姓名(或作者姓名+作者所处机构)的实体标识。也就是说,作者姓名对应的实体标识可通过对作者姓名进行签名获得。其中,签名算法可采用标准的64或128位的MD5(Message DigestAlgorithm,消息摘要算法-第五版)签名算法。例如,作者姓名为“李明”,作者所处机构为“中国科学院水土保持与生态环境研究中心”,则可通过MD5签名算法将“李明”+“中国科学院水土保持与生态环境研究中心”做数字签名,得到对应的实体标识为“57d2b4212e5ba064”。
由此,根据作者姓名(或作者姓名+作者所处机构)生成与其对应的实体标识,由于实体标识具有唯一性,因此实现了重名作者的消歧的目的。
在本发明的另一个实施例中,如图4所示,实体标识可被预先生成,即在接收搜索词(即上述S201)之前,该论文的搜索方法还可包括以下步骤以生成实体标识:
S401,获取多个论文。
S402,从多个论文中分别获取每个论文对应的发表处。
具体地,可先对每个论文进行结构解析,以得到每个论文的结构化信息,如论文发表处、作者姓名、作者所处机构、论文标题等,之后可从结构化信息中获取每个论文对应的发表处,即可以理解为获取每个论文在哪个期刊、或会议、或学校(即学位论文)上进行了发表。
S403,根据论文对应的发表处生成发表处对应的实体标识。
具体地,在获取到每个论文对应的发表处之后,可通过预设的编码规则将论文对应的发表处进行编码以生成与发表处对应的实体标识。应当理解,在本步骤中,预设的编码规则的实现方式与上述实施例中预设的编码规则的实现方式相同,即可将发表处赋予连续递增的整数,该整数就是发表处对应的实体标识;或者,可通过对发表处进行签名以获取发表处对应的实体标识。
由此,根据发表处生成与其对应的实体标识,由于实体标识具有唯一性,因此解决了由于全称和简称表达不一致而可能导致根据全称或简称检索出来的结果不一致的问题,即解决了长搜索词的部分匹配的问题。
需要说明的是,在本发明的一个实施例中,在生成实体标识之后,可对实体标识建立倒排索引。具体地,对实体标识进行建立倒排索引的过程主要可分为两步,下面可结合实例说明:例如,假设论文A、B、C分别具有两个作者姓名,论文A的两个作者姓名对应的实体标识分别是a1、a2,论文B的两个作者姓名实体标识分别是b1、b2,论文C的两个作者姓名实体标识分别是a1、b2,S1:可生成论文的DocID(论文编号)到实体标识对应的正排数据得到如下正排数据“A->a1、a2、B->b1、b2、C->a1、b2”;S2:将正排数据转换为以作者姓名实体标识为key(主键)的到排数据,如“a1->A、C;a2->A;b1->B;b2->A、C”。由此,通过对实体标识建立倒排索引,使得只要通过作者姓名实体标识即可知道该作者撰写过哪些论文。
还需要说明的是,在本发明的一个实施例中,可将实体标识添加到摘要中,即将实体标识记录到实体展现内容的相同字段中,以实现人名或机构名与实体的对应。其中,在本发明的实施例中,摘要可理解为就是最终用户可见的搜索结果以及不可见的辅助信息,如图5所示,“标题”、“作者”、“摘要”、“关键词”等均是通过摘要最终呈现给用户。
应当理解,在将实体标识进行建立倒排索引时,由于索引存储时考虑空间和性能因素不会存储作者姓名的明文字符串,而是存储的作者姓名实体标识,因此,通过将作者姓名和作者姓名的实体标识同时写入摘要中,以实现通过摘要将作者姓名的实体标识与最终展现的作者姓名对应起来。
S203,当搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供。
具体而言,在本发明的一个实施例中,当搜索结果中的属性参数被触发时,根据属性参数对应的实体标识和属性参数生成新的搜索结果并提供。具体地,当检测到用户点击搜索结果中的属性参数(标题、或作者姓名、或发表处等)时,可先根据属性参数查找到对应的实体标识,之后根据该实体标识进行搜索,得到与该实体标识对应的搜索结果,并将搜索结果提供给用户。
举例而言,以属性参数为作者姓名“李明”为例,如图6(a)所示,当根据搜索词“南瓜组培根根系分泌物的化感效应研究”生成多个搜索结果并提供给用户之后,用户可点击作者栏“李明”,当检测到用户点击“李明”时,可先根据“李明”从摘要中读取其对应的实体标识“57d2b4212e5ba064”。之后通过该实体标识“57d2b4212e5ba064”发起检索,搜索引擎根据该实体标识“57d2b4212e5ba064”搜索其对应的倒排索引,以查出命中实体标识“57d2b4212e5ba064”的搜索结果,读取摘要并将其展现给用户,如图6(b)所示,是通过作者姓名“李明”对应的实体标识“57d2b4212e5ba064”检索后的最终效果。由于实体标识具有唯一性,因此两篇论文一定都是同一个作者“李明”所撰写。由此,最终发起的检索请求通过使用实体标识进行查询“authoruri:(57d2b4212e5ba064)”,代替了普通的作者姓名查询“author:(李明)”,从而从根本上避免了歧义问题。
本发明实施例的论文的搜索方法,可先接收搜索词,之后根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,多个属性参数中至少有部分属性参数具有对应的实体标识,当搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供,即由于属性参数可作为一个实体,通过将实体转换为实体标识,根据实体标识的唯一性,获得与其对应的搜索结果,彻底解决了实体重名、长搜索词的部分匹配等的问题,提高了搜索结果的精确度,提升了用户体验。
为了实现上述实施例,本发明还提出了一种论文的搜索装置,包括:接收模块,用于接收搜索词;第一生成模块,用于根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,多个属性参数中至少有部分属性参数具有对应的实体标识;以及第二生成模块,用于在搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供。
图7是根据本发明一个实施例的论文的搜索装置的结构示意图。如图7所示,该论文的搜索装置可以包括:接收模块10、第一生成模块20和第二生成模块30。
具体地,接收模块10可用于接收搜索词。其中,在本发明的实施例中,搜索词可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。例如,接收模块10可接收用户通过浏览器提供的输入框中输入的搜索词。
第一生成模块20可用于根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,多个属性参数中至少有部分属性参数具有对应的实体标识。更具体地,在接收模块10接收到搜索词之后,第一生成模块20可根据搜索词进行搜索,以生成与搜索词相关的多个搜索结果,并将该多个搜索结果展现在搜索结果展示页面以提供给用户,从而方便用户的查看。
应当理解,在本发明的实施例中,属性参数可包括但不限于标题、关键词、作者姓名、作者所处机构和发表处等。也就是说,每个搜索结果中可包括至少两个属性参数,如标题、关键词、作者姓名和发表处等。多个属性参数中至少有部分属性参数具有对应的实体标识。其中,在本发明的实施例中,具有实体标识的属性参数可包括作者姓名和/或发表处等。
第二生成模块30可用于在搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供。具体而言,在本发明的一个实施例中,第二生成模块30可具体用于:当搜索结果中的属性参数被触发时,根据属性参数对应的实体标识和属性参数生成新的搜索结果并提供。更具体地,当检测到用户点击搜索结果中的属性参数(标题、或作者姓名、或发表处等)时,第二生成模块30可先根据属性参数查找到对应的实体标识,之后根据该实体标识进行搜索,得到与该实体标识对应的搜索结果,并将搜索结果提供给用户。
可以理解,属性参数如作者姓名、作者所处机构和发表处等可称为实体,实体标识可理解为是作者姓名、作者所处机构和发表处等实体的唯一标识。由于不同实体之间会存在重名的问题、全称和简称表达不一致的问题。为了解决实体存在的上述问题,可通过消歧策略根据实体(如作者姓名、作者所处机构或发表处等)以生成与实体对应的实体标识,从而通过实体标识使得实体既能区别于其他实体又能尽最大程序包含自己的信息。下面可通过两个实施例对实体标识的生成过程进行具体描述。
进一步的,在本发明的一个实施例中,如图8所示,在接收模块10接收搜索词之前,该论文的搜索装置还可包括第一获取模块40、抽取模块50和第三生成模块60。即通过上述几个模块可生成实体标识。
具体地,第一获取模块40可用于获取多个论文。
抽取模块50可用于从多个论文中分别抽取每个论文对应的作者姓名和作者所处机构。更具体地,抽取模块50可先对每个论文进行结构解析,以得到每个论文的结构化信息,如论文标题、摘要、关键词、作者姓名、作者所处机构、论文正文内容等,之后可从结构化信息中抽取出每个论文对应的作者姓名和作者所处机构。然后,可以作者姓名为主键将每个论文中的所有作者姓名汇集在一起,得到作者姓名的聚簇。最后,可对作者姓名进行判断,判断作者姓名是否为唯一,即该作者姓名是否存在重名。
第三生成模块60可用于在论文对应的作者姓名为唯一时,根据作者姓名生成实体标识,并在论文对应的作者姓名不为唯一时,根据作者姓名和作者所处机构生成实体标识。更具体地,当判断该论文对应的作者姓名为唯一,即该作者姓名不存在重名时,第三生成模块60可通过预设的编码规则将作者姓名进行编码以生成与作者姓名对应的实体标识;当判断该论文对应的作者姓名不为唯一,即该作者姓名存在重名时,第三生成模块60可通过预设的编码规则将作者姓名和作者所处机构进行编码以生成与作者姓名和作者所处机构对应的实体标识。这是由于在同一个机构中不一定具有相同姓名的作者,由此,解决了不同实体之间会存在重名的问题。
其中,在本发明的实施例中,预设的编码规则可以是一个预先约定的编码规则,可以按以下两种方式产出:
方式1:将消歧后的作者姓名(或作者姓名+作者所处机构)赋予连续递增的整数,这个整数就是作者姓名(或作者姓名+作者所处机构)的实体标识例如,论文具有两个不同的作者,作者姓名分别为“张三”、“李四”,则可将这两个作者姓名赋予连续递增的整数,如“张三”对应的实体标识为“14268442”、“李四”对应的实体标识为“14268443”。
方式2:对作者姓名(或作者姓名+作者所处机构)做数字签名,签名结果作为作者姓名(或作者姓名+作者所处机构)的实体标识。也就是说,作者姓名对应的实体标识可通过对作者姓名进行签名获得。其中,签名算法可采用标准的64或128位的MD5(MessageDigestAlgorithm,消息摘要算法-第五版)签名算法。例如,作者姓名为“李明”,作者所处机构为“中国科学院水土保持与生态环境研究中心”,则可通过MD5签名算法将“李明”+“中国科学院水土保持与生态环境研究中心”做数字签名,得到对应的实体标识为“57d2b4212e5ba064”。
由此,根据作者姓名(或作者姓名+作者所处机构)生成与其对应的实体标识,由于实体标识具有唯一性,因此实现了重名作者的消歧的目的。
在本发明的另一个实施例中,如图9所示,该接收模块10接收搜索词之前,该论文的搜索装置还可包括第一获取模块40、第二获取模块70和第四生成模块80。即通过上述几个模块可生成实体标识。
具体地,第一获取模块40可用于获取多个论文。
第二获取模块70可用于从多个论文中分别获取每个论文对应的发表处。更具体地,第二获取模块70可先对每个论文进行结构解析,以得到每个论文的结构化信息,如论文发表处、作者姓名、作者所处机构、论文标题等,之后可从结构化信息中获取每个论文对应的发表处,即可以理解为获取每个论文在哪个期刊、或会议、或学校(即学位论文)上进行了发表。
第四生成模块80可用于根据论文对应的发表处生成发表处对应的实体标识。更具体地,在第二获取模块70获取到每个论文对应的发表处之后,第四生成模块80可通过预设的编码规则将论文对应的发表处进行编码以生成与发表处对应的实体标识。应当理解,在本步骤中,预设的编码规则的实现方式与上述实施例中预设的编码规则的实现方式相同,即可将发表处赋予连续递增的整数,该整数就是发表处对应的实体标识;或者,可通过对发表处进行签名以获取发表处对应的实体标识。
由此,根据发表处生成与其对应的实体标识,由于实体标识具有唯一性,因此解决了由于全称和简称表达不一致而可能导致根据全称或简称检索出来的结果不一致的问题,即解决了长搜索词的部分匹配的问题。
在本发明的一个实施例中,作者姓名或发表处对应的实体标识可通过对作者姓名或发表处进行签名获得。
需要说明的是,在本发明的一个实施例中,在生成实体标识之后,可对实体标识建立倒排索引。具体地,对实体标识进行建立倒排索引的过程主要可分为两步,下面可结合实例说明:例如,假设论文A、B、C分别具有两个作者姓名,论文A的两个作者姓名对应的实体标识分别是a1、a2,论文B的两个作者姓名实体标识分别是b1、b2,论文C的两个作者姓名实体标识分别是a1、b2,S1:可生成论文的DocID(论文编号)到实体标识对应的正排数据得到如下正排数据“A->a1、a2、B->b1、b2、C->a1、b2”;S2:将正排数据转换为以作者姓名实体标识为key(主键)的到排数据,如“a1->A、C;a2->A;b1->B;b2->A、C”。由此,通过对实体标识建立倒排索引,使得只要通过作者姓名实体标识即可知道该作者撰写过哪些论文。
还需要说明的是,在本发明的一个实施例中,可将实体标识添加到摘要中,即将实体标识记录到实体展现内容的相同字段中,以实现人名或机构名与实体的对应。其中,在本发明的实施例中,摘要可理解为就是最终用户可见的搜索结果以及不可见的辅助信息,如图5所示,“标题”、“作者”、“摘要”、“关键词”等均是通过摘要最终呈现给用户。
应当理解,在将实体标识进行建立倒排索引时,由于索引存储时考虑空间和性能因素不会存储作者姓名的明文字符串,而是存储的作者姓名实体标识,因此,通过将作者姓名和作者姓名的实体标识同时写入摘要中,以实现通过摘要将作者姓名的实体标识与最终展现的作者姓名对应起来。
为了使得本领域的技术人员更加地了解本发明,下面可举例说明。
举例而言,以属性参数为作者姓名“李明”为例,如图6(a)所示,当第一生成模块20根据搜索词“南瓜组培根根系分泌物的化感效应研究”生成多个搜索结果并提供给用户之后,用户可点击作者栏“李明”,当检测到用户点击“李明”时,第二生成模块30可先根据“李明”从摘要中读取其对应的实体标识“57d2b4212e5ba064”。之后通过该实体标识“57d2b4212e5ba064”发起检索,根据该实体标识“57d2b4212e5ba064”搜索其对应的倒排索引,以查出命中实体标识“57d2b4212e5ba064”的搜索结果,读取摘要并将其展现给用户,如图6(b)所示,是通过作者姓名“李明”对应的实体标识“57d2b4212e5ba064”检索后的最终效果。由于实体标识具有唯一性,因此两篇论文一定都是同一个作者“李明”所撰写。由此,最终发起的检索请求通过使用实体标识进行查询“authoruri:(57d2b4212e5ba064)”,代替了普通的作者姓名查询“author:(李明)”,从而从根本上避免了歧义问题。
本发明实施例的论文的搜索装置,可通过接收模块接收搜索词,第一生成模块根据搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,多个属性参数中至少有部分属性参数具有对应的实体标识,第二生成模块在搜索结果中的属性参数被触发时,根据属性参数对应的实体标识生成新的搜索结果并提供,即由于属性参数可作为一个实体,通过将实体转换为实体标识,根据实体标识的唯一性,获得与其对应的搜索结果,彻底解决了实体重名、长搜索词的部分匹配等的问题,提高了搜索结果的精确度,提升了用户体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种论文的搜索方法,其特征在于,包括以下步骤:
S1、接收搜索词;
S2、根据所述搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,所述多个属性参数中至少有部分属性参数具有对应的实体标识,所述实体标识为所述部分属性参数的唯一标识;以及
S3、当搜索结果中的属性参数被触发时,根据所述属性参数对应的实体标识生成新的搜索结果并提供;其中,在所述步骤S1之前,所述方法还包括:
S11、获取多个论文;
S12、从所述多个论文中分别抽取每个论文对应的作者姓名和作者所处机构;
S13、如果论文对应的作者姓名为唯一,则根据所述作者姓名生成所述实体标识;以及
S13、如果论文对应的作者姓名不为唯一,则根据所述作者姓名和所述作者所处机构生成所述实体标识。
2.如权利要求1所述的论文的搜索方法,其特征在于,具有所述实体标识的属性参数包括作者姓名和/或发表处。
3.如权利要求1所述的论文的搜索方法,其特征在于,在所述步骤S1之前,还包括:
S14、获取多个论文;
S15、从所述多个论文中分别获取每个论文对应的发表处;以及
S16、根据所述论文对应的发表处生成所述发表处对应的实体标识。
4.如权利要求1或3所述的论文的搜索方法,其特征在于,所述作者姓名或发表处对应的实体标识通过对所述作者姓名或发表处进行签名获得。
5.如权利要求1所述的论文的搜索方法,其特征在于,所述步骤S3具体包括:
当搜索结果中的属性参数被触发时,根据所述属性参数对应的实体标识和所述属性参数生成新的搜索结果并提供。
6.一种论文的搜索装置,其特征在于,包括:
接收模块,用于接收搜索词;
第一生成模块,用于根据所述搜索词生成多个搜索结果并提供,其中,每个搜索结果包括多个属性参数,其中,所述多个属性参数中至少有部分属性参数具有对应的实体标识,所述实体标识为所述部分属性参数的唯一标识;以及
第二生成模块,用于在搜索结果中的属性参数被触发时,根据所述属性参数对应的实体标识生成新的搜索结果并提供;其中,在所述接收模块接收搜索词之前,所述装置还包括:
第一获取模块,用于获取多个论文;
抽取模块,用于从所述多个论文中分别抽取每个论文对应的作者姓名和作者所处机构;
第三生成模块,用于在论文对应的作者姓名为唯一时,根据所述作者姓名生成所述实体标识,并在论文对应的作者姓名不为唯一时,根据所述作者姓名和所述作者所处机构生成所述实体标识。
7.如权利要求6所述的论文的搜索装置,其特征在于,具有所述实体标识的属性参数包括作者姓名和/或发表处。
8.如权利要求6所述的论文的搜索装置,其特征在于,在所述接收模块接收搜索词之前,所述装置还包括:
第一获取模块,用于获取多个论文;
第二获取模块,用于从所述多个论文中分别获取每个论文对应的发表处;以及
第四生成模块,用于根据所述论文对应的发表处生成所述发表处对应的实体标识。
9.如权利要求6或8所述的论文的搜索装置,其特征在于,所述作者姓名或发表处对应的实体标识通过对所述作者姓名或发表处进行签名获得。
10.如权利要求6所述的论文的搜索装置,其特征在于,所述第二生成模块具体用于:
当搜索结果中的属性参数被触发时,根据所述属性参数对应的实体标识和所述属性参数生成新的搜索结果并提供。
CN201410519986.3A 2014-09-30 2014-09-30 论文的搜索方法及装置 Active CN104239570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410519986.3A CN104239570B (zh) 2014-09-30 2014-09-30 论文的搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410519986.3A CN104239570B (zh) 2014-09-30 2014-09-30 论文的搜索方法及装置

Publications (2)

Publication Number Publication Date
CN104239570A CN104239570A (zh) 2014-12-24
CN104239570B true CN104239570B (zh) 2018-04-13

Family

ID=52227629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410519986.3A Active CN104239570B (zh) 2014-09-30 2014-09-30 论文的搜索方法及装置

Country Status (1)

Country Link
CN (1) CN104239570B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899281B (zh) * 2015-06-01 2018-07-27 百度在线网络技术(北京)有限公司 学术文章处理方法和学术文章的搜索处理方法及装置
CN105488113B (zh) * 2015-11-23 2018-12-21 百度在线网络技术(北京)有限公司 论文的搜索方法、装置及搜索引擎
CN105701258A (zh) * 2016-03-31 2016-06-22 比美特医护在线(北京)科技有限公司 信息处理方法及装置
CN107066474A (zh) * 2016-12-09 2017-08-18 百度在线网络技术(北京)有限公司 文献搜索方法和装置
CN107590118A (zh) * 2017-08-03 2018-01-16 天脉聚源(北京)传媒科技有限公司 一种新闻的智能排版的方法及装置
CN108874990A (zh) * 2018-06-12 2018-11-23 亓富军 一种基于电力技术杂志论文非结构化数据提取的方法及系统
CN111651580B (zh) * 2020-06-04 2024-05-03 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061478A (zh) * 2004-09-30 2007-10-24 Google公司 提供与文档相关的信息
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332461A1 (en) * 2012-06-08 2013-12-12 Ip.Com I, Llc Computer-based confidential disclosure search tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061478A (zh) * 2004-09-30 2007-10-24 Google公司 提供与文档相关的信息
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法

Also Published As

Publication number Publication date
CN104239570A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239570B (zh) 论文的搜索方法及装置
Sánchez et al. Content annotation for the semantic web: an automatic web-based approach
US8244773B2 (en) Keyword output apparatus and method
US10825110B2 (en) Entity page recommendation based on post content
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎系统
CN104268192B (zh) 一种网页信息提取方法、装置及终端
Maier et al. Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections
CN105468605A (zh) 一种实体信息图谱生成方法及装置
KR20100125682A (ko) 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템
WO2007076529A2 (en) A system and method for accessing images with a novel user interface and natural language processing
Wick et al. A unified approach for schema matching, coreference and canonicalization
CN108280689A (zh) 基于搜索引擎的广告投放方法、装置以及搜索引擎系统
CN106547893A (zh) 一种图片分类管理系统及图片分类管理方法
Roy et al. Discovering and understanding word level user intent in web search queries
Taneva et al. Mining acronym expansions and their meanings using query click log
US11120362B2 (en) Identifying a product in a document
Cabrio et al. Qakis@ qald-2
Ajoudanian et al. Deep web content mining
Nasution Extracting keyword for disambiguating name based on the overlap principle
US11048707B2 (en) Identifying a product in a document
TWM523901U (zh) 可語意分析關鍵字的搜尋引擎裝置
Strobel et al. Metadata for scientific audiovisual media: current practices and perspectives of the TIB| AV-Portal
Putra et al. BudayaKB: Extraction of cultural heritage entities from heterogeneous formats
CN113821608A (zh) 服务搜索方法、装置和计算机设备以及存储介质
Agarwal et al. Intelligent plagiarism detection mechanism using semantic technology: A different approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant