CN114969391A - 文章数据搜索方法及装置 - Google Patents
文章数据搜索方法及装置 Download PDFInfo
- Publication number
- CN114969391A CN114969391A CN202210902038.2A CN202210902038A CN114969391A CN 114969391 A CN114969391 A CN 114969391A CN 202210902038 A CN202210902038 A CN 202210902038A CN 114969391 A CN114969391 A CN 114969391A
- Authority
- CN
- China
- Prior art keywords
- article
- target
- similarity
- name
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文章数据搜索方法及装置,涉及计算机技术领域。该方法包括:接收管理系统发送的文章搜索请求,文章搜索请求中包括目标文章名;根据文章搜索请求,构建检索策略,检索策略包括检索源网站集合及候选文章名集合;根据检索策略进行检索,获得候选结果,每个候选结果中包括文章及文章信息;计算得到各候选结果与文章搜索请求的相似度;将至少一个候选结果及对应的相似度,作为文献搜索结果,发送给管理系统,管理系统用于基于所述文献搜索结果生成文献审核报告。如此,可节省人员检索文章信息、录入文章相关信息的动作,还可以减少审核人员人工进行的干预和审核的动作,提高了文章管理的便捷性、准确性及工作效率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种文章数据搜索方法及装置。
背景技术
随着科研机构院所对文章信息精细化管理要求的提高,文章材料的填写和审核的工作量日益增多。目前,文章材料填写、审核的认定工作全是采用人工填写、相关管理部门对应材料逐一审核的人工操作方法。
比如,针对英文文章,需要人员到有检索资质的图书情报部门进行对应的每篇文章的检索认定,出具相应的检索报告;人员再根据检索报告的内容,将文章信息等数据录入到相应的人力资源或者科研管理系统中,同时上传对应的检索报告及文章的全文;管理员根据上传的信息和人员填报的信息进行一一核对后进行确认,即确认填报的文章信息与上传的信息中的文章信息是否一致。而中文文章则需要人员手动上传该文章发表的期刊的封面、目录、封底以及该文章在该期刊中的全文,同时填写相关的文章信息后进行提交;管理员需要对着上传的附件材料和员工填写的相关信息来进行文章的审核和认定工作。
在上述方式中,需要人工到图书情报部门获取检索报告或者人工获取文章及文章的各种信息,信息检索环节不便利,浪费大量的人工时间;同时,还需要手动将各种文章信息录入到管理系统中,并上传对应的佐证材料。现有的技术做法人工干预多,出错率太高,对于审核人员来说也需要对着检索报告和文章的正文去审核相关的信息,容易出现上传附件错误,信息录入错误等人工导致的错误信息,审核过程也需要多个人多轮次的进行检查,确保信息的准确性和完整性。
发明内容
本申请实施例提供了一种文章数据搜索方法及装置,其能够根据文章检索请求查询得到对应的文章及文章信息,并将得到的文章及文章信息发送给相应的管理系统,以便于生成相应的文献审核报告,如此可节省人员检索文章信息、录入文章相关信息的动作,还可以减少审核人员人工进行的干预和审核的动作,提高了文章管理的便捷性、准确性,大大提高了整个流程的工作效率。
本申请的实施例可以这样实现:
第一方面,本申请实施例提供一种文章数据搜索方法,所述方法包括:
接收管理系统发送的文章搜索请求,其中,所述文章搜索请求中包括目标文章名;
根据所述文章搜索请求,构建检索策略,其中,所述检索策略包括检索源网站集合及候选文章名集合;
根据所述检索策略进行检索,获得候选结果,其中,每个候选结果中包括文章及文章信息;
计算得到各候选结果与所述文章搜索请求的相似度;
将至少一个所述候选结果及对应的相似度,作为文献搜索结果,发送给所述管理系统,其中,所述管理系统用于基于所述文献搜索结果生成文献审核报告。
第二方面,本申请实施例提供一种文章数据搜索装置,所述装置包括:
请求接收模块,用于接收管理系统发送的文章搜索请求,其中,所述文章搜索请求中包括目标文章名;
处理模块,用于根据所述文章搜索请求,构建检索策略,其中,所述检索策略包括检索源网站集合及候选文章名集合;
搜索模块,用于根据所述检索策略进行检索,获得候选结果,其中,每个候选结果中包括文章及文章信息;
计算模块,用于计算得到各候选结果与所述文章搜索请求的相似度;
发送模块,用于将至少一个所述候选结果及对应的相似度,作为文献搜索结果,发送给所述管理系统。
本申请实施例提供的文章数据搜索方法及装置,在接收到管理系统发送的包括目标文章名的文章搜索请求的情况下,根据该文章搜素请求构建检索策略,该检索策略中包括检索源网站集合及候选文章名集合;然后,基于该检索策略进行检索,得到至少一个包括文章及文章信息的候选结果;接着,计算各候选结果与文章搜索请求的相似度,进而将至少一个候选结果及对应的相似度作为文献搜索结果发送给管理系统,以便管理系统基于该文章搜索结果生成文献审核报告。如此,可节省人员检索文章信息、录入文章相关信息的动作,还可以减少审核人员人工进行的干预和审核的动作,提高了文章管理的便捷性、准确性,大大提高了整个流程的工作效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图;
图2为本申请实施例提供的文章数据搜索方法的流程示意图之一;
图3为图2中步骤S120包括的子步骤的流程示意图;
图4为图2中步骤S130包括的子步骤的流程示意图;
图5为图2中步骤S140包括的子步骤的流程示意图;
图6为图5中子步骤S144包括的子步骤的流程示意图;
图7为图2中步骤S150包括的子步骤的流程示意图;
图8为本申请实施例提供的文章数据搜索方法的流程示意图之二;
图9为本申请实施例提供的文章数据搜索装置的方框示意图。
图标:100-电子设备;110-存储器;120-处理器;130-通信单元;200-文章数据搜索装置;210-请求接收模块;220-处理模块;230-搜索模块;240-计算模块;250-发送模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
随着科研机构院所对文章信息精细化管理要求的提高,文章材料的填写和审核的工作量日益增多,目前的文章填写、审核的认定工作全是采用人工填写,相关管理部门对应材料逐一审核的人工操作方法。也即,需要人工填写资料,需要人工核对填写的资料与实际情况是否一致。
如SCI论文需要人员到有检索资质的图书情报部门进行对应的每篇文章的检索认定,出具相应的检索报告,除检索常规信息外,还需检索文章的他引次数和发表当年的RANK值等;人员再对应检索报告的内容,将文章的信息手动录入到相应的人力资源或者科研管理系统中,同时手动上传对应的检索报告以及文章的全文;管理员根据上传的信息和人员填报的信息进行一一核对后进行确认。
而中文期刊文章是需要人员手动上传封面、目录、全文、封底,同时手动填写相关的文章信息后进行提交。管理员需要对着上传的附件材料和员工填写的相关信息来进行文章的审核和认定工作。
目前SCI文章的审核过程是需要人员到有检索资质的图书情报部门进行相应的信息检索,同时出具相关的检索报告;再手动将通过情报部门检索的信息填入到管理系统,并上传检索报告和全文,之后提交给管理部门进行审核。而中文期刊文章是需要填写人员手动上传封面、目录、全文、封底,并填入相关信息后进行提交审核。
整个过程中,信息检索的环节不便利,比如,针对SCI文章需要到图书情报部门获得检索报告,针对中文文章需要手动通过扫描或拍照方式获得封面、目录、全文、封底等,浪费大量的人工时间;同时还需要把检索后的信息录入到管理系统中,上传对应的佐证材料。现有的技术做法人工干预多,出错率太高,对于审核人员来说也需要对着上传的佐证材料去审核相关的信息,容易出现上传附件错误、信息录入错误等人工导致的错误情况,审核过程也需要多个人多轮次的进行检查,确保信息的准确性和完整性。
针对以上问题,本申请实施例提供了一种文章数据搜索方法及装置,可以基于文章的很少信息,比如,论文名,或者论文名及作者姓名,或者论文名及通讯地址,或者论文名、作者姓名及通讯地址等,自动检索到该篇文章的各种数据信息(比如,发表日期、期刊名、期刊号、影响因子、他引次数、rank值、收录情况等等核心信息),自动的填入到该人员对应的这篇文章的相关信息中去,不需要人工进行干预,基于该信息可自动判断文章的等级和其他核心信息。由此,可缓解当前科研文章人工审核成本高昂且效率低的情况。
该方式可以支持全面的数据整合,覆盖最广的数据源(支持多个源数据库PubMed、Web of Science、Google scholar、万方数据知识服务、cqVIP维普知识服务等),具备最详细的期刊排名情况(精确到每个领域第几名、涵盖SCIE\SSCI\EI等索引数据库中226个学科大类),拥有最精确的论文外部特征(被引次数、年/卷/期/月、作者、单位、外部数据库ID等,包括重名文章整合),同时支持便捷的使用方法(比如,提供RESTful调用,仅需传入模糊的论文名称、作者)。通过该方式,可以节省人员检索文章信息、录入文章相关信息的动作,审核人员也不需要人工进行干预和审核,提高了文章管理的便捷性,准确性,大大提高了整个流程的工作效率。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的电子设备100的方框示意图。所述电子设备100可以是,但不限于,电脑、服务器等。所述电子设备100包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。比如,存储器110中存储有文章数据搜索装置200,所述文章数据搜索装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本申请实施例中的文章数据搜索装置200,从而执行各种功能应用以及数据处理,即实现本申请实施例中的文章数据搜索方法。
通信单元130用于通过网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为的电子设备100的结构示意图,所述电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2为本申请实施例提供的文章数据搜索方法的流程示意图之一。所述方法可应用于电子设备100。下面对文章数据搜索方法的具体流程进行详细阐述。
步骤S110,接收管理系统发送的文章搜索请求。
在本实施例中,所述管理系统可以为所述电子设备100中的系统,也可以为其他设备的系统。所述管理系统可以为用于文章管理的系统,比如,HRP(Hospital ResourcePlanning,医院资源规划)系统。用户可向管理系统输入操作,管理系统基于用户的操作生成文章搜索请求,并将该文章搜索请求发送给电子设备100。所述文章搜索请求中可以包括目标文章名,所述目标文章名为希望查询的目标文章的名称。
作为一种示例,所述文章搜索请求中还可以包括目标作者姓名、目标通讯地址中的至少任意一项。其中,所述目标作者姓名,为所述目标文章名对应的目标文章的作者名。所述目标通讯地址,为所述目标文章对应的通信地址。
可选地,所述文章搜索请求中还可以包括指定源,所述指定源用于限定进行文章搜索时使用的源数据库,比如,PubMed、Web of Science、Google scholar、万方数据知识服务、cqVIP维普知识服务等。
下面对如何收到所述文章搜索请求进行举例说明。
比如,基于该文章数据搜索方法构建了一搜索引擎。该搜索引擎提供了作为API(Application Programming Interface,应用程序接口)服务接口的RESTFul接口。该接口面向管理系统提供统一的数据交互功能。通过该接口可以与管理系统进行通信,查询科研论文元数据。
管理系统可以读取用户输入的文章名,并读取用户注册时输入的真实名称,还根据管理系统配置项获取本机构通讯地址,如此,可以得到目标文章名、目标作者姓名及目标通讯地址。之后,管理系统可以向搜索引擎发出REST请求,请求字段包括文章名、真实姓名(可选)、指定源(可选)、通讯地址等。如此,管理系统以RESTFul结构形式将管理系统待审核的科研论文名称、作者、机构等检索式输入到搜索引擎中。
可以理解的是,若不需要考虑单位,则可以无需获得目标通讯地址,仅需要获得目标作者姓名及目标文章名即可。
步骤S120,根据所述文章搜索请求,构建检索策略。
在接收到所述文章搜索请求的情况下,可以先从该文章搜索请求中解析出所述目标文章名。可以理解的是,在所述文章搜索请求中还包括目标作者姓名及目标通讯地址时,还可以从该文章搜索请求中解析出所述目标作者姓名及目标通讯地址。
在解析之后,可根据解析出的所述目标文章名,构建出用于检索的检索策略。该检索策略中可以包括检索源网站集合及候选文章名集合。其中,所述检索源网站集合为初步判定的文章收录源。所述检索源网站集合可以根据所述目标文章名使用的目标语种确定,比如,预先设置了不同语种对应的检索时使用的源网站集合,在确定出所述目标文章名使用的目标语种时,可以根据预先设置好的对应关系及所述目标语种,确定出本次检索使用的检索源网站集合。所述候选文章名集合中可以包括所述目标文章名、基于所述目标文章名新生成的候选文章名。新生成的候选文章名的获取方式可以如下:对所述目标文章名进行分词,然后对分析结果进行排列组合后,得到新生成的候选文章名。为便于描述,后续可将候选文章名集合中的文章名均称为候选文章名。
作为另一种可能的示例,所述文章搜索请求中还包括所述目标作者姓名,所述检索策略中还可以包括候选作者名集合。请参照图3,图3为图2中步骤S120包括的子步骤的流程示意图。在本实施例中,步骤S120可以包括子步骤S121~子步骤S125。其中,子步骤S123~子步骤S125可以并行执行,也可以分先后执行,具体执行顺序可以结合实际需求设置。
子步骤S121,分析得到所述目标文章名使用的目标语种。
文章名与文章正文使用的语种相同。为便于后续检索,可先分析得到所述文章搜索请求中的目标文章名使用的语种,并将该语种作为目标语种。比如,若所述目标文章名使用中文,则所述目标语种为中文;若所述目标文章名为英文,则所述目标语种为英文。
子步骤S122,在所述目标作者姓名使用的源语种与所述目标语种不同的情况下,进行语种转换,以得到使用所述目标语种的所述目标作者姓名。
由于目标搜索请求中的目标作者姓名使用的语种与所述目标文章名使用的目标语种可能不同,为便于后续检索,可先判断所述目标作者姓名使用的源语种与所述目标语种是否相同。在所述目标作者姓名使用的源语种与所述目标语种相同的情况下,则可以执行子步骤S123~子步骤S125。
在所述目标作者姓名使用的源语种与所述目标语种不同的情况下,可进行语种转换,从而得到使用所述目标语种的所述目标作者姓名。比如,所述目标文章名使用的目标语种为英文,所述目标作者姓名使用的源语种为中文,则可以针对中文姓名进行中英文转义。
对中文姓名进行英文转义的方式可以为:根据中文姓氏表生成合法英文姓名集,比如,“张三”可以转换为“Zhang San”或者“San Zhang”,“诸葛孔明”可转化为“ZhugeKongming”或“Kongming Zhuge”。可将该合法英文姓名集作为目标作者名对应的候选作者名集合。
或者,可以通过python的pypinyin包将中文名转化为英文名,再调整姓名顺序,并将调整之后得到的名字作为候选作者名集合中的作者名。
子步骤S123,根据所述目标语种确定所述检索源网站集合。
可以预先设置好语种与不同源网站集合的对应关系。在确定所述目标语种的情况下,可以从该对应关系中,确定出所述目标语种对应的源网站集合,并作为所述检索源网站集合。
可以理解的是,若所述文章搜索请求中包括了指定源,即预先指定了文章检索时使用的源网站,也可以直接将所述指定源作为所述检索源网站集合。
子步骤S124,根据所述目标文章名构建所述候选文章名集合。
可以对所述目标文章名进行文法解析与处理,以得到所述候选文章名集合。其中,所述处理包括,但不限于:句子单元切分、中文分词、去停用词、中英文标点归一化、添加同义词。
部分文章名可能是两句话或者两句话以上,因此可先进行句子单元切分,以便进行分词处理。分词,是指每一个词从句子里单独切分出来。
添加同义词,是指将目标文章名的部分词替换为同义词。比如,可以预先设置有同义词表,在对目标文章名完成分词之后,可在该同义词表中查找是否存在与某分词对应的同义词,若存在,则可以该同义词添加至分词结果中,以便后续构建出包括该同义词的候选文章名。例如,文章名中包括美托洛尔,而同义词表中美托洛尔与镁托洛尔对应,则后续还可以生成包括镁托洛尔的候选文章名。如此,可以避免由于将部分专业名词弄错导致无法检索到相应文章的文章信息。
下面对目标文章名的处理过程进行举例说明。
剔除所述目标文章名中多余的无关字符,比如,空格、书名号、引号等;根据所述目标文章语种统一替换检索词中的半角符号与全角符号;对英文文章名进行大小写归一化、在预处理完之后,可进行分词,并去停用词。然后根据分词后的文章名、去停用词后的文章名(例如,以排列组合的方式)分别生成候选文章名,并将生成的候选文章名及分词前的文章名作为所述候选文章名集合中的候选文章名。
比如,要检索“患者参与患者安全服务质量评价指标体系的构建”这个文章,分词前为:患者参与患者安全服务质量评价指标体系的构建。分词后为:患者 参与 患者 安全服务 质量 评价 指标体系 的 构建。停用词是指“的”、“了”、“在”这类没有实际意义的副词,去停用词后:患者 参与 患者 安全 服务 质量 评价 指标体系 构建。可把患者参与患者安全服务质量评价指标体系的构建、患者+参与+患者+安全+服务质量+评价+指标+体系+的+构建、患者+参与+患者+安全+服务质量+评价+指标+体系+构建等等可能的文章主题或题目都作为候选文章名集合中的文章名,以便后续都检索一遍。
子步骤S125,根据使用所述目标语种的所述目标作者姓名,确定候选作者名集合。
在所述目标作者姓名使用的源语种与所述目标语种相同的情况下,所述候选作者名集合中可以包括仅包括所述目标作者姓名。在所述目标作者姓名使用的源语种与所述目标语种不同的情况下,可以通过语种转换,得到多个作者名,并将该多个作者名作为所述候选作者名集合中的候选作者名。比如,原本输入的为中文“张三”,而目标文章名使用英文,则可以将“Zhang San”、“San Zhang”作为候选作者名集合中的候选作者名。
可选地,若所述文章搜索请求中还包括目标通讯地址,可以判断所述文章搜索请求中的目标通讯地址使用的语种与所述目标语种是否相同。若相同,则可以直接将所述目标通讯地址作为所述检索策略中的待检索通讯地址。若不同,则可以对所述目标通讯地址进行语种转换,以得到所述检索策略中的待检索通讯地址。比如,可以通过查表(该表中可以包括一部分地址的中英文形式)或翻译,获得中文通讯地址的英文形式。如此,当目标文章名为英文、目标作者姓名及目标通讯地址为中位的跨语言检索情况下,可以将中文作者姓名及通讯地址转换为英文形式。
其中,值得说明的是,在所述检索策略中包括待检索通讯地址、候选作者名集合、候选作者名集合时,上述字段的具体值均可以经过中英文标点归一化(即根据所述目标语种统一为中半角符号或全角符号)处理,以及在文章名为英文时还经过了大小写归一化处理。
步骤S130,根据所述检索策略进行检索,获得候选结果。
在得到所述检索策略之后,可以将该检索策略作为主动爬虫检索方案,可基于该检索策略可以在文献缓存库和/或相应的网站进行检索,得到至少一个候选结果。其中,每个候选结果中包括文章(即与检索策略匹配的候选文章全文)及文章信息。所述文章信息的具体种类,可以结合具体需求设置,以便与在检索时获取相应种类的信息。
作为一种可能的示例,所述文章信息可以至少包括:文章标准名称、发表年、发表月、文献来源名/期刊名、卷号、期号、作者署名及署名顺序、作者通讯地址等。在可获取的情况下,所述文章信息还可以包括:文章被引次数、摘要全文、期刊ISSN号(InternationalStandard Serial Number,标准国际连续出版物号)、作者h指数、中文期刊影响因子、收录情况、外部数据库标识的文章ID如PMID/DOI/WoS ID等。
请参照图4,图4为图2中步骤S130包括的子步骤的流程示意图。在本实施例中,步骤S130可以包括子步骤S131~步骤S132。
子步骤S131,查找文献缓存库中是否存在与所述检索策略匹配的文章。
在本实施例中,可预先在所述电子设备中建立一文献缓存库,该文献缓存库中可以包括已保存的多篇文章及各文章对应的文章信息等。在确定所述检索策略的情况下,可以先基于该检索策略在所述文献缓存库中进行检索,以判断该文献缓存中是否包括与所述检索策略匹配的文章。
若存在匹配文章,则可以执行子步骤S132。
子步骤S132,从所述文献缓存库中获取所述匹配文章及对应的文章信息作为候选结果。
在所述文献缓存库中存在与所述检索策略匹配的文章的情况下,则可以直接从该文献缓存库中获得匹配的文章及文章信息作为候选结果。如此,相较于直接到检索源网站集合中的各源网站进行检索的方式,可加快获得候选结果的速度。
若不存在匹配文章,则可以基于所述检索策略,从相应的检索源网站进行检索,并将检索的文章及文章信息直接作为所述候选结果。
请再次参照图4,在本实施例中,在所述文献缓存库中不存在匹配文章时,可执行子步骤S133及子步骤S134。
子步骤S133,从所述检索源网站集合对应的网站处获得与所述文章搜索请求对应的初始候选结果。
在本实施例中,可从所述检索源网站集合选择源网站、候选文章名集合中挑选候选文章名、候选作者名集合中挑选候选作者名,启动并行爬虫,打开出版商或文章数据库网站,查询文章。可以理解的是,检索源网站集合、候选文章名及候选作者名集合中的内容均被查询。在检索策略中包括待检索通讯地址的情况下,同时会基于该待检索通讯地址进行文章查询。
可解析出版商或文献数据库对应页面,获取文章信息,至少包括以下字段:文章标准名称、发表年、发表月、文献来源名/期刊名、卷号、期号、作者署名及署名顺序、作者通讯地址等,尝试获取以下字段:文章被引次数、摘要全文、期刊ISSN号、作者h指数、中文期刊影响因子、收录情况、外部数据库标识的文章ID如PMID/DOI/WoS ID等。还可以获得相应文章,并将获得的各文章及对应的文章信息作为初始候选结果。
由此,将检索策略发送给主动爬虫,主动爬虫在获得检索策略后,可根据论文发表语种、出版商等信息进行多源多网页并行抓取,并对网页内科研论文元数据相关内容进行抽取,从而获得所述初始候选结果。
子步骤S134,对所述初始候选结果进行去重,获得所述候选结果。
可以对不同形式发表、收录多次的文章进行去重处理,并将去重处理之后得到的初始候选结果作为候选结果。比如,对采用不同形式(比如,preprint、e-print、manuscript、arxiv/medarxiv等)发表多次的文章、收录多次的文章进行去重。可选地,在去重时,可保留发表日期最新且文章信息最全的文章。例如,某文章在投期刊之前,先被上传到了某公共网站,然后在修改部分细节后在期刊上发表了,则该文章可被认为以不同形式发表了多次,可保留发表日期最新的文章。
还可以将该候选结果保存到所述文献缓存库中。如此,文献缓存库中包括了主动爬虫爬取到的科研论文元数据,并且是对论文在不同源网站上的数据进行合并的数据,可以加速下次抓取该论文的速度。该文献缓存库可以存储在内存中,设置固定存储空间。可以采用最近最少使用策略(Least Recently Used,LRU)对缓存数据进行更新维护。
步骤S140,计算得到各候选结果与所述文章搜索请求的相似度。
在本实施例中,在得到候选结果之后,可遍历各候选结果中的文章,与所述文章搜索请求中的请求字段进行比较,以计算得到各个候选结果与所述文章搜索请求的相似度。该相似度可以表示对候选结果与文章搜索请求的相似程度的审核。如此,无需审核人员参照佐证材料对用户填写信息进行人工审核。
作为一种示例,所述文章信息中包括文章标准名称、署名作者及作者通讯地址,所述文章搜索请求中还包括目标文章名、目标通讯地址及目标作者姓名,可以通过图5所示方式,根据所述文章搜索请求中的请求字段,针对各候选结果,计算得到一个聚合相似度作为该候选结果与所述文章搜索请求的相似度。
请参照图5,图5为图2中步骤S140包括的子步骤的流程示意图。在本实施例中,步骤S140可以包括子步骤S141~子步骤S144。
子步骤S141,针对各候选结果,根据该候选结果中的文章标准名称与所述目标文章名,计算得到第一相似度。
可选地,可以根据该候选结果中的文章标准名称及目标文章名,计算得到这两个字符串的jaro-winkler准则编辑距离相似度,以作为所述第一相似度。jaro-winkler准则编辑距离相似度,取值范围为0~1,数值越大,代表两字符串相似度越高。也可以使用其他字符串相似度计算方式,计算得到候选结果中的文章标准名称与所述目标文章名的第一相似度。
子步骤S142,根据该候选结果的署名作者中是否包括任意一个候选作者名,获得第二相似度。
可以判断该候选结果的署名作者中是否包括任意一个候选作者名。在署名作者中包括一个所述候选作者名时,所述第二相似度为1;在署名作者中不包括任意一个所述候选作者名时,所述第二相似度为0。所述候选作者名根据所述目标作者名确定,具体确定方式可以参照前文描述,在此不再赘述。
子步骤S143,根据该候选结果中的作者通讯地址及所述目标通讯地址,计算得到第三相似度。
可以采用计算得到所述第一相似度的方式,计算得到该候选结果中的作者通讯地址与所述目标通讯地址之间的相似度,以获得所述第三相似度。比如,所述第三相似度为该候选结果中的作者通讯地址与所述目标通讯地址的jaro-winkler准则编辑距离相似度。
其中,若一个候选结果中包括多个作者通讯地址,则可以先分别计算出各作者通讯地址与所述目标通讯地址的相似度,然后选出其中的最大相似度作为该候选结果对应的第三相似度。
其中,在上述过程中,为便于计算得到所述第一相似度、第二相似度及第三相似度,可以将候选结果中的文章标准名称、署名作者、作者通讯地址,与所述文章搜索请求中的目标文章名、目标通讯地址、目标作者姓名的语种统一。可选地,可以将其统一为所述目标文章名使用的目标语种。
子步骤S144,根据所述第一相似度、第二相似度及第三相似度,计算得到所述候选结果与所述文章搜索请求的相似度。
在获得一个候选结果与所述文章搜索请求对应的第一相似度、第二相似度及第三相似度之后,可以结合预先设置的题目权重、作者名权重及地址权重,通过加权求和计算,得到该候选结果与所述文章搜索请求的相似度。由此,通过针对各候选结果进行如上计算,可获得各候选结果与文章搜索请求的相似度。
权重系数反应各个字段相似度对总体检索相似度的贡献情况,作为一种可能的示例,计算所述第一相似度、第二相似度及第三相似度时,将所有字段统一为所述目标文章名使用的目标语种,可以通过图6所示方式获得一个候选结果与所述文章搜索请求的相似度。
请参照图6,图6为图5中子步骤S144包括的子步骤的流程示意图。在本实施例中,子步骤S144可以包括子步骤S1441~子步骤S1442。
子步骤S1441,根据所述目标语种,以及预先设置好的不同语种与权重集合的对应关系,从多个权重集合中选出目标权重集合。
由于语言种类问题,某些语种的字符会比较长,为降低语种对相似度的影响,可以设置不同语种对应的权重集合。不同的权重集合中包括的权重不同。
在本实施例,可预先设置不同语种对应不同的权重集合,每个权重集合中可以包括与所述第一相似度对应的题目权重、与所述第二相似度对应的作者名权重、以及与所述第三相似度对应的地址权重。可以根据不同语种与权重集合的对应关系,确定出所述目标语种对应的权重集合,并将该所述目标语种对应的权重集合作为所述目标权重集合。
其中,不同语种对应的权重集合中包括的题目权重、作者名权重及地址权重存在不同。可选地,中文对应的题目权重小于英文对应的题目权重,中文对应的作者名权重大于英文对应的作者名权重。由于语言问题,英文字符比较多,本身一个标题字符长度就比中文的长,算相似性的时候英文的更占优势一点。比如,“研究”和“实验”两个词,中文字符只有两个字的差异,而英文“research”和“experiment”则有10个字符的差异,这导致计算相似度的时候英文相似度差异影响更大。而通过相对英文,把文章匹配情况权重减一点,中文的作者匹配情况权重加一点,可以降低语种影响。
子步骤S1442,根据所述目标权重集合、第一相似度、第二相似度及第三相似度,通过加权求和计算,得到所述候选结果与所述文章搜索请求的相似度。
下面对如何计算得到候选结果与所述文章搜索请求相似度的过程进行举例说明。
假设文章搜索请求中的请求字段s中文章题目(文章题目为英文,文章题目即为目
标文章名)为,经过中英文转义后的姓名集合(即候选作者名集合)为、通讯
地址为,文章列表(由候选结果及对应的相似度构成的列表)中每一个文章i
的文章名为、文章i的所有作者姓名集合为、文章i的通讯地址集合为。文章i与文章搜索请求的请求字段s的聚合相似度计算公式为:
其中,表示题目权重系数,表示作者名权重系数,表示地址权重系数;表示检索字段s中题目与文章i题目的相似性,表示检索字段作者姓名与文章i作者姓名的相似性,表示检索字段通讯地址与文章i通讯地址的相似性;表示文章搜索请求中是否包括作者姓名,若不包括,取值为0,否则取值
为1。
题目、作者与通讯地址相似性计算方式分别为:
其中,表示两个字符串的jaro-winkler准则编辑
距离相似度,取值为0~1,数值越大,代表两字符串相似度越高。equals表示判断两个字符串
是否完全匹配,完全匹配取值为1,否则取值为0;即,判断文章i的所有作者姓名集合中是否
包括一个候选作者名,若包括则取值为1,不包括则取值为0。
可以按照上述公式计算得到各文章与文章搜索请求的聚合相似度。
可以理解的是,在所述文章搜索请求仅包括目标文章名或者目标文章名及目标作者姓名时,可以通过图5类似方式获得一个候选结果与所述文章搜索请求的相似度。比如,若所述文章搜索请求仅包括目标文章名及目标姓名,则可以基于目标文章名与候选结果中的文章标准名称的相似度、以及目标作者姓名与候选结果中的署名作者的相似度,获得候选结果与文章搜索请求的相似度。
步骤S150,将至少一个所述候选结果及对应的相似度,作为文献搜索结果,发送给所述管理系统。
在本实施例中,作为一种可能的实现方式,在计算得到各候选结果对应的相似度的情况下,可以将经步骤S130得到的各候选结果及各候选结果对应的相似度一起作为文献搜索结果,发送给所述管理系统。可选地,为便于用户查看信息,还可以根据各候选结果对应的相似度,按照由高到底的顺序对各候选结果进行排序,然后将排序之后的候选结果及对应的相似度作为文献搜索结果发送给管理系统。相似度表示了候选结果与文章搜索请求中的信息的匹配性,因此,管理系统可以获得经过审核的文献搜索结果,相较于人工基于佐证材料对填写信息进行比对的方式,该方式可以大大减少工作量,同时无需用户填写过多信息,仅基于目标文章名等即可获得文献搜索结果。
作为另一种可能的实现方式,可通过图7所示确定出文献搜索结果,并将该文献搜索结果发送给所述管理系统。请参照图7,图7为图2中步骤S150包括的子步骤的流程示意图。在本实施例中,步骤S150可以包括子步骤S151~子步骤S152。
子步骤S151,将各候选结果对应的相似度与第一预设相似度进行比较。
子步骤S152,将相似度大于所述第一预设相似度的候选结果及该候选结果对应的相似度,作为所述文献搜索结果,发送给所述管理系统。
在本实施例中,可以预先结合实际需求设置第一预设相似度,比如,设置为0.8。然后,在获得各候选结果对应的相似度的情况下,可将各候选结果对应的相似度与所述第一预设相似度进行比较,基于比较结果筛选出相似度大于所述第一预设相似度的候选结果,并将筛选出来的各候选结果及各候选结果对应的相似度作为所述文献搜索结果,发送给所述管理系统。如此,可减少发送给所述管理系统的数据量;同时由于基于相似度进行了初步筛选,向管理系统返回最相似的文章或文章列表,便于管理系统可以直接向用户展示与用户检索需求对应的文献搜索结果。其中,在初步筛选之后若只有一篇文章时,返回的是最相似的文章;在初步筛选之后有多篇文章时,返回的是文章列表,该文章列表中包括筛选出的多篇文章。
在所述管理系统接收到所述文献搜索结果的情况下,管理系统可以将该文献搜索结果中的其中一篇文章,作为与所述文章搜索请求对应的目标文章;然后,基于该目标文章及文章信息,生成文献审核报告。该文献审核报告中可以包括目标文章及目标文章的文章信息等。在文献审核报告中已包括一部分填报数据(比如,填报了文章搜索请求中的检索字段)时,管理系统可以将填报数据与目标文章和目标文章的文章信息进行比对,补全或修正填报文章信息等,以形成文献审核报告。
其中,可选地,管理系统可以将该文献搜索结果进行展示,在接收到用户对其中一篇文章的选择操作的情况下,可以将该被选择文章作为所述目标文章。或者,管理系统可以从文献搜索结果中,选出相似度大于第二预设相似度的文章,并将该文章作为所述目标文章。其中,所述第二预设相似度大于所述第一预设相似度,具体值可以结合实际需求设置,比如,设置为0.95。
请参照图8,图8为本申请实施例提供的文章数据搜索方法的流程示意图之二。在本实施例中,所述方法还可以包括步骤S210~步骤S230。可在执行完步骤S110~步骤S150后执行步骤S210~步骤S230。
步骤S210,在需要获得目标期刊对应的目标期刊信息的情况下,确定所述目标期刊信息对应的目标期刊标识及目标查询年度。
在本实施例中,在确定出文献搜索结果之后,可以基于预先设置的模式设定是否需要查询与所述文章搜索请求对应的目标文章所对应的目标期刊信息。其中,所述目标期刊信息为所述目标文章所在的期刊的信息。
比如,若设置的固定模式为先查询文章信息、再查询期刊信息,则在获得文献搜索结果之后,则可以直接确定需要查询目标期刊信息。或者,外部系统可以根据设置的模式或者基于用户的操作等确定是否需要查询目标期刊信息,在需要时,可以生成期刊搜索请求,电子设备在接收到该期刊搜索请求的情况下可以进行搜索,以获得目标期刊信息。
在确定需要获得目标期刊对应的目标期刊信息的情况下,可以获得基于所述文献搜索结果确定出的目标期刊标识及目标查询年度。比如,管理系统或电子设备可以直接将相似度最高的文章作为目标文章,并将目标文章的文章信息中的期刊的期刊名或国际标准连续出版物号ISSN号作为所述目标期刊标识;还可以将目标文章的文章信息中的文章的发表年作为所述目标查询年度。或者,用户手动向管理系统输入目标期刊标识及目标查询年度。或者,用户手动选出了目标期刊标识,在用户未输入目标查询年度时,可以将当前最新的可查询年度作为所述目标查询年度。比如,若当前年为2022年,目前可查询的最新年度为2020年,则可以将2020年作为所述目标查询年度。
其中,在将ISSN号作为所述目标期刊标识时,可以将目标期刊的ISSN号及EISSN号(电子期刊的ISSN)作为所述目标期刊标识。若存在目标期刊改名的情况,所述目标期刊标识中可以包括该目标期刊改名前后的ISSN号及EISSN号。
步骤S220,根据所述目标期刊标识及目标查询年度,确定是否能在期刊数据库中查询得到期刊搜索结果。
在本实施例中,可定时开启被动爬虫,访问各类期刊排名发布网页,抓取本年度发布的最新期刊排名情况,作为期刊信息,可将期刊及期刊信息存储期刊数据库。该期刊数据库可以存储于硬盘内。如此,可使得期刊数据库中存储有定期获得的期刊及期刊信息,并且可以每隔固定时间更新期刊收录情况(即收录源)、期刊等级等信息,以便后续查询使用。
其中,期刊信息中包括可以:期刊名、ISSN号、等级信息、该期刊信息对应的年度。作为一种可能的实例,该期刊信息可以包括:rank值、期刊名、别称、收录源、ISSN号、期刊所在学科类别、期刊所在学科类别排名情况、期刊影响因子与影响因子年度等。其中,rank值、收录源、期刊所在学科类别排名情况、期刊影响因子与影响因子年度,可以体现期刊的类别。
在确定目标期刊标识及目标查询年度的情况下,可以基于所述目标期刊标识及目标查询年度在所述期刊数据库中进行查找,若查找到包括该目标期刊标识及该目标查询年度的期刊信息,则可以确定获得了目标期刊信息。可选地,在所述期刊数据库中包括与期刊信息对应的期刊时,可从期刊数据库中获得目标期刊及目标期刊信息,并将该目标期刊及目标期刊信息作为所述期刊搜索结果。
在查找之前,可首先判断期刊查询方式是期刊名还是ISSN号。
在为期刊名时,可先规范化期刊名称,去除期刊名中停用词、特殊符号、缩写形式及简拼形式,并统一将应为转换为小写形式。其中,期刊数据库中还可以包括期刊名称表,该期刊名称表中包括完整的期刊名、该完整的期刊名对应的缩写形式、该完整的期刊名对应的简拼形式。可以通过查表的方式,将待查询的期刊名中的缩写形式或简拼形式替换为全称。比如,假设待查询的期刊名中包括缩写IJMI,而IJMI的全称为internation journalof medical informatics,则可以将该缩写替换为对应的全称。若待查询的期刊名中包括了缩写或简拼,但期刊名称表未包括对应的全称,则可以在期刊数据库中查询时,可以在去除期刊数据库中的期刊名中的介词、副词后,将其首字符与待查询的期刊名进行字符匹配,以进行查询。
在为ISSN号时,若仅有一个ISSN号,则可以对其进行合法性进行验证。比如,基于ISSN号的标准长度验证作为目标期刊标识的ISSN号的合法性。若有多个ISSN号,则可拆分为多个ISSN号,然后验证各ISSN号的合法性。如此,可得到合法的可用于查询的ISSN号。
在得到规范化的期刊名或合法的ISSN号后,可查询期刊数据库,若查询到对应期刊,则可以获得期刊搜索结果。
在获得所述期刊搜索结果的情况下,可执行步骤S230。
步骤S230,将所述期刊搜索结果发送给管理系统。
所述管理系统在接收到所述期刊搜索结果的情况下,可以基于该期刊搜索结果及文章搜索结果生成所述文献审核报告。比如,在文献审核报告中已填报一部分数据时,管理系统可以比对填报数据及该期刊搜索结果,补正或修正文章对应期刊收录情况等,以形成包括文章信息及期刊信息的文献审核报告。
请再次参照图8,所述方法还可以包括步骤S240~步骤S270。
在未能从所述期刊数据库中获得所述期刊搜搜结果时,可执行步骤S240及步骤S250。
步骤S240,判断所述目标查询年度是否为当前最新的可查询年度。
由于所述期刊数据库中的数据是定期获得,因此在从所述期刊数据库中未能获得期刊搜索结果时,可首先判断所述目标查询年度是否为当前最新的可查询年度。若不是最新的可查询年度,则可以执行步骤S270:向所述管理系统发送所述目标期刊的期刊信息未被收录的提示信息。
若所述目标查询年度是当前最新的可查询年度,则可能是由于该目标期刊的期刊信息应该被存储在所述期刊数据库但还没被主动爬虫抓取,导致无法获得所述期刊搜索结果,在此情况下,可执行步骤S250。
步骤S250,判断所述目标期刊在当前最新的可查询年度的等级信息是否公布。
比如,判断该目标期刊在当前最新的可查询年度的影响因子是否公开,从而确定该目标期刊在当前最新的可查询年度的等级信息是否公布。若未被公开,则可以执行步骤S270:向所述管理系统发送所述目标期刊的期刊信息未被收录的提示信息。
若已被公开,则可以执行步骤S260。
步骤S260,获得当前最新的可查询年度的期刊信息,并对期刊数据库进行更新。
在经步骤S250确定已公开的情况下,可触发被动爬虫,访问各类期刊排名发布网页,抓取本年度发布的最新期刊排名情况,并将各期刊及最新期刊排名情况存入期刊数据库中。然后,再次执行步骤S220,以再次根据所述目标期刊标识及目标查询年度在期刊数据库中查询,获得所述期刊搜索结果;若再次执行步骤S220之后,仍未能获得期刊搜索期刊,则可以执行步骤S270。
本申请实施例提供了一种自动化、智能化方法用于完成科研论文审核工作,相比于传统依靠人工审核的形式,本申请实施例提供的方式可以在保证精度的前提下,较短时间内完成大量科研论文审核工作,节约人力成本的同时还可提高科研论文的审核效率,便于衡量科研工作者的科研产出,进行自动化绩效评价。本申请所提供的文章元数据与期刊收录情况也可进一步减轻科研成果申报过程中数据填报负担,同时也能降低填报差错。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种文章数据搜索装置200的实现方式,可选地,该文章数据搜索装置200可以采用上述图1所示的电子设备100的器件结构。进一步地,请参照图9,图9为本申请实施例提供的文章数据搜索装置200的方框示意图。需要说明的是,本实施例所提供的文章数据搜索装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述文章数据搜索装置200可以包括:请求接收模块210、处理模块220、搜索模块230、计算模块240及发送模块250。
所述请求接收模块210,用于接收管理系统发送的文章搜索请求。其中,所述文章搜索请求中包括目标文章名。
所述处理模块220,用于根据所述文章搜索请求,构建检索策略。其中,所述检索策略包括检索源网站集合及候选文章名集合。
所述搜索模块230,用于根据所述检索策略进行检索,获得候选结果。其中,每个候选结果中包括文章及文章信息。
所述计算模块240,用于计算得到各候选结果与所述文章搜索请求的相似度。
所述发送模块250,用于将至少一个所述候选结果及对应的相似度,作为文献搜索结果,发送给所述管理系统。
可选地,在本实施例中,所述搜索模块230还用于:在需要获得目标期刊对应的目标期刊信息的情况下,确定所述目标期刊信息对应的目标期刊标识及目标查询年度,其中,所述目标期刊为目标文章所在的期刊,所述目标期刊标识为期刊名或国际标准连续出版物号ISSN号;根据所述目标期刊标识及目标查询年度,在期刊数据库中查询,得到期刊搜索结果,其中,所述期刊数据库中保存有定期获得的期刊信息,所述期刊信息中包括期刊名、ISSN号、等级信息、该期刊信息对应的年度,所述期刊搜索结果中包括所述目标期刊信息。所述发送模块250还用于:将所述期刊搜索结果发送给管理系统。
可选地,在本实施例中,所述文献搜索结果及所述期刊搜索结果用于所述生成文献审核报告,所述搜索模块230还用于:在未能从所述期刊数据库中获得所述期刊搜索结果时,判断所述目标查询年度是否为当前最新的可查询年度且所述目标期刊在当前最新的可查询年度的等级信息是否公布;若所述目标查询年度为当前最新的可查询年度且所述目标期刊在当前最新的可查询年度的等级信息已公布,则获得当前最新的可查询年度的期刊信息,并对所述期刊数据库进行更新;再次根据所述目标期刊标识及目标查询年度,在期刊数据库中查询,以获得所述期刊搜索结果。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的文章数据搜索方法。
综上所述,本申请实施例提供的文章数据搜索方法及装置,在接收到管理系统发送的包括目标文章名的文章搜索请求的情况下,根据该文章搜素请求构建检索策略,该检索策略中包括检索源网站集合及候选文章名集合;然后,基于该检索策略进行检索,得到至少一个包括文章及文章信息的候选结果;接着,计算各候选结果与文章搜索请求的相似度,进而将至少一个候选结果及对应的相似度作为文献搜索结果发送给管理系统,以便管理系统基于该文章搜索结果生成文献审核报告。如此,可节省人员检索文章信息、录入文章相关信息的动作,还可以减少审核人员人工进行的干预和审核的动作,提高了文章管理的便捷性、准确性,大大提高了整个流程的工作效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的可选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文章数据搜索方法,其特征在于,所述方法包括:
接收管理系统发送的文章搜索请求,其中,所述文章搜索请求中包括目标文章名;
根据所述文章搜索请求,构建检索策略,其中,所述检索策略包括检索源网站集合及候选文章名集合;
根据所述检索策略进行检索,获得候选结果,其中,每个候选结果中包括文章及文章信息;
计算得到各候选结果与所述文章搜索请求的相似度;
将至少一个所述候选结果及对应的相似度,作为文献搜索结果,发送给所述管理系统,其中,所述管理系统用于基于所述文献搜索结果生成文献审核报告。
2.根据权利要求1所述的方法,其特征在于,所述文章搜索请求中还包括目标作者姓名,所述检索策略中还包括候选作者名集合,所述根据所述文章搜索请求,构建检索策略,包括:
分析得到所述目标文章名使用的目标语种;
在所述目标作者姓名使用的源语种与所述目标语种不同的情况下,进行语种转换,以得到使用所述目标语种的所述目标作者姓名;
根据所述目标语种确定所述检索源网站集合;
根据所述目标文章名构建所述候选文章名集合;
根据使用所述目标语种的所述目标作者姓名,确定候选作者名集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述检索策略进行检索,获得候选结果,包括:
查找文献缓存库中是否存在与所述检索策略匹配的文章,其中,所述文献缓存中包括已保存的多篇文章及各文章对应的文章信息;
若存在匹配文章,则从所述文献缓存库中获取所述匹配文章及对应的文章信息作为候选结果。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述检索策略进行检索,获得候选结果,还包括:
若不存在匹配文献,则从所述检索源网站集合对应的网站处获得与所述文章搜索请求对应的初始候选结果;
对所述初始候选结果进行去重,获得所述候选结果;
所述方法还包括:
将经过去重得到的候选结果保存到所述文献缓存库中。
5.根据权利要求1所述的方法,其特征在于,所述文章信息中包括文章标准名称、署名作者及作者通讯地址,所述文章搜索请求中还包括目标通讯地址及目标作者姓名,所述计算得到各候选结果与所述文章搜索请求的相似度,包括:
针对各候选结果,根据该候选结果中的文章标准名称与所述目标文章名,计算得到第一相似度;
根据该候选结果的署名作者中是否包括任意一个候选作者名,获得第二相似度;其中,所述候选作者名根据所述目标作者名确定,在署名作者中包括一个所述候选作者名时,所述第二相似度为1;在署名作者中不包括任意一个所述候选作者名时,所述第二相似度为0;
根据该候选结果中的作者通讯地址及所述目标通讯地址,计算得到第三相似度;
根据所述第一相似度、第二相似度及第三相似度,计算得到所述候选结果与所述文章搜索请求的相似度。
6.根据权利要求5所述的方法,其特征在于,所述第一相似度、第二相似度及第三相似度,根据采用目标语种的文章标准名称、署名作者、作者通讯地址以及目标文章名、目标通讯地址、目标作者姓名计算得到,所述目标语种为所述目标文章名使用的语种,所述根据所述第一相似度、第二相似度及第三相似度,计算得到所述候选结果与所述文章搜索请求的相似度,包括:
根据所述目标语种,以及预先设置好的不同语种与权重集合的对应关系,从多个权重集合中选出目标权重集合,其中,所述权重集合中包括题目权重、作者名权重及地址权重,中文对应的题目权重小于英文对应的题目权重,中文对应的作者名权重大于英文对应的作者名权重;
根据所述目标权重集合、第一相似度、第二相似度及第三相似度,通过加权求和计算,得到所述候选结果与所述文章搜索请求的相似度。
7.根据权利要求1所述的方法,其特征在于,所述将至少一个所述候选结果及对应的相似度,作为文献搜索结果,发送给所述管理系统,包括:
将各候选结果对应的相似度与第一预设相似度进行比较;
将相似度大于所述第一预设相似度的候选结果及该候选结果对应的相似度,作为所述文献搜索结果,发送给所述管理系统。
8.根据权利要求1-7中任意一项所述的方法,其特征在于,所述方法还包括:
在需要获得目标期刊对应的目标期刊信息的情况下,确定所述目标期刊信息对应的目标期刊标识及目标查询年度,其中,所述目标期刊为所述文章搜索请求对应的目标文章所在的期刊,所述目标期刊标识为期刊名或国际标准连续出版物号ISSN号;
根据所述目标期刊标识及目标查询年度,在期刊数据库中查询,得到期刊搜索结果,其中,所述期刊数据库中保存有定期获得的期刊信息,所述期刊信息中包括期刊名、ISSN号、等级信息、该期刊信息对应的年度,所述期刊搜索结果中包括所述目标期刊信息;
将所述期刊搜索结果发送给管理系统,其中,所述文献搜索结果及所述期刊搜索结果用于所述生成文献审核报告。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在未能从所述期刊数据库中获得所述期刊搜索结果时,判断所述目标查询年度是否为当前最新的可查询年度且所述目标期刊在当前最新的可查询年度的等级信息是否公布;
若所述目标查询年度为当前最新的可查询年度且所述目标期刊在当前最新的可查询年度的等级信息已公布,则获得当前最新的可查询年度的期刊信息,并对所述期刊数据库进行更新;
再次根据所述目标期刊标识及目标查询年度,在期刊数据库中查询,以获得所述期刊搜索结果。
10.一种文章数据搜索装置,其特征在于,所述装置包括:
请求接收模块,用于接收管理系统发送的文章搜索请求,其中,所述文章搜索请求中包括目标文章名;
处理模块,用于根据所述文章搜索请求,构建检索策略,其中,所述检索策略包括检索源网站集合及候选文章名集合;
搜索模块,用于根据所述检索策略进行检索,获得候选结果,其中,每个候选结果中包括文章及文章信息;
计算模块,用于计算得到各候选结果与所述文章搜索请求的相似度;
发送模块,用于将至少一个所述候选结果及对应的相似度,作为文献搜索结果,发送给所述管理系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902038.2A CN114969391B (zh) | 2022-07-29 | 2022-07-29 | 文章数据搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902038.2A CN114969391B (zh) | 2022-07-29 | 2022-07-29 | 文章数据搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969391A true CN114969391A (zh) | 2022-08-30 |
CN114969391B CN114969391B (zh) | 2022-11-18 |
Family
ID=82970443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210902038.2A Active CN114969391B (zh) | 2022-07-29 | 2022-07-29 | 文章数据搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969391B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657505A (zh) * | 2015-03-13 | 2015-05-27 | 华北电力大学 | 一种基于云平台和移动终端的论文自动查收查引方法 |
CN105488113A (zh) * | 2015-11-23 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 论文的搜索方法、装置及搜索引擎 |
CN105740471A (zh) * | 2016-03-14 | 2016-07-06 | 燕山大学 | 一种可动态查询论文收录状态的智能方法 |
CN107273476A (zh) * | 2017-06-08 | 2017-10-20 | 广州优视网络科技有限公司 | 一种文章搜索方法、装置及服务器 |
CN112667781A (zh) * | 2020-12-31 | 2021-04-16 | 北京万方数据股份有限公司 | 一种恶性肿瘤文献获取方法及装置 |
CN113987128A (zh) * | 2021-11-04 | 2022-01-28 | 智慧芽信息科技(苏州)有限公司 | 相关文章搜索方法、装置、电子设备和存储介质 |
CN114756733A (zh) * | 2022-04-19 | 2022-07-15 | 北京金山数字娱乐科技有限公司 | 一种相似文档搜索方法、装置、电子设备及存储介质 |
-
2022
- 2022-07-29 CN CN202210902038.2A patent/CN114969391B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657505A (zh) * | 2015-03-13 | 2015-05-27 | 华北电力大学 | 一种基于云平台和移动终端的论文自动查收查引方法 |
CN105488113A (zh) * | 2015-11-23 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 论文的搜索方法、装置及搜索引擎 |
CN105740471A (zh) * | 2016-03-14 | 2016-07-06 | 燕山大学 | 一种可动态查询论文收录状态的智能方法 |
CN107273476A (zh) * | 2017-06-08 | 2017-10-20 | 广州优视网络科技有限公司 | 一种文章搜索方法、装置及服务器 |
CN112667781A (zh) * | 2020-12-31 | 2021-04-16 | 北京万方数据股份有限公司 | 一种恶性肿瘤文献获取方法及装置 |
CN113987128A (zh) * | 2021-11-04 | 2022-01-28 | 智慧芽信息科技(苏州)有限公司 | 相关文章搜索方法、装置、电子设备和存储介质 |
CN114756733A (zh) * | 2022-04-19 | 2022-07-15 | 北京金山数字娱乐科技有限公司 | 一种相似文档搜索方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114969391B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102792298B (zh) | 使用特征化匹配的规则来匹配元数据源 | |
US9262584B2 (en) | Systems and methods for managing a master patient index including duplicate record detection | |
RU2671047C2 (ru) | Понимание таблиц для поиска | |
Chowdhury et al. | Plagiarism: Taxonomy, tools and detection techniques | |
US20050149538A1 (en) | Systems and methods for creating and publishing relational data bases | |
US6480835B1 (en) | Method and system for searching on integrated metadata | |
US20080147642A1 (en) | System for discovering data artifacts in an on-line data object | |
US20170322930A1 (en) | Document based query and information retrieval systems and methods | |
US10572461B2 (en) | Systems and methods for managing a master patient index including duplicate record detection | |
US20080147578A1 (en) | System for prioritizing search results retrieved in response to a computerized search query | |
US20070198499A1 (en) | Annotation framework | |
US20080077570A1 (en) | Full Text Query and Search Systems and Method of Use | |
US20080147641A1 (en) | Method for prioritizing search results retrieved in response to a computerized search query | |
EP2577521A2 (en) | Detection of junk in search result ranking | |
EP2474935A2 (en) | System and method for harvesting electronically stored content by custodian | |
WO2007149623A2 (en) | Full text query and search systems and method of use | |
Mollá et al. | A corpus for research in text processing for evidence based medicine | |
Kılınç | An accurate toponym-matching measure based on approximate string matching | |
Gyawali et al. | Deduplication of scholarly documents using locality sensitive hashing and word embeddings | |
Brody | Evaluating research impact through open access to scholarly communication | |
JP2009122807A (ja) | 連想検索システム | |
Funkner et al. | Citywide quality of health information system through text mining of electronic health records | |
CN114969391B (zh) | 文章数据搜索方法及装置 | |
CN115982429A (zh) | 一种基于流程控制的知识管理方法及系统 | |
US20080235215A1 (en) | Data search method, recording medium recording program, and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |