CN111259168A - 文献处理方法、装置、存储介质及设备 - Google Patents

文献处理方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111259168A
CN111259168A CN202010078904.1A CN202010078904A CN111259168A CN 111259168 A CN111259168 A CN 111259168A CN 202010078904 A CN202010078904 A CN 202010078904A CN 111259168 A CN111259168 A CN 111259168A
Authority
CN
China
Prior art keywords
document
information
queried
database
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010078904.1A
Other languages
English (en)
Other versions
CN111259168B (zh
Inventor
应剑
王曦
肖杰
王黎明
邵丹青
张波
侯粲
祝晓斌
何洪优
王春波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cofco Corp
Cofco Nutrition and Health Research Institute Co Ltd
Original Assignee
Cofco Corp
Cofco Nutrition and Health Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cofco Corp, Cofco Nutrition and Health Research Institute Co Ltd filed Critical Cofco Corp
Publication of CN111259168A publication Critical patent/CN111259168A/zh
Application granted granted Critical
Publication of CN111259168B publication Critical patent/CN111259168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例提供一种文献处理方法、装置、存储介质及处理器,属于文献管理技术领域,解决了现有技术中对于文献查阅工作量较大的问题。所述方法包括:获取待查询文献信息;根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据;获取所述文献数据对应的标签信息,并将所述标签信息与其对应的文献数据进行关联存储,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型;根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。本发明实施例适用于文献管理过程。

Description

文献处理方法、装置、存储介质及设备
技术领域
本发明涉及文献管理技术领域,具体地涉及一种文献处理方法、装置、存储介质及设备。
背景技术
目前,关于食品健康功能众说纷纭,但是尚未形成严谨、系统的评价体系,难以辨别和评价诸多信息的真伪和质量,不利于食品的营养健康应用。循证医学是现代医学发展的重要基础,借鉴循证医学手段,分析食品功能证据,可为食品行业提供有力的科学参考。目前,关于研究证据等级的评价标准和方法,全球并未统一,使用和接受最为广泛的,是2001年英国牛津循证医学中心推出的评价系统,和GRADE评价系统。其纳入的研究证据,以临床研究为主,兼有动物实验和体外研究。进行证据等级分析,需要从文献数据库查阅大量文献,工作量较大。
发明内容
本发明实施例的目的是提供一种文献处理方法、装置、存储介质及处理器,解决了现有技术中对于文献查阅工作量较大的问题,提高文献整理的效率以及文献的研读效率,另外对食品的原料类别的健康功效类型研究的实验证据等级进行分析,有助于学界、产业和消费者以简单、便捷的形式,对食品的原料类别研究的科研现状有快速认知。
为了实现上述目的,本发明实施例提供一种文献处理方法,所述方法包括:获取待查询文献信息;根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据;获取所述文献数据对应的标签信息,并将所述标签信息与其对应的文献数据进行关联存储,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型;根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。
进一步地,所述待查询文献信息包括待查询文献的关键词信息以及数据库查询地址,所述根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据包括:在所述数据库信息中,根据所述数据库查询地址确定目标文献数据库;根据所述待查询文献的关键词信息,在所述目标文献数据库中得到所述关键词信息对应的文献数据的详细信息;根据所述文献数据的详细信息中的文献标题以及数字对象唯一标识符DOI,在所述数据库信息中的其他数据库中查询所述文献数据的其他数据库详细信息。
进一步地,所述待查询文献信息包括待查询文献的标识信息,所述标识信息包括PubMed唯一标识码PMID、数字对象唯一标识符DOI或统一资源定位符URL地址,所述根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据包括:判断所述待查询文献的标识信息是否属于URL地址;当所述待查询文献的标识信息属于URL地址时,在所述数据库信息中,根据所述URL地址确定目标文献数据库中所述待查询文献信息对应的文献数据的详细信息;当所述待查询文献的标识信息属于PMID或DOI时,在所述数据库信息中的预设数据库中查找所述PMID或DOI对应的文献数据的详细信息。
进一步地,所述待查询文献信息包括待查询文献的公开信息,所述根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据包括:根据所述待查询文献的公开信息,在所述数据库信息中的所有数据库中,检索得到所述待查询文献信息对应的文献数据对应的详细信息。
进一步地,在所述将所述标签信息与其对应的文献数据进行关联存储之后,所述方法还包括:在所述原料类别对应的页面显示所关联的文献数据。
进一步地,所述根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析包括:根据
Figure BDA0002379571570000031
得到第i种原料类别且第j种健康功效类型对应的实验证据等级Scoreij,其中,kz为第i种原料类别且第j种健康功效类型对应的第z种实验类型对应的权重,nz为第i种原料类别且第j种健康功效类型对应的第z种实验类型的文献数据的数量,m为实验类型的数量。
进一步地,在所述将所述标签信息与其对应的文献数据进行关联存储之后,所述方法还包括:获取指定关键词以及指定年份范围;在所述指定年份范围对应的文献数据中,查找并显示所述指定关键词对应的文献数据。
进一步地,在所述将所述标签信息与其对应的文献数据进行关联存储之后,所述方法还包括:获取指定关键词以及指定健康功效类型信息;在所述指定健康功效类型信息对应的文献数据中,查找并显示所述指定关键词对应的文献数据。
相应地,本发明实施例还提供一种文献处理装置,其特征在于,所述装置包括:获取单元,用于获取待查询文献信息;文献检索单元,用于根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据;标签获取单元,用于获取所述文献数据对应的标签信息,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型;存储单元,用于将所述标签信息与其对应的文献数据进行关联存储;证据分析单元,用于根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。
进一步地,所述待查询文献信息包括待查询文献的关键词信息以及数据库查询地址,所述文献检索单元还用于在所述数据库信息中,根据所述数据库查询地址确定目标文献数据库;根据所述待查询文献的关键词信息,在所述目标文献数据库中得到所述关键词信息对应的文献数据的详细信息;根据所述文献数据的详细信息中的文献标题以及数字对象唯一标识符DOI,在所述数据库信息中的其他数据库中查询所述文献数据的其他数据库详细信息。
进一步地,所述待查询文献信息包括待查询文献的标识信息,所述标识信息包括PubMed唯一标识码PMID、数字对象唯一标识符DOI或统一资源定位符URL地址,所述文献检索单元还用于判断所述待查询文献的标识信息是否属于URL地址;当所述待查询文献的标识信息属于URL地址时,在所述数据库信息中,根据所述URL地址确定目标文献数据库中所述待查询文献信息对应的文献数据的详细信息;当所述待查询文献的标识信息属于PMID或DOI时,在所述数据库信息中的预设数据库中查找所述PMID或DOI对应的文献数据的详细信息。
进一步地,所述待查询文献信息包括待查询文献的公开信息,所述文献检索单元还用于根据所述待查询文献的公开信息,在所述数据库信息中的所有数据库中,检索得到所述待查询文献信息对应的文献数据对应的详细信息。
进一步地,所述装置还包括:第一显示单元,用于在所述原料类别对应的页面显示所关联的文献数据。
进一步地,所述证据分析单元还用于根据
Figure BDA0002379571570000041
得到第i种原料类别且第j种健康功效类型对应的实验证据等级Scoreij,其中,kz为第i种原料类别且第j种健康功效类型对应的第z种实验类型对应的权重,nz为第i种原料类别且第j种健康功效类型对应的第z种实验类型的文献数据的数量,m为实验类型的数量。
进一步地,所述获取单元还用于获取指定关键词以及指定年份范围;所述装置还包括:第一查找单元,用于在所述指定年份范围对应的文献数据中,查找所述指定关键词对应的文献数据;第二显示单元,用于显示所述指定关键词对应的文献数据。
进一步地,所述获取单元还用于获取指定关键词以及指定健康功效类型信息;所述装置还包括:第二查找单元,用于在所述指定健康功效类型信息对应的文献数据中,查找所述指定关键词对应的文献数据;第三显示单元,用于显示所述指定关键词对应的文献数据。
相应地,本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行如上所述的文献处理方法。
相应地,本发明实施例还提供一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器与所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上所述的文献处理方法。
通过获取待查询文献信息,并根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据,然后,将所获取的文献数据对应的标签信息与其对应的文献数据进行关联存储,之后,根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。本发明实施例解决了现有技术中对于文献查阅工作量较大的问题,提高文献整理的效率以及文献的研读效率,另外对食品的原料类别的健康功效类型研究的实验证据等级进行分析,有助于学界、产业和消费者以简单、便捷的形式,对食品的原料类别研究的科研现状有快速认知。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的一种文献处理方法的流程示意图;
图2是本发明实施例提供的一种文献处理装置的结构示意图;
图3是本发明实施例提供的另一种文献处理装置的结构示意图;
图4是本发明实施例提供的又一种文献处理装置的结构示意图;
图5是本发明实施例提供的再一种文献处理装置的结构示意图;
图6是本发明实施例提供的一种设备的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1是本发明实施例提供的一种文献处理方法的流程示意图。如图1所示,所述方法包括如下步骤:
步骤101,获取待查询文献信息;
步骤102,根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据;
步骤103,获取所述文献数据对应的标签信息,并将所述标签信息与其对应的文献数据进行关联存储,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型;
步骤104,根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。
其中,在步骤101中获取的待查询文献信息为食品原料类别,可为中文、英文或拉丁文,可通过下述三种方式获取:一种是通过爬虫输入,第二种是通过辅助输入,第三种是通过人工输入。
其中,在第一种通过爬虫输入获取待查询文献信息的方式中,所述待查询文献信息包括待查询文献的关键词信息以及数据库查询地址。所述关键词信息包括指定检索的关键词和/或关键词组合,所述数据库查询地址包括指定的URL(Uniform Resource Locator,统一资源定位符)地址。对应的,在步骤102中,通过自动挖掘文献文本的爬虫工具,利用上述关键词信息以及数据库查询地址,从Pubmed等指定的公开文献数据库中获取所述待查询文献信息对应的文献数据。具体的,在所述数据库信息中,根据所述数据库查询地址确定目标文献数据库,然后,根据所述待查询文献的关键词信息,在所述目标文献数据库中得到所述关键词信息对应的文献数据的详细信息。其中,所述详细信息包括文献标题、摘要、唯一标识,例如PMID(PubMed Unique Identifier,PubMed唯一标识码)以及DOI(DigitalObject Unique Identifier,数字对象唯一标识符)、发表时间等信息。之后,根据所述文献数据的详细信息中的文献标题以及DOI,在所述数据库信息中的其他数据库中查询所述文献数据的其他数据库详细信息。
以待查询文献的关键词信息为gut与microbiota,数据库查询地址—URL地址为https://www.ncbi.nlm.nih.gov/pubmed为例,随后网络爬虫控制器使用Chrome浏览器请求该URL得到该关键词在目标文献数据库的非结构化查询结果,该结果表现形式为计算机编程语言中的字符串,包含文献标题、摘要、唯一标识、详情页URL地址等信息,并具有规律性,例如以gut与microbiota为关键词,获得了页面https://www.ncbi.nlm.nih.gov/ pubmed/?term=gut+AND+microbiota。然后,网络爬虫解析器通过使用正则表达式工具筛选出以上信息,并逐一构建文献详细信息在目标文献数据库的URL位置,例如,上述页面第一篇文献的URL地址为:https://www.ncbi.nlm.nih.gov/pubmed/31986454。随后网络爬虫控制器使用Chrome浏览器逐一发送请求并得到包含该文献详细信息的字符串结果。网络爬虫解析器对该结果使用正则表达式工具筛选出该文献的摘要、关键词、DOI、PMID、发表时间等信息。例如,上述URL地址中提取到的文献标题为:Antibiotic exposure across threegenerations from Chinese families and cumulative health risk,DOI为10.1016/j.ecoenv.2020.110237,这里描述的信息都存在于https://www.ncbi.nlm.nih.gov/pubmed/31986454这个页面。根据文献标题和DOI,网路爬虫程序使用同样的步骤和策略在其他文献数据上逐一查询并结构化该文献的期刊名称、影响因子、所在分区、发表时间、发表机构、机构国别等信息。例如,根据DOI:10.1016/j.ecoenv.2020.110237这一文献的数字对象唯一标识符,可以获取该文献的期刊名称、期刊的影响因子等。这些信息不存在于https://www.ncbi.nlm.nih.gov/pubmed/31986454这个页面,而是在其他文献数据库中。但不管是在什么数据库,同一文献的DOI是统一的、固定的。
在第二种通过辅助输入获取待查询文献信息的方式之后,所述待查询文献信息包括待查询文献的标识信息,所述标识信息包括PMID、DOI或URL地址。在步骤102中,根据不同的标识信息类型执行对应的动作,例如首先判断辅助输入的所述待查询文献的标识信息是否属于URL地址,当所述待查询文献的标识信息属于URL地址时,在所述数据库信息中,根据所述URL地址确定目标文献数据库中所述待查询文献信息对应的文献数据的详细信息。若是当所述待查询文献的标识信息属于PMID或DOI时,在所述数据库信息中的预设数据库中查找所述PMID或DOI对应的文献数据的详细信息。例如,当辅助输入一URL地址之后,网络爬虫控制器使用Chrome浏览器发送该URL地址并获取非结构化字符串结果,网络爬虫解析器使用正则表达式工具从上述结果中筛选出论文标题、论文作者、期刊名称、影响因子、所在分区、论文摘要、论文关键词、DOI、PMID、发表时间、发表机构、机构国别等信息并结构化。若是针对辅助输入的DOI或PMID,网络爬虫程序首先构造该文献针对所述数据库信息中的预设数据库的URL地址,之后控制器使用上述辅助URL地址的方法获取结构化的信息。
在第三种通过人工输入获取待查询文献信息的方式之后,所述待查询文献信息包括待查询文献的公开信息,在步骤102中,根据所述待查询文献的公开信息,在所述数据库信息中的所有数据库中,检索得到所述待查询文献信息对应的文献数据对应的详细信息。
在步骤103中,对上述获取的文献数据加注对应的标签信息,例如,获取人工输入的针对于美国文献数据对应的标签信息,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型,权重为所述实验类型对应的权重。之后,将所述标签信息与其对应的文献数据进行关联存储。
可选的,上述检索并进行关联的文献数据,可在已经关联于所述原料类别对应的页面显示所关联的文献数据。
另外,当在所存储的文献数据中选择了指定文献数据时,可输出格式化的Csv或Excel格式的文献列表。可供选择文献数据的方式包括:爬虫关键词、文献上传类型、期刊分区、影响因子区间、发表时间、标题关键词、摘要关键词、文献关键词、期刊名称、发表机构、ISSN等。
另外,在步骤104中,根据
Figure BDA0002379571570000091
得到第i种原料类别且第j种健康功效类型对应的实验证据等级Scoreij,其中,kz为第i种原料类别且第j种健康功效类型对应的第z种实验类型对应的权重,nz为第i种原料类别且第j种健康功效类型对应的第z种实验类型的文献数据的数量,m为实验类型的数量。
另外,在本发明实施例的一种实施方式中,当获取到指定关键词以及指定年份范围时,由于文献数据对应有发表时间,则发表时间在所述指定年份范围对应的文献数据中,查找并显示所述指定关键词对应的文献数据。例如,指定关键词包括原料类别为红茶或绿茶,指定年份范围为2013年至2019年,从而得到了2013年至2019年每年发表的文献数据中,与红茶或绿茶相关的文献数据的变化情况。如利用坐标图显示上述结果,横坐标为每一年的年份,纵坐标为每年发表的文献数据的篇数。
另外,在本发明实施例的另一种实施方式中,当获取到指定关键词以及指定健康功效类型信息时,在所述指定健康功效类型信息对应的文献数据中,查找并显示所述指定关键词对应的文献数据。例如,指定关键词包括原料类别为茶,健康功效类型为癌症,指定年份范围为2010年至2019年,从而得到了2010年至2019年每年发表的文献数据中,茶与癌症相关的文献数据的变化情况。如利用坐标图显示上述结果,横坐标为每一年的年份,纵坐标为每年发表的文献数据的篇数。
另外,还可利用双环形图展示指定原料类别的分布比例。用I代表原料类别的名称,对应的健康功效类型的数量有j种,即原料类别I指定分析的健康功效类型I1、I2、……、Ij,该原料类别I对应的文献数据的总数量为NI,该原料类别I的健康功效类型j对应的文献数据的总数量为nIj,则原料类别I健康功效类型j的文献比例计算方法为:pIj=nIi/NI。其中,第j种健康功效类型可进一步细分为二级健康功效类型,其文献数据对应的数量分别为j1、j2、……、jm,则在双环形图中,展示的是原料类别I的一级健康功效类型和二级健康功效类型分布,则
Figure BDA0002379571570000111
例如,以原料类别茶叶,健康功效类型心血管疾病、骨健康、消化系统为例,在双环形图中,内圈为指定的一级健康功效类型,外圈为二级健康功效类型。例如用内圈比较茶叶的n种一级健康功效类型对应的文献数据的数量分布的比例,外圈则细化到二级健康功效类型对应的文献数据的数量分布的比例,便于描述研究原料类别的不同健康功效类型的研究热度。
例如,以原料类别为红茶、绿茶、普洱茶,健康功效类型为消化系统、心血管疾病、肥胖、神经系统为例的雷达图中,“指标”为健康功效类型,颜色表示不同原料类别,各原料类别在对应的健康功效类型轴的分布值为文献占比。
例如,当以原料类别为绿茶,健康功效类型为癌症为例,评估绿茶改善癌症的实验证据等级分析时,每种实验类型对应的权重、检索得到的文献数据的数量,以及绿茶改善癌症的实验证据等级如表1所示:
表1
实验类型 权重 文献数据的数量 文献数据的占比
物理实验 1 0 0%
化学实验 1 0 0%
酶生化 1 0 0%
细胞试验 1 1 11.11%
动物试验 2 0 0%
人群研究 3 3 33.33%
综述研究(人群数据) 4 2 22.22%
荟萃分析 5 2 22.22%
通过表1可知,最高等级的实验类型为荟萃分析,最终得到的实验证据等级为3.5,其中,第z个实验类型对应的权重为kz,第z个实验类型对应的文献数据的数量为nz,实验类型的数量为m。实验证据等级计算公式为:Score=(k1*n1+k2*n2+……+kz*nz+……+km*nm)/(n1+n2+……+nz+……+nm))。
通过本发明实施例,利用爬虫工具,自动识别文献关键信息,提高文献整理的效率。通过加注标签信息的形式,校对爬虫读取的文献,使所存储的文献数据的质量及分类方式充分满足后续分析的需求。另外,基于含特定实验证据等级的文献管理系统,对食品的原料类别的健康功效类型研究的实验证据等级进行分析,有助于学界、产业和消费者以简单、便捷的形式,对食品的原料类别研究的科研现状有快速认知,有助于知识管理和传播,可提高论文研读效率,减少因考证、分析不足,导致的错误、不全面的认知。
相应地,图2是本发明实施例提供的一种文献处理装置的结构示意图。如图2所示,所述装置20包括:获取单元21,用于获取待查询文献信息;文献检索单元22,用于根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据;标签获取单元23,用于获取所述文献数据对应的标签信息,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型;存储单元24,用于将所述标签信息与其对应的文献数据进行关联存储;证据分析单元25,用于根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。
进一步地,所述待查询文献信息包括待查询文献的关键词信息以及数据库查询地址,所述文献检索单元还用于在所述数据库信息中,根据所述数据库查询地址确定目标文献数据库;根据所述待查询文献的关键词信息,在所述目标文献数据库中得到所述关键词信息对应的文献数据的详细信息;根据所述文献数据的详细信息中的文献标题以及数字对象唯一标识符DOI,在所述数据库信息中的其他数据库中查询所述文献数据的其他数据库详细信息。
进一步地,所述待查询文献信息包括待查询文献的标识信息,所述标识信息包括PubMed唯一标识码PMID、数字对象唯一标识符DOI或统一资源定位符URL地址,所述文献检索单元还用于判断所述待查询文献的标识信息是否属于URL地址;当所述待查询文献的标识信息属于URL地址时,在所述数据库信息中,根据所述URL地址确定目标文献数据库中所述待查询文献信息对应的文献数据的详细信息;当所述待查询文献的标识信息属于PMID或DOI时,在所述数据库信息中的预设数据库中查找所述PMID或DOI对应的文献数据的详细信息。
进一步地,所述待查询文献信息包括待查询文献的公开信息,所述文献检索单元还用于根据所述待查询文献的公开信息,在所述数据库信息中的所有数据库中,检索得到所述待查询文献信息对应的文献数据对应的详细信息。
进一步地,如图3所示,所述装置还包括:第一显示单元31,用于在所述原料类别对应的页面显示所关联的文献数据。
进一步地,所述证据分析单元还用于根据
Figure BDA0002379571570000131
得到第i种原料类别且第j种健康功效类型对应的实验证据等级Scoreij,其中,kz为第i种原料类别且第j种健康功效类型对应的第z种实验类型对应的权重,nz为第i种原料类别且第j种健康功效类型对应的第z种实验类型的文献数据的数量,m为实验类型的数量。
进一步地,所述获取单元还用于获取指定关键词以及指定年份范围;如图4所示,所述装置还包括:第一查找单元41,用于在所述指定年份范围对应的文献数据中,查找所述指定关键词对应的文献数据;第二显示单元42,用于显示所述指定关键词对应的文献数据。
进一步地,所述获取单元还用于获取指定关键词以及指定健康功效类型信息;如图5所示,所述装置还包括:第二查找单元51,用于在所述指定健康功效类型信息对应的文献数据中,查找所述指定关键词对应的文献数据;第三显示单元52,用于显示所述指定关键词对应的文献数据。
可选的,所述装置还可以包括用于管理使用者权限、管理标签信息的管理单元等。
通过本发明实施例,解决了现有技术中对于文献查阅工作量较大的问题,提高文献整理的效率以及文献的研读效率,另外对食品的原料类别的健康功效类型研究的实验证据等级进行分析,有助于学界、产业和消费者以简单、便捷的形式,对食品的原料类别研究的科研现状有快速认知。
相应地,本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述实施例所述的文献处理方法。
相应地,图6是本发明实施例提供的一种设备的结构示意图,如图6所示,所述设备60包括至少一个处理器61、以及与所述处理器连接的至少一个存储器62、总线63;其中,所述处理器与所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述实施例所述的文献处理方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种文献处理方法,其特征在于,所述方法包括:
获取待查询文献信息;
根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据;
获取所述文献数据对应的标签信息,并将所述标签信息与其对应的文献数据进行关联存储,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型;
根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。
2.根据权利要求1所述的文献处理方法,其特征在于,所述待查询文献信息包括待查询文献的关键词信息以及数据库查询地址,所述根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据包括:
在所述数据库信息中,根据所述数据库查询地址确定目标文献数据库;
根据所述待查询文献的关键词信息,在所述目标文献数据库中得到所述关键词信息对应的文献数据的详细信息;
根据所述文献数据的详细信息中的文献标题以及数字对象唯一标识符DOI,在所述数据库信息中的其他数据库中查询所述文献数据的其他数据库详细信息。
3.根据权利要求1所述的文献处理方法,其特征在于,所述待查询文献信息包括待查询文献的标识信息,所述标识信息包括PubMed唯一标识码PMID、数字对象唯一标识符DOI或统一资源定位符URL地址,所述根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据包括:
判断所述待查询文献的标识信息是否属于URL地址;
当所述待查询文献的标识信息属于URL地址时,在所述数据库信息中,根据所述URL地址确定目标文献数据库中所述待查询文献信息对应的文献数据的详细信息;
当所述待查询文献的标识信息属于PMID或DOI时,在所述数据库信息中的预设数据库中查找所述PMID或DOI对应的文献数据的详细信息。
4.根据权利要求1所述的文献处理方法,其特征在于,所述待查询文献信息包括待查询文献的公开信息,所述根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据包括:
根据所述待查询文献的公开信息,在所述数据库信息中的所有数据库中,检索得到所述待查询文献信息对应的文献数据对应的详细信息。
5.根据权利要求1所述的文献处理方法,其特征在于,在所述将所述标签信息与其对应的文献数据进行关联存储之后,所述方法还包括:
在所述原料类别对应的页面显示所关联的文献数据。
6.根据权利要求1所述的文献处理方法,其特征在于,所述根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析包括:
根据
Figure FDA0002379571560000021
得到第i种原料类别且第j种健康功效类型对应的实验证据等级Scoreij,其中,kz为第i种原料类别且第j种健康功效类型对应的第z种实验类型对应的权重,nz为第i种原料类别且第j种健康功效类型对应的第z种实验类型的文献数据的数量,m为实验类型的数量。
7.根据权利要求1所述的文献处理方法,其特征在于,在所述将所述标签信息与其对应的文献数据进行关联存储之后,所述方法还包括:
获取指定关键词以及指定年份范围;
在所述指定年份范围对应的文献数据中,查找并显示所述指定关键词对应的文献数据。
8.根据权利要求1所述的文献处理方法,其特征在于,在所述将所述标签信息与其对应的文献数据进行关联存储之后,所述方法还包括:
获取指定关键词以及指定健康功效类型信息;
在所述指定健康功效类型信息对应的文献数据中,查找并显示所述指定关键词对应的文献数据。
9.一种文献处理装置,其特征在于,所述装置包括:
获取单元,用于获取待查询文献信息;
文献检索单元,用于根据所述待查询文献信息以及数据库信息,检索得到所述待查询文献信息对应的文献数据;
标签获取单元,用于获取所述文献数据对应的标签信息,所述标签信息包括关键词标签和权重,所述关键词标签包括原料类别、健康功效类型以及实验类型;
存储单元,用于将所述标签信息与其对应的文献数据进行关联存储;
证据分析单元,用于根据所述文献数据对应的原料类别、健康功效类型、实验类型以及所述实验类型对应的权重,评估每种原料类别和健康功效类型对应的实验证据等级分析。
10.根据权利要求9所述的文献处理装置,其特征在于,所述待查询文献信息包括待查询文献的关键词信息以及数据库查询地址,所述文献检索单元还用于在所述数据库信息中,根据所述数据库查询地址确定目标文献数据库;根据所述待查询文献的关键词信息,在所述目标文献数据库中得到所述关键词信息对应的文献数据的详细信息;根据所述文献数据的详细信息中的文献标题以及数字对象唯一标识符DOI,在所述数据库信息中的其他数据库中查询所述文献数据的其他数据库详细信息。
11.根据权利要求9所述的文献处理装置,其特征在于,所述待查询文献信息包括待查询文献的标识信息,所述标识信息包括PubMed唯一标识码PMID、数字对象唯一标识符DOI或统一资源定位符URL地址,所述文献检索单元还用于判断所述待查询文献的标识信息是否属于URL地址;当所述待查询文献的标识信息属于URL地址时,在所述数据库信息中,根据所述URL地址确定目标文献数据库中所述待查询文献信息对应的文献数据的详细信息;当所述待查询文献的标识信息属于PMID或DOI时,在所述数据库信息中的预设数据库中查找所述PMID或DOI对应的文献数据的详细信息。
12.根据权利要求9所述的文献处理装置,其特征在于,所述待查询文献信息包括待查询文献的公开信息,所述文献检索单元还用于根据所述待查询文献的公开信息,在所述数据库信息中的所有数据库中,检索得到所述待查询文献信息对应的文献数据对应的详细信息。
13.根据权利要求9所述的文献处理装置,其特征在于,所述装置还包括:
第一显示单元,用于在所述原料类别对应的页面显示所关联的文献数据。
14.根据权利要求9所述的文献处理装置,其特征在于,所述证据分析单元还用于根据
Figure FDA0002379571560000051
得到第i种原料类别且第j种健康功效类型对应的实验证据等级Scoreij,其中,kz为第i种原料类别且第j种健康功效类型对应的第z种实验类型对应的权重,nz为第i种原料类别且第j种健康功效类型对应的第z种实验类型的文献数据的数量,m为实验类型的数量。
15.根据权利要求9所述的文献处理装置,其特征在于,
所述获取单元还用于获取指定关键词以及指定年份范围;
所述装置还包括:
第一查找单元,用于在所述指定年份范围对应的文献数据中,查找所述指定关键词对应的文献数据;
第二显示单元,用于显示所述指定关键词对应的文献数据。
16.根据权利要求15所述的文献处理装置,其特征在于,
所述获取单元还用于获取指定关键词以及指定健康功效类型信息;
所述装置还包括:
第二查找单元,用于在所述指定健康功效类型信息对应的文献数据中,查找所述指定关键词对应的文献数据;
第三显示单元,用于显示所述指定关键词对应的文献数据。
17.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述权利要求1-8任一项所述的文献处理方法。
18.一种设备,其特征在于,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器与所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1-8任一项所述的文献处理方法。
CN202010078904.1A 2019-01-31 2020-02-03 文献处理方法、装置、存储介质及设备 Active CN111259168B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019100985913 2019-01-31
CN201910098591 2019-01-31

Publications (2)

Publication Number Publication Date
CN111259168A true CN111259168A (zh) 2020-06-09
CN111259168B CN111259168B (zh) 2023-08-01

Family

ID=70954643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010078904.1A Active CN111259168B (zh) 2019-01-31 2020-02-03 文献处理方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111259168B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511027A (zh) * 2022-01-29 2022-05-17 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN115952304A (zh) * 2023-03-13 2023-04-11 苏州超云生命智能产业研究院有限公司 一种变异文献的检索方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228752A1 (en) * 2007-03-16 2008-09-18 Sunonwealth Electric Machine Industry Co., Ltd. Technical correlation analysis method for evaluating patents
CN101276358A (zh) * 2007-03-30 2008-10-01 建准电机工业股份有限公司 专利技术关联性分析方法
CN102902871A (zh) * 2012-07-03 2013-01-30 成都中医药大学 针灸临床循证决策支持系统及其应用方法
CN103324846A (zh) * 2013-06-13 2013-09-25 浙江加州国际纳米技术研究院绍兴分院 结直肠癌症治疗预后生物标记物的筛选方法
CN107066474A (zh) * 2016-12-09 2017-08-18 百度在线网络技术(北京)有限公司 文献搜索方法和装置
CN107391921A (zh) * 2017-07-13 2017-11-24 武汉科技大学 一种科学文献中参考文献影响力评估方法
JP2018026039A (ja) * 2016-08-12 2018-02-15 前田建設工業株式会社 情報処理装置、情報処理方法およびプログラム
CN107843718A (zh) * 2017-10-20 2018-03-27 广东电网有限责任公司河源供电局 一种变压器绝缘油老化状态评估的方法
CN109036572A (zh) * 2018-06-29 2018-12-18 迈凯基因科技有限公司 一种多数据库交互方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228752A1 (en) * 2007-03-16 2008-09-18 Sunonwealth Electric Machine Industry Co., Ltd. Technical correlation analysis method for evaluating patents
CN101276358A (zh) * 2007-03-30 2008-10-01 建准电机工业股份有限公司 专利技术关联性分析方法
CN102902871A (zh) * 2012-07-03 2013-01-30 成都中医药大学 针灸临床循证决策支持系统及其应用方法
CN103324846A (zh) * 2013-06-13 2013-09-25 浙江加州国际纳米技术研究院绍兴分院 结直肠癌症治疗预后生物标记物的筛选方法
JP2018026039A (ja) * 2016-08-12 2018-02-15 前田建設工業株式会社 情報処理装置、情報処理方法およびプログラム
CN107066474A (zh) * 2016-12-09 2017-08-18 百度在线网络技术(北京)有限公司 文献搜索方法和装置
CN107391921A (zh) * 2017-07-13 2017-11-24 武汉科技大学 一种科学文献中参考文献影响力评估方法
CN107843718A (zh) * 2017-10-20 2018-03-27 广东电网有限责任公司河源供电局 一种变压器绝缘油老化状态评估的方法
CN109036572A (zh) * 2018-06-29 2018-12-18 迈凯基因科技有限公司 一种多数据库交互方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
魏瑞斌,郭一娴: "基于用户体验的百度学术应用研究", 《现代情报》 *
魏瑞斌,郭一娴: "基于用户体验的百度学术应用研究", 《现代情报》, vol. 37, no. 05, 15 May 2017 (2017-05-15), pages 89 - 97 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511027A (zh) * 2022-01-29 2022-05-17 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN114511027B (zh) * 2022-01-29 2022-11-11 重庆工业职业技术学院 通过大数据网络进行英语远程数据提取方法
CN115952304A (zh) * 2023-03-13 2023-04-11 苏州超云生命智能产业研究院有限公司 一种变异文献的检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111259168B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Glanville et al. Development of a search filter to identify reports of controlled clinical trials within CINAHL Plus
Avillach et al. Design and validation of an automated method to detect known adverse drug reactions in MEDLINE: a contribution from the EU–ADR project
Jonnalagadda et al. A new iterative method to reduce workload in systematic review process
Borissov et al. Reducing systematic review burden using Deduklick: a novel, automated, reliable, and explainable deduplication algorithm to foster medical research
Martínez-Romero et al. Using association rule mining and ontologies to generate metadata recommendations from multiple biomedical databases
Bakken The journey to transparency, reproducibility, and replicability
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
Mukherjee Do open‐access journals in library and information science have any scholarly impact? A bibliometric study of selected open‐access journals using Google Scholar
CN111259168B (zh) 文献处理方法、装置、存储介质及设备
Patra Google Scholar-based citation analysis of Indian library and information science journals
US20200356595A1 (en) Technical document searching apparatus and method of searching technical document
Komura et al. Luigi: Large-scale histopathological image retrieval system using deep texture representations
KR20210032245A (ko) 특허 검색 애플리케이션 장치 및 특허 검색 방법
Fukuzawa Characteristics of papers published in journals: An analysis of open access journals, country of publication, and languages used
Pham et al. W-pathsim: novel approach of weighted similarity measure in content-based heterogeneous information networks by applying lda topic modeling
Lee et al. A multi-part matching strategy for mapping LOINC with laboratory terminologies
Yang Metadata effectiveness in internet discovery: An analysis of digital collection metadata elements and internet search engine keywords
Sänger et al. Large-scale entity representation learning for biomedical relationship extraction
CN111126034A (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
Creaser et al. What do UK academics cite? An analysis of references cited in UK scholarly outputs
Pillai et al. Developing a biocuration workflow for AgBase, a non-model organism database
CN111914154B (zh) 一种智能搜索导向系统及方法
Krishna et al. User interface for customizing patents search: an exploratory study
Park et al. Annokey: an annotation tool based on key term search of the NCBI Entrez Gene database
Unwin et al. Implementing the EuroFIR Document and Data Repositories as accessible resources of food composition information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant