CN116126997B - 一种文献去重存储方法、系统、设备及存储介质 - Google Patents

一种文献去重存储方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116126997B
CN116126997B CN202310347073.7A CN202310347073A CN116126997B CN 116126997 B CN116126997 B CN 116126997B CN 202310347073 A CN202310347073 A CN 202310347073A CN 116126997 B CN116126997 B CN 116126997B
Authority
CN
China
Prior art keywords
document
data
literature
user
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310347073.7A
Other languages
English (en)
Other versions
CN116126997A (zh
Inventor
刘欣毅
梁海阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Insight Network Co ltd
Original Assignee
Beijing Insight Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Insight Network Co ltd filed Critical Beijing Insight Network Co ltd
Priority to CN202310347073.7A priority Critical patent/CN116126997B/zh
Publication of CN116126997A publication Critical patent/CN116126997A/zh
Application granted granted Critical
Publication of CN116126997B publication Critical patent/CN116126997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Toxicology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文献去重存储方法、系统、设备及存储介质,首先利用标题信息、作者信息以及文献来源库标识生成去重指纹信息,作为第一查重条件在文献存储总数据库中进行去重存储。在利用第一查重条件查重存储的基础上,将第一查重条件、第二查重条件和第三查重条件相结合,在同一用户相同药品检索需求下,实现了对不同文献来源库检索到的同一文献数据进行查重识别并标记,基于标记可以只用于统计作用,不在用户的文献查看页显示,防止用户浏览相同文献。一方面,利用多个查重条件进行多级联合查重,提高了查重准确度。另一方面,实现了多文献来源库查询去重,有效解决了去重不完全的问题,利于用户使用,提高了资源利用率。

Description

一种文献去重存储方法、系统、设备及存储介质
技术领域
本发明涉及文献去重存储技术领域,具体涉及一种文献去重存储方法、系统、设备及存储介质。
背景技术
随着药物警戒系统的完善,文献查找逐步成为一个企业建立警戒系统不可或缺的一部分,随着客户的需求增加,文献查找数量的增多和对于文献质量、文献去重的要求提高,文献查找去重存储系统成为重要的一个环节,也就需要为用户提供更加完善的去重存储策略,更好的文献查询阅读体验。
在现有的文献去重存储策略中,存在以下问题:直接使用作者、标题等字段进行简单去重,准确度不高;没有进行多文献来源库查询去重,去重不完全,用户阅读体验差。
发明内容
为此,本发明实施例提供一种文献去重存储方法、系统、设备及存储介质,以解决现有文献去重存储策略中存在的去重准确度不高、去重不完全等的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提出一种文献去重存储方法,所述方法包括:
对用户检索到的药品相关文献数据进行采集,得到第一文献数据;
利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息;
利用所述去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据;
若所述文献存储总数据库中不存在所述第二文献数据,则将所述第一文献数据存储至文献存储总数据库中与所述第一查重条件相符的对应位上;
利用所述第一文献数据的标题信息和作者信息作为第二查重条件,从所述文献存储总数据库中筛选出命中所述第二查重条件的第三文献数据;
判断所述第三文献数据中是否存在未命中所述第一查重条件的第四文献数据;
若所述第三文献数据中存在所述第四文献数据,则利用所述第四文献数据、所述用户ID和所述检索目标药品ID作为第三查重条件,判断关系型数据库中是否存在命中所述第三查重条件的第五文献数据;
若所述关系型数据库中存在所述第五文献数据,则将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
进一步地,对用户检索到的药品相关文献数据进行采集,得到第一文献数据,包括:
利用当前目标检索任务对应的用户ID、检索目标药品ID、检索规则信息,生成第一检索任务标识;
将所述第一检索任务标识与用户选定的文献来源库标识绑定,生成第二检索任务标识;
基于所述第二检索任务标识对用户检索到的药品相关文献数据分页进行阶段性采集,得到第一文献数据。
进一步地,所述方法还包括:
若所述文献存储总数据库中存在所述第二文献数据,则利用所述第一文献数据的相关信息对文献存储总数据库中存储的第二文献数据对应信息进行更新。
进一步地,在将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记之后,所述方法还包括:
利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据;
若所述关系型数据库中不存在所述第六文献数据,则将所述第一文献数据以及对应的第二检索任务标识存储至所述关系型数据库并在两者之间建立关联关系;
判断是否存在下一阶段文献检索数据;
若存在下一阶段文献检索数据,则针对下一阶段文献检索数据,重新生成去重指纹信息,进行循环处理;
若不存在下一阶段文献检索数据,则结束循环处理。
进一步地,所述方法还包括:
若所述第三文献数据中不存在所述第四文献数据,或者所述关系型数据库中不存在所述第五文献数据,则直接循环至利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据。
进一步地,所述方法还包括:
若所述关系型数据库中存在所述第六文献数据,则判断当前已采集到的所有第一文献数据是否均在所述关系型数据库中对应用户ID及检索目标药品ID下已存储;
若当前已采集到的所有第一文献数据均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,则将当前记录重复的参数增加1作为更新值;
判断所述更新值是否达到预设阈值;
若所述更新值达到预设阈值,则结束循环处理。
进一步地,所述方法还包括:
若当前已采集到的所有第一文献数据未均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,或者所述更新值未达到预设阈值,则循环至判断是否存在下一阶段文献检索数据。
根据本发明实施例的第二方面,提出一种文献去重存储系统,所述系统包括:
采集模块,用于对用户检索到的药品相关文献数据进行采集,得到第一文献数据;
去重指纹信息生成模块,用于利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息;
去重存储模块,用于执行以下步骤:
利用所述去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据;
若所述文献存储总数据库中不存在所述第二文献数据,则将所述第一文献数据存储至文献存储总数据库中与所述第一查重条件相符的对应位上;
利用所述第一文献数据的标题信息和作者信息作为第二查重条件,从所述文献存储总数据库中筛选出命中所述第二查重条件的第三文献数据;
判断所述第三文献数据中是否存在未命中所述第一查重条件的第四文献数据;
若所述第三文献数据中存在所述第四文献数据,则利用所述第四文献数据、所述用户ID和所述检索目标药品ID作为第三查重条件,判断关系型数据库中是否存在命中所述第三查重条件的第五文献数据;
若所述关系型数据库中存在所述第五文献数据,则将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
进一步地,对用户检索到的药品相关文献数据进行采集,得到第一文献数据,包括:
利用当前目标检索任务对应的用户ID、检索目标药品ID、检索规则信息,生成第一检索任务标识;
将所述第一检索任务标识与用户选定的文献来源库标识绑定,生成第二检索任务标识;
基于所述第二检索任务标识对用户检索到的药品相关文献数据分页进行阶段性采集,得到第一文献数据。
进一步地,所述去重存储模块还用于执行以下步骤:
若所述文献存储总数据库中存在所述第二文献数据,则利用所述第一文献数据的相关信息对文献存储总数据库中存储的第二文献数据对应信息进行更新。
进一步地,在将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记之后,所述去重存储模块还用于执行以下步骤:
利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据;
若所述关系型数据库中不存在所述第六文献数据,则将所述第一文献数据以及对应的第二检索任务标识存储至所述关系型数据库并在两者之间建立关联关系;
判断是否存在下一阶段文献检索数据;
若存在下一阶段文献检索数据,则针对下一阶段文献检索数据,重新生成去重指纹信息,进行循环处理;
若不存在下一阶段文献检索数据,则结束循环处理。
进一步地,所述去重存储模块还用于执行以下步骤:
若所述第三文献数据中不存在所述第四文献数据,或者所述关系型数据库中不存在所述第五文献数据,则直接循环至利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据。
进一步地,所述去重存储模块还用于执行以下步骤:
若所述关系型数据库中存在所述第六文献数据,则判断当前已采集到的所有第一文献数据是否均在所述关系型数据库中对应用户ID及检索目标药品ID下已存储;
若当前已采集到的所有第一文献数据均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,则将当前记录重复的参数增加1作为更新值;
判断所述更新值是否达到预设阈值;
若所述更新值达到预设阈值,则结束循环处理。
进一步地,所述去重存储模块还用于执行以下步骤:
若当前已采集到的所有第一文献数据未均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,或者所述更新值未达到预设阈值,则循环至判断是否存在下一阶段文献检索数据。
根据本发明实施例的第三方面,提出一种文献去重存储设备,所述设备包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如上任一项所述的一种文献去重存储方法。
根据本发明实施例的第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的一种文献去重存储方法。
本发明实施例具有如下优点:
本发明实施例公开了一种文献去重存储方法、系统、设备及存储介质,首先利用标题信息、作者信息以及文献来源库标识生成去重指纹信息,作为第一查重条件在文献存储总数据库中进行去重存储。在利用第一查重条件查重存储的基础上,将第一查重条件、第二查重条件和第三查重条件相结合,在同一用户相同药品检索需求下,实现了对不同文献来源库检索到的同一文献数据进行查重识别并标记,基于标记可以只用于统计作用,不在用户的文献查看页显示,防止用户浏览相同文献。一方面,利用多个查重条件进行多级联合查重,提高了查重准确度。另一方面,实现了多文献来源库查询去重,有效解决了去重不完全的问题,利于用户使用,提高了资源利用率。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的一种文献去重存储系统的逻辑结构示意图;
图2为本发明一个实施例提供的一种文献去重存储方法的流程示意图;
图3为本发明实施例提供的对用户检索到的药品相关文献数据进行采集的流程示意图;
图4为本发明另一个实施例提供的一种文献去重存储方法的流程示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的目的在于:通过改进文献去重存储策略提高去重准确度,针对不同文献来源库的联合检索策略,避免去重不完全的问题。
为了解决上述技术问题,如图1所示,本申请实施例提供了一种文献去重存储系统,其具体包括:采集模块1、去重指纹信息生成模块2、去重存储模块3。
进一步地,采集模块1用于对用户检索到的药品相关文献数据进行采集,得到第一文献数据;去重指纹信息生成模块2用于利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息。
去重存储模块3用于执行以下步骤:利用去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据;若文献存储总数据库中不存在第二文献数据,则将第一文献数据存储至文献存储总数据库中与第一查重条件相符的对应位上;利用第一文献数据的标题信息和作者信息作为第二查重条件,从文献存储总数据库中筛选出命中第二查重条件的第三文献数据;判断第三文献数据中是否存在未命中第一查重条件的第四文献数据;若第三文献数据中存在所述第四文献数据,则利用第四文献数据、用户ID和检索目标药品ID作为第三查重条件,判断关系型数据库中是否存在命中第三查重条件的第五文献数据;若关系型数据库中存在第五文献数据,则将第一文献数据在关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
本发明实施例公开了一种文献去重存储系统,首先利用标题信息、作者信息以及文献来源库标识生成去重指纹信息,作为第一查重条件在文献存储总数据库中进行去重存储。在利用第一查重条件查重存储的基础上,将第一查重条件、第二查重条件和第三查重条件相结合,在同一用户相同药品检索需求下,实现了对不同文献来源库检索到的同一文献数据进行查重识别并标记,基于标记可以只用于统计作用,不在用户的文献查看页显示,防止用户浏览相同文献。一方面,利用多个查重条件进行多级联合查重,提高了查重准确度。另一方面,实现了多文献来源库查询去重,有效解决了去重不完全的问题,利于用户使用,提高了资源利用率。
与上述公开的一种文献去重存储系统相对应,本发明实施例还公开了一种文献去重存储方法。以下结合上述描述的一种文献去重存储系统详细介绍本发明实施例中公开的一种文献去重存储方法。
如图2所示,以下对本申请实施例提供的一种文献去重存储方法具体步骤进行详细描述。
由采集模块1对用户检索到的药品相关文献数据进行采集,得到第一文献数据。
如图3所示,具体地,上述步骤包括:利用当前目标检索任务对应的用户ID、检索目标药品ID、检索规则信息,生成第一检索任务标识;将第一检索任务标识与用户选定的文献来源库标识绑定,生成第二检索任务标识;基于第二检索任务标识对用户检索到的药品相关文献数据分页进行阶段性采集,得到第一文献数据。
如上所述,在本发明实施例中,对用户检索到的药品相关文献数据,具体采用阶段性分页采集方式。在具体采集中,会使用当前目标检索任务对应的用户ID、检索目标药品ID、检索规则信息获取采集数据,其中,用户ID和检索目标药品ID分别是当前目标检索任务对应用户和检索目标药品的唯一标识,检索规则信息可以是用户检索时输入的检索条件信息或者检索式信息,例如,检索药品关键词:阿莫西林And检索不良反应词:过敏。同时,需要与用户选定的文献来源库标识绑定,文献来源库标识可以具体为药品文献库ID(literature_repository_id)或者药品文献库ID(literature_repository_id)的固定编号,例如,中国知网(China National Knowledge Infrastructure,CNKI)ID的固定编号为1,万方网(万方数据知识服务平台,Wanfang Data Knowledge Service Platform)ID的固定编号为2等。
文献采集完毕后,进行文献采集数据预处理,具体地,预处理包括以下步骤:检测检索到的文献、标题、作者、详细地址url等信息是否符合存储格式,如字数是否超过标准、是否含有特殊字符等,并检测检索到的文献是否存在数据质量问题,如是否存在不含有标题或者作者信息等情况。如果未通过格式检测和质量检测,则跳过该篇文献,进行下一篇文献数据的采集。
由去重指纹信息生成模块2利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息。
具体地,上述步骤具体包括:首先判断文献类型。
若是中文文献,则将文献标题信息(title)、文献作者信息(author_data)和文献来源库标识(文献数据库ID,literature_repository_id)相加得到的结果,即:title+author_data+literature_repository_id,进行以utf-8为指定字符集的字节序列编码,再将编码后的数据进行MD5加密算法生成加密的去重指纹信息(Finger Print)。其中,上述文献作者信息为中文作者的前两个字符,例如,antuor='韩梅梅',则 author_data='韩梅'。
若是英文文献,则将文献标题信息(title)、文献作者信息(author_data)和文献来源库标识(文献数据库ID,literature_repository_id)相加得到的结果,即:title+author_data+literature_repository_id,进行以utf-8为指定字符集的字节序列编码,再将编码后的数据进行MD5加密算法生成加密的去重指纹信息(Finger Print)。其中,上述文献作者信息为将英文作者中的特殊字符(英文作者author 中的空格、0-9数字、“-”号、“+”号、“*”号、“(”号、“)”号、“.”号、“,”号、“'”号等)替换为空字符得到的字符数据。
由去重存储模块3利用去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据。
若文献存储总数据库中不存在第二文献数据,则将第一文献数据存储至文献存储总数据库中与第一查重条件相符的对应位上。
若文献存储总数据库中存在第二文献数据,则利用第一文献数据的相关信息对文献存储总数据库中存储的第二文献数据对应信息进行更新。
在本发明实施例中,文献存储总数据库为Elastic Search数据库,该数据库为开源成熟的、包含增删改查等语句的存储数据库,作用为:存储所有用户检索到的全部文献信息,是文献存储的总数据库。因其是一个高速的全文搜索和分析引擎,可以近乎实时地存储、搜索和分析海量的文献数据。
如上所述,首先根据第一文献数据的去重指纹信息(Finger Print)作为第一查重条件,查询Elastic Search数据库;当查询命中第一查重条件的第二文献数据时,通过更新操作对文献存储总数据库中存储的相应文献信息(例如,作者信息、该文献来源地址、文献摘要信息等)进行更新,保持总文献存储库的内容为最新内容,确保其时效性和准确性。
当查询未命中第一查重条件时,通过插入操作将相应文献信息(第一文献数据)插入至文献存储总数据库中进行存储。具体为,将该检索到的文献(第一文献数据)的完整内容,例如,文献标题、文献作者、文献摘要等信息,通过插入语句插入到Elastic Search数据库中。在本发明实施例中,在Elastic Search数据库中存储检索到的文献(第一文献数据)时,同时对应存储文献(第一文献数据)的去重指纹信息,即,将第一文献数据存储至文献存储总数据库中与第一查重条件相符的对应位上,以便后续的查询和过滤。
由去重存储模块3利用第一文献数据的标题信息和作者信息作为第二查重条件,从文献存储总数据库中筛选出命中第二查重条件的第三文献数据。
由去重存储模块3判断第三文献数据中是否存在未命中第一查重条件的第四文献数据。
若第三文献数据中存在所述第四文献数据,则利用第四文献数据、用户ID和检索目标药品ID作为第三查重条件。
由去重存储模块3判断关系型数据库中是否存在命中第三查重条件的第五文献数据。
若关系型数据库中存在第五文献数据,则将第一文献数据在关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
在本发明实施例中,关系型数据库为MySql数据库。关系型数据库作用为存储用户信息、检索目标药品信息、用户检索规则信息、文献来源库信息以及文献数据信息,并建立关联关系,将用户检索到的文献细分到每个用户每个药品之下,有利于存储、去重、后续的统计以及针对每个客户的文献进行管理。同样的,在针对于每个用户的每个药品下的文献数据信息存储时,文献数据信息也包括对应的去重指纹信息,方便后续的查询和过滤。
具体的,首先逐一以本次检索到的各个文献的文献标题信息和文献作者信息(author_data)为第二查重条件,在文献存储总数据库中查询获取第三文献数据,并在第三文献数据中获取不包含当前检索得到的文献的去重指纹信息(Finger Print)的历史检索结果集合,即第四文献数据。
如果未查询到第四文献数据,代表在文献存储总数据库中不存在与当前检索到的文献重复的来自于其他文献检索平台(文献来源库不相同)的历史文献,则直接进行下一步判断(判断关系型数据库中是否存在命中第四查重条件的第六文献数据),不做额外处理;
如果查询到第四文献数据,则遍历历史检索结果集合,根据历史遍历检索结果(第四文献数据)、本次检索的用户ID和检索目标药品ID在关系型数据库中查询是否存在第五文献数据;
若查询到第五文献数据,代表在关系型数据库中对应用户及药品主体下存储有与本次检索到的文献为不同文献来源库的重复文献,则在关系数据库中将本次检索到的文献在对应用户及药品主体下进行存储并标记该篇文献,但不在用户文献查看页显示。
通过仅标记该篇文献,在后续向Mysql存储时,只用于统计作用,不在用户的文献查看页显示,防止用户浏览相同文献,比如在当前用户ID以及检索目标药品ID下,记录有重复的文献数据,但属于不同的文献来源库,对该文献数据进行标记。
若未查询到第五文献数据,代表在文献存储总数据库中不存在与当前检索到的文献重复的来自于其他文献检索平台(不同文献来源库)的历史文献,则直接进行下一步判断(判断关系型数据库中是否存在命中第四查重条件的第六文献数据),不做额外处理。
通过上述步骤处理,实现了用户在多个文献检索平台(不同文献来源库)的互联式文献去重操作。
本发明实施例公开了一种文献去重存储方法,首先利用标题信息、作者信息以及文献来源库标识生成去重指纹信息,作为第一查重条件在文献存储总数据库中进行去重存储。在利用第一查重条件查重存储的基础上,将第一查重条件、第二查重条件和第三查重条件相结合,在同一用户相同药品检索需求下,实现了对不同文献来源库检索到的同一文献数据进行查重识别并标记,基于标记可以只用于统计作用,不在用户的文献查看页显示,防止用户浏览相同文献。一方面,利用多个查重条件进行多级联合查重,提高了查重准确度。另一方面,实现了多文献来源库查询去重,有效解决了去重不完全的问题,利于用户使用,提高了资源利用率。
进一步地,参考图4,在本发明实施例中,以下对在将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记之后的具体步骤进行详细描述。
由去重存储模块3利用去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断关系型数据库中是否存在命中第四查重条件的第六文献数据。
参考图2,若第三文献数据中不存在第四文献数据,或者关系型数据库中不存在第五文献数据,则直接循环至利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断关系型数据库中是否存在命中第四查重条件的第六文献数据。
参考图4,若关系型数据库中不存在第六文献数据,则将第一文献数据以及对应的第二检索任务标识存储至关系型数据库并在两者之间建立关联关系。
具体的,根据当前检索到的文献的去重指纹信息(Finger Print)、用户ID和检索目标药品ID,查询MySql数据库,若未查询到文献,代表在MySql数据库中对应用户及药品下未存储有与本次检索到的文献为同一文献来源库的重复文献,则将本次检索到的文献在关系数据库中对应用户ID及药品ID下进行存储。
由去重存储模块3判断是否存在下一阶段文献检索数据。
若存在下一阶段文献检索数据,则针对下一阶段文献检索数据,重新生成去重指纹信息,进行循环处理;若不存在下一阶段文献检索数据,则结束循环处理。
进一步地,若所述关系型数据库中存在第六文献数据,则由去重存储模块3判断当前已采集到的所有第一文献数据是否均在所述关系型数据库中对应用户ID及检索目标药品ID下已存储;
若当前已采集到的所有第一文献数据均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,则由去重存储模块3将当前记录重复的参数增加1作为更新值。
由去重存储模块3判断所述更新值是否达到预设阈值;若所述更新值达到预设阈值,则结束循环处理。
若当前已采集到的所有第一文献数据未均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,或者所述更新值未达到预设阈值,则循环至由去重存储模块3判断是否存在下一阶段文献检索数据。
具体地,若所述关系型数据库中存在第六文献数据,即根据当前检索到的文献的Finger Print、用户ID和检索目标药品ID在MySql数据库中查询到文献,代表在MySql数据库中对应用户及药品下存储有与本次检索到的文献为同一文献来源库的重复文献,则进一步判断判断当前已采集到的所有第一文献数据是否均在所述关系型数据库中对应用户ID及检索目标药品ID下已存储,即文献重复率是否为100%,若均存储,即重复率为100%,代表该页检索到的文献均为重复文献,此时当前记录重复的参数增加1。
在本发明实施例中,所述预设阈值可以设置为3,当前记录重复的参数达到3时,表示有3个分页式检索阶段为文献100%重复(检索到的3页文献全部为重复文献),此时可终止查重存储任务,无需再对后续页的文献进行查重。通过阈值的设置,可对文献检索进行阶段性终止,比如虽然检索到多页的文献,但文献数据也具有时效性,较新的文献一般排在前面,通过对前几页文献的查重过滤,当满足有3页均为重复文献时,即可认为后面均为重复,则结束检索任务,不再对后续页的文献进行查重,可有效节省资源。
另外,本发明实施例还提供了一种文献去重存储设备,所述设备包括:处理器和存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如上任一项所述的一种文献去重存储方法的步骤。
另外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述一种文献去重存储方法的步骤。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种文献去重存储方法,其特征在于,所述方法包括:
对用户检索到的药品相关文献数据进行采集,得到第一文献数据;
利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息;
利用所述去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据;
若所述文献存储总数据库中不存在所述第二文献数据,则将所述第一文献数据存储至文献存储总数据库中与所述第一查重条件相符的对应位上;
利用所述第一文献数据的标题信息和作者信息作为第二查重条件,从所述文献存储总数据库中筛选出命中所述第二查重条件的第三文献数据;
判断所述第三文献数据中是否存在未命中所述第一查重条件的第四文献数据;
若所述第三文献数据中存在所述第四文献数据,则利用所述第四文献数据、用户ID和检索目标药品ID作为第三查重条件,判断关系型数据库中是否存在命中所述第三查重条件的第五文献数据;
若所述关系型数据库中存在所述第五文献数据,则将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
2.根据权利要求1所述的一种文献去重存储方法,其特征在于,对用户检索到的药品相关文献数据进行采集,得到第一文献数据,包括:
利用当前目标检索任务对应的用户ID、检索目标药品ID、检索规则信息,生成第一检索任务标识;
将所述第一检索任务标识与用户选定的文献来源库标识绑定,生成第二检索任务标识;
基于所述第二检索任务标识对用户检索到的药品相关文献数据分页进行阶段性采集,得到第一文献数据。
3.根据权利要求2所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若所述文献存储总数据库中存在所述第二文献数据,则利用所述第一文献数据的相关信息对文献存储总数据库中存储的第二文献数据对应信息进行更新。
4.根据权利要求3所述的一种文献去重存储方法,其特征在于,在将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记之后,所述方法还包括:
利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据;
若所述关系型数据库中不存在所述第六文献数据,则将所述第一文献数据以及对应的第二检索任务标识存储至所述关系型数据库并在两者之间建立关联关系;
判断是否存在下一阶段文献检索数据;
若存在下一阶段文献检索数据,则针对下一阶段文献检索数据,重新生成去重指纹信息,进行循环处理;
若不存在下一阶段文献检索数据,则结束循环处理。
5.根据权利要求4所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若所述第三文献数据中不存在所述第四文献数据,或者所述关系型数据库中不存在所述第五文献数据,则直接循环至利用所述去重指纹信息、用户ID和检索目标药品ID作为第四查重条件,判断所述关系型数据库中是否存在命中所述第四查重条件的第六文献数据。
6.根据权利要求5所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若所述关系型数据库中存在所述第六文献数据,则判断当前已采集到的所有第一文献数据是否均在所述关系型数据库中对应用户ID及检索目标药品ID下已存储;
若当前已采集到的所有第一文献数据均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,则将当前记录重复的参数增加1作为更新值;
判断所述更新值是否达到预设阈值;
若所述更新值达到预设阈值,则结束循环处理。
7.根据权利要求6所述的一种文献去重存储方法,其特征在于,所述方法还包括:
若当前已采集到的所有第一文献数据未均已存储在所述关系型数据库中对应用户ID及检索目标药品ID下,或者所述更新值未达到预设阈值,则循环至判断是否存在下一阶段文献检索数据。
8.一种文献去重存储系统,其特征在于,所述系统包括:
采集模块,用于对用户检索到的药品相关文献数据进行采集,得到第一文献数据;
去重指纹信息生成模块,用于利用所述第一文献数据的标题信息、作者信息以及文献来源库标识,生成去重指纹信息;
去重存储模块,用于执行以下步骤:
利用所述去重指纹信息作为第一查重条件,判断文献存储总数据库中是否存在命中所述第一查重条件的第二文献数据;
若所述文献存储总数据库中不存在所述第二文献数据,则将所述第一文献数据存储至文献存储总数据库中与所述第一查重条件相符的对应位上;
利用所述第一文献数据的标题信息和作者信息作为第二查重条件,从所述文献存储总数据库中筛选出命中所述第二查重条件的第三文献数据;
判断所述第三文献数据中是否存在未命中所述第一查重条件的第四文献数据;
若所述第三文献数据中存在所述第四文献数据,则利用所述第四文献数据、用户ID和检索目标药品ID作为第三查重条件,判断关系型数据库中是否存在命中所述第三查重条件的第五文献数据;
若所述关系型数据库中存在所述第五文献数据,则将所述第一文献数据在所述关系型数据库中对应用户ID及检索目标药品ID下进行存储并标记。
9.一种文献去重存储设备,其特征在于,所述设备包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-7任一项所述的一种文献去重存储方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种文献去重存储方法。
CN202310347073.7A 2023-04-04 2023-04-04 一种文献去重存储方法、系统、设备及存储介质 Active CN116126997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310347073.7A CN116126997B (zh) 2023-04-04 2023-04-04 一种文献去重存储方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310347073.7A CN116126997B (zh) 2023-04-04 2023-04-04 一种文献去重存储方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116126997A CN116126997A (zh) 2023-05-16
CN116126997B true CN116126997B (zh) 2023-06-13

Family

ID=86299324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310347073.7A Active CN116126997B (zh) 2023-04-04 2023-04-04 一种文献去重存储方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116126997B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076474B (zh) * 2023-10-16 2024-03-12 之江实验室 离线多模态文献数据的更新方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060726A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
JP2009295186A (ja) * 2009-09-16 2009-12-17 Mitsubishi Space Software Kk 文献検索装置、文献検索方法および文献検索プログラム
CN103886033A (zh) * 2014-03-05 2014-06-25 无锡香象生物科技有限公司 用于安全产业链的智能垂直搜索装置和方法
US10108634B1 (en) * 2016-03-23 2018-10-23 EMC IP Holding Company LLC Identification and removal of duplicate event records from a security information and event management database
CN109241008A (zh) * 2018-08-07 2019-01-18 北京诺道认知医学科技有限公司 文献去重方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060726A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
JP2009295186A (ja) * 2009-09-16 2009-12-17 Mitsubishi Space Software Kk 文献検索装置、文献検索方法および文献検索プログラム
CN103886033A (zh) * 2014-03-05 2014-06-25 无锡香象生物科技有限公司 用于安全产业链的智能垂直搜索装置和方法
US10108634B1 (en) * 2016-03-23 2018-10-23 EMC IP Holding Company LLC Identification and removal of duplicate event records from a security information and event management database
CN109241008A (zh) * 2018-08-07 2019-01-18 北京诺道认知医学科技有限公司 文献去重方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Nourah Almrezeq等.An Enhanced Approach to Improve the Security and Performance for Deduplication.Turkish Journal of Computer and Mathematics Education.2021,第12卷第2866-2882页. *
于健;许晨;王媚君;张旻浩;岳桢干;吴霞;赵春梅.SCI/EI文献数据融合软件设计与实现.现代图书情报技术.2014,(第11期),第79-87页. *
王绍平.关于联合目录数据库的数据查重问题.图书情报知识.1999,(第03期),第51-53页. *
郝丹;周津慧;关贝;王衍喜;韩继欣.文献跨库检索中去重方法研究与应用.现代图书情报技术.(第7/8期),第116-120页. *
郝慧.一种基于科技查新的跨库检索去重算法.现代图书情报技术.2015,(第01期),第89-95页. *

Also Published As

Publication number Publication date
CN116126997A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN109359183B (zh) 文本信息的查重方法、装置及电子设备
EP3611631A1 (en) Method, apparatus and device for generating entity relationship data, and storage medium
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
CN103455475B (zh) 排版方法、设备及系统
CN108900554B (zh) Http协议资产检测方法、系统、设备及计算机介质
CN116126997B (zh) 一种文献去重存储方法、系统、设备及存储介质
CN112328548A (zh) 一种文件检索方法及计算设备
US20170024439A1 (en) Accelerated detection of matching patterns
CN112445997A (zh) 一种提取cms多版本识别特征规则的方法及装置
CN111782595A (zh) 海量文件管理方法、装置、计算机设备和可读存储介质
CN114065719A (zh) 文档处理方法及其装置、电子设备、计算机可读存储介质
Moia et al. The impact of excluding common blocks for approximate matching
CN115840863A (zh) 网页内容溯源方法、知识图谱构建方法以及相关设备
CN116450581B (zh) 一种白名单本地快速匹配方法、系统和电子设备
US7571153B2 (en) Systems and methods for performing streaming checks on data format for UDTs
CN111177082A (zh) 一种pdf文件去重存储方法及系统
CN107169065B (zh) 一种特定内容的去除方法和装置
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN112162991B (zh) 数据的智能管理方法及装置
CN110727726B (zh) 一种文档型数据库中数据抽取到关系数据库的方法和系统
CN114816219A (zh) 数据写入和读取方法、装置及数据读写系统
CN112202822B (zh) 数据库注入检测方法、装置、电子设备及存储介质
CN112380174B (zh) 含删除文件的xfs文件系统解析方法、终端设备及存储介质
CN105589871B (zh) 资讯处理方法和装置
CN112860712B (zh) 一种基于区块链的交易数据库构建方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant