CN115994232A - 在线多版本文献同一性鉴别方法、系统及计算机设备 - Google Patents

在线多版本文献同一性鉴别方法、系统及计算机设备 Download PDF

Info

Publication number
CN115994232A
CN115994232A CN202310276612.2A CN202310276612A CN115994232A CN 115994232 A CN115994232 A CN 115994232A CN 202310276612 A CN202310276612 A CN 202310276612A CN 115994232 A CN115994232 A CN 115994232A
Authority
CN
China
Prior art keywords
online
information
document
version
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310276612.2A
Other languages
English (en)
Other versions
CN115994232B (zh
Inventor
廉蔺
李驰
文治恒
周梓龙
王剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Huizhi Xingchuang Technology Co ltd
Original Assignee
Hunan Huizhi Xingchuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Huizhi Xingchuang Technology Co ltd filed Critical Hunan Huizhi Xingchuang Technology Co ltd
Priority to CN202310276612.2A priority Critical patent/CN115994232B/zh
Publication of CN115994232A publication Critical patent/CN115994232A/zh
Application granted granted Critical
Publication of CN115994232B publication Critical patent/CN115994232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本申请涉及一种在线多版本文献同一性鉴别方法、系统及计算机设备。所述方法包括:基于在线文献的生成时间,生成时间标记以及时间标记对应时间检验逻辑;对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;内容标记至少包含语义提取信息以及版本差异信息;根据时间标记、时间检验逻辑以及内容标记,确定在线多版本文献是否为同一文献。采用本方法能够在保证鉴别精度的前提下,大大的提升鉴别的效率,可以应用于实时性高的鉴别系统。

Description

在线多版本文献同一性鉴别方法、系统及计算机设备
技术领域
本申请涉及文本处理技术领域,特别是涉及一种在线多版本文献同一性鉴别方法、系统及计算机设备。
背景技术
一般来说,文献是指有历史意义或研究价值的图书、期刊、典章等。文献是记录、积累、传播和继承知识的有效手段,是人们获取知识的重要媒介,在学术研究、科学生产中发挥着关键作用。随着计算机和网络等技术的进步,电子数字型文献成为现代文献的重要载体形式。对同一篇电子数字型文献而言,不同用户可能拥有不同的版本,例如:预印版(PrePrint):文献还未在正式出版物上发表,而出于和同行交流目的,自愿先在学术会议上或通过互联网发布的版本;预出版(Online First):文献经评审流程已确定可以出版,但为了达到快速传播目的,而在网络上优先发布的版本;后印版(PostPrint):文献经评议审核流程后正式出版的发行版本,也称为印出版;标识版:文献在传播过程中,数据库厂商对文献添加电子水印、签名等标记的版本。
对于同一文献的不同版本而言,其中内容、格式也稍具差异。传统技术中,多版本文献同一性鉴别方式可以采用DOI标记识别,但是由于有些版本并未被DOI进行标记,例如,预印版没有DOI;也可以对文献进行MD5校验,但该方法过于严格,无法解决不同版本因微小差异产生的同一性鉴定问题。因此,DOI标记方式和MD5校验方法无法普遍使用。另外也可以利用OCR进行全文档识别,从而确定多个文档是否为同一文献,但是OCR识别、对比、匹配整体耗时长、效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种在线多版本文献同一性鉴别方法、系统及计算机设备。
一种在线多版本文献同一性鉴别方法,所述方法包括:
基于在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;
对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;
根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。
在其中一个实施例中,还包括:对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息;利用自然语言提取工具对所述相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息;利用命名实体工具对所述差异结构信息进行提取,得到内容标记中的版本差异信息。
在其中一个实施例中,还包括:相同结构信息为所述在线文献的内容布局信息;利用自然语言提取工具,对所述在线文档的内容布局信息中包含的每一部分进行关键词提取,得到所述内容布局信息中各个部分的关键词库,由所述关键词库构成所述语义提取信息。
在其中一个实施例中,所述差异结构信息为所述在线文档在不同版本下的差异标记信息;还包括:利用命名实体工具提取所述在线文档在不同版本下的差异标记信息中包含的命名实体,由所述命名实体构成所述内容标记中的版本差异信息。
在其中一个实施例中,还包括:根据所述内容标记中的语义提取信息,确定多个版本的在线文献的内容是否一致;根据所述内容标记中的差异结构信息,确定多个版本的差异信息,以及根据所述差异信息、所述时间标记信息以及所述时间检验逻辑,确定版本差异是否一致;当所述内容一致以及所述版本差异一致时,确定在线多版本文献是同一文献。
在其中一个实施例中,所述时间检验逻辑中包括各个版本的在线文档产生时间的先后关系。
一种在线多版本文献同一性鉴别系统,所述系统包括:
多个用户终端和中心服务器;
多个所述用户终端中展示不同版本的在线文献;
所述中心服务器基于所述用户终端中展示的不同版本的在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
基于在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;
对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;
根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
基于在线文献的生成时间,获取在线文献的时间戳,并生成时间标记以及所述时间标记对应时间检验逻辑;
对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;
根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。
上述在线多版本文献同一性鉴别方法、系统及计算机设备,和传统技术相比,从信息层面上,基于在线文档的生成时间,生成了时间标记,通过解析时间标记可以获取到相应的时间戳,然后基于预先构建的在线多版本文献数据库进行学习,可以获取到多个维度的在线文档的内容标记,内容标记中至少包含了语义提取信息和版本差异信息,从而在同一性鉴别时,根据时间标记、时间检验逻辑以及内容标记,就可以确定多个版本的在线文献的同一性问题,上述处理方式,基于在线文档的生成时间关系,以及通过对多维度的在线文献的内容标记的学习,从而可以大幅度降低在线文献同一性鉴别的时间。
附图说明
图1为一个实施例中在线多版本文献同一性鉴别方法的应用场景图;
图2为一个实施例中在线多版本文献同一性鉴别方法的流程示意图;
图3为一个实施例中在线多版本文献同一性鉴别装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的在线多版本文献同一性鉴别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。用户通过操作终端102阅读在线文献,服务器104可以感知并获取到多个终端102所阅读的在线文献,同时,服务器104中已经对多个版本的在线文献数据库进行学习,使得服务器104在获取到终端102阅读的在线文献时,可以实时的提取到在线文献的内容标记,从而需要进行同一性鉴别时,服务器104可以实时的及时输出文献同一性鉴别结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种在线多版本文献同一性鉴别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,基于在线文献的生成时间,生成时间标记以及所述时间标记对应时间检验逻辑。
值得说明的是,生成时间是在线文献公布的时间,例如,对于后印版文献,则在线文献的生成时间是其正式出版发行的时间,对于标识版文献,则在线文献的生成时间为数据库厂商赋予厂商电子水印等标识后出版的时间。
对于不同版本的在线文献,其生成时间是不同的,并且具有明显的时间规律。例如:文献作者在形成文献后,首先发布的预印版时间上一定早于预出版。相同的,对于后印版、标识版的生成时间均晚于预出版。
步骤204,对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记。
对于在线文献,针对于不同的版本,其具有显著的普遍相似性与差异性,相似性包括文献的内容结构,例如:摘要、前言、研究内容、总结等,差异性包括文献的个性标记,例如预印版的作者标记标识版的数据库厂商标记等。
在本步骤中,通过大量的在线文献学习,可以得到多个维度的在线文献的内容标记,内容标记中至少包含语义提取信息和版本差异信息。
步骤206,根据时间标记、时间检验逻辑以及内容标记,确定在线多版本文献是否为同一文献。
本步骤中,通过获取的文献的时间信息,时间检验逻辑和上述内容化标记,可以确定在线版本的文献是否为同一文献。
上述在线多版本文献同一性鉴别方法中,和传统技术相比,从信息层面上,基于在线文档的生成时间,生成了时间标记,通过解析时间标记可以获取到相应的时间戳,然后基于预先构建的在线多版本文献数据库进行学习,可以获取到多个维度的在线文档的内容标记,内容标记中至少包含了语义提取信息和版本差异信息,从而在同一性鉴别时,根据时间标记、时间检验逻辑以及内容标记,就可以确定多个版本的在线文献的同一性问题,上述处理方式,基于在线文档的生成时间关系,以及通过对多维度的在线文献的内容标记的学习,从而可以大幅度降低在线文献同一性鉴别的时间。
在其中一个实施例中,对于步骤204,具体可以采用如下方式实现:
对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息。利用自然语言提取工具对相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息。利用命名实体工具对差异结构信息进行提取,得到内容标记中的版本差异信息。
具体的,相同结构信息为所述在线文献的内容布局信息,例如文献的摘要、引言等,针对于文献的每个部分,利用自然语言提取工具,对在线文档的内容布局信息进行提取,得到一个关键词库。例如,对引言部分进行关键词提取,得到引言部分的关键词列表。
值得说明的是,可以采用自然语言提取工具NLP提取关键词,值得说明的是,不同部分对应的关键词库组成为在线文献的关键词库。
在其中一个实施例中,差异结构信息为在线文档在不同版本下的差异标记信息。利用命名实体工具提取在线文档在不同版本下的差异标记信息中包含的命名实体,由命名实体构成内容标记中的版本差异信息。本实施例中,通过对大量在线文献的研究,不同版本的在线文献的差异中包含大量的命名实体,通过命名实体的识别可以抽取出相对应部分的命名实体,从而通过简单的分类器就可以实现命名实体与文献类别的分类。
在其中一个实施例中,根据内容标记中的语义提取信息,确定多个版本的在线文献的内容是否一致;根据内容标记中的差异结构信息,确定多个版本的差异信息,以及根据差异信息、时间标记信息以及时间检验逻辑,确定版本差异是否一致;当所述内容一致以及版本差异一致时,确定在线多版本文献是同一文献。
具体的,时间检验逻辑中包括各个版本的在线文档产生时间的先后关系。如前述,通过上述版本差异信息可以确定在线文献的版本信息,具体是采用预先训练的分类器进行分类的方式。本发明的鉴定逻辑如下:若多个在线文献各个部分的关键词库的差异小于预设值,则确定为内容相同,则进行下一步,判断各个在线文献的类别,针对于不同类别的在线文献,确定生成时间是否符合时间检验逻辑,若是,则判断多个在线文献为同一版本。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种在线多版本文献同一性鉴别系统,包括:用户终端302和中心服务器304,其中:
多个所述用户终端302中展示不同版本的在线文献;
所述中心服务器304基于在线文献的生成时间,生成时间标记以及所述时间标记对应时间检验逻辑;对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。
在其中一个实施例中,所述中心服务器304对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息;利用自然语言提取工具对所述相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息;利用命名实体工具对所述差异结构信息进行提取,得到内容标记中的版本差异信息。
在其中一个实施例中,相同结构信息为所述在线文献的内容布局信息,中心服务器304还用于利用自然语言提取工具,对所述在线文档的内容布局信息中包含的每一部分进行关键词提取,得到所述内容布局信息中各个部分的关键词库,由所述关键词库构成所述语义提取信息。
在其中一个实施例中,所述差异结构信息为所述在线文档在不同版本下的差异标记信息,中心服务器304还用于利用命名实体工具提取所述在线文档在不同版本下的差异标记信息中包含的命名实体,由所述命名实体构成所述内容标记中的版本差异信息。
在其中一个实施例中,中心服务器304还用于根据所述内容标记中的语义提取信息,确定多个版本的在线文献的内容是否一致;根据所述内容标记中的差异结构信息,确定多个版本的差异信息,以及根据所述差异信息、所述时间标记信息以及所述时间检验逻辑,确定版本差异是否一致;当所述内容一致以及所述版本差异一致时,确定在线多版本文献是同一文献。
在其中一个实施例中,所述时间检验逻辑中包括各个版本的在线文档产生时间的先后关系。
关于在线多版本文献同一性鉴别系统的具体限定可以参见上文中对于在线多版本文献同一性鉴别方法的限定,在此不再赘述。上述在线多版本文献同一性鉴别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储大量不同版本的在线文献数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种在线多版本文献同一性鉴别方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种在线多版本文献同一性鉴别方法,其特征在于,所述方法包括:
基于在线文献的生成时间,生成时间标记以及所述时间标记对应时间检验逻辑;
对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;
根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。
2.根据权利要求1所述的方法,其特征在于,所述对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记,包括:
对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息;
利用自然语言提取工具对所述相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息;
利用命名实体工具对所述差异结构信息进行提取,得到内容标记中的版本差异信息。
3.根据权利要求2所述的方法,其特征在于,所述相同结构信息为所述在线文献的内容布局信息;
所述利用自然语言提取工具对所述相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息,包括:
利用自然语言提取工具,对所述在线文档的内容布局信息中包含的每一部分进行关键词提取,得到所述内容布局信息中各个部分的关键词库,由所述关键词库构成所述语义提取信息。
4.根据权利要求2所述的方法,其特征在于,所述差异结构信息为所述在线文档在不同版本下的差异标记信息;
所述利用命名实体工具对所述差异结构信息进行提取,得到内容标记中的版本差异信息,包括:
利用命名实体工具提取所述在线文档在不同版本下的差异标记信息中包含的命名实体,由所述命名实体构成所述内容标记中的版本差异信息。
5.根据权利要求2至4任一项所述的方法,其特征在于,根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献,包括:
根据所述内容标记中的语义提取信息,确定多个版本的在线文献的内容是否一致;
根据所述内容标记中的差异结构信息,确定多个版本的差异信息,以及根据所述差异信息、所述时间标记信息以及所述时间检验逻辑,确定版本差异是否一致;
当所述内容一致以及所述版本差异一致时,确定在线多版本文献是同一文献。
6.根据权利要求5所述的方法,其特征在于,所述时间检验逻辑中包括各个版本的在线文档产生时间的先后关系。
7.一种在线多版本文献同一性鉴别系统,其特征在于,所述系统包括:
多个用户终端和中心服务器;
多个所述用户终端中展示不同版本的在线文献;
所述中心服务器基于在线文献的生成时间,生成时间标记以及所述时间标记对应时间检验逻辑;对预先构建的在线多版本文献数据库进行学习,得到包括多个维度的在线文献的内容标记;所述内容标记至少包含语义提取信息以及版本差异信息;根据所述时间标记、所述时间检验逻辑以及所述内容标记,确定在线多版本文献是否为同一文献。
8.根据权利要求7所述的在线多版本文献同一性鉴别系统,其特征在于,所述中心服务器对预先构建的在线多版本文献数据库进行学习,得到在线文档的相同结构信息以及差异结构信息;利用自然语言提取工具对所述相同结构信息对应的内容进行提取,得到内容标记中的语义提取信息;利用命名实体工具对所述差异结构信息进行提取,得到内容标记中的版本差异信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202310276612.2A 2023-03-21 2023-03-21 在线多版本文献同一性鉴别方法、系统及计算机设备 Active CN115994232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310276612.2A CN115994232B (zh) 2023-03-21 2023-03-21 在线多版本文献同一性鉴别方法、系统及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310276612.2A CN115994232B (zh) 2023-03-21 2023-03-21 在线多版本文献同一性鉴别方法、系统及计算机设备

Publications (2)

Publication Number Publication Date
CN115994232A true CN115994232A (zh) 2023-04-21
CN115994232B CN115994232B (zh) 2023-06-09

Family

ID=85992341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310276612.2A Active CN115994232B (zh) 2023-03-21 2023-03-21 在线多版本文献同一性鉴别方法、系统及计算机设备

Country Status (1)

Country Link
CN (1) CN115994232B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389954A (zh) * 2023-12-13 2024-01-12 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477703B1 (en) * 2013-08-20 2016-10-25 Amazon Technologies, Inc. Item version similarity scoring system
CN107391690A (zh) * 2017-07-25 2017-11-24 李小明 一种处理文献信息的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477703B1 (en) * 2013-08-20 2016-10-25 Amazon Technologies, Inc. Item version similarity scoring system
CN107391690A (zh) * 2017-07-25 2017-11-24 李小明 一种处理文献信息的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曾荣玉,温嵘生: "中文图书的版本识别与著录", 现代情报 *
杨清虎;: "数字文献的版本鉴定", 黑龙江史志 *
赵娅娜;常娥;: "机读目录中文献版本关系识别与挖掘研究", 图书馆建设 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389954A (zh) * 2023-12-13 2024-01-12 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质
CN117389954B (zh) * 2023-12-13 2024-03-29 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115994232B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
US20140122479A1 (en) Automated file name generation
CA3174601A1 (en) Text intent identifying method, device, computer equipment and storage medium
CN112016273A (zh) 文档目录生成方法、装置、电子设备及可读存储介质
US20130054595A1 (en) Automated File Name Generation
CN109508458B (zh) 法律实体的识别方法及装置
CN110472219B (zh) 电子文件生成方法、装置、计算机设备和存储介质
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN112016274B (zh) 医学文本结构化方法、装置、计算机设备及存储介质
CN115994232B (zh) 在线多版本文献同一性鉴别方法、系统及计算机设备
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN112541121A (zh) 页面数据推送方法、装置、计算机设备及存储介质
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN111858467B (zh) 基于人工智能的文件数据处理方法、装置、设备和介质
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN111552810B (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
CN111552812A (zh) 确定实体之间关系类别的方法、装置和计算机设备
CN108460116B (zh) 搜索方法、装置、计算机设备、存储介质及搜索系统
Milon Islam et al. A novel approach towards tamper detection of digital holy quran generation
CN114328837A (zh) 序列标注方法、装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant