CN114116973A - 多文档的文本查重方法、电子设备及存储介质 - Google Patents

多文档的文本查重方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114116973A
CN114116973A CN202111390816.6A CN202111390816A CN114116973A CN 114116973 A CN114116973 A CN 114116973A CN 202111390816 A CN202111390816 A CN 202111390816A CN 114116973 A CN114116973 A CN 114116973A
Authority
CN
China
Prior art keywords
similarity
paragraph
document
identified
document set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111390816.6A
Other languages
English (en)
Inventor
简仁贤
任钊立
马永宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202111390816.6A priority Critical patent/CN114116973A/zh
Publication of CN114116973A publication Critical patent/CN114116973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种多文档的文本查重方法及电子设备,该方法包括:获取待识别文档集;针对预设的关键指标,从待识别文档集中抽取每个关键指标对应的段落集合;根据项目文档集中每个关键指标对应的项目段落集,确定每个关键指标下项目段落集与段落集合之间的相似度;根据每个关键指标下项目段落集与段落集合之间的相似度,确定项目文档集与待识别文档集之间的相似度。以此评估待识别文档集和项目文档集的重复情况,可以提高查重的准确,解决多文档查重不准确以及业务不适应的问题。

Description

多文档的文本查重方法、电子设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种多文档的文本查重方法、电子设备及存储介质。
背景技术
在现实世界中,文本是信息的重要的载体,事实上,研究表明80%的信息存在于文本中。很多场景下,信息是冗余的,重复的,文本查重技术的主要目标就是检测信息的冗余和重复。
查重是针对一篇文章,一个段落等片段式重复的检测。但很多场景下,信息的重复度测量,不仅仅依靠一个文档,而是多个文档,例如科技项目的查重,包括项目建议书,项目论证报告,验收书等文档构成;再如,病例查重场景中,包含多个信息来源,病历,手术记录,住院记录等。
现有的技术在多文档查重中,主要存在两种方式。方式一,多文档组合成单文档,后续按单文档查重做。方式二,对应类型文档一对一查重,然后综合各个查重结果给出最终查重判断。
方式一,拼接多个文档的方式,文档不分主次,业务关键信息不够突出。可能会导致,查重准确率偏低。方式二实现的前提是假设存在一一对应文档,实际业务中很可能出现文档缺失的情况,导致这种方法丧失有效性,查重结果不准确。
发明内容
本申请实施例提供了多文档的文本查重方法,用以提高查重的准确性。
一方面,本申请实施例提供了一种多文档的文本查重方法,包括:
获取待识别文档集;
针对预设的关键指标,从所述待识别文档集中抽取每个关键指标对应的段落集合;
根据项目文档集中每个关键指标对应的项目段落集,确定每个关键指标下所述项目段落集与所述段落集合之间的相似度;
根据每个关键指标下所述项目段落集与所述段落集合之间的相似度,确定所述项目文档集与所述待识别文档集之间的相似度。
在一实施例中,所述针对预设的关键指标,从所述待识别文档集中抽取每个关键指标对应的段落集合,包括:
通过分类模型或正则表达式,预测所述待识别文档集中每个文档的每个段落对应的关键指标;
根据所述待识别文档集中每个文档的每个段落对应的关键指标,抽取相同关键指标的段落,得到所述关键指标对应的段落集合。
在一实施例中,所述根据每个关键指标下所述项目段落集与所述段落集合之间的相似度,确定所述项目文档集与所述待识别文档集之间的相似度,包括:
将每个关键指标下所述项目段落集与所述段落集合之间的相似度进行加权求和,得到所述项目文档集与所述待识别文档集之间的相似度。
在一实施例中,在所述确定所述项目文档集与所述待识别文档集之间的相似度之后,所述方法还包括:
根据查重库中每个项目文档集与所述待识别文档集之间的相似度,从所述查重库中筛选出相似项目文档集。
在一实施例中,所述根据查重库中每个项目文档集与所述待识别文档集之间的相似度,从所述查重库中筛选出相似项目文档集,包括:
根据查重库中每个项目文档集与所述待识别文档集之间的相似度,将所述相似度大于第一阈值的项目文档集作为所述相似项目文档集。
在一实施例中,在所述根据项目文档集中每个关键指标对应的项目段落集之前,所述方法还包括:
通过分类模型或正则表达式,预测每个项目文档集中每个文档的每个段落对应的关键指标;
根据每个项目文档集中每个文档的每个段落的关键指标,构建所述查重库。
在一实施例中,在所述从所述查重库中筛选出相似项目文档集之后,所述方法还包括:
针对每个关键指标,根据所述相似项目文档集中所述关键指标对应的指标段落集以及所述待识别文档集中所述关键指标对应的段落集合,计算所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度;
根据所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度,确定所述指标段落集与段落集合之间的相似度;
针对每个关键指标下所述指标段落集与段落集合之间的相似度,确定所述相似项目文档集与所述待识别文档集之间的相似度。
在一实施例中,所述根据所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度,确定所述指标段落集与段落集合之间的相似度,包括:
针对所述段落集合中的每个目标句子,根据所述目标句子与所述指标段落集中每个句子之间的相似度,将相似度最大值作为所述目标句子的相似度值;
根据所述段落集合中每个目标句子的相似度值,将所述相似度值的平均值作为所述指标段落集与段落集合之间的相似度。
在一实施例中,所述针对每个关键指标下所述指标段落集与段落集合之间的相似度,确定所述相似项目文档集与所述待识别文档集之间的相似度,包括:
将每个关键指标下所述指标段落集与段落集合之间的相似度进行加权求和,得到所述相似项目文档集与所述待识别文档集之间的相似度。
在一实施例中,在所述确定所述相似项目文档集与所述待识别文档集之间的相似度之后,所述方法还包括:
根据每个相似项目文档集与所述待识别文档集之间的相似度,从多个相似项目文档集中筛选出重合项目文档集。
在一实施例中,所述根据每个相似项目文档集与所述待识别文档集之间的相似度,从多个相似项目文档集中筛选出重合项目文档集,包括:
根据每个相似项目文档集与所述待识别文档集之间的相似度,将所述相似度大于第二阈值相似项目文档集作为所述重合项目文档集。
本申请实施例还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述多文档的文本查重方法方法。
本申请上述实施例提供的方案,关键指标可以认为是对查重贡献较大的判断是否重复的考察点,可以分布在不同的文档以及不同的段落中,本申请基于关键指标,找出待识别文档中关键指标下的段落集合和项目文档集中关键指标下的项目段落集,进而计算二者相似度,以此评估待识别文档集和项目文档集的重复情况,可以提高查重的准确,解决多文档查重不准确以及业务不适应的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的电子设备的结构示意图;
图2是本申请实施例提供的多文档的文本查重方法的流程示意图;
图3是本申请实施例提供的从多个文档中抽取段落集合的示意图;
图4是图2对应实施例的基础上进行细筛的详细流程示意图;
图5是本申请实施例提供的多文档的文本查重装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的多文档的文本查重方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述实施例提供的多文档的文本查重方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的多文档的文本查重方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图1示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的多文档的文本查重方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的多文档的文本查重方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、台式电脑、服务器等智能终端。
图2是本申请实施例提供的多文档的文本查重方法的流程示意图。如图2所示,该方法包括以下步骤S210-步骤S240。
步骤S210:获取待识别文档集。
待识别文档集包含一个业务场景的多个文档,例如在科技项目查重场景下,待识别文档集包括项目建议书、项目论证报告以及验收书等多个文档;例如,在医院病例查重场景下,待识别文档集包括病历,手术记录,住院记录等多个文档。本申请下述实施例需要进行待识别文档集与已有的项目文档集之间的重复判定。项目文档集是指数据库中提前存储的一个实际业务场景下的多个文档,并且该项目文档集中的每个文档的每个段落对应的关键指标已知。关键指标作为判断重复的主要依据,可以结合查重业务实际需求和专家经验进行设定。一般查重需要多个依据,即对应多个关键指标,举例来说,科技项目的查重场景下,关键指标可以有“科研内容”、“技术创新”、“研究目标”等。
步骤S220:针对预设的关键指标,从所述待识别文档集中抽取每个关键指标对应的段落集合。
根据业务需求的不同,关键指标可能是一个,也可能是多个。一个关键指标可以对应有一个或多个段落。一个段落可能是一句话或一个关键词等。举例来说,关键指标“研究目标”在待识别文档集中可能是一个自然段或多个自然段。故可以从待识别文档集中抽取出同一个关键指标的所有段落,构成段落集合。例如表示“研究目标”的所有段落构成段落集合a,表示“科研内容”的所有段落构成段落集合b。假设存在多个关键指标,则可以得到多个段落集合。
在一实施例中,可以通过分类模型或正则表达式,预测待识别文档集中每个文档的每个段落对应的关键指标。分类模型可以事先通过已知关键指标的段落训练得到,之后将待识别文档集的每个段落输入分类模型,获得该段落对应的关键指标。如果待识别文档集中的文档格式标准,则可以采用文档正则表达式对每个文档进行匹配,确定每个段落对应的关键指标。之后可以根据待识别文档集中每个文档的每个段落对应的关键指标,抽取相同关键指标的段落,得到关键指标对应的段落集合。如图3所示,待识别文档集的文档1、文档2……文档N,可以抽取得到关键指标1对应的段落集合,关键指标2对应的段落集合……关键指标n对应的段落集合。
步骤S230:根据项目文档集中每个关键指标对应的项目段落集,确定每个关键指标下所述项目段落集与所述段落集合之间的相似度。
其中,项目段落集是指项目文档集中某个关键指标对应的所有段落的集合。项目文档集中每个文档的每个段落对应的关键指标可以认为是提前已经确定的已知量,项目文档集中每个文档的每个段落对应的关键指标也可以通过分类模型或正则表达式预测得到。
具体的,段落集合与项目段落集之间的相似度可以通过将段落集合中的每个段落拼接成长文本1,将项目段落集中的每个段落拼接成长文本2,之后根据行业词库对长文本1和长文本2进行分词处理,并根据通用词向量和行业词向量得到长文本1中每个分词的词向量以及长文本2中每个分词的词向量。之后通过SIF(smooth inverse frequency)平滑逆词频算法计算长文本1和长文本2之间相似度,作为段落集合与项目段落集之间的相似度。利用行业词库和行业词向量,可以提高语义相似度计算的准确性。
假设待识别文档集存在多个关键指标,则针对每个关键指标,可以计算该关键指标下的项目段落集和该关键指标下的段落集合之间的相似度,如果项目文档集中不存在某个关键指标下的项目段落集,则该关键指标的相似度可以直接为0。举例来说,假设待识别文档集,包括3个关键指标L1、L2、L3,待识别文档集中存在关键指标L1对应的段落集合M1,关键指标L2对应的段落集合M2以及关键指标L3对应的段落集合M3。假设项目文档集中,包括3个关键指标L2、L3以及L4,项目文档集中存在关键指标L2对应的项目段落集Q1,关键指标L3对应的项目段落集Q2以及关键指标L4对应的项目段落集Q3。则可以计算得到关键指标L1下的相似度为0,关键指标L2下段落集合M2与项目段落集Q1之间的相似度为c,以及关键指标L3下段落集合M3与项目段落集Q2之间的相似度为d。
步骤S240:根据每个关键指标下所述项目段落集与所述段落集合之间的相似度,确定所述项目文档集与所述待识别文档集之间的相似度。
假设待识别文档集仅存在一个关键指标,则该关键指标下的项目段落集与段落集合之间的相似度,可以直接作为项目文档集与待识别文档集之间的相似度。
假设待识别文档集存在多个关键指标,则每个关键指标下的项目段落集与段落集合之间的相似度的平均值,可以直接作为项目文档集与待识别文档集之间的相似度。
在另一实施例中,可以将每个关键指标下的项目段落集与段落集合之间的相似度进行加权求和,将结果作为项目文档集与待识别文档集之间的相似度。举例来说,假设待识别文档集,包括3个关键指标L1、L2、L3,权重依次是30%、40%、30%,参见上文,假设关键指标L1下的相似度为0,关键指标L2下段落集合M2与项目段落集Q1之间的相似度为c,以及关键指标L3下段落集合M3与项目段落集Q2之间的相似度为d,则项目文档集与待识别文档集之间的相似度可以是40%c+30%d。不同关键指标对应的权重大小,可以由专家经验给出,哪个关键指标对查重越重要,则权重越大。
本申请上述实施例提供的方案,关键指标可以认为是对查重贡献较大的判断是否重复的考察点,可以分布在不同的文档以及不同的段落中,本申请基于关键指标,找出待识别文档中关键指标下的段落集合和项目文档集中关键指标下的项目段落集,进而计算二者相似度,以此评估待识别文档集和项目文档集的重复情况,可以提高查重的准确,解决多文档查重不准确以及业务不适应的问题。
在一实施例中,假设仅存在一个项目文档集,可以直接输出项目文档集与待识别文档之间的相似度。在另一实施例中,还可以判断项目文档集与待识别文档集之间的相似度是否大于第一阈值(例如0.8),并输出判断结果。
在一实施例中,假设查重库中存在多个项目文档集,还可以根据每个项目文档集与所述待识别文档集之间的相似度,按照相似度从高到低对所有项目文档集进行排序,输出排序靠前的若干个相似项目文档集。
在另一实施例中,假设查重库中存在多个项目文档集,还可以根据每个项目文档集与所述待识别文档集之间的相似度,从所述查重库中筛选出相似度大于第一阈值(例如0.8)的相似项目文档集。相似项目文档集是指从查重库中初筛出的与待识别文档集相似的项目文档集。
其中,上述查重库可以认为是已经存在的数据库,在另一实施例中,查重库可以是在上述步骤S220之前构建的。查重库中包括多个项目文档集,每个项目文档集包括一个业务场景的多个文档。项目文档集中每个段落的关键指标,可以参见待识别文档集中每个段落的关键指标的预测方式。具体通过分类模型或正则表达式,预测每个项目文档集中每个文档的每个段落对应的关键指标。之后根据每个项目文档集中每个文档的每个段落的关键指标,构建查重库。具体的,可以将每个项目文档集的项目ID、文档ID、段落内容以及每个段落相应的关键指标存储在查重库中。
需要说明的是,相似项目文档集可以认为是从查重库粗筛得到与待识别文档集相似的项目文档集,在粗筛的基础上,还可以进一步进行细筛,即在从所述查重库中筛选出相似项目文档集之后,如图4所示,还可以执行以下步骤S410-步骤S430。
步骤S410:针对每个关键指标,根据所述相似项目文档集中所述关键指标对应的指标段落集以及所述待识别文档集中所述关键指标对应的段落集合,计算所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度。
为进行区分,待识别文档集中关键指标对应的所有段落的集合,称为段落集合。项目文档集中关键指标对应的所有段落的集合,称为项目段落集。相似项目文档集中关键指标对应的所有段落的集合,称为指标段落集。
句子的切分可以根据句号、问号,分号等断句标识符,将指标段落集切分成多个句子,将段落集合切分成多个句子。
针对每个关键指标Li,根据相似项目文档集中关键指标Li对应的指标段落集Qi以及待识别文档集中关键指标Li对应的段落集合Mi,计算指标段落集Qi中每个句子与段落集合Mi中每个句子之间的相似度。具体的,可以从段落集合Mi中按序依次取一个句子,计算该句子与指标段落集Qi中每个句子之间的相似度。假设段落集合Mi中存在句子S1、S2、Si……Sn,指标段落集Qi中存在句子C1、C2、Ci……Cn,计算句子S1分别与C1、C2、Ci……Cn之间的相似度,计算句子S2分别与C1、C2、Ci……Cn之间的相似度,以此类推。句子级别相似度的计算可以使用WMD(Word Mover's Distance)算法来度量词向量之间的相似性。
步骤S420:根据所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度,确定所述指标段落集与段落集合之间的相似度。
假设段落集合中存在句子S1、S2、Si……Sn,指标段落集中存在句子C1、C2、Ci……Cn,根据句子S1分别与C1、C2、Ci……Cn之间的相似度,将相似度的平均值,可以作为S1对应的相似度值。根据S2分别与C1、C2、Ci……Cn之间的相似度,将相似度的平均值可以作为S2对应的相似度值,以此类推。对S1对应的相似度值、S2对应的相似度值……Sn对应的相似度值计算平均值,得到指标段落集与段落集合之间的相似度。
在另一实施例中,针对段落集合中的每个目标句子S1、S2、Si……Sn,根据目标句子S1与指标段落集中每个句子C1、C2、Ci……Cn之间的相似度。将相似度最大值作为所述目标句子S1的相似度值;目标句子S2与指标段落集中每个句子C1、C2、Ci……Cn之间的相似度。将相似度最大值作为所述目标句子S2的相似度值,以此类推。根据段落集合中每个目标句子S1、S2、Si……Sn的相似度值,将所述相似度值的平均值作为所述指标段落集与段落集合之间的相似度。即将S1对应的相似度值、S2对应的相似度值……Sn对应的相似度值计算平均值,得到指标段落集与段落集合之间的相似度。
步骤S430:针对每个关键指标下所述指标段落集与段落集合之间的相似度,确定所述相似项目文档集与所述待识别文档集之间的相似度。
步骤S430可以参见上述步骤S240。假设待识别文档集仅存在一个关键指标,则该关键指标下的指标段落集与段落集合之间的相似度,可以直接作为相似项目文档集与待识别文档集之间的相似度。
假设待识别文档集存在多个关键指标,则每个关键指标下的指标段落集与段落集合之间的相似度的平均值,可以直接作为相似项目文档集与待识别文档集之间的相似度。
在另一实施例中,可以将每个关键指标下的指标段落集与段落集合之间的相似度进行加权求和,将结果作为相似项目文档集与待识别文档集之间的相似度。举例来说,假设关键指标L1下指标段落集与段落集合之间的相似度为a1,权重为w1,关键指标L2下指标段落集与段落集合之间的相似度为a2,权重为w2……关键指标Ln下指标段落集与段落集合之间的相似度为an,权重为wn,其中,w1+w2+w3+……wn=1。a1×w1+a2×w2……+an×wn的结果可以作为相似项目文档集与待识别文档集之间的相似度。
在上述步骤S430的基础上,假设粗筛时得到多个相似项目文档集,可以进一步根据每个相似项目文档集与所述待识别文档集之间的相似度,从多个相似项目文档集中筛选出重合项目文档集。
重合项目文档集是指从多个相似项目文档集中细筛得到的与待识别文档集相似的项目文档集。在一实施例中,可以按照多个相似项目文档集与待识别文档集之间的相似度,将相似度最大的若干相似项目文档集作为重合项目文档集,还可以将相似度大于第二阈值(例如0.7)相似项目文档集作为所述重合项目文档集。
本申请上述实施例提供的技术方案,可以基于关键指标级别的相似度从查重库中粗筛得到相似项目文档集,进一步基于句子级别相似度,从多个相似项目文档集中细筛得到重合项目文档集,提高了查重的准确性。
下述为本申请装置实施例,可以用于执行本申请上述基于雷达波的目标检测方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请基于雷达波的目标检测方法实施例。
图5为本申请一实施例示出的一种多文档的文本查重装置的框图。该装置包括:文本获取模块510、集合抽取模块520、第一计算模块530以及第二计算模块540。
文本获取模块510,用于获取待识别文档集;
集合抽取模块520,用于针对预设的关键指标,从所述待识别文档集中抽取每个关键指标对应的段落集合;
第一计算模块530,用于根据项目文档集中每个关键指标对应的项目段落集,确定每个关键指标下所述项目段落集与所述段落集合之间的相似度;
第二计算模块540,用于根据每个关键指标下所述项目段落集与所述段落集合之间的相似度,确定所述项目文档集与所述待识别文档集之间的相似度。
上述装置中各个模块的功能和作用的实现过程具体详见上述多文档的文本查重方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (12)

1.一种多文档的文本查重方法,其特征在于,包括:
获取待识别文档集;
针对预设的关键指标,从所述待识别文档集中抽取每个关键指标对应的段落集合;
根据项目文档集中每个关键指标对应的项目段落集,确定每个关键指标下所述项目段落集与所述段落集合之间的相似度;
根据每个关键指标下所述项目段落集与所述段落集合之间的相似度,确定所述项目文档集与所述待识别文档集之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述针对预设的关键指标,从所述待识别文档集中抽取每个关键指标对应的段落集合,包括:
通过分类模型或正则表达式,预测所述待识别文档集中每个文档的每个段落对应的关键指标;
根据所述待识别文档集中每个文档的每个段落对应的关键指标,抽取相同关键指标的段落,得到所述关键指标对应的段落集合。
3.根据权利要求1所述的方法,其特征在于,所述根据每个关键指标下所述项目段落集与所述段落集合之间的相似度,确定所述项目文档集与所述待识别文档集之间的相似度,包括:
将每个关键指标下所述项目段落集与所述段落集合之间的相似度进行加权求和,得到所述项目文档集与所述待识别文档集之间的相似度。
4.根据权利要求1所述的方法,其特征在于,在所述确定所述项目文档集与所述待识别文档集之间的相似度之后,所述方法还包括:
根据查重库中每个项目文档集与所述待识别文档集之间的相似度,从所述查重库中筛选出相似项目文档集。
5.根据权利要求4所述的方法,其特征在于,所述根据查重库中每个项目文档集与所述待识别文档集之间的相似度,从所述查重库中筛选出相似项目文档集,包括:
根据查重库中每个项目文档集与所述待识别文档集之间的相似度,将所述相似度大于第一阈值的项目文档集作为所述相似项目文档集。
6.根据权利要求4所述的方法,其特征在于,在所述根据项目文档集中每个关键指标对应的项目段落集之前,所述方法还包括:
通过分类模型或正则表达式,预测每个项目文档集中每个文档的每个段落对应的关键指标;
根据每个项目文档集中每个文档的每个段落的关键指标,构建所述查重库。
7.根据权利要求4所述的方法,其特征在于,在所述从所述查重库中筛选出相似项目文档集之后,所述方法还包括:
针对每个关键指标,根据所述相似项目文档集中所述关键指标对应的指标段落集以及所述待识别文档集中所述关键指标对应的段落集合,计算所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度;
根据所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度,确定所述指标段落集与段落集合之间的相似度;
针对每个关键指标下所述指标段落集与段落集合之间的相似度,确定所述相似项目文档集与所述待识别文档集之间的相似度。
8.根据权利要求7所述的方法,其特征在于,所述根据所述指标段落集中每个句子与所述段落集合中每个句子之间的相似度,确定所述指标段落集与段落集合之间的相似度,包括:
针对所述段落集合中的每个目标句子,根据所述目标句子与所述指标段落集中每个句子之间的相似度,将相似度最大值作为所述目标句子的相似度值;
根据所述段落集合中每个目标句子的相似度值,将所述相似度值的平均值作为所述指标段落集与段落集合之间的相似度。
9.根据权利要求7所述的方法,其特征在于,所述针对每个关键指标下所述指标段落集与段落集合之间的相似度,确定所述相似项目文档集与所述待识别文档集之间的相似度,包括:
将每个关键指标下所述指标段落集与段落集合之间的相似度进行加权求和,得到所述相似项目文档集与所述待识别文档集之间的相似度。
10.根据权利要求7所述的方法,其特征在于,在所述确定所述相似项目文档集与所述待识别文档集之间的相似度之后,所述方法还包括:
根据每个相似项目文档集与所述待识别文档集之间的相似度,从多个相似项目文档集中筛选出重合项目文档集。
11.根据权利要求10所述的方法,其特征在于,所述根据每个相似项目文档集与所述待识别文档集之间的相似度,从多个相似项目文档集中筛选出重合项目文档集,包括:
根据每个相似项目文档集与所述待识别文档集之间的相似度,将所述相似度大于第二阈值相似项目文档集作为所述重合项目文档集。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的多文档的文本查重方法方法。
CN202111390816.6A 2021-11-23 2021-11-23 多文档的文本查重方法、电子设备及存储介质 Pending CN114116973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111390816.6A CN114116973A (zh) 2021-11-23 2021-11-23 多文档的文本查重方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111390816.6A CN114116973A (zh) 2021-11-23 2021-11-23 多文档的文本查重方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114116973A true CN114116973A (zh) 2022-03-01

Family

ID=80439509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111390816.6A Pending CN114116973A (zh) 2021-11-23 2021-11-23 多文档的文本查重方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114116973A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661868A (zh) * 2022-04-01 2022-06-24 北京思源智通科技有限责任公司 一种文章关键信息溯源方法、系统、可读介质及设备
CN115329742A (zh) * 2022-10-13 2022-11-11 深圳市大数据研究院 基于文本分析的科研项目产出评价验收方法及系统
CN116881738A (zh) * 2023-09-06 2023-10-13 华南理工大学 一种应用于电网行业的项目申报文档的相似度检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661868A (zh) * 2022-04-01 2022-06-24 北京思源智通科技有限责任公司 一种文章关键信息溯源方法、系统、可读介质及设备
CN115329742A (zh) * 2022-10-13 2022-11-11 深圳市大数据研究院 基于文本分析的科研项目产出评价验收方法及系统
CN116881738A (zh) * 2023-09-06 2023-10-13 华南理工大学 一种应用于电网行业的项目申报文档的相似度检测方法
CN116881738B (zh) * 2023-09-06 2024-02-13 华南理工大学 一种应用于电网行业的项目申报文档的相似度检测方法

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN110427483B (zh) 文本摘要评测方法、装置、系统及评测服务器
EP2657884A2 (en) Identifying multimedia objects based on multimedia fingerprint
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN110543920B (zh) 图像识别模型的性能检测方法、装置、服务器及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN112307770A (zh) 敏感信息的检测方法、装置、电子设备及存储介质
CN116848490A (zh) 使用模型相交进行文档分析
CN111651552B (zh) 结构化信息确定方法、装置和电子设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN111639493A (zh) 一种地址信息标准化方法、装置、设备及可读存储介质
CN112101024B (zh) 基于app信息的目标对象识别系统
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN110287270B (zh) 实体关系挖掘方法及设备
CN111950265A (zh) 一种领域词库构建方法和装置
CN116795978A (zh) 一种投诉信息处理方法、装置、电子设备及介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN112528646A (zh) 词向量生成方法、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination