CN114996441B - 文档处理方法、装置、电子设备和存储介质 - Google Patents

文档处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114996441B
CN114996441B CN202210459422.XA CN202210459422A CN114996441B CN 114996441 B CN114996441 B CN 114996441B CN 202210459422 A CN202210459422 A CN 202210459422A CN 114996441 B CN114996441 B CN 114996441B
Authority
CN
China
Prior art keywords
document
abstracts
documents
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210459422.XA
Other languages
English (en)
Other versions
CN114996441A (zh
Inventor
宋双永
何晓冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202210459422.XA priority Critical patent/CN114996441B/zh
Publication of CN114996441A publication Critical patent/CN114996441A/zh
Application granted granted Critical
Publication of CN114996441B publication Critical patent/CN114996441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提出一种文档处理方法、装置、电子设备和存储介质,其中,包括:通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档分别输入至摘要生成模型中,以从得到的多个第一候选摘要中确定出目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。

Description

文档处理方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文档处理方法、装置、电子设备和存储介质。
背景技术
随着文档数据的爆发式增长,如何快速地从文档数据中获取有效信息,这就需要文档摘要获取技术。相关技术中,在对多文档进行摘要提取时,通常是将多个文档整体处理,以产出一个摘要结果,该摘要结果中能够涵盖所有文档中包含的主旨意思。然而,在一些场景中,有时需要多个文档各自对应的互异的文档摘要。因此,如何得到多个文档各自对应的互异的文档摘要是目前亟需解决的技术问题。
发明内容
本申请提出一种文档处理方法、装置、电子设备和存储介质。
本申请第一方面实施例提出了一种文档处理方法,所述方法包括:获取待处理的文档集合,其中,所述文档集合包括多个文档;确定多个所述文档各自对应的摘要;在多个所述摘要中存在相同的摘要的情况下,根据多个所述文档各自对应的摘要,将所述多个文档中摘要相同的目标文档聚类到一个文档类簇;针对所述文档类簇中的各个目标文档,将所述目标文档分别输入至摘要生成模型中,以得到所述目标文档的多个第一候选摘要;从多个所述第一候选摘要中确定出所述目标文档的目标摘要,其中,所述目标摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同。
在本申请的一个实施例中,所述确定多个所述文档各自对应的摘要,包括:针对每个所述文档,对所述文档进行摘要抽取,以得到所述文档的摘要。
在本申请的一个实施例中,所述对所述文档进行摘要抽取,以得到所述文档的摘要,包括:在所述文档中的字符数大于或者等于预设字符阈值的情况下,提取所述文档中的关键语句,并根据所述关键语句生成所述文档的摘要;在所述文档中的字符数据小于预设字符阈值的情况下,提取所述文档中的关键词,根据所述关键词生成所述文档的摘要。
在本申请的一个实施例中,所述确定多个所述文档各自对应的摘要,包括:针对每个所述文档,将所述文档输入至所述摘要生成模型中,以通过所述摘要生成模型得到所述文档的摘要生成结果,其中,所述摘要生成结果包括多个第二候选摘要以及各个所述第二候选摘要对应的概率值;从所述多个所述第二候选摘要中,选择概率值最大的第二候选摘要作为所述文档的摘要。
在本申请的一个实施例中,所述摘要生成模型还输出各个所述第一候选摘要各自对应的概率值,所述从多个所述第一候选摘要中确定出所述目标文档的目标摘要,包括:按照概率值从大到小的顺序,对多个所述第一候选摘要进行排序,以得到排序结果;按照从前到后的顺序,依次遍历所述排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同的情况下,将所述当前遍历到的第一候选摘要作为所述目标文档的目标摘要。
本申请提出一种文档处理方法,通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档分别输入至摘要生成模型中,以从得到的多个第一候选摘要中确定出目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。
本申请第二方面实施例提出了一种文档处理装置,所述装置包括:获取模块,用于获取待处理的文档集合,其中,所述文档集合包括多个文档;第一确定模块,用于确定多个所述文档各自对应的摘要;聚类模块,用于在多个所述摘要中存在相同的摘要的情况下,根据多个所述文档各自对应的摘要,将所述多个文档中摘要相同的目标文档聚类到一个文档类簇;摘要生成模块,用于针对所述文档类簇中的各个目标文档,将所述目标文档分别输入至摘要生成模型中,以得到所述目标文档的多个第一候选摘要;第二确定模块,用于从多个所述第一候选摘要中确定出所述目标文档的目标摘要,其中,所述目标摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同。
在本申请的一个实施例中,所述第一确定模块,包括:抽取单元,用于针对每个所述文档,对所述文档进行摘要抽取,以得到所述文档的摘要。
在本申请的一个实施例中,所述抽取单元,具体用于:在所述文档中的字符数大于或者等于预设字符阈值的情况下,提取所述文档中的关键语句,并根据所述关键语句生成所述文档的摘要;在所述文档中的字符数据小于预设字符阈值的情况下,提取所述文档中的关键词,根据所述关键词生成所述文档的摘要。
在本申请的一个实施例中,所述第一确定模块,还包括:输入单元,用于针对每个所述文档,将所述文档输入至所述摘要生成模型中,以通过所述摘要生成模型得到所述文档的摘要生成结果,其中,所述摘要生成结果包括多个第二候选摘要以及各个所述第二候选摘要对应的概率值;选择单元,用于从所述多个所述第二候选摘要中,选择概率值最大的第二候选摘要作为所述文档的摘要。
在本申请的一个实施例中,所述摘要生成模型还输出各个所述第一候选摘要各自对应的概率值,所述第二确定模块,具体用于:按照概率值从大到小的顺序,对多个所述第一候选摘要进行排序,以得到排序结果;按照从前到后的顺序,依次遍历所述排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同的情况下,将所述当前遍历到的第一候选摘要作为所述目标文档的目标摘要。
本申请提出一种文档处理装置,通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档分别输入至摘要生成模型中,以从得到的多个第一候选摘要中确定出目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。
本申请第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当所述处理器执行所述程序时实现本申请实施例中的文档处理方法。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时本申请实施例中的文档处理方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
图1是本申请实施例所提供的一种文档处理方法的流程示意图;
图2是本申请实施例所提供的另一种文档处理方法的流程示意图;
图3是本申请实施例所提供的一种多文本中生成互异摘要的流程示意图;
图4是本申请实施例所提供一种文档处理装置的结构示意图;
图5是本申请实施例所提供另一种文档处理装置的结构示意图;
图6是本申请一个实施例的电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文档处理方法、装置和电子设备。
图1是本申请实施例所提供的一种文档处理方法的流程示意图。其中,需要说明的是,本实施例提供的文档处理方法的执行主体为文档处理装置,该文档处理装置可以由软件和/或硬件的方式实现,该实施例中的文档处理装置可以配置电子设备中,本实施例中的电子设备可以包括服务器,该实施例对电子设备不作具体限定。
图1是本申请实施例所提供的一种文档处理方法的流程示意图。
如图1所示,该文档处理方法可以包括:
步骤101,获取待处理的文档集合,其中,文档集合包括多个文档。
在一些实施例中,多个文档可以是从服务器中获取的多个文本数据,但不仅限于此,该多个文本数据组成待处理的文档集合。
其中,文档集合中的文本数据可以是长篇文本,也可以是短篇文本,该实施例对此不做具体限定。
步骤102,确定多个文档各自对应的摘要。
其中,针对每个文档,该文档对应的摘要是指可以涵盖该文档中包含的主旨意思的关键语句或关键词,但不仅限于此。
在一些实施例中,对于每一个文档,确定该文档对应的摘要的方式可以包括抽取式摘要和生成式摘要。
作为一种示例性的实施方式,通过抽取式摘要来确定多个文档各自对应的摘要的一种可能实现方式可以为,针对每个文档,对文档进行摘要抽取,以得到文档的摘要。
具体地,在文档中的字符数大于或者等于预设字符阈值的情况下,提取文档中的关键语句,并根据关键语句生成文档的摘要,在文档中的字符数据小于预设字符阈值的情况下,提取文档中的关键词,根据关键词生成文档的摘要。
另一方面,通过生成式摘要来确定多个文档各自对应的摘要的一种实施方式可以为,针对每个文档,将文档输入至摘要生成模型中,以通过摘要生成模型得到文档的摘要生成结果,其中,摘要生成结果包括多个第二候选摘要以及各个第二候选摘要对应的概率值,并从多个第二候选摘要中,选择概率值最大的第二候选摘要作为文档的摘要。
步骤103,在多个摘要中存在相同的摘要的情况下,根据多个文档各自对应的摘要,将多个文档中摘要相同的目标文档聚类到一个文档类簇。
在一些实施例中,通过抽取式摘要方式或生成式摘要方式对文档集合进行处理后,一方面,在得到的多个摘要中存在相同的摘要的情况下,将相同的摘要进行聚类,以将多个文档中摘要相同的目标文档聚类到一个文档类簇,再采取单文档生成摘要的方式对文档类簇进行重新生成摘要,从而保证当前摘要中没有相同的摘要,以实现了摘要的互异性。
另一方面,在得到的多个摘要中不存在相同的摘要的情况下,则当前摘要已经互异,无需执行后续操作。
步骤104,针对文档类簇中的各个目标文档,将目标文档分别输入至摘要生成模型中,以得到目标文档的多个第一候选摘要。
在一些实施例中,针对相同摘要的目标文档,通过单文档摘要生成方式对该目标文档进行重新生成,具体地,将该目标文档分别输入至摘要生成模型中,根据模型中sequence to sequence(序列到序列)的结构,以对目标文档生成新的词语或短句摘要,以作为目标文档的多个第一候选摘要,由此,通过摘要生成模型更灵活的生成新的词语或短句摘要,实现目标文档的摘要的互异性。
步骤105,从多个第一候选摘要中确定出目标文档的目标摘要,其中,目标摘要与文档集合中除目标文档之外的其他文档的摘要均不相同。
在一些实施例中,可以根据生成的多个第一候选摘要的概率值,确定出目标文档的目标摘要,具体地,将与文档集合中除目标文档之外的其他文档的摘要均不相同的,且最大概率的第一候选摘要作为目标文档的目标摘要。
本申请提出一种文档处理方法,通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档分别输入至摘要生成模型中,以从得到的多个第一候选摘要中确定出目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。
为清楚的理解本申请,下面结合图2对文档处理方法的处理过程进行示例性描述,其中,该实施例是对上述实施例的进一步细化或者扩展。
如图2所示,该文档处理方法可以包括:
步骤201,获取待处理的文档集合,其中,文档集合包括多个文档。
步骤202,确定多个文档各自对应的摘要。
步骤203,在多个摘要中存在相同的摘要的情况下,根据多个文档各自对应的摘要,将多个文档中摘要相同的目标文档聚类到一个文档类簇。
步骤204,针对文档类簇中的各个目标文档,将目标文档分别输入至摘要生成模型中,以得到目标文档的多个第一候选摘要以及各个第一候选摘要对应的概率值。
其中,需要说明的是,关于步骤201至步骤204的具体实现方式,可参见上述实施例中的相关描述。
步骤205,按照概率值从大到小的顺序,对多个第一候选摘要进行排序,以得到排序结果。
步骤206,按照从前到后的顺序,顺序遍历排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与文档集合中除目标文档之外的其他文档的摘要均不相同的情况下,将当前遍历到的第一候选摘要作为目标文档的目标摘要。
在一些实施例中,可以按照概率值从大到小的顺序,对多个第一候选摘要进行排序,并按照从前到后的顺序,对排序结果进行处理。具体地,可将在排序在第一位的第一候选摘要与文档集合中除目标文档之外的其他文档的摘要进行比较,在排序在第一位的第一候选摘要与文档集合中除目标文档之外的其他文档的摘要均不相同的情况下,则将概率值最大的第一候选摘要作为目标文档的目标摘要。由于此时,已确定出该目标文档的目标摘要,可无需对排序结果中的其他第二候选摘要进行处理。
另外,在排序在第一位的第一候选摘要与文档集合中除目标文档之外的其他至少一个文档的摘要相同的情况下,则将排序在第二位的第一候选摘要与文档集合中除目标文档之外的其他文档的摘要进行比较,在排序在第二位的第一候选摘要与文档集合中除目标文档之外的其他文档的摘要均不相同的情况下,则选取概率值第二的第一候选摘要作为目标文档的目标摘要,如果在排序在第二位的第一候选摘要与文档集合中除目标文档之外的其他至少一个文档的摘要相同的情况下,则将排序在第三位的第一候选摘要与文档集合中除目标文档之外的其他文档的摘要进行比较,……以此类推,直至从排序结果中,获取到与文档集合中除目标文档之外的其他文档的摘要均不相同的第一候选摘要,并将获取到的该第一候选摘要作为该目标文档的目标摘要。
本申请提出一种文档处理方法,通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并根据摘要生成模型输出的各个第一候选摘要各自对应的概率值,以从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档输入至摘要生成模型中,以得到该目标文档的多个第一候选摘要以及各自对应的概率值,按照概率值从大到小的顺序,从该目标文档对应的多个第一候选摘要,选择与与其他文档集合摘要均不相同的第一候选摘要作为该目标文档的目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。
基于上述实施例,本申请可以基于单文档提取摘要的方式或者单文档生成式摘要方式对文档集合中的各个文档进行处理,如图3所示,具体地,可以从服务器中获取文档1、文档2...文档n,以作为文档集合,并采用单文档摘要的生成方式对文档集合中的各个文档进行摘要提取,以得到文档集合中各个文档对应的摘要1、摘要2...摘要n,再对所有的摘要进行聚合,以得到单文档相异的摘要集合,和相同摘要的集合1...相同摘要的集合m,并根据单文档生成摘要的互异生成策略对相同的摘要集合进行处理,以得到互异的摘要集合1...互异摘要集合m,并结合单文本相异摘要集合组成互异的摘要。
其中,互异生成策略可以是基于单文档生成式摘要生成的摘要以及对应的概率值,以根据该概率值对生成的摘要进行排序,并按照从前到后的顺序,选择与其他文档的摘要均不相同的摘要,以达到整体互异的效果。
图4是本申请实施例所提供一种文档处理装置的结构示意图;
如图4所示,该文档处理装置400包括:
获取模块401,用于获取待处理的文档集合,其中,文档集合包括多个文档。
第一确定模块402,用于确定多个文档各自对应的摘要。
聚类模块403,用于在多个摘要中存在相同的摘要的情况下,根据多个文档各自对应的摘要,将多个文档中摘要相同的目标文档聚类到一个文档类簇。
摘要生成模块404,用于针对文档类簇中的各个目标文档,将目标文档分别输入至摘要生成模型中,以得到目标文档的多个第一候选摘要。
第二确定模块405,用从多个第一候选摘要中确定出目标文档的目标摘要,其中,目标摘要与文档集合中除目标文档之外的其他文档的摘要均不相同。
在本申请的一个实施例中,如图5,第一确定模块402,包括:
抽取单元4021,用于针对每个文档,对文档进行摘要抽取,以得到文档的摘要。
在本申请的一个实施例中,如图5,抽取单元4021,具体用于:
在文档中的字符数大于或者等于预设字符阈值的情况下,提取文档中的关键语句,并根据关键语句生成文档的摘要。
在文档中的字符数据小于预设字符阈值的情况下,提取文档中的关键词,根据关键词生成文档的摘要。
在本申请的一个实施例中,如图5,第一确定模块402,还包括:
输入单元4022,用于针对每个文档,将文档输入至摘要生成模型中,以通过摘要生成模型得到文档的摘要生成结果,其中,摘要生成结果包括多个第二候选摘要以及各个第二候选摘要对应的概率值。
选择单元4023,用于从多个第二候选摘要中,选择概率值最大的第二候选摘要作为文档的摘要。
在本申请的一个实施例中,如图5,摘要生成模型还输出各个第一候选摘要各自对应的概率值,第二确定模块405,具体用于:
按照概率值从大到小的顺序,对多个第一候选摘要进行排序,以得到排序结果。
按照从前到后的顺序,依次遍历排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与文档集合中除目标文档之外的其他文档的摘要均不相同的情况下,将当前遍历到的第一候选摘要作为目标文档的目标摘要。
本申请提出一种文档处理装置,通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档分别输入至摘要生成模型中,以从得到的多个第一候选摘要中确定出目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。
如图6所示,是根据本申请一个实施例的电子设备的框图。
如图6所示,该电子设备包括:
存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机指令。
处理器602执行指令时实现上述实施例中提供的文档处理方法。
进一步地,电子设备还包括:
通信接口603,用于存储器601和处理器602之间的通信。
存储器601,用于存放可在处理器602上运行的计算机指令。
存储器601可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器602,用于执行程序时实现上述实施例的文档处理方法。
如果存储器601、处理器602和通信接口603独立实现,则通信接口603、存储器601和处理器602可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器601、处理器602及通信接口603,集成在一块芯片上实现,则存储器601、处理器602及通信接口603可以通过内部接口完成相互间的通信。
处理器602可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种文档处理方法,其特征在于,所述方法包括:
获取待处理的文档集合,其中,所述文档集合包括多个文档;
确定多个所述文档各自对应的摘要;
在多个所述摘要中存在相同的摘要的情况下,根据多个所述文档各自对应的摘要,将所述多个文档中摘要相同的目标文档聚类到一个文档类簇;
针对所述文档类簇中的各个目标文档,将所述目标文档分别输入至摘要生成模型中,以得到所述目标文档的多个第一候选摘要;
从多个所述第一候选摘要中确定出所述目标文档的目标摘要,其中,所述目标摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同;
其中,所述摘要生成模型还输出各个所述第一候选摘要各自对应的概率值,所述从多个所述第一候选摘要中确定出所述目标文档的目标摘要,包括:
按照概率值从大到小的顺序,对多个所述第一候选摘要进行排序,以得到排序结果;
按照从前到后的顺序,依次遍历所述排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同的情况下,将所述当前遍历到的第一候选摘要作为所述目标文档的目标摘要。
2.如权利要求1所述的方法,其特征在于,所述确定多个所述文档各自对应的摘要,包括:
针对每个所述文档,对所述文档进行摘要抽取,以得到所述文档的摘要。
3.如权利要求2所述的方法,其特征在于,所述对所述文档进行摘要抽取,以得到所述文档的摘要,包括:
在所述文档中的字符数大于或者等于预设字符阈值的情况下,提取所述文档中的关键语句,并根据所述关键语句生成所述文档的摘要;
在所述文档中的字符数据小于预设字符阈值的情况下,提取所述文档中的关键词,根据所述关键词生成所述文档的摘要。
4.如权利要求1所述的方法,其特征在于,所述确定多个所述文档各自对应的摘要,包括:
针对每个所述文档,将所述文档输入至所述摘要生成模型中,以通过所述摘要生成模型得到所述文档的摘要生成结果,其中,所述摘要生成结果包括多个第二候选摘要以及各个所述第二候选摘要对应的概率值;
从所述多个所述第二候选摘要中,选择概率值最大的第二候选摘要作为所述文档的摘要。
5.一种文档处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的文档集合,其中,所述文档集合包括多个文档;
第一确定模块,用于确定多个所述文档各自对应的摘要;
聚类模块,用于在多个所述摘要中存在相同的摘要的情况下,根据多个所述文档各自对应的摘要,将所述多个文档中摘要相同的目标文档聚类到一个文档类簇;
摘要生成模块,用于针对所述文档类簇中的各个目标文档,将所述目标文档分别输入至摘要生成模型中,以得到所述目标文档的多个第一候选摘要;
第二确定模块,用于从多个所述第一候选摘要中确定出所述目标文档的目标摘要,其中,所述目标摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同;
其中,所述摘要生成模型还输出各个所述第一候选摘要各自对应的概率值,所述第二确定模块,具体用于:
按照概率值从大到小的顺序,对多个所述第一候选摘要进行排序,以得到排序结果;
按照从前到后的顺序,依次遍历所述排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同的情况下,将所述当前遍历到的第一候选摘要作为所述目标文档的目标摘要。
6.如权利要求5所述的装置,其特征在于,所述第一确定模块,包括:
抽取单元,用于针对每个所述文档,对所述文档进行摘要抽取,以得到所述文档的摘要。
7.如权利要求6所述的装置,其特征在于,所述抽取单元,具体用于:
在所述文档中的字符数大于或者等于预设字符阈值的情况下,提取所述文档中的关键语句,并根据所述关键语句生成所述文档的摘要;
在所述文档中的字符数据小于预设字符阈值的情况下,提取所述文档中的关键词,根据所述关键词生成所述文档的摘要。
8.如权利要求5所述的装置,其特征在于,所述第一确定模块,还包括:
输入单元,用于针对每个所述文档,将所述文档输入至所述摘要生成模型中,以通过所述摘要生成模型得到所述文档的摘要生成结果,其中,所述摘要生成结果包括多个第二候选摘要以及各个所述第二候选摘要对应的概率值;
选择单元,用于从所述多个所述第二候选摘要中,选择概率值最大的第二候选摘要作为所述文档的摘要。
9.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的文档处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的文档处理方法。
CN202210459422.XA 2022-04-27 2022-04-27 文档处理方法、装置、电子设备和存储介质 Active CN114996441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210459422.XA CN114996441B (zh) 2022-04-27 2022-04-27 文档处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210459422.XA CN114996441B (zh) 2022-04-27 2022-04-27 文档处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN114996441A CN114996441A (zh) 2022-09-02
CN114996441B true CN114996441B (zh) 2024-01-12

Family

ID=83024916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210459422.XA Active CN114996441B (zh) 2022-04-27 2022-04-27 文档处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114996441B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211784A (ja) * 2016-05-24 2017-11-30 日本電信電話株式会社 要約装置、方法、及びプログラム
US10019525B1 (en) * 2017-07-26 2018-07-10 International Business Machines Corporation Extractive query-focused multi-document summarization
JP2019139772A (ja) * 2018-02-08 2019-08-22 株式会社リコー 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN111309916A (zh) * 2020-03-05 2020-06-19 北京奇艺世纪科技有限公司 摘要抽取方法和装置、存储介质和电子装置
CN111400486A (zh) * 2020-03-13 2020-07-10 重庆大学 一种文本摘要自动生成系统及方法
CN111666402A (zh) * 2020-04-30 2020-09-15 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
CN112507111A (zh) * 2020-10-20 2021-03-16 北京中科凡语科技有限公司 用于生成式自动摘要生成的模型建立方法及摘要生成方法
CN112560479A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN113515627A (zh) * 2021-05-19 2021-10-19 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质
CN113627177A (zh) * 2021-08-20 2021-11-09 作业帮教育科技(北京)有限公司 多批次文档处理方法、装置和计算机设备
CN113935314A (zh) * 2021-10-22 2022-01-14 平安国际智慧城市科技股份有限公司 基于异构图网络的摘要抽取方法、装置、终端设备及介质
WO2022052959A1 (zh) * 2020-09-08 2022-03-17 第四范式(北京)技术有限公司 一种文本数据的处理方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4160548B2 (ja) * 2004-09-29 2008-10-01 株式会社東芝 文書要約作成システム、方法、及びプログラム
US9218414B2 (en) * 2007-02-06 2015-12-22 Dmitri Soubbotin System, method, and user interface for a search engine based on multi-document summarization
CN102023989B (zh) * 2009-09-23 2012-10-10 阿里巴巴集团控股有限公司 一种信息检索方法及其系统
US11182539B2 (en) * 2018-11-30 2021-11-23 Thomson Reuters Enterprise Centre Gmbh Systems and methods for event summarization from data

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211784A (ja) * 2016-05-24 2017-11-30 日本電信電話株式会社 要約装置、方法、及びプログラム
US10019525B1 (en) * 2017-07-26 2018-07-10 International Business Machines Corporation Extractive query-focused multi-document summarization
JP2019139772A (ja) * 2018-02-08 2019-08-22 株式会社リコー 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN111309916A (zh) * 2020-03-05 2020-06-19 北京奇艺世纪科技有限公司 摘要抽取方法和装置、存储介质和电子装置
CN111400486A (zh) * 2020-03-13 2020-07-10 重庆大学 一种文本摘要自动生成系统及方法
CN111666402A (zh) * 2020-04-30 2020-09-15 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
WO2022052959A1 (zh) * 2020-09-08 2022-03-17 第四范式(北京)技术有限公司 一种文本数据的处理方法、装置及系统
CN112507111A (zh) * 2020-10-20 2021-03-16 北京中科凡语科技有限公司 用于生成式自动摘要生成的模型建立方法及摘要生成方法
CN112560479A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN113515627A (zh) * 2021-05-19 2021-10-19 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质
CN113627177A (zh) * 2021-08-20 2021-11-09 作业帮教育科技(北京)有限公司 多批次文档处理方法、装置和计算机设备
CN113935314A (zh) * 2021-10-22 2022-01-14 平安国际智慧城市科技股份有限公司 基于异构图网络的摘要抽取方法、装置、终端设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ACM/IMS Transactions on Data Science;Tian Shi;ACM/IMS Transactions on Data Science;全文 *
An Online Question Answering System based on Sub-graph Searching;Shuangyong Song;arxiv;全文 *
基于深度学习的生成式自动摘要技术研究;郭洪杰;中国优秀硕士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN114996441A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
US7756859B2 (en) Multi-segment string search
MX2007014899A (es) Mecanismo de concesion para busqueda.
CN109033244B (zh) 搜索结果排序方法和装置
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
JP2005339542A (ja) クエリからタスクへのマッピング
US20190362187A1 (en) Training data creation method and training data creation apparatus
CN113449082A (zh) 一种新词发现方法、系统、电子设备及介质
CN115410717A (zh) 模型训练方法、数据检索方法、影像数据检索方法和装置
CN110580255A (zh) 一种存储并检索数据的方法以及系统
CN111401039A (zh) 基于二元互信息的词语检索方法、装置、设备及存储介质
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN114996441B (zh) 文档处理方法、装置、电子设备和存储介质
CN113128205A (zh) 一种剧本信息处理方法、装置、电子设备及存储介质
CN110287284B (zh) 语义匹配方法、装置及设备
CN110073351A (zh) 通过组合来自用户尝试的候选来预测文本
CN112069175A (zh) 数据查询的方法、装置及电子设备
CN116484829A (zh) 用于信息处理的方法和设备
CN106202423A (zh) 一种文件排序方法和设备
CN114385868B (zh) 一种正则表达式生成方法、装置、介质及设备
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质
KR102375511B1 (ko) 복수의 문서 저장소들과 연동하여 클라이언트 단말로부터 수신된 문서 파일의 저장 처리를 수행하는 문서 저장 관리 서버 및 그 동작 방법
CN112597106A (zh) 一种文档页面跳转方法及系统
CN115310436A (zh) 一种文档提纲的抽取方法、装置、电子设备及存储介质
CN112650914A (zh) 一种长尾关键词识别方法、关键词搜索方法及计算机设备
CN112182283A (zh) 歌曲搜索方法、装置、网络设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant