CN113673215A - 文本的摘要生成方法、装置、电子设备及可读介质 - Google Patents
文本的摘要生成方法、装置、电子设备及可读介质 Download PDFInfo
- Publication number
- CN113673215A CN113673215A CN202110791651.7A CN202110791651A CN113673215A CN 113673215 A CN113673215 A CN 113673215A CN 202110791651 A CN202110791651 A CN 202110791651A CN 113673215 A CN113673215 A CN 113673215A
- Authority
- CN
- China
- Prior art keywords
- text
- segment
- similarity
- segments
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种文本摘要的生成方法、装置、电子设备以及可读介质,所述方法包括:获取预设文本,该预设文本可以包括若干个第一文本分段,并确定各个第一文本分段对应的第一分段摘要,根据相邻两个第一文本分段的第一分段摘要之间的相似度,对第一文本分段进行合并,获得若干个第二文本分段,并确定第二文本分段对应的第二分段摘要,然后根据第二分段摘要,生成全文摘要,通过生成预设文本的分段摘要,并根据分段摘要之间的相似度进行文本分段合并,不仅可以保证内容的完整性与连贯性,而且可以有效减少需要进行摘要生成的分段数量以及冗余信息,提高摘要的概括性,并且根据合并后的分段进行全文摘要的生成,保证所生成的摘要与原文匹配。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种文本的摘要生成方法、一种文本的摘要生成装置、一种电子设备以及一种计算机可读介质。
背景技术
随着文本信息的爆炸式增长,人们每天能接触到海量的文本信息,如新闻、会议记录、博客、聊天、报告、论文、微博等。其中,对于长文本摘要等总结性工作如工作会议记录和总结等,大多数都由人工完成,这一工作无疑大大损耗了劳动者的时间和人力。因此,从大量文本信息提取重要的内容变得越来越重要,自动文本摘要这门可以使用户更快速、准确地获取信息的技术也因此应运而生。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(Automatic Text Summarization)则提供了一个高效的解决方案。自动文本摘要技术对文档信息进行有效的压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免通过搜索引擎来检索可能产生过多冗余片面信息的问题,有效地解决了信息过载的问题。然而,在相关技术对文本进行摘要生成的过程中,一方面为了保证内容完整性则容易存在摘要内容多且杂以及概括性弱等问题,另一方面为了摘要足够简洁则容易忽略重要信息导致内容不连贯,以及无法保证文本的中心思想,导致偏离文本表达的真正含义等问题。
发明内容
本发明实施例是提供一种文本的摘要生成方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决相关技术中在对文本进行摘要生成的过程中,存在摘要的连贯性、概括性弱以及与原文不匹配等问题。
本发明实施例公开了一种文本的摘要生成方法,包括:
获取预设文本,所述预设文本包括若干个第一文本分段;
确定各个所述第一文本分段对应的第一分段摘要;
根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
确定各个所述第二文本分段对应的第二分段摘要;
根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
可选地,所述获取预设文本之后,所述方法还包括:
获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
生成与所述预设文本对应的若干个第一文本分段。
可选地,所述确定各个所述第一文本分段对应的第一分段摘要,包括:
分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。
可选地,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
获取所述第一文本分段的数量;
确定相邻两个第一文本分段的第一分段摘要之间的相似度;
若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
可选地,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,还包括:
若所述数量小于或等于预设数量阈值,则不进行文本合并,根据所述第一文本摘要,生成针对所述预设文本的全文摘要。
可选地,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
确定相邻两个第一文本分段的第一分段摘要之间的相似度;
采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
可选地,所述确定相邻两个第一文本分段的第一分段摘要之间的相似度,包括:
对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量;
将相邻两个第一文本分段对应的摘要向量进行比对,获得所述相邻两个第一文本分段的第一分段摘要之间的相似度。
可选地,所述对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量,包括:
将所述第一分段摘要输入相似度判断模型进行向量映射,获得所述第一分段摘要的摘要向量。
本发明实施例还公开了一种文本的摘要生成装置,包括:
文本分段模块,用于获取预设文本,所述预设文本包括若干个第一文本分段;
第一摘要确定模块,用于确定各个所述第一文本分段对应的第一分段摘要;
文本合并模块,用于根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
第二摘要确定模块,用于确定各个所述第二文本分段对应的第二分段摘要;
全文摘要生成模块,用于根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
可选地,所述装置还包括:
词汇处理模块,用于获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
语句对生成模块,用于依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
差异信息确定模块,用于根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
分段模块,用于若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
文本分段生成模块,用于生成与所述预设文本对应的若干个第一文本分段。
可选地,所述第一摘要确定模块具体用于:
分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。
可选地,所述文本合并模块包括:
文本数量获取子模块,用于获取所述第一文本分段的数量;
相似度确定子模块,用于确定相邻两个第一文本分段的第一分段摘要之间的相似度;
目标相似度确定子模块,用于若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
合并阈值生成子模块,用于采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
文本合并子模块,用于将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
可选地,所述文本合并模块还包括:
文本处理子模块,用于若所述数量小于或等于预设数量阈值,则不进行文本合并。
可选地,所述文本合并模块包括:
相似度确定子模块,用于确定相邻两个第一文本分段的第一分段摘要之间的相似度;
目标相似度确定子模块,用于采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
合并阈值生成子模块,用于采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
文本合并子模块,用于将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
可选地,所述相似度确定子模块具体用于:
对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量;
将相邻两个第一文本分段对应的摘要向量进行比对,获得所述相邻两个第一文本分段的第一分段摘要之间的相似度。
可选地,所述相似度确定子模块具体用于:
将所述第一分段摘要输入相似度判断模型进行向量映射,获得所述第一分段摘要的摘要向量。
本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的方法。
本发明实施例还公开了一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的方法。
本发明实施例包括以下优点:
在本发明实施例中,在对文本进行摘要生成的过程中,可以先获取预设文本,该预设文本可以包括若干个第一文本分段,接着确定各个第一文本分段对应的第一分段摘要,并根据相邻的至少两个第一文本分段的第一分段摘要之间的相似度,对第一文本分段进行合并,获得若干个第二文本分段,并确定各个第二文本分段对应的第二分段摘要,然后根据第二分段摘要,生成针对预设文本的全文摘要,通过生成预设文本的分段摘要,并根据分段摘要之间的相似度进行文本分段合并,不仅可以保证内容的完整性与连贯性,而且可以有效减少需要进行摘要生成的分段数量以及冗余信息,提高了摘要的概括性,并且根据合并后的分段进行全文摘要的生成,可以保证所生成的摘要与原文匹配。
附图说明
图1是本发明实施例中提供的一种文本的摘要生成方法的步骤流程图;
图2是本发明实施例中提供的一种文本的摘要生成装置的结构框图;
图3是本发明实施例中提供的一种电子设备的框图;
图4是本发明实施例中提供的一种计算机可读介质的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
作为一种示例,自动文本摘要可以对文档信息进行有效地压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免用户通过搜索引擎来检索可能产生过多冗余片面信息的问题,或减少了用户对大量文档信息进行阅读的问题,有效地解决了信息过载的问题。
其中,对于文本摘要的生成过程,主要可以包括抽取式和生成式。抽取式即为从原文中抽取出若干个句子作为原文的摘要,然而所抽取的句子可能无法有效概括原文的文章主旨,且连贯性很难保证;生成式则可以通过摘要生成模型生成原文对应的摘要,然而在生成式的过程中,容易忽略重要信息导致内容不连贯,以及无法保证文本的中心思想,导致偏离文本表达的真正含义等问题,。因此,需要一种更合适的文本摘要生成方法。
对此,本发明实施例的核心发明点之一在于先获取预设文本,该预设文本可以包括若干个第一文本分段,接着确定各个第一文本分段的第一分段摘要,并根据相邻两个第一文本分段的第一分段摘要之间的相似度,对第一文本分段进行合并,获得第二文本分段,确定各个第二文本分段对应的第二分段摘要,然后若第二文本分段满足预设条件,则停止进行文本合并,并根据第二分段摘要,生成针对预设文本的全文摘要,通过生成预设文本的分段摘要,并根据分段摘要之间的相似度进行文本分段合并,不仅可以保证内容的完整性与连贯性,而且可以有效减少需要进行摘要生成的分段数量以及冗余信息,提高了摘要的概括性,并且根据合并后的分段进行全文摘要的生成,可以保证所生成的摘要与原文匹配。
具体的,参照图1,示出了本发明实施例中提供的一种文本的摘要生成方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取预设文本,所述预设文本包括若干个第一文本分段;
在实际中,对于预设文本,其可以包括文本字数大于摘要生成模型可以处理的文本,也可以为文本字数大于摘要生成模型可以处理的文本但已经进行分段的文本,也可以为文本字数小于或等于摘要生成模型的文本等,本发明对此不作限制。例如,摘要生成模型对文本的处理字数上限为1024个字,则预设文本可以包括大于1024个字的文本,以及字数小于或等于1024个字的文本,若为大于1024个字的文本,还可以对其进行分段后再进行全文摘要的生成。需要说明的是,在本发明实施例中,以文本字数大于摘要生成模型可处理的字数上限的文本进行示例性说明,可以理解的是,本发明对此不作限制。
在具体实现中,可以通过分段算法对需要生成全文摘要的文本进行分段,包括可以通过分段算法获取预设文本对应的全文关键词,并确定全文关键词对应的词汇链,接着依次从预设文本中确定文本长度相同的两个相邻语句,获得预设文本对应的多个语句对,然后根据词汇链,确定同一语句对中两个相邻语句之间的差异信息,若差异信息大于或等于预设差异阈值,则从同一语句对中两个相邻语句之间的连接处进行分段,对全文中符合条件的相邻语句进行分段,生成与预设文本对应的若干个第一文本分段。
具体的,全文关键词可以为预设文本中权重较高的单词,可以将权重较高的所有单词进行组合得到词汇链,接着可以从预设文件的第一个文字开始依次从预设文件中确定文本长度相同的两个相邻语句,例如,可以从预设文件中确定语句①、语句②、语句③、语句④…语句N-1以及语句N等,其中,语句①与语句②可以组成语句对Ⅰ,语句③与语句④可以组成语句对Ⅱ…语句N-1与语句N可以组成语句对M,从而可以将预设文本划分为多个对应的语句对。
可选地,在同一个语句对中,两个相邻语句之间的文本长度相同;在不同语句对中,语句之间的文本长度可以相同,也可以不同,例如,语句②与语句③的文本长度可以相同,也可以不同,本发明实施例中以所得语句的文本长度均相同为例进行示例性说明,可以理解的是,本发明对此不作限制。
对于同一个语句对中的两个相邻语句,其语义上可能存在上下文联系,则可以通过对这两个语句进行分词,提取对应的语句关键词,然后结合全文关键词,对两个语句进行比对,确定同一个语句对中两个相邻语句之间的差异信息,若差异信息大于或等于预设差异阈值,则从同一语句对中两个相邻语句之间的连接处进行分段,对全文中符合条件的相邻语句进行分段,生成与预设文本对应的若干个第一文本分段。其中,差异信息可以用于表征同一语句对中相邻两个语句之间的语义差异度,具体可以表现为语句关键词之间的差异度,当两个语句所对应的语句关键词均不同时,可以判定两个语句的语义差异度为100%;随着两个语句相同语句关键词数量的增加,语义差异度可以随之进行降低,从而通过判断同一语句对中两个相邻语句之间的差异信息,可以确定是否对其进行分段,进而实现预设文本的全文分段,得到预设文本对应的若干个第一文本分段。
步骤102,确定各个所述第一文本分段对应的第一分段摘要;
在本发明实施例中,当得到预设文本对应的若干个第一文本分段之后,可以分别将各个第一文本分段输入摘要生成模型,获得各个第一文本分段对应的第一分段摘要,通过第一分段摘要可以对第一文本分段进行概括,以便进行后续文本分段相似度的判断。
可选地,对于摘要生成模型,可以通过获取不同文本以及各个文本对应的文本摘要,然后将文本作为模型的输入,将文本摘要作为模型的输出进行模型训练,直至所训练的模型损失函数满足条件的情况下,停止模型训练,得到对应的摘要生成模型。
步骤103,根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
在本发明实施例中,在使用分段算法对预设文本进行分段,并得到各个第一文本分段对应的第一分段摘要后,若此时将所有的第一分段摘要进行合成得到全文摘要,一方面容易出现分段语义重复,存在信息冗余,另一方面由于第一文本分段数量较多,容易导致全文摘要的字数较多,全文摘要的生成效果较差。因此,可以根据相邻的至少两个第一文本分段的第一分段摘要之间的相似度,对第一文本分段进行合并处理,获得若干个第二文本分段,如将相邻的两个第一文本分段进行合并,或将相邻的三个第一文本分段进行合并等等,从而有效减少文本分段的数量。
在具体实现中,可以分别确定相邻两个第一文本分段的第一分段摘要之间的相似度,若相似度大于预设阈值,则将相邻两个第一文本分段进行合并,生成对应的第二文本分段;若相似度小于预设阈值,则将相邻两个第一文本分段作为独立的第二文本分段。其中,相似度可以用于表征相邻两个第一文本分段之间的语义相似度,从而将相似的第一文本分段进行合并,减少文本分段的数量,以便减少全文摘要的字数,同时能够降低摘要的信息冗余。
在一种示例中,在对预设文本进行分段,得到第一文本分段后,可以将各个第一文本分段输入摘要生成模型,得到对应的第一分段摘要。接着可以分别将各个第一分段摘要输入相似度判断模型中进行向量映射,获得各个第一分段摘要的摘要向量,接着将相邻两个第一文本分段对应的摘要向量进行比对,获得相邻两个第一文本分段的第一分段摘要之间的cosine相似度,若相似度大于预设阈值,则将相邻两个第一文本分段进行合并,生成对应的第二文本分段;若相似度小于预设阈值,则将相邻两个第一文本分段作为独立的第二文本分段。例如,可以将预设阈值设置为75%,则可以将向量相似度大于或等于75%的相邻两个第一文本分段进行合并,得到一个新的文本分段;将向量相似度小于75%的相邻两个第一文本分段作为独立的文本分段,从而通过对分段摘要进行向量化,然后进行语义相似性的比对,确定相邻两个文本分段之间的相似性,进而减少文本分段的数目,以减少后续所生成的全文摘要的字数,以及降低全文摘要的信息冗余。
具体的,如下表1所示,示出了相应的文本分段合并过程:
表1
需要说明的是,在上述示例中,对第一文本分段进行了分割,可以理解的是,在实际的分段合并过程中,对于文本分段FD101、文本分段FD102以及文本分段FD103,可以将分段摘要ZY101与分段摘要ZY102进行相似度比对,得到相似度S1;将分段摘要ZY102与分段摘要ZY103进行相似度比对,得到相似度S2,若S1大于或等于预设阈值,则将文本分段FD101、文本分段FD102进行合并,得到文本分段FD201,若S2大于或等于预设阈值,可以将文本分段FD102、文本分段FD103进行合并,得到文本分段FD202。此外,若S1满足合并条件,而S2不满足合并条件,则可以获取第一文本分段的合并信息,若合并信息表征第一文本分段存在对应的第二文本分段,则移除该第一文本分段;若合并信息表征第一文本分段不存在对应的第二文本分段,则将第一文本分段作为新的第二文本分段,具体的,在上述示例中,由于S1满足合并条件,则文本分段FD101、文本分段FD102合并成文本分段FD201,而S2不满足合并条件,此时文本分段FD102、文本分段FD103不进行文本合并,可以分别获取对应的合并信息,其中,文本分段FD102的合并信息表征其存在对应的文本分段FD201,可以将文本分段FD102进行移除,而文本分段FD103的合并信息表征其不存在对应的文本分段(即不存在第二文本分段),则可以作为独立的文本分段,从而通过对分段摘要进行向量化,然后进行语义相似性的比对,确定相邻两个文本分段之间的相似性,进而减少文本分段的数目,以减少后续所生成的全文摘要的字数,以及降低全文摘要的信息冗余。
可以理解的是,上述过程可以适用于预设文本在进行文本合并过程中的所有文本分段,本发明对此不作限制。
对于第一文本分段的合并,在一种可选实施例中,可以先获取第一文本分段的数量,接着确定相邻两个第一文本分段的第一分段摘要之间的相似度,若数量大于预设数量阈值,则采用第一文本分段的数量与预设数量阈值,从所有第一文本分段对应的相似度中提取目标相似度,并采用目标相似度与预设相似度阈值,生成文本合并阈值,然后将相似度大于文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段;若第一文本分段的数量小于或等于预设数量阈值,则不进行文本合并,可以直接采用第一文本摘要生成预设文本的全文摘要。
在另一种可选实施例中,可以不设置数量阈值,直接根据相邻两个第一文本分段的第一分段摘要之间的相似度进行文本合并,具体的,可以先确定相邻两个第一文本分段的第一分段摘要之间的相似度,接着采用第一文本分段的数量与预设数量阈值,从所有第一文本分段对应的相似度中提取目标相似度,并采用目标相似度与预设相似度阈值,生成文本合并阈值,然后将相似度大于文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
其中,预设相似度阈值可以为针对所有第一文本分段设置的标准相似度阈值,目标相似度可以为从第一文本分段所对应的所有相似度中提取的相似度(如可以在所有相似度中排序在第N位的相似度等)。通过预设相似度阈值与目标相似度可以组成一个文本合并阈值,具体的,文本合并阈值可以取目标相似度与预设相似度阈值中大的一方,例如,若目标相似度大于预设相似度阈值,则文本合并阈值可以为目标相似度;若预设相似度阈值大于目标相似度,则文本合并阈值可以为预设相似度阈值等,本发明对此不作限制。
需要说明的是,在上述第一可选实施例中,通过设置数量阈值,通过控制文本分段的数量,使得合并后的文本分段篇幅不会过长,从而使得后续分段摘要的提取过程中,可以保证摘要与文本分段之间内容的匹配性;而在另一可选实施例中,不设置数量阈值,通过将相似度满足条件的文本分段均进行合并,可以减少摘要的提取过程,简化全文摘要生成流程,提高全文摘要生成的效率,可以理解的是,在实际应用中,可以根据实际需求进行选择,本发明对此不作限制。
例如,假设预设数量阈值为K、预设相似度阈值为T,则通过分段算法对预设文本进行分段得到N个第一文本分段,接着计算相邻两个第一文本分段的第一分段摘要之间的相似度,得到N-1个相似度值,然后可以使用S(i,i+1)表示第i个文本分段和下一个文本分段之间的相似度(i=1,2,3,…,N-1),则合并过程可以包括:1、首先判断N是否大于K,若小于或等于K,不进行文本合并,若大于K,则根据相邻两个文本分段之间的相似度进行文本合并;2、从N-1个相似度值中取第N-K+2大的相似度值S'(例如,假设N为10,K为5,则可以从9个相似度中提取排序在第7的相似度作为相似度S'),确定当前第一文本分段的合并阈值为T'=max(T,S');3、若S(i,i+1)>T',则表明第i个分段和i+1个分段可以合并;4、将所有可以合并的分段合并在一起得到第二分段(例如S(1,2)<T',S(2,3)>T',S(3,4)>T',S(4,5)<T',则将第2、3、4分段合并在一起),从而通过确定相邻两个文本分段之间的相似性进行文本合并,进而减少文本分段的数目,以减少后续所生成的全文摘要的字数,以及降低全文摘要的信息冗余。
又如,合并过程可以包括:1、从N-1个相似度值中取第N-K+2大的相似度值S'(例如,假设N为10,K为5,则可以从9个相似度中提取排序在第7的相似度作为相似度S'),确定当前第一文本分段的合并阈值为T'=max(T,S');2、若S(i,i+1)>T',则表明第i个分段和i+1个分段可以合并;3、将所有可以合并的分段合并在一起得到第二分段(例如S(1,2)<T',S(2,3)>T',S(3,4)>T',S(4,5)<T',则将第2、3、4分段合并在一起),从而通过确定相邻两个文本分段之间的相似性进行文本合并,进而减少文本分段的数目,以减少后续所生成的全文摘要的字数,以及降低全文摘要的信息冗余。
需要说明的是,本发明实施例包括但不限于上述示例,可以理解的是,在本发明实施例的思想指导下,本领域技术人员还可以根据实际需求进行设置,本发明对此不作限制。
步骤104,确定各个所述第二文本分段对应的第二分段摘要;
在本发明实施例中,当得到预设文本对应的若干个第二文本分段之后,可以分别将各个第二文本分段输入摘要生成模型,获得各个第二文本分段对应的第二分段摘要。
步骤105,根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
在具体实现中,若第一文本分段不需要进行文本合并,则可以直接对第一分段摘要进行合并,生成针对预设文本的全文摘要;若第一文本分段需要合并,则可以将合并后的第二文本分段所对应的第二分段摘要进行合并,生成针对预设文本的全文摘要,从而在保证摘要连贯性、与原文匹配性的情况下,通过摘要相似度判断是否需要对文本分段进行文本合并,可以有效减少长文的分段数目、全文摘要字数,以及减少全文摘要的信息冗余。
在本发明实施例中,在对文本进行摘要生成的过程中,可以先获取预设文本,该预设文本可以包括若干个第一文本分段,接着确定各个第一文本分段对应的第一分段摘要,并根据相邻的至少两个第一文本分段的第一分段摘要之间的相似度,对第一文本分段进行合并,获得若干个第二文本分段,并确定各个第二文本分段对应的第二分段摘要,然后根据第二分段摘要,生成针对预设文本的全文摘要,通过生成预设文本的分段摘要,并根据分段摘要之间的相似度进行文本分段合并,不仅可以保证内容的完整性与连贯性,而且可以有效减少需要进行摘要生成的分段数量以及冗余信息,提高了摘要的概括性,并且根据合并后的分段进行全文摘要的生成,可以保证所生成的摘要与原文匹配。
为了使本领域技术人员更好地理解本发明实施例的技术方案,下面通过一个示例进行说明,具体可以包括如下过程:
1.使用分段算法LcSeg对原文档进行分段,使得每个文本分段的字数约在200~1000字。
2.使用摘要生成模型得到每个文本分段的摘要。若原文档为长文档,则所获得的文本分段数量较多,直接将每个文本分段的摘要合并到一起将面临合并后摘要比较长的问题,不适合用户阅读。因此,需要通过后续的分段合并,以减少文本分段的数量,以及全文摘要的字数。
3.使用Bert(Bidirectional Encoder Representations from Transformers)模型向量化表示每个文本分段的摘要,计算相邻两个文本分段所对应的摘要的相似度。
4.根据相似度,将所有可以合并的文本分段进行合并,得到新的若干个文本分段。
5.使用摘要生成模型对合并后的文本分段进行摘要生成,并判断合并后的文本分段是否满足预设条件,或是满足文本分段的数量条件,或是满足分段摘要的相似度条件,并在满足条件的情况下,结束文本合并。
6.将最后满足条件的文本分段所对应的摘要进行合并,得到原文档对应的全文摘要,通过对文本分段进行合并,可以有效减少分段的数目,从而减少全文摘要的字数,也能够降低全文摘要的信息冗余。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明实施例中提供的一种文本的摘要生成装置的结构框图,具体可以包括如下模块:
文本分段模块201,用于获取预设文本,所述预设文本包括若干个第一文本分段;
第一摘要确定模块202,用于确定各个所述第一文本分段对应的第一分段摘要;
文本合并模块203,用于根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
第二摘要确定模块204,用于确定各个所述第二文本分段对应的第二分段摘要;
全文摘要生成模块205,用于根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
在一种可选实施例中,所述装置还包括:
词汇处理模块,用于获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
语句对生成模块,用于依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
差异信息确定模块,用于根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
分段模块,用于若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
文本分段生成模块,用于生成与所述预设文本对应的若干个第一文本分段。
在一种可选实施例中,所述第一摘要确定模块202具体用于:
分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。
在一种可选实施例中,所述文本合并模块203包括:
文本数量获取子模块,用于获取所述第一文本分段的数量;
相似度确定子模块,用于确定相邻两个第一文本分段的第一分段摘要之间的相似度;
目标相似度确定子模块,用于若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
合并阈值生成子模块,用于采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
文本合并子模块,用于将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
在一种可选实施例中,所述文本合并模块203还包括:
文本处理子模块,用于若所述数量小于或等于预设数量阈值,则不进行文本合并。
在一种可选实施例中,所述文本合并模块203包括:
相似度确定子模块,用于确定相邻两个第一文本分段的第一分段摘要之间的相似度;
目标相似度确定子模块,用于采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
合并阈值生成子模块,用于采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
文本合并子模块,用于将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
在一种可选实施例中,所述相似度确定子模块具体用于:
对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量;
将相邻两个第一文本分段对应的摘要向量进行比对,获得所述相邻两个第一文本分段的第一分段摘要之间的相似度。
在一种可选实施例中,所述相似度确定子模块具体用于:
将所述第一分段摘要输入相似度判断模型进行向量映射,获得所述第一分段摘要的摘要向量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获取预设文本,所述预设文本包括若干个第一文本分段;
确定各个所述第一文本分段对应的第一分段摘要;
根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
确定各个所述第二文本分段对应的第二分段摘要;
根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
在一种可选实施例中,所述获取预设文本之后,所述方法还包括:
获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
生成与所述预设文本对应的若干个第一文本分段。
在一种可选实施例中,所述确定各个所述第一文本分段对应的第一分段摘要,包括:
分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。
在一种可选实施例中,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
获取所述第一文本分段的数量;
确定相邻两个第一文本分段的第一分段摘要之间的相似度;
若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
在一种可选实施例中,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,还包括:
若所述数量小于或等于预设数量阈值,则不进行文本合并,根据所述第一文本摘要,生成针对所述预设文本的全文摘要。
在一种可选实施例中,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
确定相邻两个第一文本分段的第一分段摘要之间的相似度;
采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
在一种可选实施例中,所述确定相邻两个第一文本分段的第一分段摘要之间的相似度,包括:
对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量;
将相邻两个第一文本分段对应的摘要向量进行比对,获得所述相邻两个第一文本分段的第一分段摘要之间的相似度。
在一种可选实施例中,所述对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量,包括:
将所述第一分段摘要输入相似度判断模型进行向量映射,获得所述第一分段摘要的摘要向量。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图4所示,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质401,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中所述的文本的摘要生成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中所述的文本的摘要生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (15)
1.一种文本的摘要生成方法,其特征在于,包括:
获取预设文本,所述预设文本包括若干个第一文本分段;
确定各个所述第一文本分段对应的第一分段摘要;
根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
确定各个所述第二文本分段对应的第二分段摘要;
根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
2.根据权利要求1所述的方法,其特征在于,所述获取预设文本之后,所述方法还包括:
获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
生成与所述预设文本对应的若干个第一文本分段。
3.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一文本分段对应的第一分段摘要,包括:
分别将各个所述第一文本分段输入摘要生成模型,获得所述第一文本分段对应的第一分段摘要。
4.根据权利要求1所述的方法,其特征在于,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
获取所述第一文本分段的数量;
确定相邻两个第一文本分段的第一分段摘要之间的相似度;
若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
5.根据权利要求4所述的方法,其特征在于,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,还包括:
若所述数量小于或等于预设数量阈值,则不进行文本合并。
6.根据权利要求1所述的方法,其特征在于,所述根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段,包括:
确定相邻两个第一文本分段的第一分段摘要之间的相似度;
采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
7.根据权利要求4或5或6所述的方法,其特征在于,所述确定相邻两个第一文本分段的第一分段摘要之间的相似度,包括:
对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量;
将相邻两个第一文本分段对应的摘要向量进行比对,获得所述相邻两个第一文本分段的第一分段摘要之间的相似度。
8.根据权利要求7所述的方法,其特征在于,所述对所述第一分段摘要进行向量化,获得所述第一分段摘要的摘要向量,包括:
将所述第一分段摘要输入相似度判断模型进行向量映射,获得所述第一分段摘要的摘要向量。
9.一种文本的摘要生成装置,其特征在于,包括:
文本分段模块,用于获取预设文本,所述预设文本包括若干个第一文本分段;
第一摘要确定模块,用于确定各个所述第一文本分段对应的第一分段摘要;
文本合并模块,用于根据相邻的至少两个所述第一文本分段的第一分段摘要之间的相似度,对所述第一文本分段进行处理,获得若干个第二文本分段;
第二摘要确定模块,用于确定各个所述第二文本分段对应的第二分段摘要;
全文摘要生成模块,用于根据所述第二分段摘要,生成针对所述预设文本的全文摘要。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
词汇处理模块,用于获取预设文本对应的全文关键词,并确定所述全文关键词对应的词汇链;
语句对生成模块,用于依次从所述预设文本中确定文本长度相同的两个相邻语句,获得所述预设文本对应的多个语句对;
差异信息确定模块,用于根据所述词汇链,确定同一语句对中两个相邻语句之间的差异信息;
分段模块,用于若所述差异信息大于或等于预设差异阈值,则从所述同一语句对中两个相邻语句之间的连接处进行分段;
文本分段生成模块,用于生成与所述预设文本对应的若干个第一文本分段。
11.根据权利要求9所述的装置,其特征在于,所述文本合并模块包括:
文本数量获取子模块,用于获取所述第一文本分段的数量;
相似度确定子模块,用于确定相邻两个第一文本分段的第一分段摘要之间的相似度;
目标相似度确定子模块,用于若所述数量大于预设数量阈值,则采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
合并阈值生成子模块,用于采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
文本合并子模块,用于将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
12.根据权利要求11所述的装置,其特征在于,所述文本合并模块还包括:
文本处理子模块,用于若所述数量小于或等于预设数量阈值,则不进行文本合并。
13.根据权利要求9所述的装置,其特征在于,所述文本合并模块包括:
相似度确定子模块,用于确定相邻两个第一文本分段的第一分段摘要之间的相似度;
目标相似度确定子模块,用于采用所述第一文本分段的数量与所述预设数量阈值,从所有所述第一文本分段对应的相似度中提取目标相似度;
合并阈值生成子模块,用于采用所述目标相似度与预设相似度阈值,生成文本合并阈值;
文本合并子模块,用于将相似度大于所述文本合并阈值的第一文本分段进行合并,获得若干个第二文本分段。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如权利要求1-8任一项所述的方法。
15.一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791651.7A CN113673215A (zh) | 2021-07-13 | 2021-07-13 | 文本的摘要生成方法、装置、电子设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110791651.7A CN113673215A (zh) | 2021-07-13 | 2021-07-13 | 文本的摘要生成方法、装置、电子设备及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673215A true CN113673215A (zh) | 2021-11-19 |
Family
ID=78539090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110791651.7A Pending CN113673215A (zh) | 2021-07-13 | 2021-07-13 | 文本的摘要生成方法、装置、电子设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673215A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841171A (zh) * | 2022-04-29 | 2022-08-02 | 北京思源智通科技有限责任公司 | 一种文本分段主题提取方法、系统、可读介质及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
US20160042061A1 (en) * | 2014-08-07 | 2016-02-11 | Accenture Global Services Limited | Providing contextual information associated with a source document using information from external reference documents |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN110399489A (zh) * | 2019-07-08 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种聊天数据分段方法、装置及存储介质 |
CN110704608A (zh) * | 2019-08-29 | 2020-01-17 | 中国平安人寿保险股份有限公司 | 文本主题生成方法、装置和计算机设备 |
WO2020114100A1 (zh) * | 2018-12-06 | 2020-06-11 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN111428024A (zh) * | 2020-03-18 | 2020-07-17 | 北京明略软件系统有限公司 | 实现文本摘要抽取的方法、装置、计算机存储介质及终端 |
CN111651996A (zh) * | 2019-03-04 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
US20210027783A1 (en) * | 2019-07-24 | 2021-01-28 | International Business Machines Corporation | Topic Mining based on Interactionally Defined Activity Sequences |
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN113033163A (zh) * | 2021-03-24 | 2021-06-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
-
2021
- 2021-07-13 CN CN202110791651.7A patent/CN113673215A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
US20160042061A1 (en) * | 2014-08-07 | 2016-02-11 | Accenture Global Services Limited | Providing contextual information associated with a source document using information from external reference documents |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
WO2020114100A1 (zh) * | 2018-12-06 | 2020-06-11 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN111291177A (zh) * | 2018-12-06 | 2020-06-16 | 中兴通讯股份有限公司 | 一种信息处理方法、装置和计算机存储介质 |
CN111651996A (zh) * | 2019-03-04 | 2020-09-11 | 北京嘀嘀无限科技发展有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN110399489A (zh) * | 2019-07-08 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种聊天数据分段方法、装置及存储介质 |
US20210027783A1 (en) * | 2019-07-24 | 2021-01-28 | International Business Machines Corporation | Topic Mining based on Interactionally Defined Activity Sequences |
CN110704608A (zh) * | 2019-08-29 | 2020-01-17 | 中国平安人寿保险股份有限公司 | 文本主题生成方法、装置和计算机设备 |
CN111428024A (zh) * | 2020-03-18 | 2020-07-17 | 北京明略软件系统有限公司 | 实现文本摘要抽取的方法、装置、计算机存储介质及终端 |
CN112328783A (zh) * | 2020-11-24 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 一种摘要确定方法和相关装置 |
CN113033163A (zh) * | 2021-03-24 | 2021-06-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
Non-Patent Citations (3)
Title |
---|
HUIDONG JIN等: "Semantic title evaluation and recommendation based on topic models", 《ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING 17TH PACIFIC-ASIA CONFERENCE (PAKDD 2013) PROCEEDINGS》, 16 May 2013 (2013-05-16) * |
张随远;薛源海;俞晓明;刘悦;程学旗;: "多文档短摘要生成技术研究", 广西师范大学学报(自然科学版), no. 02, 25 April 2019 (2019-04-25) * |
王鹏;赵逢禹;陈章;: "基于分层分割的科研领域文本信息挖掘", 情报学报, no. 01, 24 January 2015 (2015-01-24) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841171A (zh) * | 2022-04-29 | 2022-08-02 | 北京思源智通科技有限责任公司 | 一种文本分段主题提取方法、系统、可读介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176124B2 (en) | Managing a search | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US11521603B2 (en) | Automatically generating conference minutes | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
CN112988969B (zh) | 用于文本检索的方法、装置、设备以及存储介质 | |
CN111814770B (zh) | 一种新闻视频的内容关键词提取方法、终端设备及介质 | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
WO2021189951A1 (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
Manjari et al. | Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm | |
KR102296931B1 (ko) | 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 | |
CN110991187A (zh) | 一种实体链接的方法、装置、电子设备及介质 | |
CN113660541B (zh) | 新闻视频的摘要生成方法及装置 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN111159389A (zh) | 基于专利要素的关键词提取方法、终端、可读存储介质 | |
CN114756733A (zh) | 一种相似文档搜索方法、装置、电子设备及存储介质 | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN113673215A (zh) | 文本的摘要生成方法、装置、电子设备及可读介质 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN111444712A (zh) | 一种关键词提取方法、终端、计算机可读存储介质 | |
CN114780712B (zh) | 一种基于质量评价的新闻专题生成方法及装置 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |