CN116150348B - 用于长文本的混合无监督摘要生成方法 - Google Patents
用于长文本的混合无监督摘要生成方法 Download PDFInfo
- Publication number
- CN116150348B CN116150348B CN202310436622.8A CN202310436622A CN116150348B CN 116150348 B CN116150348 B CN 116150348B CN 202310436622 A CN202310436622 A CN 202310436622A CN 116150348 B CN116150348 B CN 116150348B
- Authority
- CN
- China
- Prior art keywords
- text
- source
- center
- segment
- central
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于长文本的混合无监督摘要生成方法,首先利用自然语言处理分析工具对源文本进行分句,重组分段。然后通过文本生成模型生成中心文本片段集合。之后利用重复单词块阻断技术消除中心文本片段的文本冗余度,并且获得与每个中心文本片段关联的权重集。最后通过计算源文本句子与中心文本片段之间的相似度分数InfoLMScore,最后根据得分提取摘要。本发明对源文本进行分句,将分句后的文本进行分段重组为几个短文本片段,有利于拓展用于任何长度的源文本数据集,提高模型的普适性。
Description
技术领域
本发明涉及一种用于长文本的混合无监督摘要生成方法,属于计算机应用技术领域。
背景技术
文本摘要技术帮助读者从新闻文章、小说、书籍、法律文件、生物医学文献和科学论文等档案中获取必要信息。此前的研究侧重于短文本可用文本领域,例如新闻和短对话。如今,大数据时代的信息增长速度已导致处理和汇总文档的长度和数量呈指数级增长。因此,现如今对长文档摘要领域的详尽研究有着强烈的需求。
目前,长文档摘要的方法可分为以下两种:基于transformer的方法和基于图的方法。尽管第一种方法在获取语义知识方面取得了重大进展,但在获取源文本长度方面也引入了新的限制。现有研究用于处理长文本输入规则的标准方法是将输入减少为短文本,这可以通过截断输入或使用检索式汇总管道来实现。然而,这些方法打破了上下文依赖性,减少了模型可以读取的单词数量,即模型的接受域。其次,为了解决上述问题,有人提出了一种分层学习方法。但其中大多数是有监督的学习方法,需要大量标记的数据,而这些数据的生成和获取往往耗时且昂贵。第二种方法是一种典型的无监督方法,通过经典的图结构将源文档内容映射到图网络。现有研究将基于图和基于transformer的技术结合在扩展文本摘要中。然而,这些无监督的基于图形的方法在有效呈现源文本事实方面存在缺陷。现有的长文本摘要技术不能很好的获取源文本全部内容,无法较好的捕捉源文的语义信息,并且不能有效的呈现源文本的事实和关键信息。
有鉴于此,确有必要提出一种用于长文本的混合无监督摘要生成方法,以解决上述问题。
发明内容
本发明的目的在于提供一种用于长文本的混合无监督摘要生成方法,用以解决获取标记数据困难、长文本输入限制、难以捕捉长文本语义信息等问题。
为实现上述目的,本发明提供了一种用于长文本的混合无监督摘要生成方法,主要包括以下步骤:
步骤1、文本段落分割:对源文本D先分句,分句后源文本,然后将分割的句子按顺序组成为多个短文本片段,每个短文本片段包含的句子数量少于M个,在进行段落重组后,源文本/>,其中m为短文本片段的个数,每个短文本片段包含相同的句子数目;
步骤2、中心文本片段生成:在中心文本片段生成阶段,将步骤1中文本分割生成的m个短文本片段作为生成模型的输入,生成模型会为每个短文本片段生成相同数量的k个中心文本片段,最后将这些中心文本片段组合得到,mk为中心文本片段的总数;
步骤3、中心文本片段权重生成:利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度,获得新的中心文本片段,所述中心文本片段是步骤2中心文本片段C的子集,此外利用重复单词块技术计算每个中心文本片段的文本冗余度,为每个中心文本片段生成权重,中心文本片段权重集;
步骤4、计算源文本每个句子的信息分数InfoLMScore:
步骤5、生成摘要:通过步骤4计算得到每个句子的信息分数InfoLMScore之后,选取分数排名前几的源文本的句子,然后按照源文本顺序对这些句子进行重组生成最终摘要。
作为本发明的进一步改进,步骤1中,利用自然语言处理分析工具对源长文本D进行分句,分句处理后源长文本,n为源长文本包含句子总数,然后对句子在源文本出现的顺序进行重组分段,得到最多包含M个句子的短段落,句子重组分段后源文本/>,m为段落的总数。
作为本发明的进一步改进,步骤2具体包括以下步骤:首先调用T5文本生成模型,然后将分段后的每个短文本片段作为文本生成模型的输入,文本生成模型会为每个短文本片段生成相同数量的k个代表每个短文本片段中心思想的中心文本片段,最后将每个短文本片段对应的中心文本片段重组得到中心文本片段集合。
作为本发明的进一步改进,所述T5文本生成模型为doc2query/S2ORC-t5-base-v1。
作为本发明的进一步改进,步骤3具体包括以下步骤:首先选择重复单词块阻断技术的重复单词块包含单词数目N,然后对每个中心文本片段前N个单词进行匹配,若有多个中心文本片段前N个单词数量,则将这些重复的单词块进行删除,最后得到剩余的中心文本片段集合,所述中心文本片段集合是步骤2中获得的中心文本片段C的子集。
作为本发明的进一步改进,步骤3还包括以下步骤:利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度,获得新的中心文本片段,所述中心文本片段是步骤2中心文本片段C的子集,并利用重复单词块技术计算每个中心文本片段的文本冗余度,为每个中心文本片段生成权重,中心文本片段权重集/>。
作为本发明的进一步改进,步骤4具体包括以下步骤:将每个中心文本片段与源文本的每个句子进行匹配,调用InfoLM类,分别求得源文本每个句子的分数或/>距离分数,然后利用相应中心文本片段的权重与之某一分数相乘就得到了该句子对应得信息分数InfoLMScore。
作为本发明的进一步改进,步骤5具体包括以下步骤:源文本中每个句子与每个中心文本片段得到一个信息分数InfoLMScore,对每个句子所得的l个信息分数InfoLMScore进行求和求平均,然后对每个句子的信息分数InfoLMScore的平均值从高到低进行排序,依次选择排名前q的句子,对选择出来的句子按照其在源文本出现的顺序进行排序重组,生成源文本的最终摘要。
本发明的有益效果是:本发明对源文本进行分句,将分句后的文本进行分段重组为几个短文本片段,有利于拓展用于任何长度的源文本数据集,提高模型的普适性。
附图说明
图1为本发明用于长文本的混合无监督摘要生成方法的技术路线图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
如图1所示,本发明提供了提供一种用于长文本的混合无监督摘要方法,首先利用自然语言处理分析工具Stanford CoreNLP对源文本进行分句,重组分段。然后通过文本生成模型生成中心文本片段集合。之后利用重复单词块阻断技术消除中心文本片段的文本冗余度,并且获得与每个中心文本片段关联的权重集。最后通过计算源文本句子与中心文本片段之间的相似度分数InfoLMScore,最后根据得分提取摘要,主要包括以下步骤:
步骤1、文本段落分割:对源文本D先分句,分句后源文本,然后将分割的句子按顺序组成为多个短文本片段,每个短文本片段包含的句子数量少于M个,在进行段落重组后,源文本/>,其中m为短文本片段的个数,每个短文本片段包含相同的句子数目;
步骤2、中心文本片段生成:在中心文本片段生成阶段,将步骤1中文本分割生成的m个短文本片段作为生成模型doc2query/S2ORC-t5-base-v1的输入。生成模型会为每个短文本片段生成相同数量的k个中心文本片段。最后将这些中心文本片段组合得到,mk为中心文本片段的总数;
步骤3、中心文本片段权重生成:利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度,获得新的中心文本片段,所述中心文本片段是步骤2中心文本片段C的子集。此外利用重复单词块技术计算每个中心文本片段的文本冗余度,为每个中心文本片段生成权重,中心文本片段权重集;
步骤5、生成摘要:通过步骤4计算得到每个句子的InfoLMScore分数之后,选取分数排名前几的源文本的句子,然后按照源文本顺序对这些句子进行重组生成最终摘要。
以下将对步骤1-5进行详细说明。
步骤1中,所述文本段落分割步骤利用自然语言处理分析工具Stanford CoreNLP对源长文本D进行分句,分句处理后源长文本,n为源长文本包含句子总数,然后对句子在源文本出现的顺序进行重组分段,得到最多包含M个句子的短段落,句子重组分段后源文本/>,m为段落的总数。
步骤2中的中心文本片段生成步骤具体为:首先调用T5文本生成模型doc2query/S2ORC-t5-base-v1,然后将分段后的每个短文本片段作为文本生成模型的输入,文本生成模型会为每个短文本片段生成相同数量的k个代表每个短文本片段中心思想的中心文本片段,最后将每个短文本片段对应的中心文本片段重组得到中心文本片段集合。
步骤3中的文本冗余度消除步骤具体为:首先选择重复单词块阻断技术的重复单词块包含单词数目N,然后对每个中心文本片段前N个单词进行匹配,若有多个中心文本片段前N个单词数量,则将这些重复的单词块进行删除,最后得到剩余的中心文本片段集合,所述中心文本片段集合是步骤2中获得的中心文本片段C的子集。
以下表1是通过文本冗余度消除之后获得的某一篇文章的中心文本片段:
表1
步骤3、中心文本片段权重生成:利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度,获得新的中心文本片段,所述中心文本片段是步骤2中心文本片段C的子集。此外利用重复单词块技术计算每个中心文本片段的文本冗余度,为每个中心文本片段生成权重,中心文本片段权重集。
步骤4中的计算源文本每个句子的信息分数InfoLMScore步骤具体为:将每个中心文本片段与源文本的每个句子进行匹配,调用InfoLM类,分别求得源文本每个句子的分数或/>距离分数,然后利用相应中心文本片段的权重与之某一分数相乘就得到了该句子对应得信息分数InfoLMScore。
步骤5生成摘要的步骤具体为:源文本中每个句子与每个中心文本片段得到一个信息分数InfoLMScore,对每个句子所得的l个信息分数InfoLMScore进行求和求平均,然后对每个句子的信息分数InfoLMScore的平均值从高到低进行排序,依次选择排名前q的句子,对选择出来的句子按照其在源文本出现的顺序进行排序重组,生成源文本的最终摘要。
以下表2是通过打分后按照InfoLMScore选择的分数排名前9的句子,生成源文本的最终摘要:
表2
综上所述,本发明对源文本进行分句,将分句后的文本进行分段重组为几个短文本片段,有利于拓展用于任何长度的源文本数据集,提高模型的普适性。同时也能捕捉源文本的所有语义信息;利用无监督文本生成模型可以不用获取大量的标记数据对模型进行训练,节约时间,节省人力物力财力;利用重复单词块技术消除中心文本片段的重复单词块有利于消除文本的冗余度和增加文本关键信息的覆盖度,同时也能有一个相应的权重用于后续量化两文本相似度,计算信息分数InfoLMScore;利用中心文本片段和源文本匹配,指导最终摘要的生成,有利于生成的摘要保证与源文本的事实一致性。同时中心文本片段包含每个短文本片段的关键信息,生成的摘要能够包含源文本所有的关键信息;利用两种信息分数InfoLMScore分别进行文本相似度的量化,其中相较于科学文献生成摘要的事实一致性和连贯性较好,而/>相较于生物医药类文献生成摘要的流利性较好,因此使用两种分数量化能够让模型适用于更广领域的摘要,用户也可以对不同分数生成摘要的好坏进行判断,选择较好的摘要。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种用于长文本的混合无监督摘要生成方法,其特征在于,主要包括以下步骤:
步骤1、文本段落分割:对源文本D先分句,分句后源文本,然后将分割的句子按顺序组成为多个短文本片段,每个短文本片段包含的句子数量少于M个,在进行段落重组后,源文本/>,其中m为短文本片段的个数,每个短文本片段包含相同的句子数目;
步骤2、中心文本片段生成:在中心文本片段生成阶段,将步骤1中文本分割生成的m个短文本片段作为生成模型的输入,生成模型会为每个短文本片段生成相同数量的k个中心文本片段,最后将这些中心文本片段组合得到,mk为中心文本片段的总数;
步骤3、中心文本片段权重生成:利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度,获得新的中心文本片段,所述中心文本片段是步骤2中心文本片段C的子集,此外利用重复单词块技术计算每个中心文本片段的文本冗余度,为每个中心文本片段生成权重,中心文本片段权重集/>;
步骤4、计算源文本每个句子的信息分数InfoLMScore,首先我们分别计算中心文本片段和源文本每一个句子的AB-Divergences和Fisher-Rao distance分数,这两个度量都能够提高文本的覆盖率和鲁棒性,然后将源文本的每个句子的分数进行平均,作为量化两个文本之间的相似性分数,最后通过对这些分数进行加权,得出源文本每一个句子的信息分数InfoLMScore:
步骤5、生成摘要:通过步骤4计算得到每个句子的信息分数InfoLMScore之后,选取分数排名前几的源文本的句子,然后按照源文本顺序对这些句子进行重组生成最终摘要。
4.根据权利要求3所述的用于长文本的混合无监督摘要生成方法,其特征在于:所述T5文本生成模型为doc2query/S2ORC-t5-base-v1。
10.根据权利要求1所述的用于长文本的混合无监督摘要生成方法,其特征在于:步骤5具体包括以下步骤:源文本中每个句子与每个中心文本片段得到一个信息分数InfoLMScore,对每个句子所得的l个信息分数InfoLMScore进行求和求平均,然后对每个句子的信息分数InfoLMScore的平均值从高到低进行排序,依次选择排名前q的句子,对选择出来的句子按照其在源文本出现的顺序进行排序重组,生成源文本的最终摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436622.8A CN116150348B (zh) | 2023-04-23 | 2023-04-23 | 用于长文本的混合无监督摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436622.8A CN116150348B (zh) | 2023-04-23 | 2023-04-23 | 用于长文本的混合无监督摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116150348A CN116150348A (zh) | 2023-05-23 |
CN116150348B true CN116150348B (zh) | 2023-07-14 |
Family
ID=86374047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310436622.8A Active CN116150348B (zh) | 2023-04-23 | 2023-04-23 | 用于长文本的混合无监督摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150348B (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617981A (zh) * | 2022-09-02 | 2023-01-17 | 西南石油大学 | 一种面向社交网络短文本的信息层次摘要提取方法 |
-
2023
- 2023-04-23 CN CN202310436622.8A patent/CN116150348B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116150348A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN102945228B (zh) | 一种基于文本分割技术的多文档文摘方法 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109783787A (zh) | 一种结构化文档的生成方法、装置及存储介质 | |
WO2018153215A1 (zh) | 一种自动生成语义相近句子样本的方法 | |
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN106407180A (zh) | 一种实体消歧方法及装置 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN111027306A (zh) | 一种基于关键词抽取和词移距离的知识产权匹配技术 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN104462408A (zh) | 一种基于主题建模的多粒度情感分析方法 | |
Singh et al. | Writing Style Change Detection on Multi-Author Documents. | |
Shen et al. | Practical text phylogeny for real-world settings | |
CN1855102A (zh) | 信息处理装置,信息处理方法和程序 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN110609895B (zh) | 一种主动选择示例以进行高效文本分类的样本自动生成方法 | |
CN116150348B (zh) | 用于长文本的混合无监督摘要生成方法 | |
Hassanzadeh et al. | A two-phase hybrid of semi-supervised and active learning approach for sequence labeling | |
CN110888940A (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |