CN116541505B - 一种基于自适应对话分割的对话摘要生成方法 - Google Patents
一种基于自适应对话分割的对话摘要生成方法 Download PDFInfo
- Publication number
- CN116541505B CN116541505B CN202310817723.XA CN202310817723A CN116541505B CN 116541505 B CN116541505 B CN 116541505B CN 202310817723 A CN202310817723 A CN 202310817723A CN 116541505 B CN116541505 B CN 116541505B
- Authority
- CN
- China
- Prior art keywords
- sentence
- abstract
- dialogue
- sub
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000011218 segmentation Effects 0.000 title claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000000605 extraction Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于自适应对话分割的对话摘要生成方法,在训练阶段,首先从初始对话中提取出重要句子,通过对训练阶段摘要与标准摘要计算损失值,初步优化摘要生成模型的参数,再通过基于摘要匹配段落算法将初始对话划分为多个段落,再将段落输入到初步优化的摘要生成模型中,得到训练完成的摘要生成模型,在测试阶段,设计自适应对话聚类算法,计算文本相似度,通过文本相似度分值划分并聚类句子形成段落,再通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征,进而形成最终摘要,本发明采用自适应对话聚类算法将长对话划分成段落,使生成的摘要更加准确与流畅,最终提升了生成的摘要质量。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于自适应对话分割的对话摘要生成方法。
背景技术
摘要生成是自然语言处理中的一个重要研究课题,其是指对给定的单个或者多个文档进行梗概,即在保证能够反映原文档的重要内容的情况下,尽可能地保持简明扼要。文本摘要任务作为传统的自然语言处理核心任务之一,至今依旧有新的发展和创新,这一方面得益于模型、方法、语料的支撑,另一方面也是由于摘要任务自身的重要性。传统的摘要任务主要应用在新闻报道上,分析文本意图、理解内容、挖掘有价值信息,生成精炼的摘要。
近年来摘要生成任务主要是基于神经网络的抽取式摘要方法,将问题建模为序列标注和句子排序两类任务,但是这并不能很好地适用在对话文本中。
对话摘要是一项旨在浓缩对话,同时保留重要信息的任务。该任务旨在提高服务效率,避免耗时的对话阅读和理解。与文本摘要不同的是,对话形式表现为:多角色交流信息,内容更丰富、价值更大,而且一段对话往往包含多个主题,每个主题阐述的问题也不同。另一方面,特定主题的显着信息通常分散在多个话语中,并且可以单独呈现。值得注意的是,主题之间的划分并没有那么清晰,甚至互相交叉于不同主题话语之间,这也揭示了主题和主题之间的潜在关系。以图1为例,该对话涉及三个主题,课程事宜、食堂菜品味道和未来天气,其中对应的片段分别为主题1、主题2和主题3。A、B分别代表不同角色,随着对话轮次增加,主题从开始的“课程”偏移到“天气”。因此,对话摘要是一项具有挑战性的任务。
随着社交网络的发展,对话数据越来越多,如会议、闲聊、客服服务等场景下的对话,其长度往往超过5000字,使得模型难以总结如此长的对话,因此长对话摘要生成是一项有挑战性的任务。
目前处理长对话的手段主要包括:(1)稀疏注意力机制,这种注意力机制可以减少长对话所带来的计算成本,关注长对话中重要的信息。但是稀疏注意力机制也会减少模型预训练的性能并舍弃了一些上下文对话,会降低生成的摘要质量。(2)提取——生成框架方式,即从长对话中提取关键句子,然后再生成摘要。提取步骤可以去除无关紧要的对话句子并缩短输入的长度,但提取同时也会丢失关键句子甚至重复提取同一个信息,这直接降低了生成的摘要质量。
发明内容
为此,本发明的实施例提出一种基于自适应对话分割的对话摘要生成方法,以提升生成的摘要质量。
根据本发明一实施例的基于自适应对话分割的对话摘要生成方法,包括:
步骤1,采用Oracle操作提取出初始对话中的重要句子,对重要句子进行分词操作与串联操作,然后对重要句子进行编码,以获得重要句子的语义特征表示,将重要句子的语义特征表示输入到摘要生成模型,以生成训练阶段摘要,对训练阶段摘要与标准摘要计算损失值,再将损失值反馈到摘要生成模型中,优化摘要生成模型的参数,得到初步优化的摘要生成模型;
步骤2,设计基于摘要匹配段落算法,并通过基于摘要匹配段落算法将初始对话划分为多个段落,所述基于摘要匹配段落算法用于对初始对话包含的标准摘要进行切分,得到多个子标准摘要句,然后将每个切分好的子标准摘要句进行编码,得到子标准摘要的语义特征表示,最后,按顺序计算相邻两个子标准摘要的语义特征表示之间的余弦相似度,将相似度高于阈值的子标准摘要的语义特征表示划分到同一集合中,形成多个子标准摘要集合,对多个子标准摘要集合与初始对话中的每一句话计算一元组公共子序列分值,采用贪婪搜索策略将初始对话中的每一句话都分配到对应的子标准摘要集合中,得到的子标准摘要集合即为分好的段落;
步骤3,将步骤2得到的段落输入到初步优化的摘要生成模型中,以生成每个段落对应的子摘要,将每个子摘要分别与步骤2中得到的子标准摘要集合一一对应,计算每个子标准摘要集合与生成的子摘要之间的子损失值,然后对所有的子损失值求和取平均值,再次反馈到初步优化的摘要生成模型中,优化摘要生成模型的参数,得到训练完成的摘要生成模型;
步骤4,设计自适应对话聚类算法,并通过自适应对话聚类算法对初始对话进行处理,得到聚类好的段落,所述自适应对话聚类算法用于对初始对话按句子切分,再将切分得到的句子进行编码得到句子语义特征表示,计算句子语义特征表示之间的文本相似度,在计算文本相似度时,只计算同一角色此刻的话语与其上一句所说的话语之间的文本相似度,设定相似度分数阈值,超过相似度分数阈值的两个句子即属于同一个段落,最终自适应地将所有切分得到的句子聚类成若干段落;
步骤5,基于步骤4得到的段落,通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征;
步骤6,利用步骤3中训练完成的摘要生成模型,对所述段落交互语义特征按时间步进行解码,生成相应段落的子摘要句,最终聚合所有段落的子摘要句,形成最终摘要。
根据本发明实施例的基于自适应对话分割的对话摘要生成方法,在训练阶段,首先从初始对话中提取出重要句子,再将重要句子的语义特征表示输入到摘要生成模型,通过对训练阶段摘要与标准摘要计算损失值,初步优化摘要生成模型的参数,再通过基于摘要匹配段落算法将初始对话划分为多个段落,进而将段落输入到初步优化的摘要生成模型中,以生成每个段落对应的子摘要,并以此得到训练完成的摘要生成模型,在测试阶段,由于在测试过程的数据集不包含标准摘要的信息,因此设计自适应对话聚类算法,计算文本相似度,通过文本相似度分值划分并聚类句子形成段落,再通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征,最终利用训练完成的摘要生成模型,对段落交互语义特征按时间步进行解码,形成最终摘要,本发明通过设计自适应对话聚类算法将标准摘要进行划分,并且利用标准摘要可轻松将长对话句子聚类成段落,当没有标准摘要信息时,采用自适应对话聚类算法将长对话划分成段落,使生成的摘要更加准确与流畅,最终提升了生成的摘要质量。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是一示例性的对话示意图;
图2是基于自适应对话分割的对话摘要生成方法的流程示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的处理长对话摘要生成方式中,提取操作丢失了对话上下文的信息和无法利用到对话中主题信息,主题对生成摘要非常重要。同时,对话中的上下文语义信息在摘要生成网络中非常重要。特别是,如何找到处理超长对话和找到对话中主题信息是关键。
为了解决上述问题,本发明提出一种基于自适应对话分割的对话摘要生成方法,请参阅图2,一种基于自适应对话分割的对话摘要生成方法,包括步骤1~步骤6:
步骤1,采用Oracle操作提取出初始对话中的重要句子,对重要句子进行分词操作与串联操作,然后对重要句子进行编码,以获得重要句子的语义特征表示,将重要句子的语义特征表示输入到摘要生成模型,以生成训练阶段摘要,对训练阶段摘要与标准摘要计算损失值,再将损失值反馈到摘要生成模型中,优化摘要生成模型的参数,得到初步优化的摘要生成模型。
在本步骤中,目标是训练一个具有生成摘要能力的生成器。首先,对初始对话进行Oracle操作,得到与标准摘要高度相关的对话片段,称之为重要对话。这里的Oracle操作是以标准摘要为目标对初始对话进行贪婪搜索,筛选出与摘要最相关的句子。
其中,对初始对话进行Oracle操作,以提取初始对话中的重要句子/>,其中,/>分别为初始对话中的第1个、第2个、第N个句子;重要句子/>实际上表示一组选定的对话片段,这个选定的片段与标准摘要计算的评估指标分数最高。
Oracle操作的具体过程为:给定一个空集,迭代地从初始对话中挑选句子,将挑选好的句子拼接成话语片段,当话语片段与标准摘要计算的ROUGE-1、ROUGE-2和ROUGE-L的平均分数最高时(ROUGE-1和ROUGE-2用于评价摘要的信息性,实体、关键词等长度往往较短;ROUGE-L用于评价摘要的流利度),选取当前最高分数的片段作为Oracle操作的输出,其中,ROUGE-1、ROUGE-2和ROUGE-L分别代表一元组子序列重合率、二元组子序列重合率与最长公共子序列重合率,其中,ROUGE-L对应的公式表述为:
;
;
;
其中,S表示标准摘要,表示S的长度,/>表示C的长度,/>表示C与S的最长公共子序列,/>表示召回率,/>表示精确率,/>为ROUGE-L的分值,/>为超参数。
由于ROUGE-1、ROUGE-2和ROUGE-L同属ROUGE-N系列,因此,ROUGE-1和ROUGE-2对应的公式表述可以参照上述描述将长度替换为1、2即可。
然后使用BART作为生成模型的主干网络。将Oracle操作所获得的重要句子集合输入到BART生成主干网络中,生成摘要,并与标准摘要计算损失优化BART生成网络。
具体的,步骤1中,对训练阶段摘要与标准摘要计算损失值时,损失函数的表达式为:
;
;
;
;
其中,表示对于C和输出摘要/>,生成下一个词/>的概率;/>为根据C和输出摘要/>计算出的解码器在第t个位置的隐藏状态,/>表示位置总数,softmax为归一化函数,/>和b为可训练参数,/>为从编码器获得的C中的第k个句子的语义特征表示,m表示特征维度,Encoder和Decoder分别代表编码器和解码器。
步骤2,设计基于摘要匹配段落算法,并通过基于摘要匹配段落算法将初始对话划分为多个段落,所述基于摘要匹配段落算法用于对初始对话包含的标准摘要进行切分,得到多个子标准摘要句,然后将每个切分好的子标准摘要句进行编码,得到子标准摘要的语义特征表示,最后,按顺序计算相邻两个子标准摘要的语义特征表示之间的余弦相似度,将相似度高于阈值的子标准摘要的语义特征表示划分到同一集合中,形成多个子标准摘要集合,对多个子标准摘要集合与初始对话中的每一句话计算一元组公共子序列分值,采用贪婪搜索策略将初始对话中的每一句话都分配到对应的子标准摘要集合中,得到的子标准摘要集合即为分好的段落。
步骤2中,通过基于摘要匹配段落算法先将标准摘要S按句子切分得到集合,/>分别表示切分出的第1个、第2个、第/>个子标准摘要句,然后将集合S进行编码得到子标准摘要的语义特征表示,再按顺序计算相邻两个子标准摘要的语义特征表示之间的余弦相似度,余弦相似度的计算公式表述为:
;
;
其中,表示第 n 组包含 kk 个词的编码向量,/>分别表示第n组编码向量/>中的第1个词、第2个词、第kk个词,/>表示第n-1个和第n个句子之间余弦相似度,/>表示第n-1组编码向量中的第ii个词,/>表示第n组编码向量中的第ii个词,表示第1组编码向量中的第ii个词,/>表示第2组编码向量中的第ii个词。
步骤2中,对多个子标准摘要集合与初始对话中的每一句话计算一元组公共子序列分值,采用贪婪搜索策略将初始对话中的每一句话都分配到对应的子标准摘要集合中,得到的子标准摘要集合即为分好的段落,具体包括:
先创建空集,然后将初始对话切分成单独的句子/>,然后迭代地从初始对话/>中取第jj个句子/>与子标准摘要集合中第/>个子标准摘要/>进行匹配,计算ROUGE-1,如果此时选取的句子/>与子标准摘要/>计算的ROUGE-1分数为最高,则将句子/>加入到空集中,直到所有句子都被分配到所属的空集中,即可得到分好的段落:,其中,/>分别表示第1个空集、第2个空集、第/>个空集,/>分别表示第1个子标准摘要、第2个子标准摘要、第/>个子标准摘要。
步骤3,将步骤2得到的段落输入到初步优化的摘要生成模型中,以生成每个段落对应的子摘要,将每个子摘要分别与步骤2中得到的子标准摘要集合一一对应,计算每个子标准摘要集合与生成的子摘要之间的子损失值,然后对所有的子损失值求和取平均值,再次反馈到初步优化的摘要生成模型中,优化摘要生成模型的参数,得到训练完成的摘要生成模型。
步骤3中,在计算每个子标准摘要集合与生成的子摘要之间的子损失值,然后对所有的子损失值求和取平均值时,满足以下条件式:
;
;
;
;
;
其中,表示总损失值,/>为平均函数,/>表示第/>个段落,/>表示段落/>的损失值,/>表示在第/>个时间步输入的段落/>和第/>个时间步输出的词/>生成时间步词/>的概率,/>表示第t个位置的隐藏特征,/>表示从/>到/>个词的语义特征表示集合,/>表示词的数量,/>和/>为可训练参数,/>表示第/>个时间步生成的词,/>表示损失函数的数量,/>表示位置的数量,/>表示归一化函数,Encoder表示编码器,Decoder表示解码器。
步骤4,设计自适应对话聚类算法,并通过自适应对话聚类算法对初始对话进行处理,得到聚类好的段落,所述自适应对话聚类算法用于对初始对话按句子切分,再将切分得到的句子进行编码得到句子语义特征表示,计算句子语义特征表示之间的文本相似度,在计算文本相似度时,只计算同一角色此刻的话语与其上一句所说的话语之间的文本相似度,设定相似度分数阈值,超过相似度分数阈值的两个句子即属于同一个段落,最终自适应地将所有切分得到的句子聚类成若干段落。
其中,文本相似度的计算公式为:
;
;
其中,表示初始对话中句子的顺序,/>表示初始对话中的第1句、且由A角色所说的话与初始对话中的第3句、且由A角色所说的话之间的文本相似度,/>表示初始对话中的第2句、且由B角色所说的话与初始对话中的第4句、且由B角色所说的话之间的文本相似度,/>表示对初始对话中的第1句、且由A角色所说的话进行编码得到的语义向量,表示对初始对话中的第3句、且由A角色所说的话进行编码得到的语义向量,/>表示对初始对话中的第2句、且由B角色所说的话进行编码得到的语义向量,/>表示对初始对话中的第4句、且由B角色所说的话进行编码得到的语义向量,/>表示转置,/>表示初始对话中的第1句、且由A角色所说中的第jk个单词向量,/>表示初始对话中的第3句、且由A角色所说中的第jk个单词向量,/>表示初始对话中的第2句、且由B角色所说中的第jk个单词向量,/>表示初始对话中的第4句、且由B角色所说中的第jk个单词向量。
步骤5,基于步骤4得到的段落,通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征。
其中,通过独立关注每个段落内句子语义特征;将段落内的句子语义特征输入到句子级注意力模块,并且获得注意力分数;句子级注意力分数对不重要的语义进行抑制;并对注意力分数进行归一化,以获得句子级重要特征权重;句子级特征权重与输入句子向量进行逐元素相乘计算,进一步突出段落内重要句子特征向量。
具体的,段落级注意力机制的表达式为:
;
;
;
;
其中,是对选取段落中的句子d进行编码得到的句子向量,/>表示向量维度大小,/>是可学习的权重,/>表示/>对应的第i个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>表示表示段落内句子的注意力分数,/>表示转置,/>表示第i个时间步段落内句子的信息的语义特征;
关注段落与段落间的句子之间的语义联系;将多个目标段落的句子输入到段落级注意力模块,并且获得段落级注意力分数;对段落级注意力进行段落判定,强制关注不同段落之间句子语义联系,以获得不同段落句子之间的注意力分数,并对注意力分数进行归一化,以获得段落间句子级联系特征权重;段落间句子级联系特征权重与输入句子向量进行逐元素相乘计算,进一步突出段落间句子联系的特征向量。
具体的,句子级注意力机制的表达式为:
;
;
;
;
其中,是初始对话/>进行编码得到的向量,/>代表其第i个段落,/>是选取不同段落中的第i个和第j个句子d的编码向量,/>是可学习的权重,/>表示对应的第i个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>代表段落与段落间句子的注意力分数,/>是指示函数,当且仅当即段落不为同一个时,函数值为1,否则函数值为0,以这种方式只计算段落与段落间的注意力;/>表示聚类好的段落集合中的第i个段落,/>表示聚类好的段落集合中的第j个段落,/>表示第i个时间步段落与段落间的句子的信息的语义特征;
段落级注意力机制与句子级注意力机制进行信息交互的表达式为:
;
;
其中,表示动态概率,/>表示归一化函数,将概率归一到区间[0,1]内,是一个可调整的超参数,/>表示最终得到的第i个时间步的交互语义特征。
步骤6,利用步骤3中训练完成的摘要生成模型,对所述段落交互语义特征按时间步进行解码,生成相应段落的子摘要句,最终聚合所有段落的子摘要句,形成最终摘要。
最终摘要G的表达式为:
;
;
;
;
其中,分别表示第1个、第2个、第i个、第nn个子摘要句,/>代表子摘要句中的第1个时间步生成的词,/>代表子摘要句中的第t个时间步生成的词,表示对于输入的句子d和第i个时间步输出的词/>,生成第t个词/>的概率,/>和b为可设置的超参数,/>表示解码。
根据本实施例提供的基于自适应对话分割的对话摘要生成方法,在训练阶段,首先从初始对话中提取出重要句子,再将重要句子的语义特征表示输入到摘要生成模型,通过对训练阶段摘要与标准摘要计算损失值,初步优化摘要生成模型的参数,再通过基于摘要匹配段落算法将初始对话划分为多个段落,进而将段落输入到初步优化的摘要生成模型中,以生成每个段落对应的子摘要,并以此得到训练完成的摘要生成模型,在测试阶段,由于在测试过程的数据集不包含标准摘要的信息,因此设计自适应对话聚类算法,计算文本相似度,通过文本相似度分值划分并聚类句子形成段落,再通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征,最终利用训练完成的摘要生成模型,对段落交互语义特征按时间步进行解码,形成最终摘要,本发明通过设计自适应对话聚类算法将标准摘要进行划分,并且利用标准摘要可轻松将长对话句子聚类成段落,当没有标准摘要信息时,采用自适应对话聚类算法将长对话划分成段落,使生成的摘要更加准确与流畅,最终提升了生成的摘要质量。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (7)
1.一种基于自适应对话分割的对话摘要生成方法,其特征在于,包括:
步骤1,采用Oracle操作提取出初始对话中的重要句子,对重要句子进行分词操作与串联操作,然后对重要句子进行编码,以获得重要句子的语义特征表示,将重要句子的语义特征表示输入到摘要生成模型,以生成训练阶段摘要,对训练阶段摘要与标准摘要计算损失值,再将损失值反馈到摘要生成模型中,优化摘要生成模型的参数,得到初步优化的摘要生成模型;
步骤2,设计基于摘要匹配段落算法,并通过基于摘要匹配段落算法将初始对话划分为多个段落,所述基于摘要匹配段落算法用于对初始对话包含的标准摘要进行切分,得到多个子标准摘要句,然后将每个切分好的子标准摘要句进行编码,得到子标准摘要的语义特征表示,最后,按顺序计算相邻两个子标准摘要的语义特征表示之间的余弦相似度,将相似度高于阈值的子标准摘要的语义特征表示划分到同一集合中,形成多个子标准摘要集合,对多个子标准摘要集合与初始对话中的每一句话计算一元组公共子序列分值,采用贪婪搜索策略将初始对话中的每一句话都分配到对应的子标准摘要集合中,得到的子标准摘要集合即为分好的段落;
步骤3,将步骤2得到的段落输入到初步优化的摘要生成模型中,以生成每个段落对应的子摘要,将每个子摘要分别与步骤2中得到的子标准摘要集合一一对应,计算每个子标准摘要集合与生成的子摘要之间的子损失值,然后对所有的子损失值求和取平均值,再次反馈到初步优化的摘要生成模型中,优化摘要生成模型的参数,得到训练完成的摘要生成模型;
步骤4,设计自适应对话聚类算法,并通过自适应对话聚类算法对初始对话进行处理,得到聚类好的段落,所述自适应对话聚类算法用于对初始对话按句子切分,再将切分得到的句子进行编码得到句子语义特征表示,计算句子语义特征表示之间的文本相似度,在计算文本相似度时,只计算同一角色此刻的话语与其上一句所说的话语之间的文本相似度,设定相似度分数阈值,超过相似度分数阈值的两个句子即属于同一个段落,最终自适应地将所有切分得到的句子聚类成若干段落;
步骤5,基于步骤4得到的段落,通过段落级注意力机制与句子级注意力机制进行信息交互,以获得段落交互语义特征;
步骤6,利用步骤3中训练完成的摘要生成模型,对所述段落交互语义特征按时间步进行解码,生成相应段落的子摘要句,最终聚合所有段落的子摘要句,形成最终摘要;
步骤5中,段落级注意力机制的表达式为:
;
;
;
;
其中,是对选取段落中的句子d进行编码得到的句子向量,/>表示向量维度大小,是可学习的权重,/>表示/>对应的第i个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>表示段落内句子的注意力分数,/>表示转置,/>表示第i个时间步段落内句子的信息的语义特征;
句子级注意力机制的表达式为:
;
;
;
;
其中,是初始对话/>进行编码得到的向量,/>代表其第i个段落,/>是选取不同段落中的第i个和第j个句子d的编码向量,/>是可学习的权重,/>表示/>对应的第i个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>表示/>对应的第j个句子向量矩阵,/>代表段落与段落间句子的注意力分数,/>是指示函数,/>表示聚类好的段落集合中的第i个段落,/>表示聚类好的段落集合中的第j个段落,/>表示第i个时间步段落与段落间的句子的信息的语义特征;
段落级注意力机制与句子级注意力机制进行信息交互的表达式为:
;
;
其中,表示动态概率,/>表示归一化函数,/>是一个可调整的超参数,/>表示最终得到的第i个时间步的交互语义特征;
步骤6中,最终摘要G的表达式为:
;
;
;
;
其中,分别表示第1个、第2个、第i个、第nn个子摘要句,/>代表子摘要句中的第1个时间步生成的词,/>代表子摘要句中的第t个时间步生成的词,/>表示对于输入的句子d和第i个时间步输出的词/>,生成第t个词/>的概率,/>和b为可设置的超参数,/>表示解码。
2.根据权利要求1所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤1中,对初始对话进行Oracle操作,以提取初始对话中的重要句子/>,其中,/>分别为初始对话中的第1个、第2个、第N个句子;
Oracle操作的具体过程为:给定一个空集,迭代地从初始对话中挑选句子,将挑选好的句子拼接成话语片段,当话语片段与标准摘要计算的ROUGE-1、ROUGE-2和ROUGE-L的平均分数最高时,选取当前最高分数的片段作为Oracle操作的输出,其中,ROUGE-1、ROUGE-2和ROUGE-L分别代表一元组子序列重合率、二元组子序列重合率与最长公共子序列重合率,其中,ROUGE-L对应的公式表述为:
;
;
;
其中,S表示标准摘要,表示S的长度,/>表示C的长度,/>表示C与S的最长公共子序列,/>表示召回率,/>表示精确率,/>为ROUGE-L的分值,/>为超参数。
3.根据权利要求2所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤1中,对训练阶段摘要与标准摘要计算损失值时,损失函数的表达式为:
;
;
;
;
其中,表示对于C和输出摘要/>,生成下一个词/>的概率;/>为根据C和输出摘要/>计算出的解码器在第t个位置的隐藏状态,/>表示位置总数,softmax为归一化函数,/>和b为可训练参数,/>为从编码器获得的C中的第k个句子的语义特征表示,m表示特征维度,Encoder和Decoder分别代表编码器和解码器。
4.根据权利要求3所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤2中,通过基于摘要匹配段落算法先将标准摘要S按句子切分得到集合,分别表示切分出的第1个、第2个、第/>个子标准摘要句,然后将集合S进行编码得到子标准摘要的语义特征表示,再按顺序计算相邻两个子标准摘要的语义特征表示之间的余弦相似度,余弦相似度的计算公式表述为:
;
;
其中,表示第 n 组包含 kk 个词的编码向量,/>分别表示第n组编码向量/>中的第1个词、第2个词、第kk个词,/>表示第n-1个和第n个句子之间余弦相似度,/>表示第n-1组编码向量中的第ii个词,/>表示第n组编码向量中的第ii个词,/>表示第1组编码向量中的第ii个词,/>表示第2组编码向量中的第ii个词。
5.根据权利要求4所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤2中,对多个子标准摘要集合与初始对话中的每一句话计算一元组公共子序列分值,采用贪婪搜索策略将初始对话中的每一句话都分配到对应的子标准摘要集合中,得到的子标准摘要集合即为分好的段落,具体包括:
先创建空集,然后将初始对话切分成单独的句子/>,然后迭代地从初始对话/>中取第jj个句子/>与子标准摘要集合中第/>个子标准摘要/>进行匹配,计算ROUGE-1,如果此时选取的句子/>与子标准摘要/>计算的ROUGE-1分数为最高,则将句子/>加入到空集中,直到所有句子都被分配到所属的空集中,即可得到分好的段落:,其中,/>分别表示第1个空集、第2个空集、第/>个空集,/>分别表示第1个子标准摘要、第2个子标准摘要、第/>个子标准摘要。
6.根据权利要求5所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤3中,在计算每个子标准摘要集合与生成的子摘要之间的子损失值,然后对所有的子损失值求和取平均值时,满足以下条件式:
;
;
;
;
;
其中,表示总损失值,/>为平均函数,/>表示第/>个段落,/>表示段落/>的损失值,表示在第/>个时间步输入的段落/>和第/>个时间步输出的词/>生成/>时间步词/>的概率,/>表示第t个位置的隐藏特征,/>表示从/>到/>个词的语义特征表示集合,/>表示词的数量,/>和/>为可训练参数,/>表示第/>个时间步生成的词,/>表示损失函数的数量,/>表示位置的数量,/>表示归一化函数,Encoder表示编码器,Decoder表示解码器。
7.根据权利要求6所述的基于自适应对话分割的对话摘要生成方法,其特征在于,步骤4中,文本相似度的计算公式为:
;
;
其中,表示初始对话中句子的顺序,/>表示初始对话中的第1句、且由A角色所说的话与初始对话中的第3句、且由A角色所说的话之间的文本相似度,/>表示初始对话中的第2句、且由B角色所说的话与初始对话中的第4句、且由B角色所说的话之间的文本相似度,表示对初始对话中的第1句、且由A角色所说的话进行编码得到的语义向量,/>表示对初始对话中的第3句、且由A角色所说的话进行编码得到的语义向量,/>表示对初始对话中的第2句、且由B角色所说的话进行编码得到的语义向量,/>表示对初始对话中的第4句、且由B角色所说的话进行编码得到的语义向量,/>表示转置,/>表示初始对话中的第1句、且由A角色所说中的第jk个单词向量,/>表示初始对话中的第3句、且由A角色所说中的第jk个单词向量,/>表示初始对话中的第2句、且由B角色所说中的第jk个单词向量,表示初始对话中的第4句、且由B角色所说中的第jk个单词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817723.XA CN116541505B (zh) | 2023-07-05 | 2023-07-05 | 一种基于自适应对话分割的对话摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817723.XA CN116541505B (zh) | 2023-07-05 | 2023-07-05 | 一种基于自适应对话分割的对话摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116541505A CN116541505A (zh) | 2023-08-04 |
CN116541505B true CN116541505B (zh) | 2023-09-19 |
Family
ID=87454536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310817723.XA Active CN116541505B (zh) | 2023-07-05 | 2023-07-05 | 一种基于自适应对话分割的对话摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541505B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287922A (zh) * | 2018-02-28 | 2018-07-17 | 福州大学 | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 |
CN111460132A (zh) * | 2020-03-10 | 2020-07-28 | 哈尔滨工业大学 | 一种基于图卷积神经网络的生成式会议摘要方法 |
CN111639175A (zh) * | 2020-05-29 | 2020-09-08 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN112148863A (zh) * | 2020-10-15 | 2020-12-29 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
CN114334189A (zh) * | 2021-12-31 | 2022-04-12 | 杭州电子科技大学 | 一种结构化自监督的医患对话摘要方法 |
CN114547289A (zh) * | 2022-03-03 | 2022-05-27 | 山西巨擘天浩科技有限公司 | 一种基于nlp技术的中文摘要自动生成方法及系统 |
CN114706972A (zh) * | 2022-03-21 | 2022-07-05 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
CN114996442A (zh) * | 2022-05-27 | 2022-09-02 | 北京中科智加科技有限公司 | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 |
CN115062139A (zh) * | 2022-05-10 | 2022-09-16 | 电子科技大学 | 一种对话文本摘要模型自动搜索方法 |
CN115964475A (zh) * | 2022-12-26 | 2023-04-14 | 哈尔滨理工大学 | 一种用于医疗问诊的对话摘要生成方法 |
CN116050397A (zh) * | 2023-03-07 | 2023-05-02 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、系统、设备及存储介质 |
CN116127056A (zh) * | 2022-12-28 | 2023-05-16 | 东北大学 | 一种多层次特征增强的医疗对话摘要方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11272058B2 (en) * | 2020-07-27 | 2022-03-08 | Verizon Patent And Licensing Inc. | Method and apparatus for summarization of dialogs |
KR102654480B1 (ko) * | 2020-11-05 | 2024-04-04 | 한국전자통신연구원 | 언어학습을 위한 지식 기반 대화 시스템 및 방법 |
-
2023
- 2023-07-05 CN CN202310817723.XA patent/CN116541505B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287922A (zh) * | 2018-02-28 | 2018-07-17 | 福州大学 | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 |
CN111460132A (zh) * | 2020-03-10 | 2020-07-28 | 哈尔滨工业大学 | 一种基于图卷积神经网络的生成式会议摘要方法 |
CN111639175A (zh) * | 2020-05-29 | 2020-09-08 | 电子科技大学 | 一种自监督的对话文本摘要方法及系统 |
CN112148863A (zh) * | 2020-10-15 | 2020-12-29 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
CN114334189A (zh) * | 2021-12-31 | 2022-04-12 | 杭州电子科技大学 | 一种结构化自监督的医患对话摘要方法 |
CN114547289A (zh) * | 2022-03-03 | 2022-05-27 | 山西巨擘天浩科技有限公司 | 一种基于nlp技术的中文摘要自动生成方法及系统 |
CN114706972A (zh) * | 2022-03-21 | 2022-07-05 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
CN115062139A (zh) * | 2022-05-10 | 2022-09-16 | 电子科技大学 | 一种对话文本摘要模型自动搜索方法 |
CN114996442A (zh) * | 2022-05-27 | 2022-09-02 | 北京中科智加科技有限公司 | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 |
CN115964475A (zh) * | 2022-12-26 | 2023-04-14 | 哈尔滨理工大学 | 一种用于医疗问诊的对话摘要生成方法 |
CN116127056A (zh) * | 2022-12-28 | 2023-05-16 | 东北大学 | 一种多层次特征增强的医疗对话摘要方法 |
CN116050397A (zh) * | 2023-03-07 | 2023-05-02 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、系统、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Haitao Lin ; Junnan Zhu ; Lu Xiang ; Feifei Zhai ; Yu Zhou ; Jiajun Zhang ; Chengqing Zong.Topic-Oriented Dialogue Summarization.IEEE/ACM Transactions on Audio, Speech, and Language Processing.2023,第1797-1810页. * |
利用分割技术提高对话文本自动摘要的一致性;刘传汉;王永成;刘德荣;王志琪;;上海交通大学学报(第08期);第85-89+93页 * |
融合隐式主题信息的中文生成式摘要研究;曾虹;中国优秀硕士学位论文全文数据库;第I138-1416页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116541505A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN109635124B (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN111209749A (zh) | 一种将深度学习应用于中文分词的方法 | |
CN111666764B (zh) | 一种基于XLNet的自动摘要方法与装置 | |
CN106202065B (zh) | 一种跨语言话题检测方法及系统 | |
CN115617955B (zh) | 分级预测模型训练方法、标点符号恢复方法及装置 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN110569505A (zh) | 一种文本输入方法及装置 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
CN116483991A (zh) | 一种对话摘要生成方法及系统 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114218921A (zh) | 一种优化bert的问题语义匹配方法 | |
CN108763198A (zh) | 一种生成式的学术论文中相关工作的自动产生方法 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |