CN115062139A - 一种对话文本摘要模型自动搜索方法 - Google Patents

一种对话文本摘要模型自动搜索方法 Download PDF

Info

Publication number
CN115062139A
CN115062139A CN202210508935.5A CN202210508935A CN115062139A CN 115062139 A CN115062139 A CN 115062139A CN 202210508935 A CN202210508935 A CN 202210508935A CN 115062139 A CN115062139 A CN 115062139A
Authority
CN
China
Prior art keywords
dialog
abstract
generator
text
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210508935.5A
Other languages
English (en)
Other versions
CN115062139B (zh
Inventor
林劼
白毅
梁玉龙
李赛鹏
王元芳
姜铼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210508935.5A priority Critical patent/CN115062139B/zh
Publication of CN115062139A publication Critical patent/CN115062139A/zh
Application granted granted Critical
Publication of CN115062139B publication Critical patent/CN115062139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对话文本摘要模型自动搜索方法,方法先将完整的对话文本按照主题信息划分为若干个离散段落,使用文本聚类算法聚类描述相同一主题内容的段落;基于可微的NAS算法和生成对抗网络构建对话文本摘要生成模型,并分别设计生成器和判别器的搜索空间,联合优化对话摘要生成模型;将聚类获得的主题段落输入对话文本摘要模型中,生成对应主题的子摘要,并对子摘要进行排序构成最后的对话摘要。本发明考虑了生成器和判别器在对抗过程中的相关性和平衡性,以可微NAS方法设计了它们各自的搜索空间,实现了模型参数和架构参数的联合优化,能够有效避免曝光偏差的积累,能确保其生成的文本摘要能鲜明地体现主题信息。

Description

一种对话文本摘要模型自动搜索方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种对话文本摘要模型自动搜索方法。
背景技术
随着计算机网络的发展,一类以对话为主体的文本数据逐渐增多,如社交聊天、客服对话、医患诊断、AI问答等。随着这些对话文本数据的急剧增长,人们很难高效地获取其中关键的信息。这不仅影响着人们的阅读体验,也会大大增加人们在时间和精力上的损耗。因此,研究出一种高效的对话文本摘要技术具有十分重要的意义。
与文章式文本相比,对话文本有着更加鲜明的特点,主要表现在以下几个方面:(1)文章式文本通常以段落进行划分,篇幅一般较长,进行特征提取时更容易捕获到丰富的语义内容。而对话文本通常以多轮对话的形式展开,每条对话语句长度一般不会过长,语义内容较为稀疏,特征提取时很难捕获到有用的信息。(2)对话文本的主题通常随着对话的进展而变化,显著信息被稀释到整篇对话文本中。不像文章式文本主题通常是集中的,对话文本中主题分散在整个聊天中,甚至会出现一个主题的相关信息分散在不连续的对话中的现象。而当聊天记录过长时,语句之间的潜在联系更难被捕获到,这种长期依赖现象也是对话文本摘要面临的重要挑战之一。(3)对话文本中存在着大量的噪声干扰,这些噪声通常以非正式单词、缩写、表情符号等形式存在。而对话中高频率出现的无效冗余信息,如“请”、“谢谢”、“哈哈”等语气词,更是为对话文本摘要区分有用信息与无关信息增加了困难。
正是由于这些不同之处,那些在文章式文本上表现优异的模型用在对话文本上并不能取得同样的效果。对于对话文本而言,对话参与多方通常是围绕多个主题进行讨论的,每个主题的语义信息以对话语句的方式穿插在整篇对话中。因此,能否将主题信息从对话文本中抽取出来关系着后续对话摘要生成的质量。
发明内容
本发明的目的在于克服现有技术的不足,针对对话文本这类特殊文本数据,基于自动机器学习领域下的神经网络架构搜索技术,提供了一种对话文本摘要模型自动搜索方法。
本发明的目的是通过以下技术方案来实现的:
一种对话文本摘要模型自动搜索方法,包括以下步骤:
步骤1:对话文本主题划分,将完整的对话文本按照主题信息划分为若干个离散段落,使用文本聚类算法聚类描述相同一主题内容的段落;
步骤2:构建对话文本摘要模型,基于可微的NAS算法和生成对抗网络构建对话文本摘要生成模型,并分别设计生成器和判别器的搜索空间,联合优化对话摘要生成模型;
步骤3:基于主题段落生成对话摘要,将聚类获得的主题段落输入对话文本摘要模型中,生成对应主题的子摘要,并对子摘要进行排序构成最后的对话摘要。
具体的,所述步骤1具体包括以下步骤:
步骤11:使用句向量模型1,将对话语句转换为同一维度的句向量特征;
步骤12:将对话文本分段处理,使用双向长短期记忆网络BiLSTM捕获对话语句之间的上下文信息,并用CRF输出每条对话语句对应的分段符号,其中<S>表示段落起始语句,<M>表示段落中间语句,<E>表示段落终结语句;
步骤13:将分好的段落按照主题内容进行聚类处理,使用DBSCAN算法,按照段落之间的语义距离进行主题段落划分。
具体的,所述步骤2具体包括以下步骤:
步骤21:分别设计生成器和判别器的搜索空间,即特征之间的待选操作集合;其中两者的搜索空间为一个有向无环图,图中节点表示中间隐藏特征,特征节点之间的连线表示可选操作的权重大小;对于具有N个隐藏特征的搜索空间,中间节点x(j)上的特征可以通过其所有前继节点计算得到,如下式所示:
Figure BDA0003637173920000021
其中O(i,j)表示从隐藏特征x(i)到隐藏特征x(j)的变换操作;
定义
Figure BDA0003637173920000031
为有向无环图中有向边上的待选操作集合,且将搜索空间表示为连续的,通过softmax输出一个对所有操作选择的概率值,之后再通过加权求和来获得最终结果,具体计算如下式所示:
Figure BDA0003637173920000032
其中
Figure BDA0003637173920000033
表示第i个特征到第j个特征之间的权重,x表示要进行变换的特征向量,o’表示从待选操作集合
Figure BDA0003637173920000034
中选择出来的具体操作;
步骤22:分别设计生成器和判别器的优化目标;
步骤23:联合优化对话摘要生成模型,对话摘要生成模型存在四类参数,分别是生成器的架构参数、生成器的权重参数、判别器的架构参数以及判别器的权重参数;采用先训练判别器再训练生成器的方式对对话摘要生成模型训练;在对生成器和判别器进行训练时,在验证集上更新架构参数,在训练集上更新权重参数。
具体的,所述步骤21具体包括以下子步骤:
步骤211:设计生成器的搜索空间,生成器的可选操作集合包括标准卷积、深度可分离卷积、取等、无操作、Transformer的多头selft-Attention和多头context-Attention;
步骤212:设计判别器的搜索空间,判别器的可选操作集合包括标准卷积、深度可分离卷积、取等、无操作、平均池化和最大池化。
具体的,所述步骤22具体包括以下子步骤:
步骤221:判别器的优化目标与原始GAN相同,如下式所示:
Figure BDA0003637173920000035
其中,φ表示判别器参数,θ表示生成器参数,pdata表示原始对话中的数据分布,X表示输入对话文本,Y表示对话摘要,Gθ表示生成对话摘要的过程,Dφ则表示判别器判断输入摘要序列为真实摘要的概率大小。
步骤222:生成器的损失函数由两部分组成,一部分是通过策略梯度从判别器传递过来的反馈损失Lpg,另一部分则是来自于自身的极大似然估计损失Lml;生成器的损失函数如下式所示:
Figure BDA0003637173920000041
其中,β是可控制的平滑参数,用于平衡Lpg和Lml
Lml的计算过程如下式所示:
Figure BDA0003637173920000042
其中,m表示生成摘要的长度,X表示原始对话文本,θ表示生成器参数;而p(yt|y1:t-1,X;θ)则表示在给定输入对话文本序列X和之前的生成的对话摘要序列y1:t-1时在t时刻生成单词yt的概率。
Lpg的计算过程如下式所示即可,如下式所示:
Figure BDA0003637173920000043
其中,
Figure BDA0003637173920000044
表示action-value函数,使用判别器的输出作为该函数。
具体的,所述步骤23包括以下子步骤:
步骤231:固定判别器的架构参数,在验证集上更新判别器的权重参数;
步骤232:固定判别器的权重参数,在训练集上更新判别器的架构参数;
步骤233:固定生成器的架构参数,在验证集上更新生成器的权重参数;
步骤234:固定生成器的权重参数,在训练集上更新生成器的架构参数。
具体的,所述步骤3包括以下子步骤:
步骤31:将主题段落集合Topic={t1,t2,...,tm}输入对话摘要生成模型中,获得各个主题段落对应的主题子摘要集合S={s1,s2,...,sm};
步骤32:每个主题T由多个段落聚类形成的,每个段落由多条对话语句构成;以每条对话语句在原始对话文本中的先后顺序进行编号,并按照主题T所包含的语句编号来确定每条对话语句对应的子摘要在最终完整摘要中的相对位置,计算过程如下式所示:
Figure BDA0003637173920000051
其中,line表示主题T中的对话语句,idx(line)表示对话语句line在原始文本中的编号;
最后按照主题段落中语句编号顺序对子摘要进行排序,生成最后的对话摘要。
本发明的有益效果:
1、提出了一种联合搜索GAN网络中生成器和判别器的方法。在整个搜索过程中,考虑了生成器和判别器在对抗过程中的相关性和平衡性,以可微NAS方法设计了它们各自的搜索空间,在训练集和验证集上分别实现了模型参数和架构参数的联合优化。
2、采用了主流的编码器-解码器(Encoder-Decoder)框架来生成对话摘要,所以在进行对话摘要生成时与一些传统的摘要生成模型一样简单又直观。除此以外,将生成器作为强化学习中的一个智能体,并使用策略梯度来优化生成器以期望其生成具有更高奖励值的摘要,能够有效避免曝光偏差的积累。
3、通过先进行主题划分形成主题段落再根据主题段落生成对话摘要的形式,能确保其生成的文本摘要能鲜明地体现主题信息。
附图说明
图1是是本发明的方法流程示意图;
图2是本发明提出的对话摘要生成模型结构图;
图3是生成器的搜索空间结构图;
图4是生成器的待选操作集合展示图;
图5是判别器的搜索空间结构图;
图6是判别器的待选操作集合展示图。
具体实施方式
为了对本发明的技术特征、目的和有益效果有更加清楚的理解,现对本发明的技术方案精选以下详细说明。显然,所描述的实施案例是本发明一部分实施例,而不是全部实施例,不能理解为对本发明可实施范围的限定。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的其他所有实施例,都属于本发明的保护范围。
实施例一:
本实施例中,如图1所示,一种对话文本摘要模型自动搜索方法,包括以下步骤:
步骤1:对话文本主题划分,将完整的对话文本按照主题信息划分为若干个离散段落,再使用文本聚类算法将描述同一主题内容的段落聚在一起;
步骤2:构建对话文本摘要模型,基于可微的NAS算法和生成对抗网络(GAN)构建一个对话文本摘要生成模型,分别设计了生成器和判别器的搜索空间,并实现了整个网络的联合搜索过程。构建好的对话文本摘要生成模型如图2所示,其由生成器和判别器组成,其中生成器的目标是根据输入的对话文本来生成对话摘要,并以此来欺骗判别器,使其相信该摘要序列就是真实的对话摘要。而判别器的目标就是分辨来自于生成器的摘要序列是真实的还是虚假的,并将结果作为反馈传递给生成器。在具体实现时,用Transformer作为生成器,而判别器则是一个文本分类器。对话摘要生成模型结构如图2所示。
步骤3:基于主题段落生成对话摘要,将主题段落输入对话文本摘要模型中,生成对应的主题子摘要,之后再对这些子摘要进行排序构成最后的对话摘要。
其中,作为自动机器学习的子领域之一,神经网络架构搜索(NAS)是一种针对特定任务来设计的用于自动搜索网络模型架构的技术。神经网络架构搜索技术具有十分广阔的应用价值与研究意义,近年来得到了研究人员的广泛关注,并取得了一定的研究进展。搜索空间、搜索策略、评估是评估神经网络架构搜索技术最重要的三个方向,其中,搜索空间定义了网络架构的基本单元或者操作方式,而搜索策略则定义了从搜索空间中搜索一个完整的子架构的具体实现方法,最后评价策略负责对搜索到的子架构的最终表现进行打分,并将得分结果返回给搜索策略,指导其进行下一步的搜索过程。
DARTS是第一个提出基于可微的NAS方法。在DARTS之前,不管是基于强化学习还是进化算法,NAS的搜索过程都是不连续的,目标函数不可微,也无法通过梯度信息直接更新搜索网络,这样的方式带来的最大问题就是整个搜索过程对算力要求是非常高的。DARTS的搜索策略是将整个网络架构看作是若干个特征图之间的信息流动,其中特征图之间具有若干个可选的操作,而每个操作的权重作为架构参数通过搜索得到。在具体实施上,DARTS在训练集上训练整个模型的权重参数,而在验证集上训练模型的架构参数。
进一步的,所述步骤1包括以下子步骤:
步骤11:使用句向量模型1,将对话语句转换为同一维度的句向量特征。
步骤12:将对话文本分段处理,具体来说,使用双向长短期记忆网络(BiLSTM)捕获对话语句之间的上下文信息,并用CRF输出每条对话语句对应的分段符号,其中<S>表示段落起始语句,<M>表示段落中间语句,<E>表示段落终结语句。
步骤13:将分好的段落按照主题内容进行聚类处理,使用DBSCAN算法,按照段落之间的语义距离进行划分。
进一步的,所述步骤2包括以下子步骤:
步骤21:分别设计生成器和判别器的搜索空间,即特征之间的待选操作集合。其中两者的搜索空间为一个有向无环图,图中节点表示中间隐藏特征,而特征节点之间的连线表示可选操作的权重大小。对于一个具有N个隐藏特征的搜索空间来说,中间节点x(j)上的特征可以通过其所有前继节点计算得到,如下式所示,其中O(i,j)表示从隐藏特征x(i)到隐藏特征x(j)的变换操作。
Figure BDA0003637173920000071
定义
Figure BDA0003637173920000072
为图中有向边上的待选操作集合,为了将搜索空间表示为连续的,可以通过softmax输出一个对所有操作选择的概率值,之后再通过加权求和来获得最终结果,具体计算如下式所示,其中
Figure BDA0003637173920000073
表示第i个特征到第j个特征之间的权重,这也是要进行搜索的架构参数;x表示要进行变换的特征向量,o’表示从待选操作集合
Figure BDA0003637173920000074
中选择出来的具体操作。
Figure BDA0003637173920000081
进一步的,步骤21包括以下子步骤:
步骤211:对于生成器而言,其可选操作集合不仅包括标准卷积、深度可分离卷积这类全新的操作,也保留了Transformer中所特有的多头selft-Attention和多头context-Attention。其中多头selft-Attention在Transformer的编解码端都是存在的,而多头context-Attention则只存在于解码端。除此以外,还有两种特殊的操作。其中,“取等”表示将直接使用上一个特征来作为当前的特征,这起到了和残差网络中的跳跃连接同样的作用。而“无操作”则表示两个特征图之间不具有操作关系,这有利于搜索模型产生多种多样的网络架构。生成器的搜索空间设计如图3所示,待选操作集合如图4所示。
步骤212:至于判别器的搜索空间设计,主要考虑到判别器和生成器在整个训练过程中是以对抗的形式进行的,所以简单反转生成器中的基本单元架构来确定判别器的网络架构,而判别器的可选操作集合去除了多头self-Attention和多头context-Attention这两种独属于Transformer的操作,但新增了平均池化和最大池化这两个操作,这两个池化操作主要用于对输入文本特征进行下采样。判别器的搜索空间设计如图5所示,待选操作集合如图6所示。
步骤22:分别设计生成器和判别器的优化目标。
进一步的,步骤22包括以下子步骤:
步骤221:判别器本质上是一个文本分类器,所以其损失函数只是常见的分类损失,所以其优化目标与原始GAN一样如下式所示:
Figure BDA0003637173920000082
其中,φ表示判别器参数,θ表示生成器参数,pdata表示原始对话中的数据分布,X表示输入对话文本,Y表示对话摘要,Gθ表示生成对话摘要的过程,Dφ则表示判别器判断输入摘要序列为真实摘要的概率大小。
步骤222:生成器的损失函数由两部分组成,一部分是通过策略梯度从判别器传递过来的反馈损失Lpg,另一部分则是来自于自身的极大似然估计损失Lml。所以生成器的损失函数如下式所示,其中β是一个可以控制的平滑参数,它主要用于平衡Lpg和Lml,简单将其设置为0.5,则最后的损失函数就可以认为同时考虑到了生成器自身的损失以及来自于判别器的反馈损失。
Figure BDA0003637173920000091
Lml的计算过程如下式所示,其中m表示生成摘要的长度,X表示原始对话文本,θ表示生成器参数;而p(yt|y1:t-1,X;θ)则表示在给定输入对话文本序列X和之前的生成的对话摘要序列y1:t-1时在t时刻生成单词yt的概率。
Figure BDA0003637173920000092
Lpg的计算过程如下式所示,其中
Figure BDA0003637173920000093
表示action-value函数,直接使用判别器的输出作为该函数即可,如下式所示:
Figure BDA0003637173920000094
步骤23:联合优化对话摘要生成模型,该模型存在四类参数,分别是生成器的架构参数、生成器的权重参数、判别器的架构参数以及判别器的权重参数。训练时,采用先训练判别器再训练生成器的方式,这和原始GAN的训练方式一样。在对两个模块进行训练时,在验证集上更新架构参数,在训练集上更新权重参数。
进一步的,步骤23包括以下子步骤:
步骤231:固定判别器的架构参数,在验证集上更新判别器的权重参数。
步骤232:固定判别器的权重参数,在训练集上更新判别器的架构参数。
步骤233:固定生成器的架构参数,在验证集上更新生成器的权重参数。
步骤234:固定生成器的权重参数,在训练集上更新生成器的架构参数。
进一步的,所述步骤3包括以下子步骤:
步骤31:将主题段落集合Topic={t1,t2,...,tm}输入对话摘要生成模型中,获得各个主题段落对应的主题子摘要集合S={s1,s2,...,sm}。
步骤32:按照主题段落中语句编号对子摘要进行排序,生成最后的对话摘要。对于每个主题T,其是由多个段落聚类形成的,而每个段落又是由多条对话语句构成。可以为每条对话语句按照其在原始对话文本的先后顺序进行编号,之后按照主题T所包含的语句编号来确定其对应的摘要在最终完整摘要中的相对位置,计算过程如下式所示,其中line表示主题T中的对话语句,idx(line)表示对话语句line在原始文本中的编号。通过这种方式,就可以求出每个主题对应的主题摘要的相对位置,之后进行排列后就可以得到最终的对话文本摘要。
Figure BDA0003637173920000101
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种对话文本摘要模型自动搜索方法,其特征在于,包括以下步骤:
步骤1:对话文本主题划分,将完整的对话文本按照主题信息划分为若干个离散段落,使用文本聚类算法聚类描述相同一主题内容的段落;
步骤2:构建对话文本摘要模型,基于可微的NAS算法和生成对抗网络构建对话文本摘要生成模型,并分别设计生成器和判别器的搜索空间,联合优化对话摘要生成模型;
步骤3:基于主题段落生成对话摘要,将聚类获得的主题段落输入对话文本摘要模型中,生成对应主题的子摘要,并对子摘要进行排序构成最后的对话摘要。
2.根据权利要求1所述的一种对话文本摘要模型自动搜索方法,其特征在于,所述步骤1具体包括以下步骤:
步骤11:使用句向量模型1,将对话语句转换为同一维度的句向量特征;
步骤12:将对话文本分段处理,使用双向长短期记忆网络BiLSTM捕获对话语句之间的上下文信息,并用CRF输出每条对话语句对应的分段符号,其中<S>表示段落起始语句,<M>表示段落中间语句,<E>表示段落终结语句;
步骤13:将分好的段落按照主题内容进行聚类处理,使用DBSCAN算法,按照段落之间的语义距离进行主题段落划分。
3.根据权利要求1所述的一种对话文本摘要模型自动搜索方法,其特征在于,所述步骤2具体包括以下步骤:
步骤21:分别设计生成器和判别器的搜索空间,即特征之间的待选操作集合;其中两者的搜索空间为一个有向无环图,图中节点表示中间隐藏特征,特征节点之间的连线表示可选操作的权重大小;对于具有N个隐藏特征的搜索空间,中间节点x(j)上的特征可以通过其所有前继节点计算得到,如下式所示:
Figure FDA0003637173910000011
其中O(i,j)表示从隐藏特征x(i)到隐藏特征x(j)的变换操作;
定义
Figure FDA0003637173910000025
为有向无环图中有向边上的待选操作集合,且将搜索空间表示为连续的,通过softmax输出一个对所有操作选择的概率值,之后再通过加权求和来获得最终结果,具体计算如下式所示:
Figure FDA0003637173910000021
其中
Figure FDA0003637173910000022
表示第i个特征到第j个特征之间的权重,x表示要进行变换的特征向量,o’表示从待选操作集合
Figure FDA0003637173910000023
中选择出来的具体操作;
步骤22:分别设计生成器和判别器的优化目标;
步骤23:联合优化对话摘要生成模型,对话摘要生成模型存在四类参数,分别是生成器的架构参数、生成器的权重参数、判别器的架构参数以及判别器的权重参数;采用先训练判别器再训练生成器的方式对对话摘要生成模型训练;在对生成器和判别器进行训练时,在验证集上更新架构参数,在训练集上更新权重参数。
4.根据权利要求3所述的一种对话文本摘要模型自动搜索方法,其特征在于,所述步骤21具体包括以下子步骤:
步骤211:设计生成器的搜索空间,生成器的可选操作集合包括标准卷积、深度可分离卷积、取等、无操作、Transformer的多头selft-Attention和多头context-Attention;
步骤212:设计判别器的搜索空间,判别器的可选操作集合包括标准卷积、深度可分离卷积、取等、无操作、平均池化和最大池化。
5.根据权利要求3所述的一种对话文本摘要模型自动搜索方法,其特征在于,所述步骤22具体包括以下子步骤:
步骤221:判别器的优化目标与原始GAN相同,如下式所示:
Figure FDA0003637173910000024
其中,φ表示判别器参数,θ表示生成器参数,pdata表示原始对话中的数据分布,X表示输入对话文本,Y表示对话摘要,Gθ表示生成对话摘要的过程,Dφ则表示判别器判断输入摘要序列为真实摘要的概率大小;
步骤222:生成器的损失函数由两部分组成,一部分是通过策略梯度从判别器传递过来的反馈损失Lpg,另一部分则是来自于自身的极大似然估计损失Lml;生成器的损失函数如下式所示:
Figure FDA0003637173910000031
其中,β是可控制的平滑参数,用于平衡Lpg和Lml
Lml的计算过程如下式所示:
Figure FDA0003637173910000032
其中m表示生成摘要的长度,θ表示生成器参数,而p(yt|y1:t-1,X;θ)则表示在给定输入对话文本序列X和之前的生成的对话摘要序列y1:t-1时在t时刻生成单词yt的概率;
Lpg的计算过程如下式所示即可,如下式所示:
Figure FDA0003637173910000033
其中,
Figure FDA0003637173910000034
表示action-value函数,使用判别器的输出作为该函数。
6.根据权利要求3所述的一种对话文本摘要模型自动搜索方法,其特征在于,所述步骤23包括以下子步骤:
步骤231:固定判别器的架构参数,在验证集上更新判别器的权重参数;
步骤232:固定判别器的权重参数,在训练集上更新判别器的架构参数;
步骤233:固定生成器的架构参数,在验证集上更新生成器的权重参数;
步骤234:固定生成器的权重参数,在训练集上更新生成器的架构参数。
7.根据权利要求1所述的一种对话文本摘要模型自动搜索方法,其特征在于,所述步骤3包括以下子步骤:
步骤31:将主题段落集合Topic={t1,t2,...,tm}输入对话摘要生成模型中,获得各个主题段落对应的主题子摘要集合S={s1,s2,...,sm};
步骤32:每个主题T由多个段落聚类形成的,每个段落由多条对话语句构成;以每条对话语句在原始对话文本中的先后顺序进行编号,并按照主题T所包含的语句编号来确定每条对话语句对应的子摘要在最终完整摘要中的相对位置,计算过程如下式所示:
Figure FDA0003637173910000041
其中,line表示主题T中的对话语句,idx(line)表示对话语句line在原始文本中的编号;
按照主题段落中语句编号顺序对子摘要进行排序,生成最后的对话摘要。
CN202210508935.5A 2022-05-10 2022-05-10 一种对话文本摘要模型自动搜索方法 Active CN115062139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210508935.5A CN115062139B (zh) 2022-05-10 2022-05-10 一种对话文本摘要模型自动搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210508935.5A CN115062139B (zh) 2022-05-10 2022-05-10 一种对话文本摘要模型自动搜索方法

Publications (2)

Publication Number Publication Date
CN115062139A true CN115062139A (zh) 2022-09-16
CN115062139B CN115062139B (zh) 2024-06-11

Family

ID=83197775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210508935.5A Active CN115062139B (zh) 2022-05-10 2022-05-10 一种对话文本摘要模型自动搜索方法

Country Status (1)

Country Link
CN (1) CN115062139B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541505A (zh) * 2023-07-05 2023-08-04 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116795972A (zh) * 2023-08-11 2023-09-22 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
US20090216535A1 (en) * 2008-02-22 2009-08-27 Avraham Entlis Engine For Speech Recognition
CN108549625A (zh) * 2018-02-28 2018-09-18 首都师范大学 一种基于句法宾语聚类的中文篇章表现主题分析方法
CN110361778A (zh) * 2019-07-04 2019-10-22 华北电力大学 一种基于生成对抗网络的地震数据重建方法
CN110909877A (zh) * 2019-11-29 2020-03-24 百度在线网络技术(北京)有限公司 神经网络模型结构搜索方法、装置、电子设备及存储介质
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统
US10990286B1 (en) * 2019-10-30 2021-04-27 EMC IP Holding Company LLC Parallel upgrade of nodes in a storage system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
US20090216535A1 (en) * 2008-02-22 2009-08-27 Avraham Entlis Engine For Speech Recognition
CN108549625A (zh) * 2018-02-28 2018-09-18 首都师范大学 一种基于句法宾语聚类的中文篇章表现主题分析方法
CN110361778A (zh) * 2019-07-04 2019-10-22 华北电力大学 一种基于生成对抗网络的地震数据重建方法
US10990286B1 (en) * 2019-10-30 2021-04-27 EMC IP Holding Company LLC Parallel upgrade of nodes in a storage system
CN110909877A (zh) * 2019-11-29 2020-03-24 百度在线网络技术(北京)有限公司 神经网络模型结构搜索方法、装置、电子设备及存储介质
CN111639175A (zh) * 2020-05-29 2020-09-08 电子科技大学 一种自监督的对话文本摘要方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIE LIN等: "Dialogue Text Summarization Method Combined Self-supervised Learning and Neural Architecture Search", 《2022 2ND INTERNATIONAL CONFERENCE ON BIG DATA, ARTIFICIAL INTELLIGENCE AND RISK MANAGEMENT (ICBAR)》, 28 April 2023 (2023-04-28), pages 1 - 20 *
RAJ SNEHAL等: "AUTOSUMM:automatic model creation for text summarization", 《ACL ANTHOLOGY》, 30 November 2021 (2021-11-30), pages 10162 - 10172 *
李媛媛: "文本自动摘要及其在航空安全报告中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2021 (2021-01-15), pages 138 - 2384 *
桑玉坤: "基于自动机器学习的文本摘要关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑 》, 15 January 2023 (2023-01-15), pages 138 - 3939 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541505A (zh) * 2023-07-05 2023-08-04 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116541505B (zh) * 2023-07-05 2023-09-19 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116795972A (zh) * 2023-08-11 2023-09-22 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN116795972B (zh) * 2023-08-11 2024-01-09 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN115062139B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111581350A (zh) 一种基于预训练语言模型的多任务学习阅读理解方法
CN115062139B (zh) 一种对话文本摘要模型自动搜索方法
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN108256968A (zh) 一种电商平台商品专家评论生成方法
CN107679225A (zh) 一种基于关键词的回复生成方法
CN110069612A (zh) 一种回复生成方法及装置
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN117313728A (zh) 实体识别方法、模型训练方法、装置、设备和存储介质
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN110717316A (zh) 字幕对话流的主题分割方法及装置
Gao et al. Chinese short text classification method based on word embedding and Long Short-Term Memory Neural Network
CN111104806A (zh) 神经机器翻译模型的构建方法及装置、翻译方法及装置
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其系统
CN114398905A (zh) 一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant