CN116629324A - 一种面向模型生成文本重复退化现象的优化生成方法 - Google Patents

一种面向模型生成文本重复退化现象的优化生成方法 Download PDF

Info

Publication number
CN116629324A
CN116629324A CN202310919239.8A CN202310919239A CN116629324A CN 116629324 A CN116629324 A CN 116629324A CN 202310919239 A CN202310919239 A CN 202310919239A CN 116629324 A CN116629324 A CN 116629324A
Authority
CN
China
Prior art keywords
text
model
generation
dimension
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310919239.8A
Other languages
English (en)
Other versions
CN116629324B (zh
Inventor
冯好国
徐青伟
严长春
裴非
范娥媚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinghe Zhiyuan Technology Co ltd
Zhiguagua Tianjin Big Data Technology Co ltd
Original Assignee
Zhiguagua Tianjin Big Data Technology Co ltd
Beijing Zhiguquan Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiguagua Tianjin Big Data Technology Co ltd, Beijing Zhiguquan Technology Service Co ltd filed Critical Zhiguagua Tianjin Big Data Technology Co ltd
Priority to CN202310919239.8A priority Critical patent/CN116629324B/zh
Publication of CN116629324A publication Critical patent/CN116629324A/zh
Application granted granted Critical
Publication of CN116629324B publication Critical patent/CN116629324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种面向模型生成文本重复退化现象的优化生成方法,其中采用了注意转换(朝向反射)机制及其与注意力机制组合形成的注意机制,并引入遗传算法,丰富输入文本多样性,与神经网络注意机制结合,兼顾了模型的理解能力和生成能力,弱化了生成文本重复退化现象;当发生概率最优欺骗时,使得生成模型在朝向反射机制引入文本新异性基础上,进行注意力切换,减弱生成重复等无意义文本序列的概率,达到干预模型生成文本重复退化现象的目的;模型损失函数作为适应度函数,实现压缩和生成模型训练成为一个整体,能够学习到压缩和生成模型训练的内在关系并进行利用,有利于产出全局最优压缩文本和生成模型。

Description

一种面向模型生成文本重复退化现象的优化生成方法
技术领域
本申请属于文献数据深加工技术领域,具体涉及一种面向模型生成文本重复退化现象的优化生成方法。
背景技术
专利深加工是针对专利文献特点利用文本生成技术获取高附加值的专利改写技术。目前,专利深加工主要包括名称深加工、摘要深加工、关键词标引、IPC分类等,所述专利摘要深加工即专利摘要改写,基于NLP和机器学习等AI技术训练模型进行摘要改写普遍存在生成文本重复退化现象,影响了专利摘要改写的效果,以至于文本重复退化现象受到了很多专家的关注。
Zhaopeng Tu等(Modeling Coverage for Neural Machine Translation,arXiv:1601.04811v6 [cs.CL] 6 Aug 2016)针对神经机器翻译中的过度翻译和欠额翻译提出基于覆盖的模型体系结构并用于神经机器翻译,通过覆盖向量跟踪过去源词被翻译的情况,减弱了过度翻译和欠额翻译的现象。
Abigail See等(Get To The Point: Summarization with Pointer-GeneratorNetworks,arXiv:1704.04368v2 [cs.CL] 25 Apr 2017 )使用覆盖跟踪被改写过程的注意力历史信息,达到减弱重复的效果。覆盖方法跟踪注意力历史信息观察源词被注意情况,通过修改原模型的损失函数实现在一定程度减弱重复退化现象的效果。
Ari Holtzman等(THE CURIOUS CASE OF NEURAL TEXT DeGENERATION,arXiv:1904.09751v2 [cs.CL] 14 Feb 2020 )提出一种核采样解码策略,通过截断概率分布的不可靠的长尾,从包含绝大多数的高概率样本中动态采样,来避免文本退化,核采样仅在解码策略维度给出优化,已被很多模型解码器应用。
目前,覆盖方法和核采样方法均在一定程度上减弱了重复退化现象,但未能彻底解决过度和欠额问题,仍需探索更简单有效的优化生成方法。
发明内容
针对现有的覆盖方法和核采样方法难以彻底解决过度和欠额问题的现状,本申请提供了一种面向模型生成文本重复退化现象的优化生成方法。
第一方面,一种面向模型生成文本重复退化现象的优化生成方法(模型应用阶段的运行过程),包括:
步骤1)输入待加工专利文献,预处理后利用标点切分得到若干片段,确保各片段在文献原文中次序不变;
步骤2)获取模型训练阶段计算的各样本的最大压缩长度,求取所有最大压缩长度/>的均值/>,作为模型应用阶段即生产环境针对待加工专利文献的所述若干片段的最大压缩长度;
步骤3)获取模型训练阶段确定的标签文本特征及权重;
步骤4)输入步骤1)得到的若干片段、步骤2)得到针对待加工专利文献的所述若干片段的最大压缩长度,以及步骤3)得到的标签文本特征及权重,通过运算获取变异文本、替换文本以及初始迭代文本;
步骤5)输入步骤4)得到的变异文本、替换文本以及初始迭代文本,固定当前所有神经网络模型参数,采用基于注意的遗传机制,迭代执行遗传算子,直到迭代次数达到要求或适应度满足设定条件终止迭代;所述基于注意的遗传机制,通过构建并训练注意转换矩阵参数,将注意转换机制与注意力机制组合引入遗传算法;
步骤6)从最后一代中取适应度最好的染色体,即作为最终压缩文本;
步骤7)将步骤6)得到的压缩文本输入训练好的生成模型,输出生成文本。
可选地,在模型训练阶段,计算各样本的最大压缩长度,具体计算方式如下:
其中,Llabel表示标签文本的字符个数;H0是汉字符号集的最大熵;是熵率,表示信源输出的符号序列平均每个符号所携带的信息量。
可选地,在模型训练阶段,确定所述标签文本特征及权重具体是:对于预处理后的标签文本,依据词频对数曲线、词的文档覆盖数和相关性获取到标签文本特征及权重,所述标签文本特征是词的集合,所述权重是依据词频和文档覆盖数计算得到。
可选地,步骤4)中通过运算获取变异文本、替换文本以及初始迭代文本,具体过程如下:
4.1)利用标签文本特征对步骤1)所述若干片段进行过滤,将不含标签文本特征的片段以原文次序拼接构建得到变异文本;
4.2)对含标签文本特征的片段,依片段权重由高到低排序;
4.3)根据权重排序顺序依次选取片段,直到选取的所有片段长度累加和达到最大压缩长度为止,依据选取的片段在待加工专利文献中的次序拼接构建得到初始迭代文本;
4.4)将含标签文本特征的未进入初始迭代文本的片段依据其在待加工专利文献中的次序拼接构建得到替换文本。
可选地,步骤5)中,所述注意转换机制由以下公式定义:
其中,是子代/>偏移z个字符后计算的适应度经全连接层形成的特征矩阵,维度/>,z是非零整数,/>是对每条染色体适应度值经过全连接层特征化后得到的适应度向量的维度;/>是模型需要学习的注意转换参数矩阵,维度/>;/>是新异性矩阵,维度/>,N是子代/>规模,D是隐藏层神经元的个数;/>是模型需要学习的维度调整参数矩阵,维度是/>,/>是对新异性矩阵/>调整维度后的矩阵,维度是N×N。
可选地,步骤5)中,所述将注意转换机制与注意力机制组合引入遗传算法,具体设计了采样算子、变异/替换算子、用于评估的适应度函数、父子代交叉选择算子;其中变异/替换算子表示变异的运算和替换的运算使用同一个算子。
可选地,步骤5)中,采用基于注意的遗传机制,迭代执行遗传算子,具体包括:
5.1)初始化压缩最大迭代次数max_iter,父代规模P,子代规模N;
5.2)复制初始迭代文本P份得到父代P个染色体,对父代P个染色体偏移z位得到父代命名为P',利用适应度函数对父代P个染色体和偏移z位的父代P'进行评估;
5.3)当前迭代次数 < max_iter时:
a)采样,对父代采样得到N个子代;
b)变异,利用变异文本对N个子代执行变异/替换算子;
c)替换,利用替换文本对N个子代执行变异/替换算子;
d)评估,N个子代偏移z位得到子代命名为N',利用适应度函数对N个子代和偏移z位子代N'进行评估;
e)选择,父子代适应度经全连接得到适应度矩阵,执行父子代交叉选择,选出新父代,规模P;
5.4)在最后一代,适应度最高染色体将作为最终压缩文本返回。
可选地,步骤5)中,利用模型损失函数设计适应度函数,公式定义如下:
其中,H(p,q)表示概率分布p和q的交叉熵;
p(x)表示真实概率分布的概率密度函数;
q(x)表示预测概率分布的概率密度函数。
第二方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特殊之处在于,所述处理器执行所述计算机程序时实现上述面向模型生成文本重复退化现象的优化生成方法的步骤。
第三方面,一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现上述面向模型生成文本重复退化现象的优化生成方法的步骤。
本申请至少具有以下有益效果:
本申请引入并改进遗传算法,遗传算法寻找全局最优解特点,可以提高获得全局最优生成文本的概率,丰富输入文本多样性,与神经网络注意机制结合,兼顾了模型的理解能力和生成能力,弱化了生成文本重复退化现象。
本申请提出注意转换机制(也称朝向反射机制),当发生概率最优欺骗时,使得生成模型在朝向反射机制引入文本新异性基础上,进行注意力切换,减弱生成重复等无意义文本序列的概率,达到干预模型生成文本重复退化现象的目的。
由于模型输入长度限制,需要压缩出合适文本再进行生成。因此,将神经网络注意机制和遗传机制整合,设计基于注意的遗传机制,模型损失函数作为适应度函数,实现压缩和生成模型训练成为一个整体,能够学习到压缩和生成模型训练的内在关系并进行利用,有利于产出全局最优压缩文本和生成模型。
附图说明
图1为现有技术的专利摘要改写中的发明点生成的示例;
图2为本实施例中的变异/替换算子原理示意图。
图3为本实施例中的父子代交叉选择算子原理示意图。
图4为本实施例中用于评估和训练的模型Block结构示意图。
图5为本实施例的压缩及模型训练流程示意图。
图6为本实施例应用训练好的模型加工专利文献的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
以专利摘要改写中的发明点生成为例,演示生成文本重复退化现象,如图1中加粗和下划线文字所示,现有技术的模型生成的“发明点”描述,出现了多次重复的“利用大面积钙化检测阈值”、“光谱仪”等。当然,现有技术出现类似以上生成文本重复退化现象不限于专利摘要改写中的发明点生成,同理,本申请的方案也不限于专利摘要改写中的发明点生成。
本实施例提供了一种面向模型生成文本重复退化现象的优化生成方法,其中采用了注意转换(朝向反射)机制及其与注意力机制组合形成的注意机制,并将其引入遗传机制。
一、注意转换(朝向反射)机制,及其与注意力机制组合形成的注意机制
神经网络序列到序列模型依据概率生成文本,但人类未必依据概率生成文本,这就导致发生概率最优欺骗情况。在概率最优欺骗情况下,生成模型如果未能及时进行注意力切换,依据概率可能会生成无意义文本序列,也可能一直关注着被重复文本,导致生成文本重复。生成无意义序列和重复退化现象说明神经网络序列到序列模型具有注意转换缺陷。因此,本申请提出注意转换机制,定义注意机制,优化神经网络序列到序列模型生成文本技术方案。
注意机制包括注意力机制和注意转换机制。其中,注意力机制指Ashish Vaswani等(Attention Is All You Need, arXiv:1706.03762v2 [cs.CL] 19 Jun 2017)提出的注意力机制。注意转换机制,也可称作朝向反射机制,是本申请基于朝向反射提出的用于干预生成文本重复退化现象的机制。
朝向反射是由情景的新异性引起的一种复杂而又特殊的反射,是由新异刺激物引起的,刺激物一旦失去新异性,或者说人习惯了这种刺激,朝向反射也就不会发生了。在朝向反射发生时出现的一系列身体变化,有助于提高动物感官的感受性,并能动员全身的能量资源以应付个体面临的活动任务,如趋向活动的目标、逃离威胁个体生存的情景等。
文本的新异性通过设计和训练注意转换(朝向反射)参数矩阵实现,注意转换机制由一组公式定义如下:
(1)
(2)
其中,是子代/>偏移z个字符后计算的适应度经全连接层形成的特征矩阵,维度/>,z是非零整数,/>是对每条染色体适应度值经过全连接层特征化后得到的适应度向量的维度;/>是模型需要学习的注意转换(朝向反射)参数矩阵,维度/>;/>是新异性矩阵,维度/>,N是子代/>规模,D是隐藏层神经元的个数;/>是模型需要学习的维度调整参数矩阵,维度是/>,/>是对新异性矩阵/>调整维度后的矩阵,维度是N×N。
本实施例对注意力机制中的查询,键,值分别进行公式化定义:
(3)
(4)
(5)
其中,FP是父代XP适应度特征矩阵,维度E×DF是模型需要学习的查询参数矩阵,维度DF×D,QP是父代XP查询矩阵,维度E×D,E是父代XP规模。
FC是子代XC适应度特征矩阵,维度N×DF是模型需要学习的键参数矩阵,维度DF×D,KC是子代XC键矩阵,维度N×D。
是模型需要学习的值参数矩阵,维度DF×D,VC是子代XC值矩阵,维度N×D。
注意转换机制与注意力机制组合形成本实施例的注意机制,公式定义如下:
(6)
其中,表示矩阵KC的转置,DK表示键向量的维度值,可以等于D,AS是本申请所述注意机制计算结果,维度E×D。
二、基于注意的遗传机制
神经网络序列到序列生成模型普遍存在生成文本重复退化现象表现出家族聚集性,说明神经网络序列到序列生成模型具有先天性基因缺陷导致的元认知缺陷,基于遗传机制弥补神经网络序列到序列生成模型的基因缺陷。本申请将注意机制和遗传机制进行结合,设计基于注意的遗传机制,包括:采样、变异/替换算子、用于评估的适应度函数、父子代交叉选择算子等。
a)采样
(7)
(8)
其中,分别表示父代及其适应度,/>维度E,
分别表示经Sample抽样得到的染色体群及其适应度,/>维度N。
在变异计算中是父代XP的变异率,在替换计算中是父代XP的替换率,维度E,
在变异计算中是Sample抽样得到的变异率,在替换计算中是Sample抽样得到的替换率,维度N。
b)变异/替换算子
经神经网络全连接层转换得到适应度特征矩阵/>,维度N×DF。/>经神经网络全连接层转换得到矩阵/>,维度/>。/>和/>经变异/替换算子计算得到/>
变异/替换算子如图2 所示,涉及两组公式,其中第一组公式定义如下:
(9)
(10)
(11)
(12)
(13)
其中,表示/>和/>拼接得到特征矩阵,维度/>,/>表示变异/替换算子中需要模型学习的参数矩阵,维度/>,KM表示变异/替换算子中注意机制的键参数矩阵,维度N×D。
表示变异/替换算子中需要模型学习的参数矩阵,维度/>表示变异/替换算子中注意机制的查询参数矩阵,维度N×D。
表示变异/替换算子中需要模型学习的参数矩阵,维度/>,VM表示变异/替换算子中注意机制的值参数矩阵,维度N×D。
表示变异/替换算子中需要模型学习的参数矩阵,维度/>,TM表示变异/替换算子中注意机制的朝向反射参数矩阵,维度N×D,
表示变异/替换算子中模型需要学习的维度调整参数矩阵,维度D×N,/>表示变异/替换算子中注意机制的维度调整后的朝向反射参数矩阵,维度N×N。
变异/替换算子的第二组公式定义如下:
(14)
(15)
(16)
其中,AM是变异/替换算子的注意矩阵,维度N×D;
是维度调整矩阵,维度D×1;
是变异/替换率的改变率;
表示对应元素相乘运算。
基于对父代Sample抽样得到的染色体、子代变异/替换率/>和变异/替换文本,设计子代XC染色体的获取公式,定义如下:
(17)
其中,是对父代XP经Sample抽样得到的染色体群。/>是/>和/>经变异/替换算子得到变异/替换率。/>在变异算子中表示利用变异文本对染色体执行随机局部变异操作,在替换算子中表示利用替换文本对染色体执行随机局部替换操作。text在执行变异算子时表示变异文本,在执行替换算子时表示替换文本。XC是子代染色体。
c)用于评估的适应度函数
利用模型损失函数设计适应度函数,公式定义如下:
(18)
其中,H(p,q)表示概率分布p和q的交叉熵;
p(x)表示真实概率分布的概率密度函数;
q(x)表示预测概率分布的概率密度函数。
d)父子代交叉选择算子
经变异和替换算子处理后,得到子代XC染色体,父子代染色体经适应度函数评估和全连接层转换得到父子代适应度矩阵,然后执行父子代交叉选择算子。图3所示父子代交叉选择算子涉及三组公式,第一组如公式(1)-(6)所示,第二组公式定义如下:
(19)
(20)
(21)
(22)
其中,是需要模型学习的查询选择参数矩阵,维度D×D。/>是查询选择矩阵,维度E×D。
是需要模型学习的键选择参数矩阵,维度DF×D,KS是键选择矩阵,维度N×D。
是需要模型学习的朝向反射选择参数矩阵,维度DF×D,TS是朝向反射选择矩阵,维度N×D。
是模型需要学习的维度调整权重矩阵参数,维度是D×N,/>是朝向反射选择矩阵调整维度后的矩阵,维度是N×N。
父子代交叉选择算子涉及的第三组公式定义如下:
(23)
其中,表示KS的转置。1E是由1构成的E维的列向量,表示父代XP的E个染色体不被子代替换,MS是选择矩阵,维度是/>
根据选择矩阵MS,得到子代与父代交叉选择情况。
三、模型结构
替换和变异基于如图2所示的变异/替换算子原理设计和代码实现。选择基于如图3所示的父子代交叉选择算子原理设计和代码实现。评估和训练用到的模型是在Transformer(转换器)架构模型,如T5或GPT等基础上,设计神经网络模型Block(块)结构。本实施例基于实验参考T5设计用于评估和训练的模型Block如图4所示,其中左侧所示的Encoder(编码器)端Block结构主要包括一个Multi-Head SelfAttention(多头自注意力)和两个Feed Forward(前馈神经网络),右侧所示的Decoder(解码器)端Block结构主要包括一个Multi-Head SelfAttention、一个Multi-Head CrossAttention(多头交叉注意力)、两个Feed Forward。“N×”表示N个这样的Block叠加。使用交叉熵计算模型损失函数。
四、压缩和模型训练的技术方案
压缩和模型训练的技术方案,输入包括:已标注专利文献和标签,输出包括压缩文本和生成模型。所述标签指对专利文献进行人工改写的生成文本,作为模型训练时的答案。技术方案处理流程,如图5所示,压缩及模型训练流程,包括:
步骤1,输入已标注专利文献和标签,对已标注专利文献预处理后利用标点切分得到若干片段,确保各片段在原文中次序不变,对标签进行清洗去噪等预处理。
步骤2,计算步骤1预处理后的标签长度Llabel,定义并使用公式(24)计算最大压缩长度
(24)
其中,Llabel表示标签文本的字符个数;H0是汉字符号集的最大熵,参考NLP业界权威值,约为13.288比特/汉字;是熵率,表示信源输出的符号序列(标签)平均每个符号所携带的信息量。
步骤3,输入步骤1预处理后的标签,依据词频对数曲线、词的文档覆盖数和相关性等获取到标签文本特征及权重,所述标签文本特征是词的集合,所述权重依据词频和文档覆盖数计算得到。
步骤4,输入步骤1得到的若干片段、预处理后标签和步骤2得到的最大压缩长度,还有步骤3得到的标签文本特征及权重,调用第一算法获取变异文本、替换文本、初始迭代文本(第一代染色体),第一算法如下:
Step1: 利用标签文本特征对步骤1所述若干片段进行过滤,将不含特征的片段,以原文次序拼接构建变异文本。
Step2: 对步骤1得到的含特征的片段,依片段权重由高到低排序。
Step3: 根据权重排序顺序依次选取片段,直到选取的所有片段长度累加和达到最大压缩长度(模型应用阶段调用该算法时使用/>)止,依据选取的片段在专利原始文本中的次序拼接构建初始迭代文本。
Step4: 将含特征的未进入初始迭代文本的片段依据其在专利原始文本中的次序拼接构建替换文本。
步骤5,输入步骤4得到的变异文本、替换文本、初始迭代文本(第一代染色体),固定当前所有神经网络模型参数迭代执行采样、变异、替换、评估、选择等遗传算子,直到迭代次数达到要求或适应度满足设定条件终止迭代。
步骤6,从最后一代中取适应度最好的染色体,就是压缩文本。
步骤7,基于得到压缩文本,迭代训练模型各项参数,直到迭代次数达到要求或模型损失满足设定条件终止迭代,继续步骤8;否则,迭代执行步骤5、6、7等。
步骤8,输出压缩文本和生成模型。
所述压缩和模型训练的技术方案中,
是模型训练过程学习优化的参数,表征了特定实例。第二算法给出基于注意机制的遗传算法,描述如下:
Step1:初始化压缩最大迭代次数max_iter,父代规模P,子代规模N。
Step2:复制初始迭代文本P份得到父代P个染色体,对父代P个染色体偏移z位得到父代命名为P',利用适应度函数对父代P个染色体和偏移z位的父代P'进行评估。
Step3:while 当前迭代次数 < max_iter:
Step31: 采样,对父代采样得到N个子代。
Step32: 变异,利用变异文本对N个子代执行变异/替换算子。
Step33: 替换,利用替换文本对N个子代执行变异/替换算子。
Step34: 评估,N个子代偏移z位得到子代命名为N',利用适应度函数对N个子代和偏移z位子代N'进行评估。
Step35: 选择,父子代适应度经全连接得到适应度矩阵,执行父子代交叉选择,选出新父代,规模P。
Step4:在最后一代,适应度最高染色体作为最终压缩文本返回。
第二算法的迭代还可以考虑适应度改变满足一定条件时终止。
五、压缩和模型应用的技术方案
压缩和模型应用的技术方案,输入包括:待加工专利文献,输出包括压缩文本和生成文本。如图6所示,压缩及模型的处理流程,包括:
步骤1,输入待加工专利文献,预处理后利用标点切分得到若干片段,确保各片段在文献原文中次序不变。
步骤2,采用训练阶段步骤2计算的所有最大压缩长度的均值,作为压缩和模型应用的技术方案的最大压缩长度。
步骤3,采用训练阶段步骤3得到的标签文本特征及权重。
步骤4,输入步骤1得到的若干片段、步骤2得到的压缩和模型应用的技术方案的最大压缩长度,还有步骤3得到的标签文本特征及权重,调用第一算法获取变异文本、替换文本、初始迭代文本(第一代染色体)。
步骤5,输入步骤4得到的变异文本、替换文本、初始迭代文本(第一代染色体),固定当前所有神经网络模型参数迭代执行采样、变异、替换、评估、选择等遗传算子,直到迭代次数达到要求或适应度满足设定条件终止迭代。本步骤所述评估是基于每次迭代产生的文本包含标签文本特征和遗传特征的权重累加和作为参考进行评估。所述遗传特征是对训练阶段得到压缩文本执行操作:依据词频对数曲线、词的文档覆盖数和相关性等获取特征及权重,所述特征是词的集合,所述权重依据词频和文档覆盖数计算得到。
步骤6,从最后一代中取适应度最好的染色体,就是压缩文本。
步骤7,压缩文本输入训练好的生成模型,输出压缩文本和生成文本。
本实施例提供的面向模型生成文本重复退化现象的优化生成方法,其中引入注意转换机制,如以上公式(1)、(2)所示,文本的新异性通过训练注意转换朝向反射矩阵参数实现。结合专利数据深加工场景定义注意力机制中的查询,键,值,如以上公式(3)、(4)、(5)所示;注意转换机制与注意力机制组合形成本实施例的注意机制,如公式(6)所示;进而基于注意的遗传机制,选用交叉熵设计模型损失函数,依据模型损失设计用于评估的适应度函数,定义如以上公式(18)所示;遗传算法描述的迭代运算主要包括采样、变异、替换、评估和选择等操作,迭代的终止条件还可以考虑适应度改变满足一定条件时终止迭代。基于注意机制的遗传算法中的变异和替换使用同一个算子:变异/替换算子,定义如以上公式(9)、(10)、(11)、(12)、(13)、(14)、(15)、(16)所示。父代经变异和替换算子处理后,依据公式(17)得到子代。基于注意机制的遗传算法中的选择操作通过父子代交叉选择算子实现,父子代交叉选择算子涉及三组公式,第一组如公式(1)(2)(3)(4)(5)(6)所示,第二组公式定义如(19)(20)(21)(22),第三组公式定义如(23)所示。
本实施例引入并改进遗传算法,遗传算法寻找全局最优解特点,可以提高获得全局最优生成文本的概率,丰富输入文本多样性,与神经网络注意机制结合,兼顾了模型的理解能力和生成能力,弱化了生成文本重复退化现象。
本申请提出注意转换机制(也称朝向反射机制),当发生概率最优欺骗时,使得生成模型在朝向反射机制引入文本新异性基础上,进行注意力切换,减弱生成重复等无意义文本序列的概率,达到干预模型生成文本重复退化现象的目的。
由于模型输入长度限制,需要压缩出合适文本再进行生成。因此,将神经网络注意机制和遗传机制整合,设计基于注意的遗传机制,模型损失函数作为适应度函数,实现压缩和生成模型训练成为一个整体,能够学习到压缩和生成模型训练的内在关系并进行利用,有利于产出全局最优压缩文本和生成模型。
在一个实施例中,还提供了一种计算机设备,该计算机设备可以是服务器,也可以是客户端设备,通过运行程序实现上述实施例方法中的全部或部分流程。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现上述实施例方法中的全部或部分流程。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种面向模型生成文本重复退化现象的优化生成方法,其特征在于,包括:
步骤1)输入待加工专利文献,预处理后利用标点切分得到若干片段,确保各片段在文献原文中次序不变;
步骤2)获取模型训练阶段计算的各样本的最大压缩长度,求取所有最大压缩长度/>的均值/>,作为模型应用阶段即生产环境针对待加工专利文献的所述若干片段的最大压缩长度;
步骤3)获取模型训练阶段确定的标签文本特征及权重;
步骤4)输入步骤1)得到的若干片段、步骤2)得到针对待加工专利文献的所述若干片段的最大压缩长度,以及步骤3)得到的标签文本特征及权重,通过运算获取变异文本、替换文本以及初始迭代文本;
步骤5)输入步骤4)得到的变异文本、替换文本以及初始迭代文本,固定当前所有神经网络模型参数,采用基于注意的遗传机制,迭代执行遗传算子,直到迭代次数达到要求或适应度满足设定条件终止迭代;所述基于注意的遗传机制,通过构建并训练注意转换矩阵参数,将注意转换机制与注意力机制组合引入遗传算法;
步骤6)从最后一代中取适应度最好的染色体,即作为最终压缩文本;
步骤7)将步骤6)得到的压缩文本输入训练好的生成模型,输出生成文本。
2.根据权利要求1所述的面向模型生成文本重复退化现象的优化生成方法,其特征在于,在模型训练阶段,计算各样本的最大压缩长度,具体计算方式如下:
其中,Llabel表示标签文本的字符个数;H0是汉字符号集的最大熵;/>是熵率,表示信源输出的符号序列平均每个符号所携带的信息量。
3.根据权利要求1所述的面向模型生成文本重复退化现象的优化生成方法,其特征在于,在模型训练阶段,确定所述标签文本特征及权重具体是:对于预处理后的标签文本,依据词频对数曲线、词的文档覆盖数和相关性获取到标签文本特征及权重,所述标签文本特征是词的集合,所述权重是依据词频和文档覆盖数计算得到。
4.根据权利要求1所述的面向模型生成文本重复退化现象的优化生成方法,其特征在于,步骤4)中通过运算获取变异文本、替换文本以及初始迭代文本,具体过程如下:
步骤4.1)利用标签文本特征对步骤1)所述若干片段进行过滤,将不含标签文本特征的片段以原文次序拼接构建得到变异文本;
步骤4.2)对含标签文本特征的片段,依片段权重由高到低排序;
步骤4.3)根据权重排序顺序依次选取片段,直到选取的所有片段长度累加和达到最大压缩长度为止,依据选取的片段在待加工专利文献中的次序拼接构建得到初始迭代文本;
步骤4.4)将含标签文本特征的未进入初始迭代文本的片段依据其在待加工专利文献中的次序拼接构建得到替换文本。
5.根据权利要求1所述的面向模型生成文本重复退化现象的优化生成方法,其特征在于,步骤5)中,所述注意转换机制由以下公式定义:
其中,/>是子代/>偏移z个字符后计算的适应度经全连接层形成的特征矩阵,维度/>,z是非零整数,/>是对每条染色体适应度值经过全连接层特征化后得到的适应度向量的维度;/>是模型需要学习的注意转换参数矩阵,维度;/>是新异性矩阵,维度/>,N是子代/>规模,D是隐藏层神经元的个数;是模型需要学习的维度调整参数矩阵,维度是/>,/>是对新异性矩阵调整维度后的矩阵,维度是N×N。
6.根据权利要求5所述的面向模型生成文本重复退化现象的优化生成方法,其特征在于,步骤5)中,所述将注意转换机制与注意力机制组合引入遗传算法,具体设计了采样算子、变异/替换算子、用于评估的适应度函数、父子代交叉选择算子;其中变异/替换算子表示变异的运算和替换的运算使用同一个算子。
7.根据权利要求6所述的面向模型生成文本重复退化现象的优化生成方法,其特征在于,步骤5)中,采用基于注意的遗传机制,迭代执行遗传算子,具体包括:
步骤5.1)初始化压缩最大迭代次数max_iter,父代规模P,子代规模N;
步骤5.2)复制初始迭代文本P份得到父代P个染色体,对父代P个染色体偏移z位得到父代命名为P',利用适应度函数对父代P个染色体和偏移z位的父代P'进行评估;
步骤5.3)当前迭代次数 < max_iter时:
a)采样,对父代采样得到N个子代;
b)变异,利用变异文本对N个子代执行变异/替换算子;
c)替换,利用替换文本对N个子代执行变异/替换算子;
d)评估,N个子代偏移z位得到子代命名为N',利用适应度函数对N个子代和偏移z位子代N'进行评估;
e)选择,父子代适应度经全连接得到适应度矩阵,执行父子代交叉选择,选出新父代,规模P;
步骤5.4)在最后一代,适应度最高染色体将作为最终压缩文本返回。
8.根据权利要求6所述的面向模型生成文本重复退化现象的优化生成方法,其特征在于,步骤5)中,利用模型损失函数设计适应度函数,公式定义如下:
其中,H(p,q)表示概率分布p和q的交叉熵;p(x)表示真实概率分布的概率密度函数;q(x)表示预测概率分布的概率密度函数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述面向模型生成文本重复退化现象的优化生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述面向模型生成文本重复退化现象的优化生成方法的步骤。
CN202310919239.8A 2023-07-26 2023-07-26 一种面向模型生成文本重复退化现象的优化生成方法 Active CN116629324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310919239.8A CN116629324B (zh) 2023-07-26 2023-07-26 一种面向模型生成文本重复退化现象的优化生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310919239.8A CN116629324B (zh) 2023-07-26 2023-07-26 一种面向模型生成文本重复退化现象的优化生成方法

Publications (2)

Publication Number Publication Date
CN116629324A true CN116629324A (zh) 2023-08-22
CN116629324B CN116629324B (zh) 2023-10-03

Family

ID=87613888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310919239.8A Active CN116629324B (zh) 2023-07-26 2023-07-26 一种面向模型生成文本重复退化现象的优化生成方法

Country Status (1)

Country Link
CN (1) CN116629324B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690178A (zh) * 2024-01-31 2024-03-12 江西科技学院 一种基于计算机视觉的人脸图像识别方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN114357154A (zh) * 2021-11-26 2022-04-15 上海师范大学 一种基于双编码指针混合网络的中文摘要生成方法
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
CN115952291A (zh) * 2023-03-14 2023-04-11 山东大学 基于多头自注意力及lstm的金融舆情分类方法及系统
US20230154222A1 (en) * 2021-11-15 2023-05-18 Accenture Global Solutions Limited Artificial intelligence (ai) based document processing and validation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
US20230154222A1 (en) * 2021-11-15 2023-05-18 Accenture Global Solutions Limited Artificial intelligence (ai) based document processing and validation
CN114357154A (zh) * 2021-11-26 2022-04-15 上海师范大学 一种基于双编码指针混合网络的中文摘要生成方法
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
CN115952291A (zh) * 2023-03-14 2023-04-11 山东大学 基于多头自注意力及lstm的金融舆情分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690178A (zh) * 2024-01-31 2024-03-12 江西科技学院 一种基于计算机视觉的人脸图像识别方法与系统
CN117690178B (zh) * 2024-01-31 2024-04-05 江西科技学院 一种基于计算机视觉的人脸图像识别方法与系统

Also Published As

Publication number Publication date
CN116629324B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
TWI846942B (zh) 用以針對目標性質生成結構的機器學習系統以及方法
CN110134782B (zh) 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN109165720A (zh) 神经网络模型压缩方法、装置和计算机设备
CN116629324B (zh) 一种面向模型生成文本重复退化现象的优化生成方法
CN111563160B (zh) 基于全局语义的文本自动摘要方法、装置、介质及设备
US8019593B2 (en) Method and apparatus for generating features through logical and functional operations
CN111476038A (zh) 长文本生成方法、装置、计算机设备和存储介质
JP7186591B2 (ja) テキスト分類装置、学習装置、およびプログラム
CN107579816A (zh) 基于递归神经网络的密码字典生成方法
CN109086463B (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
Huai et al. Zerobn: Learning compact neural networks for latency-critical edge systems
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
Irissappane et al. Leveraging GPT-2 for classifying spam reviews with limited labeled data via adversarial training
CN114626529A (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN118210706A (zh) 一种基于深度学习的测试用例过滤方法和装置
CN116662901A (zh) 一种基于深度强化学习的图结构学习算法
CN114925658B (zh) 开放性文本生成方法以及存储介质
CN115495578A (zh) 基于最大熵损失的文本预训练模型后门消除方法、系统及介质
Mozes et al. Speeding up HMM decoding and training by exploiting sequence repetitions
CN115409078A (zh) 一种基于集成重建机制的对抗样本攻击的防御方法
Luo et al. Content-adaptive adversarial embedding for image steganography using deep reinforcement learning
CN111666772A (zh) 一种基于深度图神经网络的关键词抽取方法
Shem-Tov et al. Deep Neural Crossover
Kang et al. Graph Attention Based Variational Adversarial Graph Generation Method
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Zhiguagua Technology Co.,Ltd.

Patentee after: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguquan Technology Service Co.,Ltd.

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Patentee after: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguagua Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240517

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

TR01 Transfer of patent right