CN113254604A - 一种基于参考规范的专业文本生成方法及装置 - Google Patents
一种基于参考规范的专业文本生成方法及装置 Download PDFInfo
- Publication number
- CN113254604A CN113254604A CN202110798010.4A CN202110798010A CN113254604A CN 113254604 A CN113254604 A CN 113254604A CN 202110798010 A CN202110798010 A CN 202110798010A CN 113254604 A CN113254604 A CN 113254604A
- Authority
- CN
- China
- Prior art keywords
- text
- generator
- generated
- professional
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
一种基于参考规范的专业文本生成方法,采用k个生成器,分别负责生成一种知识点匹配程度的专业文本,各生成器均为结合注意力机制的自编码器结构,包括编码器和解码器两部分。在训练过程中,生成器每次生成一个词语,n次迭代后生成完整的文本,对不完整的文本需要进行文本补全。本发明还采用两个判别器从多个角度评价生成文本,其中连贯性判别器用于评价生成文本的语言规范和鼓励文本多样性,专业性判别器用于评价生成文本与参考规范的语义相关性和知识点匹配性,通过两个判别器得到一个综合评分,并将其返回给生成器,生成器通过这个综合评分来更新相应的参数,以使生成文本获得更高的综合评分,从而训练获得一种专业文本生成方法及装置。
Description
技术领域
本发明公开一种基于参考规范的专业文本生成方法及装置,属于自然语言处理的技术领域。
背景技术
文本自动生成任务是指面向特定目标,对输入的数据进行加工处理,自动生成一段满足条件的文本,具有广泛的应用场景,如新闻生成、作文生成等。一些场景中需要对生成文本进行语义控制,如生成不同情绪类别的诗歌。在基于参考规范的专业文本生成场景中,参考规范是对知识点的相关描述,不同参考规范描述不同知识点的相关内容,用于指导生成文本满足与参考规范的语义相关性和知识点匹配性,知识点的匹配程度有多种,如完全正确描述了知识点,或是与知识点矛盾。在特定匹配程度下,生成的专业文本和真实的专业文本在知识点描述上的相似性即为知识点匹配性。基于参考规范的专业文本生成有重要的应用价值,例如在自动文本评阅系统中,通过一个评阅模型来对文本进行打分,而训练模型过程需要大量标注样本,在实际场景中难以满足,可以使用基于参考规范的专业文本生成技术产生标注样本,辅助训练评阅模型。这种应用在其他类似的监督学习任务中同样适用,本发明探索面向自然语言文本处理的知识空间预训练模型,具有重要的理论价值。
可控文本生成技术是自然语言处理领域的研究热点,随着深度学习技术的不断进展,前沿工作主要采用深度网络模型,在控制生成文本语义方面分两种形式,一种为控制生成文本的属性类别,如生成不同情感的文本;另一种为控制生成文本与指导性文本的语义相关性,如根据标题生成新闻;但这些控制方法主要针对生成文本的语言连贯性和与指导性文本的语义相关性,没有从逻辑层面评价与参考文本的专业知识匹配程度,因此不能对知识点匹配程度进行约束,无法满足本发明场景要求的文本。
本发明针对给定的参考规范,设计专业文本生成方法及装置,用于指导生成文本满足与参考规范的语义相关性和知识点匹配性,生成的专业文本需同时具备语言连贯性和文本形式多样性。
发明内容
发明概述
针对现有技术的问题,本发明公开了一种基于参考规范的专业文本生成方法。
本发明还公开一种针对上述专业文本生成方法的对抗训练方法。
本发明还公开一种实现基于参考规范的专业文本生成方法的装置。
本发明采用k个生成器,分别负责生成一种知识点匹配程度的专业文本,各生成器均为结合注意力机制的自编码器结构,包括编码器和解码器两部分。在训练过程中,生成器每次生成一个词语,n次迭代后生成完整的文本;本发明采用两个判别器从多个角度评价生成文本,其中连贯性判别器用于评价生成文本的语言规范性和鼓励文本多样性,专业性判别器用于评价生成文本与参考规范的语义相关性和知识点匹配性,通过两个判别器反馈,得到一个综合评分,并将其返回给生成器,生成器通过此综合评分来更新模型参数;在生成文本每一步评价过程中,对不完整文本需要进行文本补全后送判别器进行评价;模型训练目标为使生成文本获得更高综合评分,从而获得一种专业文本生成方法及装置。
技术术语解释
知识点:特指教科书上或考试题中涉及的一个特定知识规则。例如,“名义股东在未经实际持股人同意投资而造成损失,并被实际持股人要求赔偿的情况下,有责任赔偿”是一个知识点。
参考规范:在本发明中指对特定的一个或多个专业知识点的相关规则、问题或案例描述文本。
专业文本:在本发明中指与参考规范语义相关,且与知识点具有特定类型的匹配程度的文本。
语义相关性:在本发明中指生成文本的描述内容和参考规范的描述内容的主题相关性。
知识点匹配程度:在本发明中是指专业文本与参考规范中描述的各知识点匹配正确或错误的情况。知识点匹配程度被划分为多个种类,令种类数为k,则真实专业文本和生成的专业文本均包含k个种类。
知识点匹配性:是指生成的专业文本同真实的专业文本在知识点匹配程度方面的一致性。
本发明的技术方案如下:
一种基于参考规范的专业文本生成方法,其特征在于,包括:
1)对输入的参考规范文本,利用生成器进行处理,输出已生成文本;
2)对已生成文本进行补全后,输入至判别器模块,经判别后得到综合评分;其中所述判别器模块包括连贯性判别器和专业性判别器:
所述连贯性判别器的输入为已生成的部分文本,简称PartT,用于评价生成文本的语言规范,其中PartT是指生成器迭代生成文本过程中某一时刻已经生成的不完整文本;
所述专业性判别器的输入为参考规范文本和将PartT补全后文本,后者简称PartTA,用于评价生成文本PartTA与参考规范的语义相关性和知识点匹配性;
3)利用综合评分对所述生成器进行训练。
根据本发明优选的,所述方法还包括:
利用上述步骤1)-3)所述方法训练完成得到的生成器,在使用时,直接对输入的参考规范文本进行处理以生成专业文本。
根据本发明优选的,所述生成器、连贯性判别器和专业性判别器均为神经网络,其参数是指网络结构中的各个参数,所述步骤1)中包括k个生成器,其中,每个生成器包括编码器和解码器,生成器的个数和知识点匹配程度的种类数k相同;
其中,r为参考规范文本的长度;
本技术特征的技术优点在于:采用注意力机制可以更有针对性地整合参考规范的信息,一方面使生成文本反映参考规范的内容,另一方面,在生成文本的不同时间步,对参考规范的关注点又有差异。
根据本发明优选的,所述连贯性判别器的工作流程,包括:
2-3)对连贯性进行评价,同时鼓励文本多样性,故采用如下动态阈值方式:
本技术特征的优势在于:使得评分能够真实反映出文本连贯性的同时,增加生成文本的多样性。生成器为了获取更高的综合评分,会倾向于生成连贯性高的词语,当大于等于时,连贯性得分均相同,使得在连贯性评价指标上生成器生成这些词语的收益相近,通过这种方式使得概率较高的词语获得合适的综合评分,即适当而不是过高评分,一定程度上提升了生成文本的多样性。使用可以对进行一定程度的缩小,使得连贯性和相近的词语也能够获得合理的综合评分。
根据本发明优选的,所述连贯性判别器对应的预训练语言模型为RoBERTa Tiny。
根据本发明优选的,所述专业性判别器的工作流程,包括:
2-4)将所述生成文本按照与参考规范的关系,分为相关和不相关两大类;根据知识点匹配程度的不同,将与参考规范相关的文本分为相应的匹配种类,令知识点匹配程度的种类数为k;
2-5)仅能对完整的文本进行评价,因此需要先将生成的不完整文本补全:经过补全后的文本记为L,文本补全过程为将生成的不完整文本输入到步骤1)所述生成器中,再依次生成下一个词语,直到达到最大生成文本长度,最大生成文本长度可以根据实际需求设置;
其中,第1至k类分别表示L与参考规范相关且属于相应的知识点匹配种类的概率;第k+1类表示L与参考规范不相关的概率;
根据本发明优选的,为了使专业性判别器对生成文本的评分更加准确,对进行M次的文本补全,专业性判别器对所有补全文本评分的均值,即为的最终评分,记为;当的长度为生成文本的最大长度时不需要进行补全,即为最终评分:
其中,search表示生成器的一次补全操作,l为生成文本的最大长度;
一种针对上述专业文本生成方法的对抗训练方法,其特征在于,包括:
本发明专业文本生成方法包括预训练和对抗训练两个阶段,通过预训练来使得对抗训练时生成器能够更快地收敛,并一定程度上缓解梯度消失问题;
基于对抗架构的专业文本生成模型,即Professional Text GenerativeAdversarial Networks,简称PT-GAN;预训练PT-GAN时,需要分别预训练各个生成器和专业性判别器,并对连贯性判别器进行微调;
预训练每个生成器时,先使用各个种类的文本汇总后的数据集进行训练,然后再分别用各个种类的文本训练对应的生成器,将训练集中的真实专业文本按照文本序列预测方式使用,即转换为一段文本以及其下一个词语的形式,分别记为x和y。具体过程为:先取文本中的一段文本x,以y表示x的下一个词语;并将y转换为词汇表字典的独热one-hot形式;将x和其对应的参考规范文本作为生成器的输入,y作为参考值,并通过最大似然估计来计算损失进行训练;训练集包含多条参考规范,每条参考规范对应多个知识点匹配种类的文本。对每个生成器,先使用各个种类的文本汇总后的数据集进行训练,然后再使用对应种类的文本进行训练;预训练生成器的流程图如附图1所示;
所述对连贯性判别器进行微调:先加载预训练语言模型LM的权重,该权重通过在百度百科、新浪新闻等组成的大型语料库上训练得到;然后将各个种类的专业文本汇总作为微调训练集,数据的处理方式和预训练生成器的文本序列处理方式相同,然后以较小的学习率进行训练;微调的流程图如附图2所示;微调过程中,“较小的学习率”通常指初始学习率为从头开始训练的初始学习率的1/10。从头开始训练的初始学习率根据优化器的选择不同而不同,在许多优化器中提供了默认的初始学习率,属于本领域技术人员所熟知的技术内容;
在对抗训练PT-GAN时,先使用预训练保存的模型权重进行初始化,然后对生成器和进行迭代训练;训练生成器时,先让生成器生成文本,经过补全后通过连贯性判别器和专业性判别器获得综合评分,生成器根据所述综合评分来计算损失更新自身的参数,此时、保持不变;训练时,和对进行预训练的方式相同,此时生成器和保持不变。
一种实现基于参考规范的专业文本生成方法的装置,其特征在于,包括生成器和判别器模块;
所述生成器用于:对输入的参考规范文本进行处理,输出已生成文本;
所述判别器模块包括连贯性判别器和专业性判别器;所述连贯性判别器的输入为已经生成的部分文本,用于评价生成文本的语言规范;所述专业性判别器的输入为参考规范和补全后的文本,用于评价生成文本与参考规范的语义相关性和知识点匹配性。
根据本发明优选的,所述生成器为k个生成器,每个所述生成器分别负责生成一种知识点匹配程度的专业文本;每个所述生成器均为结合注意力机制的自编码器结构,包括编码器和解码器。
根据本发明优选的,所述生成器每次生成一个词语,n次迭代后生成完整的文本,对不完整的文本进行文本补全。“n次迭代”中的“n次”即指生成完整文本所需要的迭代次数,由于不同的句子词语的数量不同,因此需要的迭代次数也不相同,n是自然数。
本发明的优势在于:
(1)本发明提出了基于参考规范的条件生成器结构。采用多个独立的生成器,分别生成不同知识点匹配种类的文本,并且在生成文本的每一步进行评价和反馈,指导专业文本生成过程,本技术能够使生成器更好地获得参考规范包含的知识点语义。每个生成器均为自编码器结构,包括编码器和解码器。将已知的参考规范作为输入,生成的专业文本作为输出。在生成器中先对参考规范进行编码,然后使用注意力机制得到当前时刻对参考规范中的各个词语的不同关注程度,融合已经生成的部分文本的特征信息,指导生成下一个词语;在相同参考规范下,生成不同知识点匹配种类的文本时,不同生成器对参考规范的关注点不同,而各个生成器中的编码器提取得到的特征也不同;这种信息融合方式,能够有针对性地提取对当前时刻更重要的信息,从而有效地指导文本生成过程,更利于生成符合相应知识点匹配种类的文本。
(2)本发明提出多角度评价生成文本的方式,能够更好地指导生成文本满足语言学和专业知识点要求。采用多判别器相结合的方式,对生成文本同时进行连贯性、与参考规范的语义相关性以及知识点匹配性的约束。连贯性判别器为一个语言模型,用于对生成文本的语言规范进行评价,通过本发明阈值设定方法,鼓励生成多样性文本。专业性判别器为一个多分类器,用于对生成文本与参考规范的语义相关性和知识点匹配性进行评价。然后将判别器的分析结果进行汇总,得到一个综合的评价,这样就能使得生成器得到的反馈值包含更多的信息。同时,本技术对于文本生成过程进行评价,针对生成过程的每一个词汇通过多个补全文本,从不同角度对生成的部分文本进行分析。这种评价方式相较于传统的生成完整文本评价方式或是单一判别器方式,能够使生成器更好地学习到专业知识和语言学知识,生成更高质量的符合要求的专业文本。
附图说明
图1是本发明所述生成器的预训练流程图;
图2是本发明所述连贯性判别器的微调过程流程图;
图3是本发明所述针对基于参考规范的专业文本生成方法的对抗训练方法构架图;
图4是本发明所述基于参考规范的专业文本生成方法中的生成器经过训练后生成专业文本时的构架图。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
如附图3所示,一种基于参考规范的专业文本生成方法,包括:
1)对输入的参考规范文本,利用生成器进行处理,输出已生成文本;
2)对已生成文本进行补全后,输入至判别器模块,经判别后得到综合评分;其中所述判别器模块包括连贯性判别器和专业性判别器:
所述连贯性判别器的输入为已生成的部分文本,简称PartT,用于评价生成文本的语言规范,其中PartT是指生成器迭代生成文本过程中某一时刻已经生成的不完整文本;
所述专业性判别器的输入为参考规范文本和将PartT补全后文本,后者简称PartTA,用于评价生成文本PartTA与参考规范的语义相关性和知识点匹配性;
3)利用综合评分对所述生成器进行训练。
所述生成器、连贯性判别器和专业性判别器均为神经网络,其参数是指网络结构中的各个参数,所述步骤1)中包括k个生成器,其中,每个生成器包括编码器和解码器,生成器的个数和知识点匹配程度的种类数k相同;
其中,r为参考规范文本的长度;
所述解码器根据参考规范文本的特征信息生成文本:使用单向循环神经网络,本实施例优选LSTM作为解码器,使用注意力机制将参考规范文本R的特征信息融合到LSTM生成文本过程,为解码器第t个时间步的隐藏状态:
所述连贯性判别器的工作流程,包括:
2-3)对连贯性进行评价,同时鼓励文本多样性,故采用如下动态阈值方式:
所述连贯性判别器对应的预训练语言模型为RoBERTa Tiny。
所述专业性判别器的工作流程,包括:
2-4)将所述生成文本按照与参考规范的关系,分为相关和不相关两大类;根据知识点匹配程度的不同,将与参考规范相关的文本分为相应的匹配种类,令知识点匹配程度的种类数为k;
2-5)仅能对完整的文本进行评价,因此需要先将生成的不完整文本补全:经过补全后的文本记为L,文本补全过程为将生成的不完整文本输入到步骤1)所述生成器中,再依次生成下一个词语,直到达到最大生成文本长度,最大生成文本长度可以根据实际需求设置;
其中,第1至k类分别表示L与参考规范相关且属于相应的知识点匹配种类的概率;第k+1类表示L与参考规范不相关的概率;
实施例2、
其中,search表示生成器的一次补全操作,l为生成文本的最大长度;
实施例3、
一种针对实施例1、2所述专业文本生成方法的对抗训练方法,包括:
基于对抗架构的专业文本生成模型,即Professional Text GenerativeAdversarial Networks,简称PT-GAN。预训练PT-GAN时,需要分别预训练各个生成器和专业性判别器,并对连贯性判别器进行微调;
预训练每个生成器时,先使用各个种类的文本汇总后的数据集进行训练,然后再分别用各个种类的文本训练对应的生成器,将训练集中的真实专业文本按照文本序列预测方式使用,即转换为一段文本以及其下一个词语的形式,分别记为x和y。具体过程为:先取文本中的一段文本x,以y表示x的下一个词语;并将y转换为词汇表字典的独热one-hot形式;将x和其对应的参考规范文本作为生成器的输入,y作为参考值,并通过最大似然估计来计算损失进行训练;训练集包含多条参考规范,每条参考规范对应多个知识点匹配种类的文本。对每个生成器,先使用各个种类的文本汇总后的数据集进行训练,然后再使用对应种类的文本进行训练;预训练生成器的流程图如附图1所示;
所述对连贯性判别器进行微调:先加载预训练语言模型LM的权重,该权重通过在百度百科、新浪新闻等组成的大型语料库上训练得到;然后将各个种类的专业文本汇总作为微调训练集,数据的处理方式和预训练生成器的文本序列处理方式相同,然后以较小的学习率进行训练;微调的流程图如附图2所示;
在对抗训练PT-GAN时,先使用预训练保存的模型权重进行初始化,然后对生成器和进行迭代训练;训练生成器时,先让生成器生成文本,经过补全后通过连贯性判别器和专业性判别器获得综合评分,生成器根据所述综合评分来计算损失更新自身的参数,此时、保持不变;训练时,和对进行预训练的方式相同,此时生成器和保持不变。
实施例4、
一种实现基于参考规范的专业文本生成方法的装置,包括生成器和判别器模块;
所述生成器用于:对输入的参考规范文本进行处理,输出已生成文本;
所述判别器模块包括连贯性判别器和专业性判别器;所述连贯性判别器的输入为已经生成的部分文本,用于评价生成文本的语言规范;所述专业性判别器的输入为参考规范和补全后的文本,用于评价生成文本与参考规范的语义相关性和知识点匹配性。
所述生成器为k个生成器,每个所述生成器分别负责生成一种知识点匹配程度的专业文本;每个所述生成器均为结合注意力机制的自编码器结构,包括编码器和解码器。
所述生成器每次生成一个词语,n次迭代后生成完整的文本,对不完整的文本进行文本补全。
实施例5、
利用实施例1-4进行处理的方法,包括:
利用上述步骤1)-3)所述方法训练完成得到的生成器,在使用时,直接对输入的参考规范文本进行处理以生成专业文本。
应用例1、
将本发明应用到具体场景1,具体如下:
其中,数据集包含多条参考规范文本,每条参考规范文本对应若干的专业文本;参考规范均包含两个知识点,专业文本根据知识点匹配程度的不同被分为三类,分别记为种类1、种类2和种类3,知识点匹配程度的种类数k为3,生成器的个数和知识点匹配程度的种类数k相同,因此生成器的个数也为3。
种类1对应知识点1错误而知识点2正确以及两个知识点都错误的情况;
种类2对应知识点1正确而知识点2错误的情况;
种类3对应知识点1和知识点2都正确的情况。
如附图3所示,结合对抗训练,所述3个生成器的训练过程为:
将参考规范文本输入到各个生成器中,第i个生成器的计算过程为:
对抗训练中,两个判别器的训练过程为:
连贯性判别器保持不变,不参加对抗训练。
向专业性判别器中输入参考规范文本R和经过补全后的完整文本,得到预测的概率向量,通过交叉熵计算损失来更新自身参数。
使用生成器生成专业文本的过程如附图4所示:
第1个知识点的正确回答为“不能”,错误回答为“能”;
第2个知识点的正确回答为“没有得到其他股东半数以上同意”,其他意义的回答均为错误。
将所述R输入到各个生成器中,第1个生成器生成若干与R语义相关的种类1的专业文本,第2个生成器生成若干与R语义相关的种类2的专业文本,第3个生成器生成若干与R语义相关的种类3的专业文本,生成的专业文本样例如表1所示:
表1 生成文本样例
应用例2、
将本发明应用到具体场景2,具体如下:
数据集包含多条参考规范,每条参考规范对应若干的专业文本。参考规范均包含两个知识点,专业文本根据知识点匹配程度的不同被分为三类,分别记为种类1、种类2和种类3,知识点匹配程度的种类数k为3,生成器的个数和知识点匹配程度的种类数k相同,因此生成器的个数也为3。
种类1对应知识点1错误而知识点2正确以及两个知识点都错误的情况;
种类2对应知识点1正确而知识点2错误的情况;
种类3对应知识点1和知识点2都正确的情况。
如附图3所示,结合对抗训练,所述3个生成器的训练过程为:
将参考规范输入到各个生成器中,第i个生成器的计算过程为:
对输入的参考规范根据公式(1)-(9)计算,得到生成的不完整文本
对抗训练中,两个判别器的训练过程为:
连贯性判别器保持不变,不参加对抗训练。
向专业性判别器中输入参考规范R和经过补全后的完整文本,得到预测的概率向量,通过交叉熵计算损失来更新自身参数。
使用生成器生成专业文本的过程如附图4所示:
第1个知识点的正确回答为“无权”,错误回答为“有权”;
第2个知识点的正确回答为“名义出资股东应当承担补充赔偿责任”,其他意义的回答均为错误。
将所述R输入到各个生成器中,第1个生成器生成若干与R语义相关的种类1的专业文本,第2个生成器生成若干与R语义相关的种类2的专业文本,第3个生成器生成若干与R语义相关的种类3的专业文本,生成的专业文本样例如表2所示。生成器生成文本时从开始迭代生成下一个词语,直到生成完整的文本或达到最大生成文本长度,其中最大生成文本长度可设置,如表2所示:
表2 生成文本样例
Claims (8)
1.一种基于参考规范的专业文本生成方法,其特征在于,包括:
1)对输入的参考规范文本,利用生成器进行处理,输出已生成文本;
2)对已生成文本进行补全后,输入至判别器模块,经判别后得到综合评分;其中所述判别器模块包括连贯性判别器和专业性判别器:
所述连贯性判别器的输入为已生成的部分文本,简称PartT,用于评价生成文本的语言规范,其中PartT是指生成器迭代生成文本过程中某一时刻已经生成的不完整文本;
所述专业性判别器的输入为参考规范文本和将PartT补全后文本,后者简称PartTA,用于评价生成文本PartTA与参考规范的语义相关性和知识点匹配性;
3)利用综合评分对所述生成器进行训练;
所述生成器、连贯性判别器和专业性判别器均为神经网络,所述步骤1)中包括k个生成器,其中,每个生成器包括编码器和解码器,生成器的个数和知识点匹配程度的种类数k相同;
其中,r为参考规范文本的长度;
所述连贯性判别器的工作流程,包括:
2-3)对连贯性进行评价,同时鼓励文本多样性,故采用如下动态阈值方式:
所述专业性判别器的工作流程,包括:
2-4)将所述生成文本按照与参考规范的关系,分为相关和不相关两大类;根据知识点匹配程度的不同,将与参考规范相关的文本分为相应的匹配种类,令知识点匹配程度的种类数为k;
2-5)仅能对完整的文本进行评价,因此需要先将生成的不完整文本补全:经过补全后的文本记为L,文本补全过程为将生成的不完整文本输入到步骤1)所述生成器中,再依次生成下一个词语,直到达到最大生成文本长度;
其中,第1至k类分别表示L与参考规范相关且属于相应的知识点匹配种类的概率;第k+1类表示L与参考规范不相关的概率;
2.根据权利要求1所述的一种基于参考规范的专业文本生成方法,其特征在于,所述方法还包括:利用上述步骤1)-3)所述方法训练完成得到的生成器,在使用时,直接对输入的参考规范文本进行处理以生成专业文本。
5.根据权利要求4所述的一种基于参考规范的专业文本生成方法,其特征在于,所述方法还包括对抗训练方法:
基于对抗架构的专业文本生成模型,即Professional Text Generative AdversarialNetworks,简称PT-GAN;预训练PT-GAN时,需要分别预训练各个生成器和专业性判别器,并对连贯性判别器进行微调;
6.根据权利要求1所述的一种基于参考规范的专业文本生成方法,其特征在于,所述步骤2-3)所述连贯性判别器对应的预训练语言模型为RoBERTa Tiny。
7.一种实现基于参考规范的专业文本生成方法的装置,其特征在于,包括生成器和判别器模块;
所述生成器用于:对输入的参考规范文本进行处理,输出已生成文本;
所述判别器模块包括连贯性判别器和专业性判别器;所述连贯性判别器的输入为已经生成的部分文本,用于评价生成文本的语言规范;所述专业性判别器的输入为参考规范和补全后的文本,用于评价生成文本与参考规范的语义相关性和知识点匹配性;
所述生成器为k个生成器,每个所述生成器分别负责生成一种知识点匹配程度的专业文本;每个所述生成器均为结合注意力机制的自编码器结构,包括编码器和解码器。
8.根据权利要求7所述的一种实现基于参考规范的专业文本生成方法的装置,其特征在于,所述生成器每次生成一个词语,n次迭代后生成完整的文本,对不完整的文本进行文本补全。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798010.4A CN113254604B (zh) | 2021-07-15 | 2021-07-15 | 一种基于参考规范的专业文本生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798010.4A CN113254604B (zh) | 2021-07-15 | 2021-07-15 | 一种基于参考规范的专业文本生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254604A true CN113254604A (zh) | 2021-08-13 |
CN113254604B CN113254604B (zh) | 2021-10-01 |
Family
ID=77191259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110798010.4A Active CN113254604B (zh) | 2021-07-15 | 2021-07-15 | 一种基于参考规范的专业文本生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254604B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988027A (zh) * | 2021-09-23 | 2022-01-28 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、装置、设备及存储介质 |
CN116432605A (zh) * | 2023-06-14 | 2023-07-14 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
CN116432663A (zh) * | 2023-06-12 | 2023-07-14 | 山东山大鸥玛软件股份有限公司 | 基于要素简图的可控多样性专业文本生成方法及系统 |
WO2023159762A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024329B1 (en) * | 2006-06-01 | 2011-09-20 | Monster Worldwide, Inc. | Using inverted indexes for contextual personalized information retrieval |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
CN104820724A (zh) * | 2015-05-29 | 2015-08-05 | 蓝舰信息科技南京有限公司 | 文本类教育资源知识点预测模型获得方法及模型应用方法 |
CN107423282A (zh) * | 2017-05-24 | 2017-12-01 | 南京大学 | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 |
CN110019421A (zh) * | 2018-07-27 | 2019-07-16 | 山东大学 | 一种基于数据特征片段的时间序列数据分类方法 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
CN113032559A (zh) * | 2021-03-15 | 2021-06-25 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
-
2021
- 2021-07-15 CN CN202110798010.4A patent/CN113254604B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024329B1 (en) * | 2006-06-01 | 2011-09-20 | Monster Worldwide, Inc. | Using inverted indexes for contextual personalized information retrieval |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
CN104820724A (zh) * | 2015-05-29 | 2015-08-05 | 蓝舰信息科技南京有限公司 | 文本类教育资源知识点预测模型获得方法及模型应用方法 |
CN107423282A (zh) * | 2017-05-24 | 2017-12-01 | 南京大学 | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 |
CN110019421A (zh) * | 2018-07-27 | 2019-07-16 | 山东大学 | 一种基于数据特征片段的时间序列数据分类方法 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
CN113032559A (zh) * | 2021-03-15 | 2021-06-25 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
Non-Patent Citations (2)
Title |
---|
MINGZHU LI ET AL.: ""Short Text based Cooperative Classification for Multiple Platforms"", 《INTERNATIONAL CONFERENCE ON COMPUTER SUPPORTED COOPERATIVE WORK IN DESIGN》 * |
汤世平 等: ""基于潜在语义分析的文本连贯性分析"", 《计算机应用与软件》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988027A (zh) * | 2021-09-23 | 2022-01-28 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、装置、设备及存储介质 |
WO2023159762A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备和存储介质 |
CN116432663A (zh) * | 2023-06-12 | 2023-07-14 | 山东山大鸥玛软件股份有限公司 | 基于要素简图的可控多样性专业文本生成方法及系统 |
CN116432663B (zh) * | 2023-06-12 | 2023-10-13 | 山东山大鸥玛软件股份有限公司 | 基于要素简图的可控多样性专业文本生成方法及系统 |
CN116432605A (zh) * | 2023-06-14 | 2023-07-14 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
CN116432605B (zh) * | 2023-06-14 | 2023-09-22 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113254604B (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254604B (zh) | 一种基于参考规范的专业文本生成方法及装置 | |
CN110413729B (zh) | 基于尾句-上下文双重注意力模型的多轮对话生成方法 | |
CN111160467A (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
CN117009490A (zh) | 基于知识库反馈的生成式大语言模型的训练方法和装置 | |
CN113297364A (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN112925918B (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN112926337B (zh) | 一种结合重构句法信息的端到端方面级情感分析方法 | |
CN111814451A (zh) | 文本处理方法、装置、设备和存储介质 | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
CN110532555A (zh) | 一种基于强化学习的语言评价生成方法 | |
CN112818106A (zh) | 一种生成式问答的评价方法 | |
CN117573843B (zh) | 一种基于知识校准和检索增强的医疗辅助问答方法及系统 | |
CN114429143A (zh) | 一种基于强化蒸馏的跨语言属性级情感分类方法 | |
CN112948558B (zh) | 面向开放域对话系统的上下文增强的问题生成方法及装置 | |
Jeon et al. | Dropout prediction over weeks in MOOCs via interpretable multi-layer representation learning | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN112182439A (zh) | 一种基于自注意力网络的搜索结果多样化方法 | |
CN114943216B (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 | |
CN116561251A (zh) | 一种自然语言处理方法 | |
CN115905852A (zh) | 基于预训练提示的故事生成方法、系统、存储介质和终端 | |
Deriu et al. | End-to-end trainable system for enhancing diversity in natural language generation | |
CN114579605A (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 | |
CN114742073A (zh) | 一种基于深度学习的对话情绪自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |