CN115879450A - 一种逐步文本生成方法、系统、计算机设备及存储介质 - Google Patents

一种逐步文本生成方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN115879450A
CN115879450A CN202310021779.4A CN202310021779A CN115879450A CN 115879450 A CN115879450 A CN 115879450A CN 202310021779 A CN202310021779 A CN 202310021779A CN 115879450 A CN115879450 A CN 115879450A
Authority
CN
China
Prior art keywords
text
selling point
point information
model
short sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310021779.4A
Other languages
English (en)
Other versions
CN115879450B (zh
Inventor
朱琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ain Intelligent Technology Co ltd
Original Assignee
Guangdong Ain Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ain Intelligent Technology Co ltd filed Critical Guangdong Ain Intelligent Technology Co ltd
Priority to CN202310021779.4A priority Critical patent/CN115879450B/zh
Publication of CN115879450A publication Critical patent/CN115879450A/zh
Application granted granted Critical
Publication of CN115879450B publication Critical patent/CN115879450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种逐步文本生成方法、系统、计算机设备及存储介质,涉及自然语言领域,该方法包括获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;通过训练好的序列标注模型构建当前语料对应的文本描述短句;将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。本发明从现有无监督语料中挖掘积累卖点表达短句,利用模型对卖点短句进行文本改写,提升生成文本的逻辑性。

Description

一种逐步文本生成方法、系统、计算机设备及存储介质
技术领域
本发明涉及自然语言领域,特别是涉及一种逐步文本生成方法、系统、计算机设备及存储介质。
背景技术
在自然语言领域,自然语言生成又称文本生成,是自然语言处理领域的重要研究内容。随着计算机技术的进步及信息时代的发展,互联网上的信息呈现爆发式增长,各行各业涉及到的高频内容生产和处理工作的都希望内容生产的速度快、质量高、数量多。而随着自然语言生成技术的成熟,逐渐将深度学习应用于文本生成。
随着深度学习的发展,循环神经网络(RNN)通过极大似然估计的方式,在模型训练的时能够很好地通过反向传播更新参数,并获得跟训练集极为相似的结果。Transformer模型的建立是基于注意力机制,相比循环神经网络等模型依次序列计算,Transformer可以更好地捕捉长文本的语义特征,并且支持并行运行,基于此框架提出的GPT、BERT等模型让自然语言生成领域在近年来又取得突破性进展。预训练模型主要学习词的上下文表示,根据不同的序列预测方式可分为自编码和自回归两种语言模型。Google提出的BERT模型是典型的自编码语言模型,其使用Transformer抽取特征,引入MLM(Masked Language Model)和NSP(Next Sentence Prediction)预训练目标,能够获取上下文相关的双向特征表示,从而处理句子或者段落的匹配任务。
但是,该模型预训练过程中和生成过程中的不一致导致其在生成任务效果不佳。自回归语言模型的典型代表有ELMo、GPT。GPT使用Transformer进行特征抽取,能够快速捕捉更长范围的信息,目前已经更新到第三代:GPT1微调阶段引入语言辅助模型,解决了微调过程中的灾难性的遗忘问题;GPT2在GPT1基础上进行改进,使用覆盖更广、质量更高的训练数据,认为预训练中已包含很多特定任务所需信息,其没有针对特定模型的精调流程,在生成任务上取得了很好的效果;GPT3使用比GPT2更多的训练数据和性能更高的计算资源以提高模型性能。
当前的自回归语言模型主要存在以下几点问题:
一、逻辑性较差。直接基于关键词生成的文本往往存在较多的矛盾,而模型本身较难学习和掌握知识之间的逻辑关系:例如男装不会有背部开叉的设计。这主要是由于缺乏对这层背景知识单独进行建模的机制,完全依靠数据驱动的方式需要大量的相关领域的数据。
二、长文本生成较难保证质量。对于语言模型而言,长文本建模本身就是一个巨大的挑战,无论是传统的基于RNNs的语言模型,还是基于Transformer结构的语言模型,长距离依赖学习能力都极为有限。大多数基于Transformer结构的语言模型都有着固定长度的限制,例如GPT-2语言模型,依靠其流畅甚至以假乱真的生成表现给人们留下深刻的印象,然而其最大的文本建模长度为1024。当语句之间的长度超过该范围时就无法产生依赖关系。当长度增加时,生成文本往往难以保持原有的高质量。
发明内容
有鉴于此,本申请实施例提供一种逐步文本生成方法、系统、计算机设备及存储介质,利用文本要素抽取方式,从现有无监督语料中挖掘积累卖点表达短句,利用模型对卖点短句进行文本改写,提升生成文本的逻辑性,在基于规则模板进行改写的同时,允许文本基于提示符和上文进行续写,使用逐句生成方案,解决了长文本生成的信息遗忘问题。
为实现上述目的,本发明提供了以下技术方案:
第一方面,本发明提供了一种逐步文本生成方法,包括以下步骤:
获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;
通过训练好的序列标注模型构建当前语料对应的文本描述短句;
将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
作为本发明的进一步方案,从所述原始语料中抽取包含卖点信息的描述短句,包括:
采用无监督算法抽取所述原始语料中的关键词;
基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
作为本发明的进一步方案,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:
通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。
作为本发明的进一步方案,通过训练好的序列标注模型构建当前语料对应的文本描述短句时,所述当前语料中包含建立有卖点信息关联关系的平行卖点数据。
作为本发明的进一步方案,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:
基于训练好的序列标注模型抽取文本描述短句;
在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;
构建生成预测模型的输入数据。
作为本发明的进一步方案,根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,还包括:
基于规则引擎对输入的多个卖点信息进行文本的检索,检索出卖点信息对应的文本描述短句;
基于规则引擎完成句式模板的规划,确定逐步推理时每一步生成的文本描述短句所关联的卖点信息,并在所述文本描述短句非首句的位置随机插入[s]提示符,得到输入数据;
输入数据输入训练好的预测模型进行逐步推理,得到目标输出文本。
第二方面,本发明还提供了一种逐步文本生成系统,包括:
短句挖掘模块,用于从获取的原始语料中抽取包含卖点信息的描述短句用以训练序列标注模型;
短句构建模块,用于通过训练好的序列标注模型构建当前语料对应的文本描述短句;
输入数据构造模块,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
逐步文本生成模块,用于根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
作为本发明的进一步方案,还包括:
关键词抽取模块,用于基于无监督算法抽取所述原始语料中的关键词;
卖点信息挖掘模块,用于基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
第三方面,本发明提供了一种计算机设备,包括存储器、处理器及存在处理器上运行的计算机程序,处理器执行程序时实现上述逐步文本生成方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述逐步文本生成方法的步骤。
本发明提供的技术方案可以包括以下有益效果:
本申请提供的一种逐步文本生成方法、系统、计算机设备及存储介质,针对现有文本生成模型的逻辑性差以及长文本生成的难点问题,利用文本要素抽取方式,从现有无监督语料中挖掘积累卖点表达短句,利用模型对卖点短句进行文本改写,提升生成文本的逻辑性;
为了提升生成文本的多样性,本发明中同时结合改写与文本续写两种模式,在基于规则模板进行改写的同时,允许文本基于提示符和上文进行续写;
针对长文本生成的信息遗忘问题,本发明使用逐句生成方法,使用逐句生成的框架,并在此结构上引入Memory记忆机制对历史信息进行编码表示,根据输入的多个卖点信息最终得到完整的生成文本。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。在附图中:
图1为本申请实施例提供的一种逐步文本生成方法的流程图;
图2为本申请实施例提供的一种逐步文本生成方法的模型训练与推理的逐步生成框图;
图3为本申请实施例提供的一种逐步文本生成方法中规则检索与文本规划示意图;
图4为本申请实施例提供的一种逐步文本生成方法中模型训练数据构造过程示意图;
图5为本申请实施例提供的一种逐步文本生成方法中逐步推理的流程图;
图6为本申请实施例提供的一种逐步文本生成系统的结构框图;
图7为本发明一些实施例中一种计算机设备的硬件架构图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
相关技术中,尤其是自然语言领域中,文本生成又分为开放式文本生成以及相对定向文本生成。它的目的是从各种形式的输入数据(包括文本、图像、表格和知识库)中生成可读的人类语言文本。早期的文本生成主要是基于规则模板的技术路线,这种方法通过人为地创造语言规则,如词法分析、词性标注等来进行文本的生成。但是这种方法具有明显的缺陷,随着大数据技术的应用,数据量不断增大,各种数据规则层出不穷,传统基于规则模板的方法的缺陷日益凸显。
互联网上的信息呈现爆发式增长,当文本生成应用于原创内容制备时,快速写出原创内容是每一个内容营销人最关心的事情。如何将简单的产品关键词或者根据标题快速地写出创意文案。随着人工智能技术的发展,让机器辅助人类更高效地处理信息,以及让机器自动生成信息都已经成为可能,让我们可以在高强度的工作节奏下快速找到真正属于自己的核心价值,用AI的方式替代我们重复的低效工作,从而可以拥有更多的全倾精力去创作更重要和有意义的事情。
目前现有的智能写作工具包括Gilso智能写作机器人等,腾讯财经退出的新闻写作机器人Dreamwriter等。受自然语言生成可控性和生成质量的限制,目前机器写作只应用在机器有限的生成领域,而随着自然语言生成技术的成熟,写作机器人将迎来更广阔的应用市场,挖掘更多的应用价值。
但是,当前的技术方案主要存在以下几点问题:
1)逻辑性较差。直接基于关键词生成的文本往往存在较多的矛盾,而模型本身较难学习和掌握知识之间的逻辑关系:例如男装不会有背部开叉的设计。这主要是由于缺乏对这层背景知识单独进行建模的机制,完全依靠数据驱动的方式需要大量的相关领域的数据.
2)长文本生成较难保证质量。对于语言模型而言,长文本建模本身就是一个巨大的挑战,无论是传统的基于RNNs的语言模型,还是基于Transformer结构的语言模型,长距离依赖学习能力都极为有限。大多数基于Transformer结构的语言模型都有着固定长度的限制,例如GPT-2语言模型,依靠其流畅甚至以假乱真的生成表现给人们留下深刻的印象,然而其最大的文本建模长度为1024。当语句之间的长度超过该范围时就无法产生依赖关系。当长度增加时,生成文本往往难以保持原有的高质量.
鉴于此,本申请提供了一种逐步文本生成方法、系统、计算机设备及存储介质,针对现有文本生成模型的逻辑性差以及长文本生成的难点以及长文本生成的信息遗忘问题利用模型对卖点短句进行文本改写,使用逐句生成方案解决信息遗忘问题。
本申请的一些实施例中,参见图1所示,本发明实施例提供了一种逐步文本生成方法,包括步骤S10-步骤S30:
步骤S10、获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;
步骤S20、通过训练好的序列标注模型构建当前语料对应的文本描述短句;
步骤S30、将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
步骤S40、根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
本实施例提供的逐步文本生成方法,从所述原始语料中抽取包含卖点信息的描述短句时,采用无监督算法抽取所述原始语料中的关键词。示例性的,无监督算法可以为基于统计特征的关键词提取模型(TF-IDF)、基于词图模型的关键词提取模型(TextRank)或者是基于主题模型的关键词提取模型(LDA)等。然后,基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
其中,基于抽取的关键词进行人工梳理商品卖点,得到基于关键词梳理的卖点信息。然后,进一步的从语料中抽取包含商品卖点的描述短句,人工梳理确认包含关键词的描述短句。
在一些实施例中,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。
其中,将人工梳理确认标注的描述短句用于训练序列标注模型(BERT+CRF),用训练好的模型抽取短句模板,并与卖点建立关联。
在本实施例中,通过训练好的序列标注模型构建当前语料对应的文本描述短句时,所述当前语料中包含建立有卖点信息关联关系的平行卖点数据。
示例性的,参见图4所示,原始语料为:这是一款设计简单但是却又不失时尚感的大毛衣。宽松的版型设计,穿起来才不会有束缚感,同时也可以起到修身显瘦的效果,V领的设计让衣服更加应体有型,搭配起来也更加的容易。撞色条纹点缀,打破了衣服的单调感,看起来就更加有气质,时刻都可以展现出精致。
构建的用于序列标注模型训练的输入语料为:
这是一款设计简单但是却又不失时尚感的大毛衣;
宽松的版型设计;
穿起来才不会有束缚感,同时也可以起到修身显瘦的效果;
V领的设计让衣服更加立体有型;
搭配起来也更加的容易;
撞色条纹点级打破了衣服的单调感,看起来就更加有气质;
时刻都可以展现出精致。
由于本发明同时结合了句式模板进行创作,首先基于规则完成句式模板的检索和规划,规划环节会决定每一步生成所关联的卖点。在本实施例中,也会在非首句位随机插入提示符号[s],提示模型完全基于上文进行续写,此时主要依赖模型的生成能力。
在一些实施例中,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:
基于训练好的序列标注模型抽取文本描述短句;
在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;
构建生成预测模型的输入数据。
在本实施例中,参见图5所示,根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,还包括:
S101、基于规则引擎对输入的多个卖点信息进行文本的检索,检索出卖点信息对应的文本描述短句;
S102、基于规则引擎完成句式模板的规划,确定逐步推理时每一步生成的文本描述短句所关联的卖点信息,并在所述文本描述短句非首句的位置随机插入[s]提示符,得到输入数据;
S103、输入数据输入训练好的预测模型进行逐步推理,得到目标输出文本。
模型训练的输入-输出数据如下表1所示。在序列标注模型抽取的文本描述短句的基础上,随机选中部分短句替换为[s]提示符,构建成模型的输入数据,模型的目标输出数据是文本描述短句对应的原始语料。
表1模型输入-输出数据结构
Figure BDA0004042180970000101
本发明的逐步文本生成方法使用逐句生成的框架,并在此结构上引入Memory记忆机制,参见图2所示,该模型的encoder和decoder都使用transformer的结构。由于采用了是逐句生成的方案,所以额外引入一个memory的机制,memory中存放历史输出的多个分句的表示。取decoder最后一个解码位置的预测输出表示输出句整句的表示,记为xi。记忆向量ki=w1xi,其中,w1为参数矩阵,记忆向量vi=w2xi,其中,w2为参数矩阵,成对表示为ki和vi,当前输入的表示context记为u。
pi=softmax(uTki)
Figure BDA0004042180970000111
u′=u+o
式中,pi为计算u和ki的匹配程度(计算相似度)。o为输出向量,记忆向量vi的加权和得到模型的输出向量o,也可以理解是memory中的相关信息汇总,u′指输入文本向量u加上记忆网络输出向量o形成的记忆网络下一次的输入向量。
训练过程采用teacher-forcing的策略,teacher-forcing在训练网络的过程中,每次不使用上一次的状态的输出作为下一个状态的输入,而是直接使用训练数据的标准答案(ground-truth)对应上一项作为下个状态的输入,因此能够更好的预测下一个状态的值。
在本实施例中,推理阶段,首先根据输入的多个卖点信息,基于规则引擎进行文本的检索,检索出卖点对应的相关描述短句。再基于规则引擎完成句式模板的规划,规划环节会决定每一步生成所关联的卖点。同时,在非首句的位置随机插入[s]提示符,得到输入,具体过程如图3所示,文本生成之前需要经过规则引擎的文本检索模块以及文本规划模块,在用模型推理之前,已经规划好文本生成的句式模板,数据如表2所示。然后使用训练好的预测模型进行逐步推理,最后得到完整的生成文本,其中,规则引擎主要由规则检索模块和文本规划模块组成,规则模块提供一组自定义的语法,用于匹配卖点与卖点描述短句是否满足特定的逻辑关系。文本规划模块将检索出的卖点描述短句按照句式模板规则进行组合排序,规划环节会决定每一步所所关联的卖点。同时也会在非首句位置随机插入提示符号[s],提示模型完全基于上文进行续写。
表2模型推理过程数据
Figure BDA0004042180970000121
本申请提供的一种逐步文本生成方法,针对现有文本生成模型的逻辑性差以及长文本生成的难点问题,利用文本要素抽取方式,从现有无监督语料中挖掘积累卖点表达短句,利用模型对卖点短句进行文本改写,提升生成文本的逻辑性;
为了提升生成文本的多样性,本发明中同时结合改写与文本续写两种模式,在基于规则模板进行改写的同时,允许文本基于提示符和上文进行续写;
针对长文本生成的信息遗忘问题,本发明使用逐句生成方法,使用逐句生成的框架,并在此结构上引入Memory记忆机制对历史信息进行编码表示,根据输入的多个卖点信息最终得到完整的生成文本。
本申请的一些实施例中,参见图6所示,本发明的实施例还提供了一种逐步文本生成系统,包括:
短句挖掘模块100,用于从获取的原始语料中抽取包含卖点信息的描述短句用以训练序列标注模型;其中,采用无监督算法抽取所述原始语料中的关键词,基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
短句构建模块200,用于通过训练好的序列标注模型构建当前语料对应的文本描述短句;基于抽取的关键词进行人工梳理商品卖点,得到基于关键词梳理的卖点信息,然后,进一步的从语料中抽取包含商品卖点的描述短句,人工梳理确认包含关键词的描述短句。
输入数据构造模块300,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;在进行掩码标记时,在非首句位随机插入提示符号[s],提示模型完全基于上文进行续写,此时主要依赖模型的生成能力。
逐步文本生成模块400,用于根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本,在通过逐步文本生成模块400获取文本时,用户输入卖点,规则引擎根据卖点,进行内置的卖点短句检索,规则引擎文本规划模块进行文本规划,推理输出文本。
在本实施例中,所述逐步文本生成系统还包括:
关键词抽取模块101,用于基于无监督算法抽取所述原始语料中的关键词;
卖点信息挖掘模块102,用于基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
在本实施例中,输入数据构造模块300在将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,还包括:
短句抽取模块301,用于基于训练好的序列标注模型抽取文本描述短句;
短句替换模块302,用于在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;
输入数据构建模块303,用于构建生成预测模型的输入数据。
其中,短句替换模块302用于随机选中部分短句替换为[s]提示符,构建成模型的输入数据,模型的目标输出数据是文本描述短句对应的原始语料。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本实施例还提供一种计算机设备,如图7所示,该计算机设备包括多个计算机设备1000,在实施例中逐步文本生成系统的组成部分可分散于不同的计算机设备1000中,计算机设备1000可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备1000至少包括但不限于:可通过系统总线相互通信连接的存储器1001、处理器1002。需要指出的是,图7仅示出了具有组件存储器1001和处理器1002的计算机设备1000,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器1001(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器1001可以是计算机设备1000的内部存储单元,例如该计算机设备1000的硬盘或内存。在另一些实施例中,存储器1001也可以是计算机设备1000的外部存储设备,例如该计算机设备1000上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器1001还可以既包括计算机设备1000的内部存储单元也包括其外部存储设备。本实施例中,存储器1001通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例的逐步文本生成系统等。此外,存储器1001还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器1002在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器1002通常用于控制计算机设备1000的总体操作。本实施例中,处理器1002用于运行存储器1001中存储的程序代码或者处理数据。本实施例计算机设备的多个计算机设备1000的处理器1002共同执行计算机程序时实现实施例的逐步文本生成方法,该方法包括:
获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;
通过训练好的序列标注模型构建当前语料对应的文本描述短句;
将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
其中,从所述原始语料中抽取包含卖点信息的描述短句,包括:采用无监督算法抽取所述原始语料中的关键词;基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
在本实施例中,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。
在本实施例中,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:基于训练好的序列标注模型抽取文本描述短句;在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;构建生成预测模型的输入数据。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可匹配存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
本申请的实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例计算机可读存储介质存储实施例的逐步文本生成系统10,被处理器执行时实现实施例的逐步文本生成方法,该方法包括:
获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;
通过训练好的序列标注模型构建当前语料对应的文本描述短句;
将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
其中,从所述原始语料中抽取包含卖点信息的描述短句,包括:采用无监督算法抽取所述原始语料中的关键词;基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
在本实施例中,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。
在本实施例中,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:基于训练好的序列标注模型抽取文本描述短句;在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;构建生成预测模型的输入数据。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带系统;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的逐步文本生成操作,还可以执行本申请任意实施例所提供的逐步文本生成方法中的相关操作。
本发明提供的逐步文本生成方法、系统、计算机设备及存储介质,利用文本要素抽取方式,从现有无监督语料中挖掘积累卖点表达短句,利用模型对卖点短句进行文本改写,提升生成文本的逻辑性,在基于规则模板进行改写的同时,允许文本基于提示符和上文进行续写,使用逐句生成方案,解决了长文本生成的信息遗忘问题。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种逐步文本生成方法,其特征在于,包括:
获取原始语料,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型;
通过训练好的序列标注模型构建当前语料对应的文本描述短句;
将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
2.根据权利要求1所述的逐步文本生成方法,其特征在于,从所述原始语料中抽取包含卖点信息的描述短句,包括:
采用无监督算法抽取所述原始语料中的关键词;
基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
3.根据权利要求2所述的逐步文本生成方法,其特征在于,从所述原始语料中抽取包含卖点信息的描述短句用于训练序列标注模型,还包括:
通过训练好的序列标注模型离线挖掘所述描述短句的短句模板,并与所述卖点信息建立关联关系。
4.根据权利要求3所述的逐步文本生成方法,其特征在于,通过训练好的序列标注模型构建当前语料对应的文本描述短句时,所述当前语料中包含建立有卖点信息关联关系的平行卖点数据。
5.根据权利要求1所述的逐步文本生成方法,其特征在于,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,包括:
基于训练好的序列标注模型抽取文本描述短句;
在所述文本描述短句的非首句位随机选中部分短句替换为[s]提示符的掩码标记;
构建生成预测模型的输入数据。
6.根据权利要求1所述的逐步文本生成方法,其特征在于,根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,还包括:
基于规则引擎对输入的多个卖点信息进行文本的检索,检索出卖点信息对应的文本描述短句;
基于规则引擎完成句式模板的规划,确定逐步推理时每一步生成的文本描述短句所关联的卖点信息,并在所述文本描述短句非首句的位置随机插入[s]提示符,得到输入数据;
输入数据输入训练好的预测模型进行逐步推理,得到目标输出文本。
7.一种逐步文本生成系统,其特征在于,包括:
短句挖掘模块,用于从获取的原始语料中抽取包含卖点信息的描述短句用以训练序列标注模型;
短句构建模块,用于通过训练好的序列标注模型构建当前语料对应的文本描述短句;
输入数据构造模块,将所述文本描述短句中随机位置的文本替换为掩码标记,构建生成预测模型的输入数据,通过所述输入数据对所述预测模型训练,其中,所述预测模型的目标输出数据为文本描述短句对应的原始语料;
逐步文本生成模块,用于根据输入的多个卖点信息,使用训练好的预测模型进行逐步推理,得到完整的目标输出文本。
8.根据权利要求7所述的逐步文本生成系统,其特征在于,还包括:
关键词抽取模块,用于基于无监督算法抽取所述原始语料中的关键词;
卖点信息挖掘模块,用于基于抽取的所述关键词梳理卖点信息,从原始语料中抽取包含卖点信息的描述短句,人工梳理确认包含关键词的描述短句。
9.一种计算机设备,其特征在于,所述计算机设备包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1-6任一所述逐步文本生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述存储介质存储的所述计算机程序被处理器执行时实现权利要求1-6任一所述逐步文本生成方法的步骤。
CN202310021779.4A 2023-01-06 2023-01-06 一种逐步文本生成方法、系统、计算机设备及存储介质 Active CN115879450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310021779.4A CN115879450B (zh) 2023-01-06 2023-01-06 一种逐步文本生成方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310021779.4A CN115879450B (zh) 2023-01-06 2023-01-06 一种逐步文本生成方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115879450A true CN115879450A (zh) 2023-03-31
CN115879450B CN115879450B (zh) 2023-09-01

Family

ID=85758253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310021779.4A Active CN115879450B (zh) 2023-01-06 2023-01-06 一种逐步文本生成方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115879450B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402164A (zh) * 2023-06-06 2023-07-07 之江实验室 基于预训练语言模型的机器人任务生成方法、装置及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112508612A (zh) * 2020-12-11 2021-03-16 北京搜狗科技发展有限公司 训练广告创意生成模型、生成广告创意的方法及相关装置
WO2021135469A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN113240485A (zh) * 2021-05-10 2021-08-10 北京沃东天骏信息技术有限公司 文本生成模型的训练方法、文本生成方法和装置
CN113590745A (zh) * 2021-06-30 2021-11-02 中山大学 一种可解释的文本推断方法
CN113822076A (zh) * 2021-07-12 2021-12-21 腾讯科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法
US20220350965A1 (en) * 2021-08-13 2022-11-03 Beijing Baidu Netcom Science Technology Co., Ltd. Method for generating pre-trained language model, electronic device and storage medium
CN115409025A (zh) * 2022-08-19 2022-11-29 科大讯飞华南人工智能研究院(广州)有限公司 一种营销文本的创作方法、装置以及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
WO2021135469A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法
CN112508612A (zh) * 2020-12-11 2021-03-16 北京搜狗科技发展有限公司 训练广告创意生成模型、生成广告创意的方法及相关装置
CN113240485A (zh) * 2021-05-10 2021-08-10 北京沃东天骏信息技术有限公司 文本生成模型的训练方法、文本生成方法和装置
CN113590745A (zh) * 2021-06-30 2021-11-02 中山大学 一种可解释的文本推断方法
CN113822076A (zh) * 2021-07-12 2021-12-21 腾讯科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
US20220350965A1 (en) * 2021-08-13 2022-11-03 Beijing Baidu Netcom Science Technology Co., Ltd. Method for generating pre-trained language model, electronic device and storage medium
CN115409025A (zh) * 2022-08-19 2022-11-29 科大讯飞华南人工智能研究院(广州)有限公司 一种营销文本的创作方法、装置以及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINYU HUA 等: "Sentence-Level content planning and style specification for neural text generation", 《ARXIV:1909.00734V1 [CS.CL]》, pages 1 - 20 *
徐菲菲;冯东升;: "文本词向量与预训练语言模型研究", 上海电力大学学报, no. 04, pages 320 - 328 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402164A (zh) * 2023-06-06 2023-07-07 之江实验室 基于预训练语言模型的机器人任务生成方法、装置及介质
CN116402164B (zh) * 2023-06-06 2023-09-05 之江实验室 基于预训练语言模型的机器人任务生成方法、装置及介质

Also Published As

Publication number Publication date
CN115879450B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN110532397B (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
CN110737758A (zh) 用于生成模型的方法和装置
Gulwani et al. Programming by examples: PL meets ML
CN117688163B (zh) 基于指令微调和检索增强生成的在线智能问答方法及装置
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
US11170169B2 (en) System and method for language-independent contextual embedding
CN110147544B (zh) 一种基于自然语言的指令生成方法、装置以及相关设备
CN113609838B (zh) 文档信息抽取及图谱化方法和系统
Verbruggen et al. Semantic programming by example with pre-trained models
CN111401058A (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN115879450B (zh) 一种逐步文本生成方法、系统、计算机设备及存储介质
CN114298031A (zh) 文本处理方法、计算机设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN112668281A (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
Liang Research on pre-training model of natural language processing based on recurrent neural network
CN111310459B (zh) 机器学习组件的训练方法及装置、中文分词方法及装置
CN112559753A (zh) 一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架
CN115495541B (zh) 语料数据库、语料数据库的维护方法、装置、设备和介质
CN116484811B (zh) 一种用于多种编辑意图的文本修订方法及装置
CN118211574B (zh) 一种基于子树库的多样性可控文本改写方法及装置
CN118070925B (zh) 模型训练方法、装置、电子设备、存储介质及程序产品
Zeng et al. TagNN: A Code Tag Generation Technology for Resource Retrieval from Open‐Source Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant