CN114970524A - 可控文本生成方法及装置 - Google Patents
可控文本生成方法及装置 Download PDFInfo
- Publication number
- CN114970524A CN114970524A CN202210615338.2A CN202210615338A CN114970524A CN 114970524 A CN114970524 A CN 114970524A CN 202210615338 A CN202210615338 A CN 202210615338A CN 114970524 A CN114970524 A CN 114970524A
- Authority
- CN
- China
- Prior art keywords
- sample data
- text
- text generation
- controllable
- control signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种可控文本生成方法及装置,该方法包括:将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到目标可控文本生成模型输出的可控文本;目标可控文本生成模型通过如下方式训练得到:对样本数据进行特征抽取,确定样本数据的控制信号;基于样本数据以及样本数据的控制信号,对初始Transformer模型进行预训练,得到目标可控文本生成模型。本发明提供的可控文本生成方法及装置,通过在样本数据中抽取关键词、事件、风格等特征作为控制信号,产生大量伪数据,并通过预训练得到目标可控文本生成模型,通过目标可控文本生成模型可以实现根据输入的初始文本以及控制信号,生成满足控制信号并与初始文本顺畅衔接的文本。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种可控文本生成方法及装置。
背景技术
近年来以GPT-3为代表的大规模预训练模型表现出了优异的文本生成效果,例如,GPT-3能够生成让一般人难以分辨出是机器生成的新闻稿。这些预训练模型首先使用大量的文本数据进行自监督预训练,然后再用特定任务的有标注数据进行微调。
目前几乎所有的用于文本生成的大规模预训练模型在预训练阶段的自监督预训练任务都是语言模型,即根据上文预测下一个词语。这导致模型在进行文本生成时也只能根据前文的信息来生成后文,而且随着生成内容的变多,模型会越来越根据自己前面生成的文本(而不是在最一开始用户给的起始文本)来接着生成后面的文本,这会导致误差传递,模型生成的文本越来越与初始文本内容无关。而且即使模型完全根据给定的起始文本中来进行生成,也由于接收的信息量有限,自由发挥空间极大,很容易生成并不期望出现的文本内容。
发明内容
本发明提供一种可控文本生成方法及装置,用以解决现有技术中预训练模型生成的文本与初始文本内容无关的缺陷,实现根据用户给定的控制信号来生成高质量的文本。
本发明提供一种可控文本生成方法,包括:
将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
在一些实施例中,所述对样本数据进行特征抽取,确定所述样本数据的控制信号,包括:
抽取所述样本数据的关键词特征、事件特征、知识图谱三元组特征、文本风格特征和句法结构特征;
基于抽取的特征中的至少一项,确定所述样本数据的控制信号。
在一些实施例中,所述抽取所述样本数据的关键词特征,包括:
基于TF-IDF、TextRank和KeyBERT方法,分别抽取所述样本数据的关键词;
基于所述关键词,确定关键词候选集;
基于所述样本数据中的词的数量,从所述关键词候选集中抽取第一数量个关键词;
将所述第一数量个关键词作为所述样本数据的关键词特征。
在一些实施例中,所述抽取所述样本数据的事件特征,包括:
对所述样本数据进行分句和语义标注,确定每个文本数据的语义结构;
将语义结构不完整的文本数据进行过滤;
基于所述样本数据中的句子的数量,从剩余语义结构中抽取第二数量个语义结构;
将所述第二数量个语义结构作为所述样本数据的事件特征。
在一些实施例中,所述抽取所述样本数据的知识图谱三元组特征,包括:
对所述样本数据进行分词、命名实体识别和关系抽取处理,确定所述样本数据的知识图谱三元组;
基于所述样本数据中的句子的数量,从所述知识图谱三元组中抽取第三数量个知识图谱三元组;
将所述第三数量个知识图谱三元组作为所述样本数据的知识图谱三元组特征。
在一些实施例中,所述抽取所述样本数据的句法结构特征,包括:
基于句法分析工具对所述样本数据的第一句话进行句法分析,确定所述样本数据的句法树;
基于所述样本数据的句法树,确定所述样本数据的句法结构特征。
在一些实施例中,所述基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型,包括:
将所述样本数据与所述样本数据的控制信号进行拼接;
在初始Transformer模型中设置控制信号部分的位置编码,使控制信号与待生成文本之间的距离为目标值;
基于拼接后的数据对设置后的模型进行预训练,得到所述目标可控文本生成模型。
本发明还提供一种可控文本生成装置,包括:
生成模块,用于将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述可控文本生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述可控文本生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述可控文本生成方法。
本发明提供的可控文本生成方法及装置,通过在无标注文本语料中自动抽取关键词、事件、风格等特征作为控制信号,产生大量伪数据,并通过预训练得到目标可控文本生成模型,通过该目标可控文本生成模型可以实现根据输入的初始文本以及控制信号,生成满足控制信号并且能和给定的初始文本顺畅衔接的文本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的可控文本生成方法的流程示意图之一;
图2是本发明提供的可控文本生成方法的流程示意图之二;
图3是本发明提供的可控文本生成装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的可控文本生成方法的流程示意图之一,参照图1,本发明提供的可控文本生成方法,包括:
步骤110、将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
需要说明的是,本发明提供的可控文本生成方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本发明不作具体限定。
在步骤110中,将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本。
初始文本可以是用户给定的文本。控制信号可以是一个或者多个,例如可以是关键词、描述的事件、知识图谱三元组、文本风格或句法结构中的一个或多个。生成的可控文本即为满足控制信号并且能和初始文本顺畅衔接的文本。
通过在关键词、要描述的事件、要描述的知识图谱三元组、文本风格和句法结构这五个控制信号中选择一种或者多种,并且指定控制的内容,然后将这些控制信号以及初始文本拼接后输入至目标可控文本生成模型中,就可以生成满足控制信号并且能和给定的初始文本顺畅衔接的文本。
可以理解的是,在进行可控文本生成之前,需要通过训练得到目标可控文本生成模型,训练过程如下:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
首先需要采集大量样本数据,并对样本数据进行特征抽取,确定样本数据的控制信号。
在一些实施例中,所述对样本数据进行特征抽取,确定所述样本数据的控制信号,包括:
抽取所述样本数据的关键词特征、事件特征、知识图谱三元组特征、文本风格特征和句法结构特征;
基于抽取的特征中的至少一项,确定所述样本数据的控制信号。
抽取的特征可以是关键词特征、事件特征、知识图谱三元组特征、文本风格特征和句法结构特征等。
其中,关键词特征可以是样本数据中出现的通过关键词;事件特征可以是样本数据中描述的事件;知识图谱三元组特征可以是样本数据中的形如<头实体,关系,尾实体>的知识图谱三元组;文本风格特征可以是样本数据的文本风格,例如可以是新闻、小说、公文、诗歌等;句法结构特征可以是样本数据中的句法结构。
根据抽取的特征中的一项或者多项,确定样本数据的控制信号。
根据选定的控制信号以及样本数据进行拼接,对初始Transformer模型进行预训练,预训练任务为可控语言模型(即给定控制信号和前文,训练模型正确生成后文),得到目标可控文本生成模型。
本发明实施例提供的可控文本生成方法,通过在无标注文本语料中自动抽取关键词、事件、风格等特征作为控制信号,产生大量伪数据,并通过预训练得到目标可控文本生成模型,通过该目标可控文本生成模型可以实现根据输入的初始文本以及控制信号,生成满足控制信号并且能和给定的初始文本顺畅衔接的文本。
在一些实施例中,所述抽取所述样本数据的关键词特征,包括:
基于TF-IDF、TextRank和KeyBERT方法,分别抽取所述样本数据的关键词;
基于所述关键词,确定关键词候选集;
基于所述样本数据中的词的数量,从所述关键词候选集中抽取第一数量个关键词;
将所述第一数量个关键词作为所述样本数据的关键词特征。
对于一段文本语料,可以采用TF-IDF、TextRank和KeyBERT三种关键词抽取方法分别对其进行关键词抽取。
选取三部分关键词集合的交集作为最终的关键词候选集并确定这段文本中的词的数量,在词的数量的2%至10%之间随机采样,得到关键词数N。最后从上述关键词候选集中随机选择N个关键词作为最终抽取的关键词。该N个关键词即为样本数据的关键词特征。
本发明实施例提供的可控文本生成方法,通过多种关键词提取方法分别提取样本数据中的关键词,并对每种方法提取的关键词集取交集,并根据样本数据中的词的个数,在关键词交集中随机抽取一定数量的关键词作为样本数据的关键词特征,关键词特征可用于训练模型,从而实现得到具有原生可控性的文本生成大规模预训练模型。
在一些实施例中,所述抽取所述样本数据的事件特征,包括:
对所述样本数据进行分句和语义标注,确定每个文本数据的语义结构;
将语义结构不完整的文本数据进行过滤;
基于所述样本数据中的句子的数量,从剩余语义结构中抽取第二数量个语义结构;
将所述第二数量个语义结构作为所述样本数据的事件特征。
对于一段文本语料,首先对其进行分句处理,可以采用LTP等工具进行分句处理。
然后采用语义角色标注工具,例如HanLP中的语义角色标注模块,逐句进行语义角色标注,得到每句文本的主谓宾语义结构。
过滤语义结构不完整的句子对应的语义结构,然后从剩余语义结构中随机抽取数量为这段文本的句子数的10%至15%的语义结构,作为这段文本的事件特征。
本发明实施例提供的可控文本生成方法,通过对样本数据进行分句和语义标注,确定每个文本数据的语义结构,并过滤掉语义结构不完整的文本数据,在剩余语义结构中随机抽取一定数量的语义结构作为样本数据的事件特征,事件特征可用于训练模型,从而实现得到具有原生可控性的文本生成大规模预训练模型。
在一些实施例中,所述抽取所述样本数据的知识图谱三元组特征,包括:
对所述样本数据进行分词、命名实体识别和关系抽取处理,确定所述样本数据的知识图谱三元组;
基于所述样本数据中的句子的数量,从所述知识图谱三元组中抽取第三数量个知识图谱三元组;
将所述第三数量个知识图谱三元组作为所述样本数据的知识图谱三元组特征。
对于一段文本语料,分别经过分词、命名实体识别和关系抽取流程处理,可以得到若干形如<头实体,关系,尾实体>的知识图谱三元组。
然后从中随机抽取数量为这段文本的句子数的5%至10%的三元组,作为这段文本的知识图谱三元组特征。
本发明实施例提供的可控文本生成方法,通过对样本数据进行分词、命名实体识别和关系抽取流程处理,得到样本数据的知识图谱三元组,并随机抽取一定数量的知识图谱三元组作为样本数据的知识图谱三元组特征,知识图谱三元组特征可用于训练模型,从而实现得到具有原生可控性的文本生成大规模预训练模型。
在一些实施例中,抽取样本数据的文本风格特征,可以包括:
对于一段文本语料,根据其文体和文本内容,自动判定其文本风格特征,例如新闻、小说、公文、诗歌等。
在一些实施例中,所述抽取所述样本数据的句法结构特征,包括:
基于句法分析工具对所述样本数据的第一句话进行句法分析,确定所述样本数据的句法树;
基于所述样本数据的句法树,确定所述样本数据的句法结构特征。
对于一段文本语料,可以利用句法分析工具,例如HanLP的依存或短语结构句法分析模块,对其第一句话进行句法分析,得到一个完整的句法树。
然后选取句法树的前3层节点作为句法模板,作为句法结构特征。
本发明实施例提供的可控文本生成方法,通过对样本数据的第一句话进行句法分析,确定样本数据的句法树,选取句法树的前3层节点作为句法模板,作为句法结构特征,句法结构特征可用于训练模型,从而实现得到具有原生可控性的文本生成大规模预训练模型。
在一些实施例中,所述基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型,包括:
将所述样本数据与所述样本数据的控制信号进行拼接;
在初始Transformer模型中设置控制信号部分的位置编码,使控制信号与待生成文本之间的距离为目标值;
基于拼接后的数据对设置后的模型进行预训练,得到所述目标可控文本生成模型。
对于一段文本语料,首先从{1,2,3}中随机选择一个数作为控制信号的数量M,然后从上述5个特征中随机选择M个特征作为这段文本的控制信号。
对于经过上述步骤得到的抽出若干控制信号的文本语料,首先将其各个控制信号逐一拼接在语料之前,每种控制信号之间用字符“|”隔开。同时在每个控制信号内,用自然语言指示文本标明控制类型,然后拼接具体的控制内容。
例如,原始一段文本为“天空是蓝色的,上面飘着几朵白云。”,根据随机采样,选择了关键词和知识图谱三元组两种控制信号(M=2),并且抽取出的控制信号内容分别为“天空;白云”和“<天空,是,蓝色>”,那么输入给模型的文本序列为:
关键词:天空;白云|知识图谱:<天空,是,蓝色>|天空是蓝色的,上面飘着几朵白云。
现有的文本生成大规模预训练模型基本都是基于Transformer解码器的结构,这种结构是自回归的,也即根据注意力机制,后面的内容只能看到前面的内容,而且受到位置编码的影响,往往距离较远的内容计算得到的注意力较低。
为了确保模型生成了较多内容的时候,控制信号对文本生成仍然有重要的影响,可以修改控制信号部分的位置编码,使模型认为控制信号与待生成文本的距离始终为固定值,例如为1。
在上述步骤得到的文本序列的基础上,利用改进的Transformer解码器结构来对模型进行训练,预训练任务为可控语言模型,即给定控制信号和前文,训练模型正确生成后文。
本发明实施例提供的可控文本生成方法,通过在无标注文本语料中自动抽取关键词、事件、风格等特征作为控制信号,产生大量伪数据用于大规模预训练模型的预训练,同时改造现有的Transformer解码器结构,对控制信号进行编码,能够得到一个具有原生可控性的文本生成大规模预训练模型。该方法训练得到的文本生成大规模预训练模型在文本生成可控性方面显著优于其他方法,具有良好的实用性。
此外,通过重新设计大规模预训练模型的输入结构,额外增加控制信号的部分,而不是像现有方法那样将其与给定的初始上文混在一起,并且在预训练阶段就让模型学习根据控制信号来生成文本,通过本发明实施例这样的大规模预训练模型在文本生成的可控性上将有很好的表现。
图2是本发明提供的可控文本生成方法的流程示意图之二,参照图2,本发明提供的可控文本生成方法,包括:
S1、控制信号抽取;
从无标注文本语料中随机抽取控制信号,可以包括以下至少一种:关键词、描述的事件、描述的知识图谱三元组、文本风格或句法结构;
S2、伪数据构造;
对于一段文本语料,可以从{1,2,3}中随机选择一个数作为控制信号的数量M,然后从上述5个特征中随机选择M个特征作为这段文本的控制信号,将抽取的控制信号与文本进行拼接,得到输入给模型的文本序列;
S3、模型预训练;
修改模型控制信号部分的位置编码,使模型认为控制信号与待生成文本的距离始终为固定值;
在S2得到的文本序列的基础上,利用上述改进的Transformer解码器结构来对模型进行预训练,预训练任务为可控语言模型,即给定控制信号和前文,训练模型正确生成后文;
S4、可控文本生成模型;
通过对模型预训练得到可控文本生成模型;
S5、生成可控文本。
将用户给定的一种或多种控制信号以及给定的初始文本输入至训练好的可控文本生成模型中,即可生成满足控制信号并且能和初始文本顺畅衔接的文本。
本发明实施例提供的可控文本生成方法,通过在无标注文本语料中自动抽取关键词、事件、风格等特征作为控制信号,产生大量伪数据用于大规模预训练模型的预训练,同时改造现有的Transformer解码器结构,对控制信号进行编码,能够得到一个具有原生可控性的文本生成大规模预训练模型。该方法训练得到的文本生成大规模预训练模型在文本生成可控性方面显著优于其他方法,具有良好的实用性。
下面对本发明提供的可控文本生成装置进行描述,下文描述的可控文本生成装置与上文描述的可控文本生成方法可相互对应参照。
图3是本发明提供的可控文本生成装置的结构示意图,参考图3,本发明提供的可控文本生成装置,包括:
生成模块310,用于将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
本发明实施例提供的可控文本生成装置,通过在无标注文本语料中自动抽取关键词、事件、风格等特征作为控制信号,产生大量伪数据,并通过预训练得到目标可控文本生成模型,通过该目标可控文本生成模型可以实现根据输入的初始文本以及控制信号,生成满足控制信号并且能和给定的初始文本顺畅衔接的文本。
在一些实施例中,所述对样本数据进行特征抽取,确定所述样本数据的控制信号,包括:
抽取所述样本数据的关键词特征、事件特征、知识图谱三元组特征、文本风格特征和句法结构特征;
基于抽取的特征中的至少一项,确定所述样本数据的控制信号。
在一些实施例中,所述抽取所述样本数据的关键词特征,包括:
基于TF-IDF、TextRank和KeyBERT方法,分别抽取所述样本数据的关键词;
基于所述关键词,确定关键词候选集;
基于所述样本数据中的词的数量,从所述关键词候选集中抽取第一数量个关键词;
将所述第一数量个关键词作为所述样本数据的关键词特征。
在一些实施例中,所述抽取所述样本数据的事件特征,包括:
对所述样本数据进行分句和语义标注,确定每个文本数据的语义结构;
将语义结构不完整的文本数据进行过滤;
基于所述样本数据中的句子的数量,从剩余语义结构中抽取第二数量个语义结构;
将所述第二数量个语义结构作为所述样本数据的事件特征。
在一些实施例中,所述抽取所述样本数据的知识图谱三元组特征,包括:
对所述样本数据进行分词、命名实体识别和关系抽取处理,确定所述样本数据的知识图谱三元组;
基于所述样本数据中的句子的数量,从所述知识图谱三元组中抽取第三数量个知识图谱三元组;
将所述第三数量个知识图谱三元组作为所述样本数据的知识图谱三元组特征。
在一些实施例中,所述抽取所述样本数据的句法结构特征,包括:
基于句法分析工具对所述样本数据的第一句话进行句法分析,确定所述样本数据的句法树;
基于所述样本数据的句法树,确定所述样本数据的句法结构特征。
在一些实施例中,所述基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型,包括:
将所述样本数据与所述样本数据的控制信号进行拼接;
在初始Transformer模型中设置控制信号部分的位置编码,使控制信号与待生成文本之间的距离为目标值;
基于拼接后的数据对设置后的模型进行预训练,得到所述目标可控文本生成模型。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行可控文本生成方法,该方法包括:
将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的可控文本生成方法,该方法包括:
将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的可控文本生成方法,该方法包括:
将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种可控文本生成方法,其特征在于,包括:
将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
2.根据权利要求1所述的可控文本生成方法,其特征在于,所述对样本数据进行特征抽取,确定所述样本数据的控制信号,包括:
抽取所述样本数据的关键词特征、事件特征、知识图谱三元组特征、文本风格特征和句法结构特征;
基于抽取的特征中的至少一项,确定所述样本数据的控制信号。
3.根据权利要求2所述的可控文本生成方法,其特征在于,所述抽取所述样本数据的关键词特征,包括:
基于TF-IDF、TextRank和KeyBERT方法,分别抽取所述样本数据的关键词;
基于所述关键词,确定关键词候选集;
基于所述样本数据中的词的数量,从所述关键词候选集中抽取第一数量个关键词;
将所述第一数量个关键词作为所述样本数据的关键词特征。
4.根据权利要求2所述的可控文本生成方法,其特征在于,所述抽取所述样本数据的事件特征,包括:
对所述样本数据进行分句和语义标注,确定每个文本数据的语义结构;
将语义结构不完整的文本数据进行过滤;
基于所述样本数据中的句子的数量,从剩余语义结构中抽取第二数量个语义结构;
将所述第二数量个语义结构作为所述样本数据的事件特征。
5.根据权利要求2所述的可控文本生成方法,其特征在于,所述抽取所述样本数据的知识图谱三元组特征,包括:
对所述样本数据进行分词、命名实体识别和关系抽取处理,确定所述样本数据的知识图谱三元组;
基于所述样本数据中的句子的数量,从所述知识图谱三元组中抽取第三数量个知识图谱三元组;
将所述第三数量个知识图谱三元组作为所述样本数据的知识图谱三元组特征。
6.根据权利要求2所述的可控文本生成方法,其特征在于,所述抽取所述样本数据的句法结构特征,包括:
基于句法分析工具对所述样本数据的第一句话进行句法分析,确定所述样本数据的句法树;
基于所述样本数据的句法树,确定所述样本数据的句法结构特征。
7.根据权利要求1所述的可控文本生成方法,其特征在于,所述基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型,包括:
将所述样本数据与所述样本数据的控制信号进行拼接;
在初始Transformer模型中设置控制信号部分的位置编码,使控制信号与待生成文本之间的距离为目标值;
基于拼接后的数据对设置后的模型进行预训练,得到所述目标可控文本生成模型。
8.一种可控文本生成装置,其特征在于,包括:
生成模块,用于将初始文本以及初始控制信号输入至目标可控文本生成模型中,得到所述目标可控文本生成模型输出的可控文本;
所述目标可控文本生成模型通过如下方式训练得到:
对样本数据进行特征抽取,确定所述样本数据的控制信号;
基于所述样本数据以及所述样本数据的控制信号,对初始Transformer模型进行预训练,得到所述目标可控文本生成模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述可控文本生成方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述可控文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210615338.2A CN114970524B (zh) | 2022-05-31 | 2022-05-31 | 可控文本生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210615338.2A CN114970524B (zh) | 2022-05-31 | 2022-05-31 | 可控文本生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114970524A true CN114970524A (zh) | 2022-08-30 |
CN114970524B CN114970524B (zh) | 2024-02-02 |
Family
ID=82959249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210615338.2A Active CN114970524B (zh) | 2022-05-31 | 2022-05-31 | 可控文本生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970524B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216193A (zh) * | 2023-09-26 | 2023-12-12 | 人民网股份有限公司 | 基于大语言模型的可控文本生成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783455A (zh) * | 2020-07-13 | 2020-10-16 | 网易(杭州)网络有限公司 | 文本生成模型的训练方法及装置、文本生成方法及装置 |
CN112560398A (zh) * | 2019-09-26 | 2021-03-26 | 百度在线网络技术(北京)有限公司 | 一种文本生成方法及装置 |
CN113076756A (zh) * | 2020-01-06 | 2021-07-06 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法和装置 |
CN114510924A (zh) * | 2022-02-14 | 2022-05-17 | 哈尔滨工业大学 | 一种基于预训练语言模型的文本生成方法 |
-
2022
- 2022-05-31 CN CN202210615338.2A patent/CN114970524B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560398A (zh) * | 2019-09-26 | 2021-03-26 | 百度在线网络技术(北京)有限公司 | 一种文本生成方法及装置 |
CN113076756A (zh) * | 2020-01-06 | 2021-07-06 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法和装置 |
CN111783455A (zh) * | 2020-07-13 | 2020-10-16 | 网易(杭州)网络有限公司 | 文本生成模型的训练方法及装置、文本生成方法及装置 |
CN114510924A (zh) * | 2022-02-14 | 2022-05-17 | 哈尔滨工业大学 | 一种基于预训练语言模型的文本生成方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216193A (zh) * | 2023-09-26 | 2023-12-12 | 人民网股份有限公司 | 基于大语言模型的可控文本生成方法及装置 |
CN117216193B (zh) * | 2023-09-26 | 2024-02-27 | 人民网股份有限公司 | 基于大语言模型的可控文本生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114970524B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
CN107247707B (zh) | 基于补全策略的企业关联关系信息提取方法和装置 | |
CN111611810B (zh) | 一种多音字读音消歧装置及方法 | |
CN111428025B (zh) | 文本摘要方法、装置、电子设备和存储介质 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US11651015B2 (en) | Method and apparatus for presenting information | |
US11158349B2 (en) | Methods and systems of automatically generating video content from scripts/text | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
EP4364044A1 (en) | Automated troubleshooter | |
JP2018088101A (ja) | 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム | |
CN109614481A (zh) | 对象识别方法、装置、电子设备及计算机可读存储介质 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
CN114970524A (zh) | 可控文本生成方法及装置 | |
WO2022262080A1 (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
JP2016164707A (ja) | 自動翻訳装置及び翻訳用モデル学習装置 | |
CN114491209A (zh) | 基于互联网信息抓取的企业业务标签挖掘的方法和系统 | |
CN117473971A (zh) | 一种基于采购文本库的招标文件自动生成方法及系统 | |
CN114912434A (zh) | 一种风格文本的生成方法及装置、存储介质、电子设备 | |
CN115270777A (zh) | 一种合同文件信息抽取方法、装置、系统 | |
CN114154497A (zh) | 语病识别方法、装置、电子设备和存储介质 | |
WO2020026229A2 (en) | Proposition identification in natural language and usage thereof | |
JP2020071668A (ja) | 要約生成方法及び要約生成プログラム | |
JP2019200488A (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |