CN112000777A - 一种文本生成方法、装置、计算机设备和存储介质 - Google Patents
一种文本生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112000777A CN112000777A CN202010917818.5A CN202010917818A CN112000777A CN 112000777 A CN112000777 A CN 112000777A CN 202010917818 A CN202010917818 A CN 202010917818A CN 112000777 A CN112000777 A CN 112000777A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- word
- text generation
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 23
- 230000009467 reduction Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013140 knowledge distillation Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种文本生成方法、装置、计算机设备和存储介质,其中方法包括:获取文本类型以及关键词;根据文本类型、关键词以及文本生成模型生成文本;文本生成模型是基于老师文本生成模型的输入与输出训练生成的;老师文本生成模型是利用自回归解码器模型训练生成的;自回归解码器模型的嵌入向量部分引入了词语类型分类信息。本发明提供的文本生成方法,在编码器模型部分引入了词语类型分类信息,使得每个词都有既定的类别作为先验知识,通过分类器的结果反向传播给模型的输入,再放入文本生成模型中学习,是每个词语不仅有了上下文含义,还有了本身属性特征,使得最终生成的文本生成模型有了“定向生成文本”的能力。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种文本生成方法、装置、计算机设备和存储介质。
背景技术
随着机器学习的发展,越来越多的领域都应用了机器学习算法。
目前,在文本生成领域最前沿的机制是基于transformer的。它是将文本处理成基于字或者词的文本序列,通过复杂的神经网络去训练学习下一个词出现的概率,使得AI能学习到文本本身的书写规律。然而,它需要学习的参数较为庞大、训练成本较高的,并且在指定领域和关键词后,无法定向的生成我们需要对文本,给商业化、工程化带来了一定的难度。
可见,现有的文本生成技术还存在着参数庞大、成本高、无法定向生成需求内容的技术问题。
发明内容
本发明实施例的目的在于提供一种文本生成方法,旨在解决现有的文本生成技术还存在着参数庞大、成本高、无法定向生成需求内容的技术问题。
本发明实施例是这样实现的,一种文本生成方法,包括:
获取文本类型以及多个文本关键词;
根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本;所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
本发明实施例的另一目的在于提供一种文本生成装置,包括:
文本类型与关键词获取单元,用于获取文本类型以及多个文本关键词;
文本生成单元,用于根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本;所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述文本生成方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述文本生成方法的步骤。
本发明实施例提供的一种文本生成方法,通过在获取文本类型以及多个关键词后,利用预先训练生成的文本生成模型,其中文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的,一方面,基于知识蒸馏的思想利用参数量大的老师文本生成模型的输入与输出来训练生成参数量小的文本生成模型,让文本生成模型能够学习到老师文本生成模型的经验,同时考虑到参数的减少可能会导致模型损失掉一些信息,通过额外引入预设的词语相对于文本分词针对于某个特定类型的重要度的先验知识能够有效弥补参数的减少所带来的效果性能的损失,另一方面,老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的,同时在自回归解码器模型的嵌入向量部分引入了词语类型分类信息的先验知识,通过分类器的结果反向传播给整个模型的输入,再放入文本生成模型中学习,这样每个词语不仅有了上下文含义,还有了本身的属性特征,使得最终生成的文本生成模型有了“定向生成文本”的能力,配合初始的文本类型以及多个关键词,实现了按需求定向生成文本的能力,推动了文本生成技术的商业化与工程化发展。
附图说明
图1为本发明实施例提供的一种文本生成方法的步骤流程图;
图2为本发明实施例提供的另一种文本生成方法的步骤流程图;
图3为本发明实施例提供的一种生成文本的步骤流程图;
图4为本发明实施例提供的另一种生成文本的步骤流程图;
图5为本发明实施例提供的又一种生成文本的步骤流程图;
图6为本发明实施例提供的一种训练生成文本生成模型的步骤流程图;
图7为本发明实施例提供的另一种训练生成文本生成模型的步骤流程图;
图8为本发明实施例提供的一种文本生成装置的结构示意图;
图9为本发明实施例提供的一种执行文本生成方法的计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
本发明为解决现有的文本生成技术中存在的参数庞大、成本高且无法定向生成需求内容的技术问题,在现有transformer算法的框架上,保留了其自回归解码器模型部分,同时在自回归解码器模型的嵌入向量部分引入了词语类型分类信息,通过引入这样一个既定类别的先验知识,通过分类器的结果反向传播给整个模型的输入,每个词不仅有了上下文含义,也有了本身的属性特征,具有定向生成本身的能力。同时,考虑到通过上述方法训练得到的文本生成模型当中参数较多,借鉴于知识蒸馏的思想,通过构建一个参数更少,但是与前述训练得到的文本生成模型的输入与输出相一致的文本生成模型,也就是利用老师文本生成模型的输入与输出来训练参数更少的学生文本生成模型,进一步,考虑到参数的减少,可能会使学生文本生成模型损失掉一些老师文本生成模型的信息,在利用老师文本生成模型的输入与输出训练学生文本生成模型的过程中,额外引入预设的词语相对于文本类型的重要度的先验知识能够有效弥补参数的减少所带来的效果性能的损失。最终得到的文本生成模型参数少且文本生成效果性能良好,有利于线上部署,同时文本生成模型具有“定向行走的能力”,如此在给定关键词以及文本类型之后,每一个生成词都与文本类型具有较高的契合度,即能够满足用户的需求定向生成文本。
如图1所示,为本发明实施例提供的一种文本生成方法的步骤流程图,具体包括以下步骤。
步骤S102,获取文本类型以及多个文本关键词。
在本发明实施例中,所述可以获取的文本类型应当是预先设定好的,例如包括新闻类型、党建类型、学习心得等等。
在本发明实施例中,需要给每一段都提供若干个关键词,以保证文本的生成效果。
在本发明实施例中,文本类型以及关键词通常是通过输入设备输入的,例如通过鼠标点击确定或者通过键盘数据内容。
步骤S104,根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本。
在本发明实施例中,所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
在本发明实施例中,由于transformer算法的自回归解码器模型是经典的算法模型,本发明对其具体内容不再阐述,其中现有的自回归解码器模型的嵌入向量部分往往只包括词语的词义信息以及内部位置信息,本发明通过额外引入词语类型分类信息,使每一个词都有一个既定的类别作为先验知识,然后通过分类器的结果反向传播给整个模型的输入,使整个模型具有定向生成本文的能力。
在本发明实施例中,文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成是利用了“知识蒸馏”的思想,通过训练出一个输入和输出与老师文本生成模型相一致,但是参数更少的学生文本生成模型,能够更好地部署在网上,节约成本,同时为了降低因参数减少所带来的信息损失、文本生成性能降低的影响,在训练的过程中引入预设的词语相对于文本类型的重要度来弥补参数减少可能带来的信息损失,使得到文本生成模型能够结合词语重要度分析去定向生成文本,其中,预设的词语相对于文本类型的重要度可以通过多种方式设定,由于tf-idf值获取较为方便,且实际应用的结果较为理想,考虑到时间成本等因素,优选通过预先准备的文章类型、关键词所获得的文本词语的tf-idf值来作为词语相对于文本类型的重要度,当然也可以选用其他形式设定的词语相对于文本类型的重要度。
在本发明实施例中,训练生成所述文本生成模型的步骤请参阅图6及其解释说明。
在本发明实施例中,根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本的具体实现过程请参阅图3及其解释说明。
本发明实施例提供的一种文本生成方法,通过在获取文本类型以及多个关键词后,利用预先训练生成的文本生成模型,其中文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的,一方面,基于知识蒸馏的思想利用参数量大的老师文本生成模型的输入与输出来训练生成参数量小的文本生成模型,让文本生成模型能够学习到老师文本生成模型的经验,同时考虑到参数的减少可能会导致模型损失掉一些信息,通过额外引入预设的词语相对于文本类型的重要度的先验知识能够有效弥补参数的减少所带来的效果性能的损失,另一方面,老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的,同时在自回归解码器模型的嵌入向量部分引入了词语类型分类信息的先验知识,通过分类器的结果反向传播给整个模型的输入,再放入文本生成模型中学习,这样每个词语不仅有了上下文含义,还有了本身的属性特征,使得最终生成的文本生成模型有了“定向生成文本”的能力,配合初始的文本类型以及多个关键词,实现了按需求定向生成文本的能力,推动了文本生成技术的商业化与工程化发展。
如图2所示,为本发明实施例提供的另一种文本生成方法的步骤流程图,详述如下。
在本发明实施例中,与图1所示出的一种文本生成方法的步骤流程图的区别在于,在所述步骤S104后,还包括:
步骤S202,根据预设的专有名词识别模型对所述文本进行专有名词识别。
在本发明实施例中,所述专有名词包括人名、地名以及机构名。
在本发明实施例中,考虑到文本生成过程中存在生成了不符合实际需求的人名、地名或者机构名的可能性,通过专有名词识别模型来对生成的文本进行识别,标记出其中的人名、地名以及机构名。
步骤S204,按照预设的替换规则对识别出的所述专有名词进行替换,生成专有名词替换后的文本。
在本发明实施例中,在识别标记出人名、地名以及机构名等专有名词后,利用预设的标识符合对所述专有名词进行替换,例如利用标识符PER替换人名,利用标识符LOC替换地名,利用标识符ORG替换机构名。则所生成的新的文本可以方便地根据实际用户的需要一键替换标识符。
本发明实施例提供的一种文本生成方法,针对于生成的包括人名、地名、机构名在内的专有名词,进行了自动识别与替换,利用标识符来替换专用名词,后续可以方便的根据实际用户的需要一键替换标识符。
如图3所示,为本发明实施例提供的生成文本的步骤流程图,具体包括以下步骤。
步骤S302,确定当前输入词。
在本发明实施例中,由于基于transformer算法的自回归解码器模型当中所生成的文本都是以上一文本作为输入所生成的,即生成的过程是一个词一个词语生成的,因此,在每次生成新的词语前,都需要确定当前输入词。其中,首次确定的当前生成词是输入的文本关键词,后续的当前生成词则是上一次生成的词语。
步骤S304,根据所述多个文本关键词、所述当前输入词以及所述文本生成模型确定多个下位可能生成词。
在本发明实施例中,将文本关键词以及当前生成词输入到预先训练好的文本生成模型后,能够确定多个下位可能生成词,此时需要进一步对多个下位可能生成词进行评估来确定最合适的生成词。
在本发明实施例中,需要说明的一点是,在确定多个下位可能生成词的过程中,还可以通过预先设定与生成词出现概率关联的中文语法规则,例如设定不出现某些词,来自适应的放大和减小部分生成词出现的概率。
步骤S306,计算所述多个下位可能生成词的词语类型分类信息与所述文本类型之间的关联度。
在本发明实施例中,结合前述内容可知,由于改进文本生成模型在自回归解码器模型的嵌入向量部分引入了词语类型分类信息,因此,能够直接确定出多个下位可能生成词的词语类型分类信息与所述文本类型之间的关联度。
步骤S308,根据所述关联度确定下位生成词。
在本发明实施例中,基于多个下位可能生成词的词语类型分类信息与所述文本类型之间的关联度就能够确定最优下位生成词,通常情况下,将关联度最优的确定为最优下位生成词。
步骤S310,根据所述下位生成词生成文本。
在本发明实施例中,结合前述步骤S302的内容可知,通过确定当前输入词,然后生成下位生成词,将下位生成词重新确定为当前输入词,重新生成新的下位生成词,通过不断重复上述步骤,将生成的下位生成词依次排列就能够得到符合要求的文本。
如图4所示,为本发明实施例提供的另一种生成文本的步骤流程图,详述如下。
在本发明实施例中,与图3所示出的一种生成文本的步骤流程图的区别在于,所述步骤S310具体包括:
步骤S402,判断所述下位生成词是否为预设的结尾语;当判断下位生成词不是预设的结尾语时,执行步骤S404;当判断下位生成词是预设的结尾语时,执行步骤S406。
在本发明实施例中,考虑到生成的文本通常有字数限制,如果不设定结尾语,则文本生成模型会不断生成新的词语,通过预先设定结尾语出现的概率,在生成结尾语后文本生成过程结束。
在本发明实施例中,所述结尾语可以是预设的结束词语,当然也可以是设定的特殊符号。
步骤S404,将所述下位生成词确定为当前输入词,并返回至所述步骤S304。
在本发明实施例中,当下位生成词不是预设的结尾词时,此时仍需要继续执行文本生成过程,则将所述下位生成词确定为当前输入词,重新输入至改进transformer文本生成模型生成下位生成词。
步骤S406,生成文本。
在本发明实施例中,当下位生成词是预设的结尾词后,则表明文本生成过程结束,此时将下文生成词依次排列,即可输出文本。
如图5所示,为本发明实施例提供的又一种生成文本的步骤流程图,详述如下。
在本发明实施例中,与图3所示出的一种生成文本的步骤流程图的区别在于,在所述步骤S308之前,还包括:
步骤S502,根据预设的通顺度计算模型计算所述多个下位可能生成词的通顺度。
在本发明实施例中,除了考虑下位可能生成词的词语类型分类信息与所述文本类型之间的关联度之外,还从句子完整的通顺角度上进行评估,本发明中利用预设的通顺度计算模型分别计算多个下位可能生成词与整体句子的通顺度,其中所述通顺度计算模型是一种类似于N-gram的模型,通过采用注意力机制的加权进行求和得分,即对文本生成模型的输出,也就是对前N个生成词的得分进行加权求和。
所述步骤S308具体为:
步骤S504,根据所述通顺度以及所述关联度确定下位生成词。
在本发明实施例中,此时将以下位可能生成的关联度与通顺度作为评估指标来确定最优的下位生成词。
在本发明实施例中,通过利用关联度与通顺度来对下位生成词进行评估,即不仅考虑了文章的通顺性,同时思考该词是不是紧扣题目,采用这种每写一个词都模拟人类“思考”是否符合要求的机制,能够大大提升了本发明生成文本的商业化的可行性。
如图6所示,为本发明实施例提供的一种训练生成文本生成模型的步骤流程图,具体包括以下步骤:
步骤S602,构建初始化的自回归解码器模型。
在本发明实施例中,transformer算法的自回归解码器模型属于本领域的常规算法,具体的结构在此不再赘述,其中自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
步骤S604,将预先给定的训练文本输入至自回归解码器模型内进行训练生成老师文本生成模型。
在本发明实施例中,具体训练生成的过程通常自动化训练的过程,在获取到训练文本后,自回归解码器模型能够自动执行训练过程,其中具体的步骤请参阅图7及其解释说明。
步骤S606,构建初始化的学生文本生成模型。
在本发明实施例中,所述学生文本生成模型的参数少于所述老师文本生成模型的参数。
步骤S608,根据所述老师文本生成模型输入与输出的对应关系以及词语相对于词语类型分类的重要度对所述学生文本生成模型训练,生成文本生成模型。
在本发明实施例中,以老师文本生成模型的输入与输出作为指引,训练出能够生成相同结果的学生文本生成模型训练,同时在训练的过程中引入词语相对于词语类型分类的重要度,通常选用预先准备的文章类型、关键词所获得的文本词语的tf-idf值来作为词语相对于文本类型的重要度,通过利用词语相对于词语类型分类的重要度,不仅能够弥补因参数减少所带来的文本生成性能降低的影响,还能使得学生文本生成模型学习到文章本身的规律以及学习到文章词汇是否符合我们设定的定向要求,达到了快速收敛的目的。
如图7所示,为本发明实施例提供的一种训练生成老师文本生成模型的步骤流程图,具体包括以下步骤:
步骤S702,确定预先给定的训练文本中各词语的词特征向量。
在本发明实施例中,相对于常规解码器模型的嵌入向量部分,本发明提供的词特征向量不仅包含了词语的词义信息、内部位置信息,还额外包含了类型分类信息。
步骤S704,确定当前输入词。
步骤S706,根据自回归解码器模型对所述当前输入词的词特征向量进行处理,生成下位词语的预测输出向量。
步骤S708,根据真实下位词语的词特征向量与所述预测输出向量的差异更新所述自回归解码器模型。
步骤S710,判断是否满足预设的训练完成条件。当判断没有满足预设的训练完成条件时,执行步骤S712;当判断满足预设的训练完成条件时,执行步骤S714。
步骤S712,将真实下位词语确定为当前输入词,并返回至所述步骤S706。
步骤S714,将当前自回归解码器模型确定为老师文本生成模型。
在本发明实施例中,解码器模型的训练过程就是通过输入一个词,确定预测下位生成词与真实下位词之间的差异,并根据该差异反向传播对自回归解码器模型进行调整,不断重复该步骤,直至完成训练过程,该过程属于算法的常规过程,在此不再赘述具体的公式。
如图8所示,为本发明实施例提供的一种文本生成装置的结构示意图,详述如下。
在本发明实施例中,所述文本生成装置包括:
文本类型与关键词获取单元810,用于获取文本类型以及多个文本关键词。
在本发明实施例中,所述可以获取的文本类型应当是预先设定好的,例如包括新闻类型、党建类型、学习心得等等。
在本发明实施例中,需要给每一段都提供若干个关键词,以保证文本的生成效果。
在本发明实施例中,文本类型以及关键词通常是通过输入设备输入的,例如通过鼠标点击确定或者通过键盘数据内容。
文本生成单元820,用于根据所述文本类型、所述多个文本关键词以及预设的改进transformer文本生成模型生成文本。
在本发明实施例中,所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
在本发明实施例中,由于transformer算法的自回归解码器模型是经典的算法模型,本发明对其具体内容不再阐述,其中现有的自回归解码器模型的嵌入向量部分往往只包括词语的词义信息以及内部位置信息,本发明通过额外引入词语类型分类信息,使每一个词都有一个既定的类别作为先验知识,然后通过分类器的结果反向传播给整个模型的输入,使整个模型具有定向生成本文的能力。
在本发明实施例中,文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成是利用了“知识蒸馏”的思想,通过训练出一个输入和输出与老师文本生成模型相一致,但是参数更少的学生文本生成模型,能够更好地部署在网上,节约成本,同时为了降低因参数减少所带来的信息损失、文本生成性能降低的影响,在训练的过程中引入预设的词语相对于文本类型的重要度来弥补参数减少可能带来的信息损失,其中,预设的词语相对于文本类型的重要度可以通过多种方式设定,由于tf-idf值获取较为方便,且实际应用的结果较为理想,考虑到时间成本等因素,优选通过预先准备的文章类型、关键词所获得的文本词语的tf-idf值来作为词语相对于文本类型的重要度,当然也可以选用其他形式设定的词语相对于文本类型的重要度。
本发明实施例提供的一种文本生成装置,通过在获取文本类型以及多个关键词后,利用预先训练生成的在编码器模型部分引入了词语类型分类信息的改进transformer文本生成模型对文本类型以及关键词进行处理,由于改进transformer文本生成模型在编码器模型部分引入了词语类型分类信息,使得每一个词都有一个既定的类别作为先验知识,通过分类器的结果反向传播给整个模型的输入,再放入文本生成模型中学习,这样每个词语不仅有了上下文含义,还有了本身的属性特征,使得最终生成的文本生成模型有了“定向生成文本”的能力,配合初始的文本类型以及多个关键词,实现了按需求定向生成文本的能力,推动了文本生成技术的商业化与工程化发展。
图9示出了一个实施例中计算机设备的内部结构图。如图9所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本生成方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本生成方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本生成装置可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本生成装置的各个程序模块,比如,图8所示的文本类型与关键词获取单元810以及文本生成单元820。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本生成方法中的步骤。
例如,图9所示的计算机设备可以通过如图8所示的文本生成装置中的文本类型与关键词获取单元810执行步骤S102。计算机设备可通过文本生成单元820执行步骤S104。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取文本类型以及多个文本关键词;
根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本;所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取文本类型以及多个文本关键词;
根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本;所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本生成方法,其特征在于,包括:
获取文本类型以及多个文本关键词;
根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本;所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
2.根据权利要求1所述的文本生成方法,其特征在于,在所述根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本的步骤之后,还包括:
根据预设的专有名词识别模型对所述文本进行专有名词识别;所述专有名词包括人名、地名以及机构名;
按照预设的替换规则对识别出的所述专有名词进行替换,生成专有名词替换后的文本。
3.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本的步骤,具体包括:
确定当前输入词;
根据所述多个文本关键词、所述当前输入词以及所述文本生成模型确定多个下位可能生成词;
计算所述多个下位可能生成词的词语类型分类信息与所述文本类型之间的关联度;
根据所述关联度确定下位生成词;
根据所述下位生成词生成文本。
4.根据权利要求3所述的文本生成方法,其特征在于,所述根据所述下位生成词生成文本的步骤,具体为:
判断所述下位生成词是否为预设的结尾语;
当判断下位生成词不是预设的结尾语时,将所述下位生成词确定为当前输入词,并返回至所述根据所述多个文本关键词、所述当前输入词以及所述文本生成模型确定多个下位可能生成词的步骤;
当判断下位生成词是预设的结尾语时,生成文本。
5.根据权利要求3所述的文本生成方法,其特征在于,在根据所述关联度确定下位生成词的步骤之前,还包括:
根据预设的通顺度计算模型计算所述多个下位可能生成词的通顺度;
所述根据所述关联度确定下位生成词的步骤,具体为:
根据所述通顺度以及所述关联度确定下位生成词。
6.根据权利要求1所述的文本生成方法,其特征在于,训练生成所述文本生成模型的步骤,具体包括:
构建初始化的自回归解码器模型;
将预先给定的训练文本输入至自回归解码器模型内进行训练生成老师文本生成模型;
构建初始化的学生文本生成模型;所述学生文本生成模型的参数少于所述老师文本生成模型的参数;
根据所述老师文本生成模型输入与输出的对应关系以及词语相对于词语类型分类的重要度对所述学生文本生成模型训练,生成文本生成模型。
7.根据权利要求6所述的文本生成方法,其特征在于,所述将预先给定的训练文本输入至自回归解码器模型内进行训练生成老师文本生成模型的步骤,具体包括:
确定预先给定的训练文本中各词语的词特征向量;所述词特征向量包含了词语的词义信息、内部位置信息以及类型分类信息;
确定当前输入词;
根据自回归解码器模型对所述当前输入词的词特征向量进行处理,生成下位词语的预测输出向量;
根据真实下位词语的词特征向量与所述预测输出向量的差异更新所述自回归解码器模型;
判断是否满足预设的训练完成条件;
当判断没有满足预设的训练完成条件时,将真实下位词语确定为当前输入词,并返回至所述根据自回归解码器模型对所述当前输入词的词特征向量进行处理,生成下位词语的预测输出向量的步骤;
当判断满足预设的训练完成条件时,将当前自回归解码器模型确定为老师文本生成模型。
8.一种文本生成装置,其特征在于,包括:
文本类型与关键词获取单元,用于获取文本类型以及多个文本关键词;
文本生成单元,用于根据所述文本类型、所述多个文本关键词以及文本生成模型生成文本;所述文本生成模型是基于老师文本生成模型的输入与输出以及预设的词语相对于文本类型的重要度训练生成的;所述老师文本生成模型是预先基于transformer算法的自回归解码器模型训练生成的;所述自回归解码器模型的嵌入向量部分引入了词语类型分类信息。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述文本生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述文本生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010917818.5A CN112000777A (zh) | 2020-09-03 | 2020-09-03 | 一种文本生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010917818.5A CN112000777A (zh) | 2020-09-03 | 2020-09-03 | 一种文本生成方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112000777A true CN112000777A (zh) | 2020-11-27 |
Family
ID=73468317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010917818.5A Pending CN112000777A (zh) | 2020-09-03 | 2020-09-03 | 一种文本生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112000777A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118227795A (zh) * | 2024-04-11 | 2024-06-21 | 淮阴工学院 | 一种基于知识蒸馏的双重先验文本分类方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160124933A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Generation apparatus, generation method, and program |
CN109783787A (zh) * | 2018-12-29 | 2019-05-21 | 远光软件股份有限公司 | 一种结构化文档的生成方法、装置及存储介质 |
CN110162751A (zh) * | 2019-05-13 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 文本生成器训练方法和文本生成器训练系统 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
US20190325308A1 (en) * | 2016-12-30 | 2019-10-24 | Google Llc | Multi-task learning using knowledge distillation |
CN111046645A (zh) * | 2019-12-11 | 2020-04-21 | 浙江大搜车软件技术有限公司 | 生成文章的方法、装置、计算机设备和存储介质 |
CN111221940A (zh) * | 2020-01-03 | 2020-06-02 | 京东数字科技控股有限公司 | 一种文本生成方法、装置、电子设备及存储介质 |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111506702A (zh) * | 2020-03-25 | 2020-08-07 | 北京万里红科技股份有限公司 | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 |
CN111563371A (zh) * | 2020-05-08 | 2020-08-21 | 海信电子科技(武汉)有限公司 | 一种文本生成的方法及设备 |
-
2020
- 2020-09-03 CN CN202010917818.5A patent/CN112000777A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160124933A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Generation apparatus, generation method, and program |
US20190325308A1 (en) * | 2016-12-30 | 2019-10-24 | Google Llc | Multi-task learning using knowledge distillation |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109783787A (zh) * | 2018-12-29 | 2019-05-21 | 远光软件股份有限公司 | 一种结构化文档的生成方法、装置及存储介质 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN110162751A (zh) * | 2019-05-13 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 文本生成器训练方法和文本生成器训练系统 |
CN111046645A (zh) * | 2019-12-11 | 2020-04-21 | 浙江大搜车软件技术有限公司 | 生成文章的方法、装置、计算机设备和存储介质 |
CN111221940A (zh) * | 2020-01-03 | 2020-06-02 | 京东数字科技控股有限公司 | 一种文本生成方法、装置、电子设备及存储介质 |
CN111506702A (zh) * | 2020-03-25 | 2020-08-07 | 北京万里红科技股份有限公司 | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 |
CN111563371A (zh) * | 2020-05-08 | 2020-08-21 | 海信电子科技(武汉)有限公司 | 一种文本生成的方法及设备 |
Non-Patent Citations (4)
Title |
---|
是小橙子呀: "《简书》", 7 November 2019 * |
李作潮: "基于关键词语义控制的文本生成算法研究", 《中国优秀硕士学位论文全文数据库》 * |
桑塔努•帕塔纳亚克(SANTANU PATTANAYAK): "《Python人工智能项目实战》", 31 October 2019 * |
王侃等: "基于改进Transformer模型的文本摘要生成方法", 《电讯技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118227795A (zh) * | 2024-04-11 | 2024-06-21 | 淮阴工学院 | 一种基于知识蒸馏的双重先验文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611805B (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
CN110866098B (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
CN112287080B (zh) | 问题语句的改写方法、装置、计算机设备和存储介质 | |
CN113157897B (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN112101042B (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN111709229B (zh) | 基于人工智能的文本生成方法、装置、计算机设备和介质 | |
CN113536795B (zh) | 实体关系抽取的方法、系统、电子装置和存储介质 | |
CN112800757A (zh) | 关键词生成方法、装置、设备及介质 | |
CN114881035A (zh) | 训练数据的增广方法、装置、设备和存储介质 | |
CN112836506A (zh) | 一种基于上下文语义的信源编译码方法和装置 | |
CN114065741B (zh) | 用于验证表述的真实性的方法、设备、装置和介质 | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
CN114648032A (zh) | 语义理解模型的训练方法、装置和计算机设备 | |
CN112000777A (zh) | 一种文本生成方法、装置、计算机设备和存储介质 | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
KR20240128104A (ko) | 언어 모델 신경망을 사용하여 인라인 증거를 갖는 출력 시퀀스 생성 | |
CN115617971A (zh) | 基于ALBERT-Coref模型的对话文本生成方法 | |
CN112463921B (zh) | 韵律层级划分方法、装置、计算机设备和存储介质 | |
CN115240713A (zh) | 基于多模态特征和对比学习的语音情感识别方法及装置 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201127 |