CN112183057A - 文章生成方法、装置、智能设备和存储介质 - Google Patents

文章生成方法、装置、智能设备和存储介质 Download PDF

Info

Publication number
CN112183057A
CN112183057A CN202010974373.4A CN202010974373A CN112183057A CN 112183057 A CN112183057 A CN 112183057A CN 202010974373 A CN202010974373 A CN 202010974373A CN 112183057 A CN112183057 A CN 112183057A
Authority
CN
China
Prior art keywords
text
newly generated
initial
word
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010974373.4A
Other languages
English (en)
Inventor
杨亿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Siyuan Zhitong Technology Co ltd
Original Assignee
Beijing Siyuan Zhitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Siyuan Zhitong Technology Co ltd filed Critical Beijing Siyuan Zhitong Technology Co ltd
Priority to CN202010974373.4A priority Critical patent/CN112183057A/zh
Publication of CN112183057A publication Critical patent/CN112183057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请适用于文本处理技术领域,提供了一种文章生成方法、装置、智能设备和存储介质,包括:获取起始文本;将所述起始文本输入至已训练好的文本生成模型中处理,得到所述起始文本对应的生成文本;其中,所述文本生成模型对所述起始文本的处理包括获取起始文本对应的新生成的词的概率分布,根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本,在所述预备文本满足预设要求时,得到所述起始文本对应的生成文本。本申请可增强生成的文章的上下文连贯性以及逻辑性,在提高文章生成效率的同时可提高文章的质量。

Description

文章生成方法、装置、智能设备和存储介质
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文章生成方法、装置、智能设备和存储介质。
背景技术
随着大数据技术,自然语言处理以及其他人工智能技术的不断发展,逐渐掀起了用算法自动写作生成文章的探索和实践。写作主要考察的是语序,语法,内容和语言逻辑,基于大量优质作文数据训练而得到的文本生成模型可以自动生成优质的作文。
然而,现有技术中,自动生成文本的模型生成一篇文章需要较长的时间,且生成的文章上下文连贯性和逻辑性较差,文章质量欠佳。
发明内容
本申请实施例提供了一种文章生成方法、装置、智能设备和存储介质,可以解决现有技术中,自动生成文本的模型生成一篇文章需要较长的时间,且生成的文章上下文连贯性和逻辑性较差,文章质量欠佳的问题。
第一方面,本申请实施例提供了一种文章生成方法,包括:
获取起始文本;
将所述起始文本输入至已训练好的文本生成模型中处理,得到所述起始文本对应的生成文本;其中,所述文本生成模型对所述起始文本的处理包括获取起始文本对应的新生成的词的概率分布,根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本,在所述预备文本满足预设要求时,得到所述起始文本对应的生成文本。
在第一方面的一种可能的实现方式中,所述获取起始文本对应的新生成的词的概率分布的步骤,包括:
获取所述起始文本中句子的编码信息;
按预设算法对所述编码信息进行转换处理,得到所述起始文本中句子的转换处理结果;
根据所述转换处理结果,得到所述起始文本对应的新生成的词的概率分布。
在第一方面的一种可能的实现方式中,所述获取所述起始文本中句子的编码信息的步骤,包括:
获取词嵌入矩阵和所述句子中每个词在词典中的索引,所述词嵌入矩阵是与所述词典中的词相对应的矩阵;
根据所述词嵌入矩阵和所述句子中每个词在所述词典中的索引,确定所述句子的嵌入编码;
获取所述句子的位置编码,所述位置编码根据所述句子中每个词的相对位置信息确定;
根据所述嵌入编码与所述位置编码,确定所述句子的编码信息。
在第一方面的一种可能的实现方式中,所述按预设算法对所述编码信息进行转换处理,得到所述起始文本中句子的转换处理结果的步骤,包括:
基于注意力机制对所述编码信息进行转换处理,得到初始转换结果;
将所述编码信息与所述初始转换处理结果作残差连接处理,得到残差连接结果;
通过全连接层对所述残差连接结果进行全连接处理,得到所述起始文本中句子的转换处理结果。
在第一方面的一种可能的实现方式中,所述根据所述转换处理结果,得到所述起始文本对应的新生成的词的概率分布的步骤,包括:
将所述转换处理结果通过全连接层以及softmax函数进行处理,得到所述起始文本对应的新生成的词的概率分布。
在第一方面的一种可能的实现方式中,所述根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本的步骤,包括:
根据所述新生成的词的概率分布,在词典中索引查找对应的新生成的词;
将查找到的所述新生成的词添加至所述起始文本中,生成预备文本。
在第一方面的一种可能的实现方式中,所述文章生成方法还包括:
若所述预备文本不满足预设要求,则将所述预备文本输入至所述训练好的文本生成模型中,得到所述预备文本对应的新生成的词的概率分布;
根据所述预备文本对应的新生成的词的概率分布,更新所述预备文本;
判断更新后的预备文本是否满足预设要求;
若不满足,则重复执行更新预备文本的步骤,直到更新的预备文本满足所述预设要求,得到生成文本。
第二方面,本申请实施例提供了一种文章生成装置,包括:
起始文本获取单元,用于获取起始文本;
文章生成单元,用于将所述起始文本输入至已训练好的文本生成模型中处理,得到所述起始文本对应的生成文本;其中,所述文本生成模型对所述起始文本的处理包括获取起始文本对应的新生成的词的概率分布,根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本,在所述预备文本满足预设要求时,得到所述起始文本对应的生成文本。
第三方面,本申请实施例提供了一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的文章生成方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的文章生成方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在智能设备上运行时,使得智能设备执行如上述第一方面所述的文章生成方法。
本申请实施例中,基于输入层中的参数矩阵分解以及转换层中的参数共享,可以使本申请的文本生成模型更高效地生成作文。同时基于大量优质的作文作为训练数据,以及输入层的嵌入编码、位置编码和转换层中的多头自注意力机制,可使得本申请中的文本生成模型可以生成更连贯和更具有逻辑的文本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文章生成方法的实现流程图;
图2是本申请实施例提供的文章生成方法中文本生成模型对所述起始文本的处理的具体实现流程图;
图3是本申请实施例提供的文章生成方法中步骤S201的具体实现流程图;
图4是本申请实施例提供的文章生成方法中词嵌入矩阵M的示意图;
图5是本申请实施例提供的文章生成方法中步骤S202的具体实现流程图;
图6是本申请另一实施例提供的文章生成方法的实现流程图;
图7是本申请实施例提供的文章生成装置的结构框图;
图8是本申请实施例提供的智能设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的文章生成方法可以应用于移动设备、服务器、超级移动个人计算机(ultra-mobile personal computer,UMPC)等智能终端上,本申请实施例对智能终端的具体类型不作任何限制。
图1示出了本申请实施例提供的文章生成方法的实现流程,该方法流程包括步骤S101至S102。各步骤的具体实现原理如下:
S101:获取起始文本。
在本申请实施例中,上述起始文本可以是用户自己定义的文本,也可以是用户从多个模板文本中选定的其中一个文本。
在一些实施方式中,上述起始文本是由一个句子或者多个句子组成的第一文本,每一个句子由词组成。在一些实施方式中,上述起始文本是由多个词组成的第二文本。在另一些实施方式中,上述起始文本是由至少一个句子以及多个词组成的第三文本。
在本申请实施例中,上述起始文本为上述第一文本、上述第二文本以及上述第三文本中的任一种。
S102:将所述起始文本输入至已训练好的文本生成模型中处理,得到所述起始文本对应的生成文本。
上述文本生成模型主要由三部分组成,包括输入层、转换处理层以及输出层。具体地,上述文本生成模型用于根据输入的起始文本,输出起始文本对应的生成文本,即根据起始文本自动生成文章。
作为本申请一种可能的实施方式,图2示出了本申请实施例提供的文章生成方法中文本生成模型对所述起始文本的处理的具体实现流程,详述如下步骤 S201至S203:
S201:获取起始文本对应的新生成的词的概率分布。
在本申请实施例中,上述概率分布用于标识词典中与上述起始文本对应的新生成的词。
作为本申请一种可能的实施方式,图3示出了本申请实施例提供的文章生成方法步骤S201的具体实现流程,详述如下:
A1:获取所述起始文本中句子的编码信息。
上述编码信息是通过文本生成模型的输入层对起始文本中句子进行编码得到的。在本申请实施例中,具体通过词嵌入编码和位置编码对句子进行编码,得到上述起始文本中句子的编码信息。
在一些实施方式中,若上述起始文本中包括多个词,则通过词嵌入编码和位置编码对多个词构成的词序列进行编码,得到上述起始文本中词的编码信息。
在本申请实施例中,句子的编码信息包括嵌入编码和位置编码。
作为本申请一种可能的实施方式,上述步骤A1具体包括:
A11:获取词嵌入矩阵和所述句子中每个词在词典中的索引,所述词嵌入矩阵是与所述词典中的词相对应的矩阵。
在本申请实施例中,基于训练语料库中的文本信息进行分词,得到词典Vocabulary,上述句子S包括n个词。Vocabulary={w1,w2,…,wv}, S(w1,w2,…,wn)。利用高斯分布初始化一个词嵌入矩阵Mv
Figure RE-GDA0002779264200000071
v为词典Vocabulary中词的数量,m为词向量的维度,词嵌入矩阵Mv的示意图如图 4。词嵌入矩阵中的一行对应着词典中相应位置词的初始词向量。
在本申请实施例中,通过查找词典Vocabulary,可以得到句子S中的每个词在词典Vocabulary中的索引。
词嵌入矩阵Mv随着文本生成模型的不断训练而不断更新。
A12:根据所述词嵌入矩阵和所述句子中每个词在所述词典中的索引,确定所述句子的嵌入编码。
具体地,基于上述句子中每个词在所述词典中的索引与词嵌入矩阵,可以得到句子S中每个词的词向量,将句子S中所有词的词向量进行拼接形成一个二维矩阵,该二维矩阵即表示所述句子的嵌入编码Semb
Figure RE-GDA0002779264200000072
A13:获取所述句子的位置编码,所述位置编码根据所述句子中每个词的相对位置信息确定。
在本申请实施例中,嵌入编码中并不包含每个词的位置信息,通过引入位置编码,可有效标识词在句子中的位置。具体地,使用高斯分布随机初始化位置编码Spos
Figure RE-GDA0002779264200000073
位置编码Spos随着文本生成模型的不断训练而不断更新。
A14:根据所述嵌入编码与所述位置编码,确定所述句子的编码信息。在本申请实施例中,句子的编码信息由嵌入编码Semb和位置编码Spos确定。
在训练文本生成模型的时候,一般的做法是维持词向量的维度m与后一层的隐层(Hidden State)的大小相等,然而词向量学习到的是关于词的上下文无关的语义表示,隐层往往学习到的是关于词的上下文相关的语义表示。词的上下文信息对于文本生成是非常重要的信息,为了使得隐层具有更强的表示能力,学得更丰富的上下文信息,隐层的大小往往比较大。由于词嵌入矩阵中词向量的大小与隐层大小相等,词嵌入矩阵中的参数量因此会非常大,带来的后果是模型的训练和推理速度因此降低。
在本申请实施例中,由于词嵌入矩阵Mv是一个参数量很大的矩阵,
Figure RE-GDA0002779264200000081
v为词典Vocabulary中词的数量,m为词向量的维度,m的值一般会很大,通过引入一个中间转换矩阵Mh,对词嵌入矩阵Mv行分解,将词向量的维度与隐层的大小解耦,使得我们的文本生成模型可以以较小的参数维持一个较小的词嵌入矩阵和一个较大的隐层。
在一些实施方式中,对词嵌入矩阵Mv的分解具体如下公式(1):
Mv=Mf×Mh (1)
具体地,将Mv分解为Mf和Mh,Mf为分解后的词嵌入矩阵,Mh为中间转换矩阵,原始词嵌入矩阵Mv的参数量为v×m,分解后的词嵌入矩阵Mf的参数量为v×s+s×m,m>>s,s为分解后的词嵌入矩阵中的词向量的维度大小,Mf和Mh两个矩阵的参数随着文本生成模型的训练而学习得到。
作为本申请一种可能的实施方式,在对起始文本中句子进行嵌入编码阶段,通过查询句子S中每个词在Mf中的索引得到S的嵌入编码Semb,将S的嵌入编码 Semb与位置编码相加后再与中间矩阵Mh相乘,得到句子S最终的编码信息X,即:
Figure RE-GDA0002779264200000082
对矩阵X做层归一化处理,X在第t个词对应位置的均值μt为:
Figure RE-GDA0002779264200000091
标准差σt为:
Figure RE-GDA0002779264200000092
X在第t个词对应位置的归一化后的值为:
Figure RE-GDA0002779264200000093
其中g和b为模型参数,在模型训练的时候通过学习而得到,
Figure RE-GDA0002779264200000094
Figure RE-GDA0002779264200000095
∈为常数,为了避免除0的情况,通常给分母加上一个非常小的值∈,∈的值一般取1×10-7
A2:按预设算法对所述编码信息进行转换处理,得到所述起始文本中句子的转换处理结果。
在本申请实施例中,通过上述文本生成模型的转换处理层对上述编码信息进行转换处理,得到起始文本中句子的转换处理结果。
作为本申请一种可能的实施方式,上述步骤A2具体包括:
A21:基于注意力机制对所述编码信息进行转换处理,得到初始转换结果;
注意力机制(attention mechanism)的作用是在对某个词做处理的时候,能够将句子中其他词的信息结合起来综合考虑,可以有效地将其上下文信息包含进来。
在本申请实施例中,在上述文本生成模型的训练开始之前,模型参数是随机初始化的值,文本生成模型的训练开始时,用随机值初始化模型参数,模型参数随着模型的训练而不断迭代更新,训练完成后得到的模型参数将使文本生成模型具有很好的表示能力。
获取给定的文本生成模型的第一模型参数,上述第一模型参数包括Wq, Wk,Wy
Figure RE-GDA0002779264200000096
其中,q、k、y均为标识。
在一些实施方式中,设有c个注意力头,且满足r×c=m,r为上述第一模型参数Wq、Wk、Wv模型参数矩阵的第二维度的尺寸。对于第i个注意力头,将层归一化后的句子S的编码信息X分别与上述三个模型参数矩阵相乘可得如下:
Q=X·Wq,K=X·Wk,Y=X·Wy (6)
其中
Figure RE-GDA0002779264200000101
上述Q、K、Y为计算中间变量。
进一步做如下转化:
Figure RE-GDA0002779264200000102
Figure RE-GDA0002779264200000103
其中,
Figure RE-GDA0002779264200000104
n为句子S中词的数量,A为计算中间变量, k、j为下标,
Figure RE-GDA0002779264200000105
Zi为第i个注意力头的计算中间量,将c个注意力头的计算结果{Z1,Z2,...,Zc}沿模型参数矩阵第二维度进行矩阵拼接,可得初始转换处理结果Z:
Figure RE-GDA0002779264200000106
A22:将所述编码信息与所述初始转换处理结果作残差连接处理,得到残差连接结果。
具体地,根据如下公式(10)将Z与X做残差连接,:
Figure RE-GDA0002779264200000107
再次对Xres做层归一化,具体计算过程与上述的层归一化一样,可得残差连接的结果:
Xnorm=layernorm(Xres) (11)
Figure RE-GDA0002779264200000108
这里使用layernorm来表示层归一化过程。
A23:通过全连接层对所述残差连接结果进行全连接处理,得到所述起始文本中句子的转换处理结果。
具体地,在Xnorm后面增加两个全连接层。获取给定的第二模型参数,第二模型参数包括模型参数Wf1,Wf2,其中
Figure RE-GDA0002779264200000111
d1表示矩阵Wf2第二维度的大小,对Xnorm具体做如下变换,得到所述起始文本中句子的转换处理结果:
F=relu(Xnorm·Wf1) (12)
H1=F·Wf2 (13)
其中,relu(x)=max(x,0),
Figure RE-GDA0002779264200000112
H1表示第1层的Transformer Block转换层的输出。
在本申请实施例中,整个文本生成模型共有g层的Transformer Block。示例性地,g可以为12,即文本生成模型共有12层Transformer Block。每一层的计算逻辑都一样,且层与层之间共享模型参数。将每一个Transformer Block层的输出Ho作为下一个TransformerBlock层的输入,o为层数索引。最后一层Transformer Block层的输出即为Hg,即为起始文本中句子的转换处理结果,其中g示是第g的Transformer Block的输出,
Figure RE-GDA0002779264200000113
A3:根据所述转换处理结果,得到所述起始文本对应的新生成的词的概率分布。
作为本申请一种可能的实施方式,上述步骤A3具体包括:
A31:将所述转换处理结果通过全连接层以及softmax函数进行处理,得到所述起始文本对应的新生成的词的概率分布。
具体地,获取第三模型参数wo1,根据下公式(14)确定所述起始文本对应的新生成的词的概率分布:
p=softmax(l) (14)
其中l为中间变量,
Figure RE-GDA0002779264200000114
Figure RE-GDA0002779264200000115
表示第n个词经过转换处理层中第g层Transformer Blocks后的输出,
Figure RE-GDA0002779264200000116
v为词典Vocabulary中词的数量。
在本申请实施例中,通过编码层的参数分解以及转换层的参数共享,可有效提高模型的训练和推理速度。
S202:根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本。
作为本申请一种可能的实施方式,如图5所示,本申请实施例提供的文章生成方法步骤S202的具体实现流程,详述如下:
B1:根据所述新生成的词的概率分布,在词典中索引查找对应的新生成的词。具体地,新生成的词的概率分布是指词典中每个词被模型预测为新生成的词的概率,根据所述概率分布,将概率最大的词确定为新生成的词。
具体地,新生成的词在词典Vocabulary中的索引index为:
index=argmaxj(p) (15)
其中,p为所述新生成的词的概率分布,j为下标索引。
B2:将查找到的所述新生成的词添加至所述起始文本中,生成预备文本。
在一种实施方式中,将根据上述索引查找到的新生成的词添加至起始文本的末尾,生成预备文本。
S203:在所述预备文本满足预设要求时,得到所述起始文本对应的生成文本。
作为本申请一种可能的实施方式,如图6所示,本申请实施例提供的文章生成方法还包括:
C1:若所述预备文本不满足预设要求,则将所述预备文本输入至所述训练好的文本生成模型中,得到所述预备文本对应的新生成的词的概率分布。
C2:根据所述预备文本对应的新生成的词的概率分布,更新所述预备文本。
C3:判断更新后的预备文本是否满足预设要求。
C4:若不满足,则重复执行更新预备文本的步骤,直到更新的预备文本满足所述预设要求,得到生成文本。
在本申请实施例中,更新预备文本的步骤具体包括将预备文本输入至上述训练好的文本生成模型中,得到预备文本对应的新生成的词的概率分布,根据预备文本对应的新生成的词的概率分布确定预备文本对应的新生成的词,基于预备文本对应的新词更新预备文本。
在本申请实施例中,上述预设要求可以为给定的生成的文本长度。示例性地,记新生成的词为wn+1,即wn+1=V(index),V(index)表示词典Vocabulary 中索引为index的词。将新生成的词wn+1词加入到句子S中, Spre=(w1,w2,…,wn,wn+1),判断Spre是否满足预设要求,例如,判断Spre是否达到给定的生成的文本长度,若不满足预设要求,则将Spre输入到文本生成模型中,进一步计算p来得到第n+2个新生成的词的概率分布,并生成第n+2 个新生成的词,将第n+2个新生成的词加入至Spre, Spre=(w1,w2,…,wn,wn+1,wn+2)如此循环,直到Spre满足预设要求,例如到指定长度,则得到生成文本。
由上可见,在本申请实施例中,基于输入层中的参数矩阵分解以及转换层中的参数共享,可以使本申请的文本生成模型更高效地生成作文。同时基于大量优质的作文作为训练数据,以及输入层的嵌入编码、位置编码和转换层中的多头自注意力机制,可使得本申请中的文本生成模型可以生成更连贯和更具有逻辑的文本。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的文章生成方法,图7示出了本申请实施例提供的文章生成装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图7,该文章生成装置包括:起始文本获取单元71,文章生成单元72,其中:
起始文本获取单元71,用于获取起始文本;
文章生成单元72,用于将所述起始文本输入至已训练好的文本生成模型中处理,得到所述起始文本对应的生成文本;其中,所述文本生成模型对所述起始文本的处理包括获取起始文本对应的新生成的词的概率分布,根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本,在所述预备文本满足预设要求时,得到所述起始文本对应的生成文本。
作为本申请一种可能的实施方式,所述文章生成单元72包括:
编码信息获取模块,用于获取所述起始文本中句子的编码信息;
转换处理模块,用于按预设算法对所述编码信息进行转换处理,得到所述起始文本中句子的转换处理结果;
输出模块,用于根据所述转换处理结果,得到所述起始文本对应的新生成的词的概率分布。
作为本申请一种可能的实施方式,所述编码信息获取模块具体用于:
获取词嵌入矩阵和所述句子中每个词在词典中的索引,所述词嵌入矩阵是与所述词典中的词相对应的矩阵;
根据所述词嵌入矩阵和所述句子中每个词在所述词典中的索引,确定所述句子的嵌入编码;
获取所述句子的位置编码,所述位置编码根据所述句子中每个词的相对位置信息确定;
根据所述嵌入编码与所述位置编码,确定所述句子的编码信息。
作为本申请一种可能的实施方式,所述转换处理模块具体用于:
基于注意力机制对所述编码信息进行转换处理,得到初始转换结果;
将所述编码信息与所述初始转换处理结果作残差连接处理,得到残差连接结果;
通过全连接层对所述残差连接结果进行全连接处理,得到所述起始文本中句子的转换处理结果。
作为本申请一种可能的实施方式,所述输出模块具体用于:
将所述转换处理结果通过全连接层以及softmax函数进行处理,得到所述起始文本对应的新生成的词的概率分布。
作为本申请一种可能的实施方式,所述文章生成单元72还包括:
新词索引模块,用于根据所述新生成的词的概率分布,在词典中索引查找对应的新生成的词;
预报文本生成模块,用于将查找到的所述新生成的词添加至所述起始文本中,生成预备文本。
作为本申请一种可能的实施方式,所述文章生成装置还包括文本验证及生成单元,具体用于:
若所述预备文本不满足预设要求,则将所述预备文本输入至所述训练好的文本生成模型中,得到所述预备文本对应的新生成的词的概率分布;
根据所述预备文本对应的新生成的词的概率分布,更新所述预备文本;
判断更新后的预备文本是否满足预设要求;
若不满足,则重复执行更新预备文本的步骤,直到更新的预备文本满足所述预设要求,得到生成文本。
由上可见,在本申请实施例中,基于输入层中的参数矩阵分解以及转换层中的参数共享,可以使本申请的文本生成模型更高效地生成作文。同时基于大量优质的作文作为训练数据,以及输入层的嵌入编码、位置编码和转换层中的多头自注意力机制,可使得本申请中的文本生成模型可以生成更连贯和更具有逻辑的文本。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如图1至图6表示的任意一种文章生成方法的步骤。
本申请实施例还提供一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如图1至图6表示的任意一种文章生成方法的步骤。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品在服务器上运行时,使得服务器执行实现如图1至图6表示的任意一种文章生成方法的步骤。
图8是本申请一实施例提供的智能设备的示意图。如图8所示,该实施例的智能设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82。所述处理器80执行所述计算机程序82 时实现上述各个文章生成方法实施例中的步骤,例如图1所示的步骤S101至 S102。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能,例如图7所示单元71至72的功能。
示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序82在所述智能设备8中的执行过程。
所述智能设备8可以为移动设备、服务器。所述智能设备8可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是智能设备8的示例,并不构成对智能设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述智能设备8还可以包括输入输出设备、网络接入设备、总线等。
所述处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述智能设备8的内部存储单元,例如智能设备8 的硬盘或内存。所述存储器81也可以是所述智能设备8的外部存储设备,例如所述智能设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述智能设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述智能设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U 盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文章生成方法,其特征在于,包括:
获取起始文本;
将所述起始文本输入至已训练好的文本生成模型中处理,得到所述起始文本对应的生成文本;其中,所述文本生成模型对所述起始文本的处理包括获取起始文本对应的新生成的词的概率分布,根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本,在所述预备文本满足预设要求时,得到所述起始文本对应的生成文本。
2.根据权利要求1所述的文章生成方法,其特征在于,所述获取起始文本对应的新生成的词的概率分布的步骤,包括:
获取所述起始文本中句子的编码信息;
按预设算法对所述编码信息进行转换处理,得到所述起始文本中句子的转换处理结果;
根据所述转换处理结果,得到所述起始文本对应的新生成的词的概率分布。
3.根据权利要求2所述的文章生成方法,其特征在于,所述获取所述起始文本中句子的编码信息的步骤,包括:
获取词嵌入矩阵和所述句子中每个词在词典中的索引,所述词嵌入矩阵是与所述词典中的词相对应的矩阵;
根据所述词嵌入矩阵和所述句子中每个词在所述词典中的索引,确定所述句子的嵌入编码;
获取所述句子的位置编码,所述位置编码根据所述句子中每个词的相对位置信息确定;
根据所述嵌入编码与所述位置编码,确定所述句子的编码信息。
4.根据权利要求2所述的文章生成方法,其特征在于,所述按预设算法对所述编码信息进行转换处理,得到所述起始文本中句子的转换处理结果的步骤,包括:
基于注意力机制对所述编码信息进行转换处理,得到初始转换结果;
将所述编码信息与所述初始转换处理结果作残差连接处理,得到残差连接结果;
通过全连接层对所述残差连接结果进行全连接处理,得到所述起始文本中句子的转换处理结果。
5.根据权利要求2所述的文章生成方法,其特征在于,所述根据所述转换处理结果,得到所述起始文本对应的新生成的词的概率分布的步骤,包括:
将所述转换处理结果通过全连接层以及softmax函数进行处理,得到所述起始文本对应的新生成的词的概率分布。
6.根据权利要求1所述的文章生成方法,其特征在于,所述根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本的步骤,包括:
根据所述新生成的词的概率分布,在词典中索引查找对应的新生成的词;
将查找到的所述新生成的词添加至所述起始文本中,生成预备文本。
7.根据权利要求1所述的文章生成方法,其特征在于,所述文章生成方法还包括:
若所述预备文本不满足预设要求,则将所述预备文本输入至所述训练好的文本生成模型中,得到所述预备文本对应的新生成的词的概率分布;
根据所述预备文本对应的新生成的词的概率分布,更新所述预备文本;
判断更新后的预备文本是否满足预设要求;
若不满足,则重复执行更新预备文本的步骤,直到更新的预备文本满足所述预设要求,得到生成文本。
8.一种文章生成装置,其特征在于,包括:
起始文本获取单元,用于获取起始文本;
文章生成单元,用于将所述起始文本输入至已训练好的文本生成模型中处理,得到所述起始文本对应的生成文本;其中,所述文本生成模型对所述起始文本的处理包括获取起始文本对应的新生成的词的概率分布,根据所述新生成的词的概率分布,确定新生成的词,并根据新生成的词更新所述起始文本,生成预备文本,在所述预备文本满足预设要求时,得到所述起始文本对应的生成文本。
9.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文章生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文章生成方法。
CN202010974373.4A 2020-09-16 2020-09-16 文章生成方法、装置、智能设备和存储介质 Pending CN112183057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010974373.4A CN112183057A (zh) 2020-09-16 2020-09-16 文章生成方法、装置、智能设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010974373.4A CN112183057A (zh) 2020-09-16 2020-09-16 文章生成方法、装置、智能设备和存储介质

Publications (1)

Publication Number Publication Date
CN112183057A true CN112183057A (zh) 2021-01-05

Family

ID=73921375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010974373.4A Pending CN112183057A (zh) 2020-09-16 2020-09-16 文章生成方法、装置、智能设备和存储介质

Country Status (1)

Country Link
CN (1) CN112183057A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918630A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
CN110287489A (zh) * 2019-06-24 2019-09-27 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
US20200285932A1 (en) * 2019-03-08 2020-09-10 Wipro Limited Method and system for generating structured relations between words

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109918630A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
WO2020151175A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
US20200285932A1 (en) * 2019-03-08 2020-09-10 Wipro Limited Method and system for generating structured relations between words
CN110287489A (zh) * 2019-06-24 2019-09-27 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张晓辉;于双元;王全新;徐保民;: "基于对抗训练的文本表示和分类算法", 计算机科学, no. 1, 15 June 2020 (2020-06-15) *
王盛玉;曾碧卿;商齐;韩旭丽;: "基于词注意力卷积神经网络模型的情感分析研究", 中文信息学报, no. 09, 15 September 2018 (2018-09-15) *

Similar Documents

Publication Publication Date Title
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
WO2022062404A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN112435656B (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
EP3707622A1 (en) Generation of text from structured data
CN111460115B (zh) 智能人机对话模型训练方法、模型训练装置及电子设备
CN111460812B (zh) 语句情感分类方法及相关设备
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN116737938A (zh) 基于微调大模型在线数据网络细粒度情感检测方法及装置
CN112183065A (zh) 文本评估方法、装置、计算机可读存储介质及终端设备
US20210089904A1 (en) Learning method of neural network model for language generation and apparatus for performing the learning method
WO2022095370A1 (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
WO2022257454A1 (zh) 一种合成语音的方法、装置、终端及存储介质
CN111814479A (zh) 一种企业简称生成及其模型的训练方法及装置
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN117875395A (zh) 多模态预训练模型的训练方法、装置及存储介质
CN109241262B (zh) 基于关键词生成回复语句的方法及装置
CN116955590A (zh) 训练数据筛选方法、模型训练方法、文本生成方法
CN115129826B (zh) 电力领域模型预训练方法、精调方法、装置及设备
CN116738956A (zh) 一种提示模板生成方法、装置、计算机设备及存储介质
CN116702770A (zh) 长文本的生成方法、装置、终端及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN112199482B (zh) 一种对话生成方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination