CN111984783B - 文本生成模型的训练方法、文本生成方法及相关设备 - Google Patents

文本生成模型的训练方法、文本生成方法及相关设备 Download PDF

Info

Publication number
CN111984783B
CN111984783B CN202010889698.2A CN202010889698A CN111984783B CN 111984783 B CN111984783 B CN 111984783B CN 202010889698 A CN202010889698 A CN 202010889698A CN 111984783 B CN111984783 B CN 111984783B
Authority
CN
China
Prior art keywords
text
decoding
structure diagram
vector
generation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010889698.2A
Other languages
English (en)
Other versions
CN111984783A (zh
Inventor
王正魁
李翠姣
付霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Shanghai Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Shanghai Robotics Co Ltd filed Critical Cloudminds Shanghai Robotics Co Ltd
Priority to CN202010889698.2A priority Critical patent/CN111984783B/zh
Publication of CN111984783A publication Critical patent/CN111984783A/zh
Application granted granted Critical
Publication of CN111984783B publication Critical patent/CN111984783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及自然语言处理技术领域,公开了一种文本生成模型的训练方法、文本生成方法及相关设备。本发明中文本生成模型的训练方法,包括:提供输入样本和输出样本;所述输入样本包括第一文本以及所述第一文本的结构图,所述结构图用于表征所述第一文本中各文字之间的关联关系;所述输出样本为与所述第一文本具有相同结构图的第二文本;根据所述输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型。采用本实施方式,使得训练得到的文本生成模型可以准确生成具有特定结构的文本。

Description

文本生成模型的训练方法、文本生成方法及相关设备
技术领域
本发明实施例涉及自然语言处理技术领域,特别涉及一种文本生成模型的训练方法、文本生成方法及相关设备。
背景技术
文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。文本生成是通过输入信息,生成可读的文字表述,例如,对联、春联生成的方法。
发明人发现相关技术中至少存在如下问题:目前的文本生成方法采用深度学习方式,解释性差,不能准确地生成具有特定结构的文本内容,例如,生成的对联不满足对联对仗工整的需求。
发明内容
本发明实施方式的目的在于提供一种文本生成模型的训练方法、文本生成方法及相关设备,使得训练得到的文本生成模型可以准确生成具有特定结构的文本。
为解决上述技术问题,本发明的实施方式提供了一种文本生成模型的训练方法,包括:提供输入样本和输出样本;所述输入样本包括第一文本以及所述第一文本的结构图,所述结构图用于表征所述第一文本中各文字之间的关联关系;所述输出样本为与所述第一文本具有相同结构图的第二文本;根据所述输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型。
本发明的实施方式还提供了一种文本生成方法,包括:根据获取的输入文本,确定输入文本的结构图;将输入文本、输入文本的结构图输入文本生成模型,得到输出文本,文本生成模型是根据上述文本生成模型的训练方法训练得到。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本生成模型的训练方法,或者能够执行上述的文本生成方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的文本生成模型的训练方法,或者能够执行上述的文本生成方法。
本发明实施方式相对于现有技术而言,通过输入样本和输出样本对图神经网络进行训练,得到文本生成模型,由于输入样本包括第一文本和第一文本的结构图,使得训练得到的文本生成模型可以输出与第一文本的结构图相同的文本,可以适用于对输出文本的结构有要求的场景,例如,输出对联的下联等应用场景,提高了文本生成模型的准确度;且在训练过程中提供第一文本的结构图,使得无需通过训练获得该第一文本的结构图,减小了训练的时间,提高训练的速度,丰富了模型的输入信息,提高了文本生成模型的准确性,且由于是直接提供第一文本的结构图,使得获取的第一结构图准确,进一步保证了训练得到的文本生成模型的准确性。
另外,根据输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型,包括:迭代步骤;迭代步骤包括:根据第一文本的结构图、第一文本以及预设的图神经网络模型,确定第一文本在图神经网络模型的编码端的第一状态向量;根据第一状态向量,确定解码结构图中各节点的隐含向量,其中,解码结构图为图神经网络模型的解码端中待输出文本的结构图,与第一文本的结构图相同;根据各隐含向量,确定每次解码的解码位置以及解码位置对应的文字,得到待输出文本,其中,每次解码的解码位置为本次待解码的节点在解码结构图中的所处位置;判断待输出文本与第二文本的误差是否满足预设条件,若满足,结束迭代步骤得到文本生成模型,否则,调整编码端和解码端中的权重参数,重新执行迭代步骤。在迭代步骤中,每次解码都确定出本次的解码位置和解码位置对应的文字,而解码位置为本次待解码的节点在解码结构图中的所处位置;由于不是按照阅读文字的顺序对待输出文本进行解码,而是每次先确定在解码结构图中的解码位置及对应的文字进行解码,保证待输出文本的结构图与第一文本的结构图相同,提高解码的准确性,若存在相同的文字时,可以减少解码的次数,提高解码的速度。
另外,根据第一文本的结构图、第一文本以及预设的图神经网络模型,确定第一文本在图神经网络模型的编码端的第一状态向量,包括:获取第一文本的结构图中每条边的边向量;将各边向量以及第一文本中每个文字的字向量输入编码端进行编码,得到第一文本的结构图中每个节点对应的文字的第一向量;对多个第一向量进行平均池化,得到第一文本在编码端的第一状态向量。由于每个文字的字向量包括该字所有的含义,通过对边向量和每个文字的字向量进行编码,使得可以准确确定出每个节点对应的文字的第一向量,进而根据该准确的第一向量得到编码端的第一状态向量,进而可以准确训练出该文本生成模型。
另外,根据第一状态向量,确定解码结构图中各节点的隐含向量,包括:将第一状态向量变换为解码端的第二状态向量;将编码端中第一文本的每个文字各自对应的字向量分别与第二状态向量相加,得到解码结构图中各个节点的隐含向量。第一状态量中隐含有待输出文本的内容,将第一状态向量转换为第二状态向量,并通过编码端各个文字各自对应的字向量,可以准确确定出解码结构图中各个位置的隐含向量。
另外,根据各隐含向量,确定每次解码的解码位置以及解码位置对应的文字,得到待输出文本,包括:每次解码的过程如下:将各隐含向量分别与预设的字向量层中的每个文字进行叉乘,得到多个叉乘值,字向量层包括不同的文字;根据多个叉乘值,确定本次解码的解码位置以及解码位置的文字。根据叉乘值确定解码位置和解码位置的文字,而不是按照输出文本的顺序进行解码,提高了解码的效率和准确度。
另外,根据多个叉乘值,确定本次解码的解码位置以及解码位置的文字,包括:将最大叉乘值中隐含向量对应的位置作为本次解码的解码位置;将最大叉乘值中字向量所指示的文字所作为解码位置的文字。叉乘值越大,该得到叉乘值的隐含向量对应的位置及字向量的置信度越大,从而使得得到解码位置和解码位置对应的文字更加准确。
另外,在根据多个叉乘值,确定本次解码的解码位置以及解码位置的文字之后,还包括:更新待输出文本中剩余待解码文字的隐含向量,以用于下一次解码。确定本次解码的解码位置以及解码位置的文字之后,更新待输出文本中剩余待解码文字的隐含向量,通过本次解码位置和解码位置的文字修正剩余待解码文字的隐含向量,提高解码的准确性。
另外,提供输入样本,包括:获取第一文本;从第一文本中提取所有相异的文字作为第一文本的结构图中的节点;根据第一文本中各文字的排列顺序,构建第一文本的结构图中各条边,得到第一文本的结构图。提取相异的文字,使得按照该结构图进行解码可以减少多次解码同一个字的问题,提高训练模型的速度。
另外,结构图包括:正向的边和反向的边;根据第一文本中各文字的排列顺序,构建第一文本的结构图中各条边,得到第一文本的结构图,包括:将第一文本中各文字的排列顺序作为结构图中正向的边;将各正向的边通过全连接层变换,得到结构图中各反向的边。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施例中提供的一种文本生成模型的训练方法的流程图;
图2是根据本发明第一实施例中提供的一种文本生成模型的训练方法中第一文本的排列顺序的示意图;
图3是根据本发明第一实施例中提供的一种第一文本的结构图的示意图;
图4是根据本发明第一实施例中提供的一种迭代步骤的示意图;
图5是根据本发明第二实施例中提供的一种文本生成模型的训练方法中解码过程的示意图;
图6是根据本发明第二实施例中提供的一种解码结构图的示意图;
图7是根据本发明第二实施例中提供的一种待输出文本的结构图的示意图;
图8是根据本发明第三实施例中提供的一种文本生成方法的流程图;
图9是根据本发明第四实施例中提供的一种电子设备的结构图示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
发明人发现目前的文本生成方法通常采用深度学习方法,例如:序列到序列(Sequence to Sequence,简称“Seq2Seq”)架构,随着发展,在Seq2Seq架构的基础上增加注意力(attention)机制,该方式在文本自动翻译上、人机对话回复等应用中的效果较好。但是该方法不能对特殊结构的文本信息进行处理,特殊结构的文本可以是对联、绝句等。在对对联的应用场景中,若依然采用Seq2Seq融合注意力(attention)机制的深度学习方式,不能得到对仗工整的下联,例如,上联为“雾锁山头山锁雾”;下联为“天连水尾水连天”,其上下联形式均满足ABCDCBA的结构,而采用Seq2Seq融合注意力(attention)机制的深度学习方式得到的文本生成模型,输出的下联可能是“风吹水面水流波”,可见,输出的下联并不符合上联的对仗要求。
本发明的第一实施方式涉及一种文本生成模型的训练方法。该文本生成模型的训练方法可以应用于具有数据处理功能的电子设备上,例如,电脑、服务器、机器人、人工智能设备等。通过该文本生成模型的训练的方法得到文本生成模型可以根据输入文本,可以得到与输入文本相匹配的输出文本,该文本生成模型的训练方法的具体流程如图1所示:
步骤101:提供输入样本和输出样本。
输入样本包括第一文本以及第一文本的结构图,结构图用于表征第一文本中各文字之间的关联关系;输出样本为与第一文本具有相同结构图的第二文本。可以理解的是,第一文本和第二文本成对出现。第一文本以及第一文本的结构图可以直接获取得到,例如,通过输入界面输入第一文本和第一文本的结构图;也可以获取第一文本,根据该第一文本确定该第一文本的结构图。
在一个例子中,提供输入样本的过程包括:获取第一文本;从第一文本中提取所有相异的文字作为第一文本的结构图中的节点;根据第一文本中各文字的排列顺序,构建第一文本的结构图中各条边,得到第一文本的结构图。
具体的说,结构图包括:正向的边和反向的边;确定第一文本的结构图的过程包括:将第一文本中各文字的排列顺序作为结构图中正向的边;将各正向的边通过全连接层变换,得到结构图中各反向的边。结构图中的节点为各个相异的文字,而每条边包含了两个节点之间的顺序,使得结构图可以表征各文字之间的关联关系。为了便于理解,下面以对对联的方式为例,说明确定第一文本的结构图的过程:
第一文本为“一心一意”,从第一文本中提取所有相异的文字,即相异的文字分别为“一”、“心”和“意”;将这三个文字作为该第一文本的结构图中的节点,即第一文本的结构图中包括3个节点。该第一文本中各文字的排列顺序为:“一”指向“心”,“心”在指向“一”;之后“一”指向“意”,该第一文本中各文字的排列顺序如图2所示;按照该排列顺序,构建该第一文本的结构图中各条边。为了提高结构图的准确性,第一文本的结构图可以包括正向的边和反向的边;正向的边即为第一文本中各文字之间的排列序列;各文字反向的排列序列作为反向的边,构建出如图3所示的结构图,该结构图中,序号①、②和③指示正向的边,图3中未示出反向边。为了便于理解正向的边和反向的边,本示例中,以表格形式表示出每条边的形式:
字符 正向边1 反向边1 正向边2 反向边2 正向边3 反向边3
1 0 0 1 1 0
0 1 1 0 0 0
0 0 0 0 0 1
表1
表1中,数字“1”表示每个边的起始节点,结合附图3和表1,可以获知,正向的边①的头结点为“一”,其余文字属于非头结点,设为0;按照该方式,可得到如表1中该“一心一意”的结构图中各边的表示形式。
需要说明的是,每条正向的边可以有对应的d维实数向量,d为大于0的整数;将该正向的边的d维实数向量经过全连接层变换,即可得到反向的边的实数向量。例如,第pos条正向的边的向量采用函数式的位置编码,其计算公式如下:
Edge(pos,2i)=sin(pos/100002i/d) 公式(1);
反向的边的向量如公式(2)所示:
Edge(pos,2i+1)=cos(pos/100002i/d) 公式(2);
其中,公式(1)和公式(2)中Edge表示边的向量,pos表征边的序号,i表征不同节点的序号,d表示边的向量的维度。
值得一提的是,第二文本的结构图和第一文本的结构图相同,因而无需确定第二文本的结构图。即第一文本为“ABAC”的结构图,第二文本也采用“ABAC”的结构图。
步骤102:根据输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型。
对图神经网络进行训练的过程包括:迭代步骤;迭代步骤包括如图4所示的子步骤。
子步骤S11:根据第一文本的结构图、第一文本以及预设的图神经网络模型,确定第一文本在图神经网络模型的编码端的第一状态向量。
在一个例子中,获取第一文本的结构图中每条边的边向量;将各边向量以及第一文本中每个文字的字向量输入编码端进行编码,得到第一文本的结构图中每个节点对应的文字的第一向量;对多个第一向量进行平均池化,得到第一文本在编码端的第一状态向量。
具体的说,获取第一文本的结构图中每条边的边向量,每条边的向量可以根据步骤101中的公式(1)和公式(2)确定。可以根据字典和预设的字向量层将第一文本的结构图中各个文字转换为对应的字向量。字向量是以向量形式表示该文字的所有含义,由于存在一个字有多重含义的情况,将每条边的边向量以及每个文字的字向量输入图神经网络的编码端进行编码,得到该第一文本的结构图中每个节点对应的文字的第一向量;该第一向量由于结合了各条边的向量,使得第一向量可以更好的表征第一文本中的文字。对得到的多个第一向量进行平均池化,得到该第一文本在编码端的第一状态量。平均池化可以采用如公式(3)所示的方式:
encoder_state表示编码端的第一状态量,t表示第一文本的结构图中的节点编号,vt表示第t个节点的对应的文字的第一向量,N为节点的总个数。
子步骤S12:根据第一状态向量,确定解码结构图中各节点的隐含向量,其中,解码结构图为图神经网络模型的解码端中待输出文本的结构图,与第一文本的结构图相同。
在一个例子中,将第一状态向量变换为解码端的第二状态向量;将编码端中第一文本的每个文字各自对应的字向量分别与第二状态向量相加,得到解码结构图中各个节点的隐含向量。
具体的说,可以采用全连接层将第一状态向量变换为解码端的第二状态向量;该第二状态向量隐含了待输出文本的内容。将编码端中第一文本的每个文字各自对应的字向量分别与第二状态向量相加,得到解码结构图中各个节点的隐含向量。
子步骤S13:根据各隐含向量,确定每次解码的解码位置以及解码位置对应的文字,得到待输出文本,其中,每次解码的解码位置为本次待解码的节点在解码结构图中的所处位置。
具体的说,可以根据各隐含向量,确定出每次的解码位置和解码位置对应的文字,从而无需按照第一文本各文字的排列顺序进行解码,可以减少解码的过程。
子步骤S14:判断待输出文本与第二文本的误差是否满足预设条件,若满足,结束迭代步骤得到文本生成模型,否则,调整编码端和解码端中的权重参数,重新执行所述迭代步骤。
具体的说,预设条件可以为误差阈值,误差阈值可以根据实际需要进行设置。
需要说明的是,本实施方式中的子步骤S13还可以采用Seq2Seq的方式,按照第一文本的结构图中的顺序,依次求解每个节点位置的文字,采用该方式会重复求解重复出现的文字。
本发明实施方式相对于现有技术而言,通过输入样本和输出样本对图神经网络进行训练,得到文本生成模型,由于输入样本包括第一文本和第一文本的结构图,使得训练得到的文本生成模型可以输出与第一文本的结构图相同的文本,可以适用于对输出文本的结构有要求的场景,例如,输出对联的下联等应用场景,提高了文本生成模型的准确度;且在训练过程中提供第一文本的结构图,使得无需通过训练获得该第一文本的结构图,减小了训练的时间,提高训练的速度,丰富了模型的输入信息,提高了文本生成模型的准确性,且由于是直接提供第一文本的结构图,使得获取的第一结构图准确,进一步保证了训练得到的文本生成模型的准确性。
本发明的第二实施方式涉及一种文本生成模型的训练方法。第二实施方式是对第一实施中子步骤S13的具体说明。该子步骤S13中每次解码的具体过程如图5所示。
步骤201:将各隐含向量分别与预设的字向量层中的每个文字进行叉乘,得到多个叉乘值,字向量层包括不同的文字。
下面以一个具体的例子说明确定多个叉乘值的过程:第一次解码前的各个隐含向量可以表示为H0_t,t=1,2……N,t表示解码结构图中的节点编号。若N=3,隐含向量有3个,第一次解码,H0_1分别与字向量层中的每个文字进行叉乘,将H0_2分别与字向量层中的每个文字进行叉乘,以及将H0_3分别与字向量层中的每个文字进行叉乘,得到叉乘值。
步骤202:根据多个叉乘值,确定本次解码的解码位置以及解码位置的文字。
在一个例子中,将最大叉乘值中隐含向量对应的位置作为本次解码的解码位置;将最大叉乘值中字向量所指示的文字所作为解码位置的文字。
具体的说,叉乘值越大,该得到叉乘值的隐含向量对应的位置及字向量的置信度越大,从而使得得到解码位置和解码位置对应的文字更加准确;例如,如图6结构图为解码结构图,包括3个节点位置。若隐含向量H0_1与“十”字的叉乘值最大,那么节点编号为1的位置为本次的解码位置,“十”字为该解码位置对应的文字。
步骤203:更新待输出文本中剩余待解码文字的隐含向量,以用于下一次解码。
具体的说,为了待输出文本的准确性,在本次确定了解码位置以及解码位置对应的文字之后,可以利用图神经网络模型更新剩余待解码文字的隐含向量,以用于下一次解码。
为了便于理解整个训练过程,下面以一个具体的例子进行说明:
第一文本为“一心一意”,该第一文本的结构图如图3所示,节点1对应“一”;节点2对应“心”,节点3对应“意”。利用字典和字向量层得到每个字的字向量,将字向量和图3所示的结构图中各条边的边向量输入编码端中,得到该第一文本的结构图中每个节点对应的文字的第一向量;即得到3个第一向量,对3个第一向量进行平均池化,得到编码端的第一状态向量:
encoder_state=(v1+v2+v3)/3 公式(4);
其中,v1、v2和v3即为求解的3个第一向量。
采用一个全连接层将第一状态向量encoder_state转换为解码端的第二状态向量decoder_state;第一向量vt,t=1,2,3,将vt与decoder_state相加,分别得到对应位置的隐含向量H0_t,t表示解码结构图中各节点的编号。第一次解码过程:将H0_t,t=1,2,3与字向量层中所有字向量相乘得到矩阵D0,矩阵D0中包含本次得到的所有叉乘值;确定矩阵D0最大的叉乘值即可确定第1次解码的解码位置及该解码位置对应的字,对于本示例,第一次解码的解码位置为t=1的位置,该解码位置对应的是“十”字,并设定后面解码的过程中t=1位置的隐含向量保持为“十”对应的字向量不再变化。并更新剩余待解码文字的隐含向量。
第2次解码时,t=1位置的字已经确定,将H1_t,t=2,3与字向量层中所有字向量相乘得到矩阵D1,根据矩阵D1包含第2次得到的所有叉乘值,根据D1中的最大叉乘值确定第2次解码的解码位置为t=3位置,以及该解码位置对应的“意”字,并设定后面解码的过程中t=1,3位置的隐含向量分别为“十”和“意”对应的字向量,并更新剩余待解码文字的隐含向量。同样方法完成第3次的解码,即完全确定下联的结构图如7所示。第3次解码过程将不在赘述。
表2为本示例中的文本生成模型与其它方式训练得到文本生成模型的比对效果:
上联 Seq2Seq的下联 本方法的下联
一心一意 五光十色 十全十美
雾锁山头山锁雾 风吹水面水流波 天连水尾水连天
财运亨通步步高 福满门庭欢乐多 日子红火腾腾起
福旺财旺运气旺 国富民强百姓乐 家兴人兴事业兴
大顺大财大吉利 小康新岁新春光 新春新喜新世纪
表2
比较Seq2Seq架构和本方法得到的下联,可以明显看出示例训练的文本生成模型的输出文本更为工整。
本实施方式提供的文本生成模型的训练方法,通过叉乘值确定出每次解码的解码位置和解码位置对应的文字,从而无需按照第一文本中文字的排列顺序进行解码,可以减少解码的次数,同时由于先确定了解码位置以及解码位置的文字,更新待输出文本中剩余待解码文字的隐含向量,可以矫正每次剩余待解码文字的隐含向量,使得最终解码的准确性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种文本生成方法,该文本生成方法应用于电子设备中,如机器人、电脑、服务器等。该文本生成方法的具体流程如图8所示:
步骤301:根据获取的输入文本,确定输入文本的结构图。
具体的说,从输入文本中提取所有相异的文字作为第一文本的结构图中的节点;根据输入文本中各文字的排列顺序,构建输入文本的结构图中各条边,得到输入文本的结构图。结构图包括:正向的边和反向的边;确定输入文本的结构图的过程包括:将输入文本中各文字的排列顺序作为结构图中正向的边;将各正向的边通过全连接层变换,得到结构图中各反向的边,根据各节点以及各条边,确定出该输入文本的结构图。
步骤302:将输入文本、输入文本的结构图输入文本生成模型,得到输出文本,该文本生成模型是根据第一实施方式或第二实施方式中的文本生成模型的训练方法训练得到。
具体的说,将该输入文本和输入文本的结构图输入该文本生成模型中,即可得到输出文本,该输出文本的结构图与输入文本的结构图相同。
例如,输入文本为“一心一意”,输入文本的结构图如图3所示,经过该文本生成模型,得到输出文本“十全十美”,该输出文本的结构如7图所示。
本实施方式提供的文本生成方法,可以准确得到与输入文本的结构图相同的输出文本,以满足文本生成的需要。
本发明第四实施方式涉及一种电子设备,该电子设备40的结构如图9所示,包括:至少一个处理器401,以及,与至少一个处理器通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行第一实施方式或第二实施方式中的文本生成模型的训练方法,或者能够执行第三实施方式中的文本生成方法。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现第一实施方式或第二实施方式的文本生成模型的训练方法,或者能够执行第三实施方式的文本生成方法。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
本申请实施例公开A1.一种文本生成模型的训练方法,包括:
提供输入样本和输出样本;所述输入样本包括第一文本以及所述第一文本的结构图,所述结构图用于表征所述第一文本中各文字之间的关联关系;所述输出样本为与所述第一文本具有相同结构图的第二文本;
根据所述输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型。
A2.根据A1所述的文本生成模型的训练方法,所述根据所述输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型,包括:迭代步骤;
所述迭代步骤包括:
根据所述第一文本的结构图、所述第一文本以及所述预设的图神经网络模型,确定所述第一文本在所述图神经网络模型的编码端的第一状态向量;
根据所述第一状态向量,确定解码结构图中各节点的隐含向量,其中,所述解码结构图为所述图神经网络模型的解码端中待输出文本的结构图,与所述第一文本的结构图相同;
根据各所述隐含向量,确定每次解码的解码位置以及所述解码位置对应的文字,得到所述待输出文本,其中,每次解码的解码位置为本次待解码的节点在所述解码结构图中的所处位置;
判断所述待输出文本与所述第二文本的误差是否满足预设条件,若满足,结束迭代步骤得到所述文本生成模型,否则,调整所述编码端和所述解码端中的权重参数,重新执行所述迭代步骤。
A3.根据A2所述的文本生成模型的训练方法,所述根据所述第一文本的结构图、所述第一文本以及所述预设的图神经网络模型,确定所述第一文本在所述图神经网络模型的编码端的第一状态向量,包括:
获取所述第一文本的结构图中每条边的边向量;
将各所述边向量以及所述第一文本中每个文字的字向量输入所述编码端进行编码,得到所述第一文本的结构图中每个节点对应的文字的第一向量;
对多个所述第一向量进行平均池化,得到所述第一文本在所述编码端的第一状态向量。
A4.根据A2或A3所述的文本生成模型的训练方法,所述根据所述第一状态向量,确定解码结构图中各节点的隐含向量,包括:
将所述第一状态向量变换为所述解码端的第二状态向量;
将所述编码端中所述第一文本的每个文字各自对应的字向量分别与所述第二状态向量相加,得到所述解码结构图中各个节点的隐含向量。
A5.根据A2至A4中任一项所述的文本生成模型的训练方法,所述根据各所述隐含向量,确定每次解码的解码位置以及所述解码位置对应的文字,得到所述待输出文本,包括:
每次解码的过程如下:
将各所述隐含向量分别与预设的字向量层中的每个文字进行叉乘,得到多个叉乘值,所述字向量层包括不同的文字;
根据多个叉乘值,确定本次解码的所述解码位置以及所述解码位置的文字。
A6.根据A5所述的文本生成模型的训练方法,所述根据多个叉乘值,确定本次解码的所述解码位置以及所述解码位置的文字,包括:
将最大叉乘值中隐含向量对应的位置作为本次解码的解码位置;
将最大叉乘值中字向量所指示的文字所作为所述解码位置的文字。
A7.根据A5或A6所述的文本生成模型的训练方法,在所述根据多个叉乘值,确定本次解码的解码位置以及所述解码位置的文字之后,还包括:
更新所述待输出文本中剩余待解码文字的隐含向量,以用于下一次解码。
A8.根据A1至A7中任一项所述的文本生成模型的训练方法,所述提供输入样本,包括:
获取所述第一文本;
从所述第一文本中提取所有相异的文字作为所述第一文本的结构图中的节点;
根据所述第一文本中各文字的排列顺序,构建所述第一文本的结构图中各条边,得到所述第一文本的结构图。
A9.根据A8所述的文本生成模型的训练方法,所述结构图包括:正向的边和反向的边;
所述根据所述第一文本中各文字的排列顺序,构建所述第一文本的结构图中各条边,得到所述第一文本的结构图,包括:
将所述第一文本中各文字的排列顺序作为结构图中正向的边;
将各正向的边通过全连接层变换,得到所述结构图中各反向的边。
本申请实施例公开了B1.一种文本生成方法,包括:
根据获取的输入文本,确定所述输入文本的结构图;
将所述输入文本、所述输入文本的结构图输入文本生成模型,得到输出文本,所述文本生成模型是根据如A1至A9中任一文本生成模型的训练方法训练得到。
本申请实施例公开了C1.一种电子设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如A1至A9任一所述的文本生成模型的训练方法,或者能够执行如B1所述的文本生成方法。
本申请实施例公开了D1.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现A1至A9中任一项所述的文本生成模型的训练方法,或者能够执行如B1所述的文本生成方法。

Claims (9)

1.一种文本生成模型的训练方法,其特征在于,包括:
提供输入样本和输出样本;所述输入样本包括第一文本以及所述第一文本的结构图,所述结构图用于表征所述第一文本中各文字之间的关联关系;所述输出样本为与所述第一文本具有相同结构图的第二文本;
根据所述输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型;
所述根据所述输入样本和输出样本,对预设的图神经网络进行训练,得到文本生成模型,
包括:迭代步骤;
所述迭代步骤包括:
根据所述第一文本的结构图、所述第一文本以及所述预设的图神经网络模型,确定所述第一文本在所述图神经网络模型的编码端的第一状态向量;
根据所述第一状态向量,确定解码结构图中各节点的隐含向量,其中,所述解码结构图为所述图神经网络模型的解码端中待输出文本的结构图,与所述第一文本的结构图相同;
根据各所述隐含向量,确定每次解码的解码位置以及所述解码位置对应的文字,得到所述待输出文本,其中,每次解码的解码位置为本次待解码的节点在所述解码结构图中的所处位置;
判断所述待输出文本与所述第二文本的误差是否满足预设条件,若满足,结束迭代步骤得到所述文本生成模型,否则,调整所述编码端和所述解码端中的权重参数,重新执行所述迭代步骤;
所述提供输入样本,包括:获取所述第一文本;
从所述第一文本中提取所有相异的文字作为所述第一文本的结构图中的节点;
根据所述第一文本中各文字的排列顺序,构建所述第一文本的结构图中各条边,得到所述第一文本的结构图;
所述结构图包括:正向的边和反向的边;
所述根据所述第一文本中各文字的排列顺序,构建所述第一文本的结构图中各条边,得到所述第一文本的结构图,包括:
将所述第一文本中各文字的排列顺序作为结构图中正向的边;
将各正向的边通过全连接层变换,得到所述结构图中各反向的边。
2.根据权利要求1所述的文本生成模型的训练方法,其特征在于,所述根据所述第一文本的结构图、所述第一文本以及所述预设的图神经网络模型,确定所述第一文本在所述图神经网络模型的编码端的第一状态向量,包括:
获取所述第一文本的结构图中每条边的边向量;
将各所述边向量以及所述第一文本中每个文字的字向量输入所述编码端进行编码,得到所述第一文本的结构图中每个节点对应的文字的第一向量;
对多个所述第一向量进行平均池化,得到所述第一文本在所述编码端的第一状态向量。
3.根据权利要求1所述的文本生成模型的训练方法,其特征在于,所述根据所述第一状态向量,确定解码结构图中各节点的隐含向量,包括:
将所述第一状态向量变换为所述解码端的第二状态向量;
将所述编码端中所述第一文本的每个文字各自对应的字向量分别与所述第二状态向量相加,得到所述解码结构图中各个节点的隐含向量。
4.根据权利要求1至3中任一项所述的文本生成模型的训练方法,其特征在于,所述根据各所述隐含向量,确定每次解码的解码位置以及所述解码位置对应的文字,得到所述待输出文本,包括:
每次解码的过程如下:
将各所述隐含向量分别与预设的字向量层中的每个文字进行叉乘,得到多个叉乘值,所述字向量层包括不同的文字;
根据多个叉乘值,确定本次解码的所述解码位置以及所述解码位置的文字。
5.根据权利要求4所述的文本生成模型的训练方法,其特征在于,所述根据多个叉乘值,确定本次解码的所述解码位置以及所述解码位置的文字,包括:
将最大叉乘值中隐含向量对应的位置作为本次解码的解码位置;
将最大叉乘值中字向量所指示的文字所作为所述解码位置的文字。
6.根据权利要求4所述的文本生成模型的训练方法,其特征在于,在所述根据多个叉乘值,确定本次解码的解码位置以及所述解码位置的文字之后,还包括:
更新所述待输出文本中剩余待解码文字的隐含向量,以用于下一次解码。
7.一种文本生成方法,其特征在于,包括:
根据获取的输入文本,确定所述输入文本的结构图;
将所述输入文本、所述输入文本的结构图输入文本生成模型,得到输出文本,所述文本生成模型是根据如权利要求1至6中任一文本生成模型的训练方法训练得到。
8.一种电子设备,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6任一所述的文本生成模型的训练方法,或者能够执行如权利要求7所述的文本生成方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的文本生成模型的训练方法,或者能够执行如权利要求7所述的文本生成方法。
CN202010889698.2A 2020-08-28 2020-08-28 文本生成模型的训练方法、文本生成方法及相关设备 Active CN111984783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010889698.2A CN111984783B (zh) 2020-08-28 2020-08-28 文本生成模型的训练方法、文本生成方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010889698.2A CN111984783B (zh) 2020-08-28 2020-08-28 文本生成模型的训练方法、文本生成方法及相关设备

Publications (2)

Publication Number Publication Date
CN111984783A CN111984783A (zh) 2020-11-24
CN111984783B true CN111984783B (zh) 2024-04-02

Family

ID=73440678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010889698.2A Active CN111984783B (zh) 2020-08-28 2020-08-28 文本生成模型的训练方法、文本生成方法及相关设备

Country Status (1)

Country Link
CN (1) CN111984783B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569572B (zh) * 2021-02-09 2024-05-24 腾讯科技(深圳)有限公司 文本实体生成方法、模型训练方法及装置
CN114510966B (zh) * 2022-01-14 2023-04-28 电子科技大学 一种基于图神经网络的端到端大脑因果网络构建方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101253496A (zh) * 2005-07-01 2008-08-27 微软公司 生成汉语对联
CN109062937A (zh) * 2018-06-15 2018-12-21 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN110837546A (zh) * 2019-09-24 2020-02-25 平安科技(深圳)有限公司 基于人工智能的藏头对联生成方法、装置、设备及介质
CN111126061A (zh) * 2019-12-24 2020-05-08 北京百度网讯科技有限公司 对联信息生成方法和装置
CN111177325A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 一种自动生成答案的方法和系统
CN111221958A (zh) * 2020-01-08 2020-06-02 北京松果电子有限公司 一种训练藏字诗生成模型的方法、藏字诗生成方法及装置
CN111241830A (zh) * 2020-01-14 2020-06-05 苏州思必驰信息科技有限公司 对语词向量生成方法、对语生成模型训练方法
CN111444679A (zh) * 2020-03-27 2020-07-24 北京小米松果电子有限公司 诗词生成方法及装置、电子设备、存储介质
CN111444725A (zh) * 2018-06-22 2020-07-24 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN111507070A (zh) * 2020-04-15 2020-08-07 苏州思必驰信息科技有限公司 自然语言生成方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8000955B2 (en) * 2006-12-20 2011-08-16 Microsoft Corporation Generating Chinese language banners
US11928600B2 (en) * 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
US10902208B2 (en) * 2018-09-28 2021-01-26 International Business Machines Corporation Personalized interactive semantic parsing using a graph-to-sequence model

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101253496A (zh) * 2005-07-01 2008-08-27 微软公司 生成汉语对联
CN109062937A (zh) * 2018-06-15 2018-12-21 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN111444725A (zh) * 2018-06-22 2020-07-24 腾讯科技(深圳)有限公司 语句的生成方法、装置、存储介质和电子装置
CN110837546A (zh) * 2019-09-24 2020-02-25 平安科技(深圳)有限公司 基于人工智能的藏头对联生成方法、装置、设备及介质
CN111126061A (zh) * 2019-12-24 2020-05-08 北京百度网讯科技有限公司 对联信息生成方法和装置
CN111221958A (zh) * 2020-01-08 2020-06-02 北京松果电子有限公司 一种训练藏字诗生成模型的方法、藏字诗生成方法及装置
CN111241830A (zh) * 2020-01-14 2020-06-05 苏州思必驰信息科技有限公司 对语词向量生成方法、对语生成模型训练方法
CN111444679A (zh) * 2020-03-27 2020-07-24 北京小米松果电子有限公司 诗词生成方法及装置、电子设备、存储介质
CN111177325A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 一种自动生成答案的方法和系统
CN111507070A (zh) * 2020-04-15 2020-08-07 苏州思必驰信息科技有限公司 自然语言生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Multi-Modal Chinese Poetry Generation Model;D. Liu 等;《2018 International Joint Conference on Neural Networks》;全文 *
基于多任务学习的古诗和对联自动生成;卫万成 等;《中文信息学报》;第33卷(第11期);全文 *

Also Published As

Publication number Publication date
CN111984783A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
CN111984783B (zh) 文本生成模型的训练方法、文本生成方法及相关设备
CN111859991B (zh) 语言翻译处理模型训练方法和语言翻译处理方法
CN108256066B (zh) 端到端层次解码任务型对话系统
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN111241789A (zh) 一种文本生成的方法及装置
CN112597778B (zh) 一种翻译模型的训练方法、翻译方法以及设备
CN111708877B (zh) 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN112765978B (zh) 一种针对多人多轮对话场景的对话图重构方法及系统
CN109145946B (zh) 一种智能图像识别和描述方法
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN113297374B (zh) 一种基于bert和字词特征融合的文本分类方法
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN109710787B (zh) 基于深度学习的图像描述方法
CN114638228A (zh) 一种基于词集自注意力的中文命名实体识别方法
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN115423098A (zh) 一种预训练语言模型实体知识注入方法、系统及装置
CN111078831B (zh) 一种课文朗读音频内容转文本的优化方法
CN112733526B (zh) 一种自动识别财税文件中征税对象的抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200245 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Applicant after: Dayu robot Co.,Ltd.

Address before: 201100 2nd floor, building 2, No. 1508, Kunyang Road, Minhang District, Shanghai

Applicant before: Dalu Robot Co.,Ltd.

GR01 Patent grant
GR01 Patent grant