CN113591442B - 文本生成方法、装置、电子装置及可读存储介质 - Google Patents

文本生成方法、装置、电子装置及可读存储介质 Download PDF

Info

Publication number
CN113591442B
CN113591442B CN202111169724.5A CN202111169724A CN113591442B CN 113591442 B CN113591442 B CN 113591442B CN 202111169724 A CN202111169724 A CN 202111169724A CN 113591442 B CN113591442 B CN 113591442B
Authority
CN
China
Prior art keywords
text
sub
training
chart
subdata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111169724.5A
Other languages
English (en)
Other versions
CN113591442A (zh
Inventor
薛小娜
黄艳香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhizhi Heshu Technology Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202111169724.5A priority Critical patent/CN113591442B/zh
Publication of CN113591442A publication Critical patent/CN113591442A/zh
Application granted granted Critical
Publication of CN113591442B publication Critical patent/CN113591442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种文本生成方法、装置、电子装置及可读存储介质,所述方法包括步骤:获取包含多个子数据的图谱数据,并生成与各所述子数据对应的图谱子文本;获取各所述图谱子文本在图谱文本中的排列顺序;根据所述排列顺序以及各所述图谱子文本生成与所述图谱数据对应的所述图谱文本。通过对各子数据进行排序,进而对由子数据得到的图谱子文本进行排序,使得能够保证由图谱子文本生成的图谱文本逻辑性以及连贯性。

Description

文本生成方法、装置、电子装置及可读存储介质
技术领域
本申请涉及信息处理领域,尤其涉及一种文本生成方法、装置、电子装置及可读存储介质。
背景技术
现有技术中由图谱知识生成文本的技术多通过将图谱知识中的每个三元组转化成子文本,最后将各子文本拼接起来作为图谱知识对应的文本段,依此完成中文图谱知识到文本的生成工作。但是,该方法中直接将各子文本拼接成一个文本段会带来文本逻辑性、连贯性较差的问题。
发明内容
本申请提供了一种文本生成方法、装置、电子装置及可读存储介质,旨在解决现有技术中由图谱知识生成的文本逻辑性、连贯性较差的技术问题。
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种文本生成方法,所述方法包括步骤:
获取包含多个子数据的图谱数据,并生成与各所述子数据对应的图谱子文本;
获取各所述图谱子文本在图谱文本中的排列顺序;
根据所述排列顺序以及各所述图谱子文本生成与所述图谱数据对应的所述图谱文本。
可选地,
所述获取各所述图谱子文本对应的排列顺序的步骤包括:
以两个所述图谱子文本为一组,对所有所述图谱子文本进行组合得到多个图谱子文本组合;
获取训练完成的语言模型,并将多个所述图谱子文本组合依次输入到所述训练完成的语言模型中;
根据所述训练完成的语言模型输出的识别结果得到各所述图谱子文本对应的排列顺序。
可选地,所述获取训练完成的语言模型的步骤之前包括:
获取训练文本,并将所述训练文本划分为多个训练子文本;
以两个训练子文本为一组,对所有所述训练子文本进行组合,得到多个训练子文本组合;
根据所述训练子文本组合以及训练子文本组合中对应的训练子文本的相邻关系生成训练样本;
通过所述训练样本对初始语言模型进行训练,得到所述训练完成的语言模型。
可选地,
所述根据所述训练完成的语言模型输出的识别结果得到各所述图谱子文本对应的排列顺序的步骤包括:
获取所述识别结果中各所述图谱子文本组合对应的相邻概率;
对所有所述图谱子文本进行全排列操作生成多条数据队列,并获取各所述数据队列中相邻的所述图谱子文本对应图谱子文本组合的相邻概率;
计算各所述数据队列中各相邻的所述图谱子文本对应图谱子文本组合的相邻概率之和;
将相邻概率之和最大的数据队列中图谱子文本的排列顺序作为各所述图谱子文本对应的排列顺序。
可选地,所述生成与各所述子数据对应的图谱子文本的步骤包括:
针对每个子数据,获取所述子数据中的连接词的词性标识;
匹配与所述词性标识对应的文本模板;
将所述子数据中的元素词对应填充至所述文本模板中生成所述子数据对应的图谱子文本。
可选地,所述子数据为三元组数据,所述三元组数据包括第一元素、连接词以及第二元素;所述生成与各所述子数据对应的图谱子文本的步骤之前包括:
判断相邻的所述子数据的第一元素、连接词以及第二元素是否满足修改条件;
若相邻的所述子数据的第一元素、连接词以及第二元素满足修改条件,则对满足修改条件的子数据进行修改操作生成新的子数据。
可选地,所述根据所述排列顺序以及所述图谱子文本生成与所述图谱数据对应的图谱文本的步骤包括:
根据所述排列顺序对所述图谱子文本进行排序;
获取各所述图谱子文本对应的标点符号;
在各所述图谱子文本后添加对应的所述标点符号,得到与所述图谱数据对应的图谱文本。
为实现上述目的,本发明还提供一种文本生成装置,所述文本生成装置包括:
第一生成模块,用于获取包含多个子数据的图谱数据,并生成与各所述子数据对应的图谱子文本;
第一获取模块,用于获取各所述图谱子文本在图谱文本中的排列顺序;
第二生成模块,用于根据所述排列顺序以及各所述图谱子文本生成与所述图谱数据对应的所述图谱文本。
可选地,所述第一获取模块包括:
第一执行单元,用于以两个所述图谱子文本为一组,对所有所述图谱子文本进行组合得到多个图谱子文本组合;
第一获取单元,用于获取训练完成的语言模型,并将多个所述图谱子文本组合依次输入到所述训练完成的语言模型中;
第二执行单元,用于根据所述训练完成的语言模型输出的识别结果得到各所述图谱子文本对应的排列顺序。
可选地,所述第一获取模块还包括:
第二获取单元,用于获取训练文本,并将所述训练文本划分为多个训练子文本;
第一组合单元,用于以两个训练子文本为一组,对所有所述训练子文本进行组合,得到多个训练子文本组合;
第一生成单元,用于根据所述训练子文本组合以及训练子文本组合中对应的训练子文本的相邻关系生成训练样本;
第一训练单元,用于通过所述训练样本对初始语言模型进行训练,得到所述训练完成的语言模型。
可选地,所述第二执行单元包括:
第一获取子单元,用于获取所述识别结果中各所述图谱子文本组合对应的相邻概率;
第一生成子单元,用于对所有所述图谱子文本进行全排列操作生成多条数据队列,并获取各所述数据队列中相邻的所述图谱子文本对应图谱子文本组合的相邻概率;
第一计算子单元,用于计算各所述数据队列中各相邻的所述图谱子文本对应图谱子文本组合的相邻概率之和;
第一执行子单元,用于将相邻概率之和最大的数据队列中图谱子文本的排列顺序作为各所述图谱子文本对应的排列顺序。
可选地,所述第一生成模块包括:
第三获取单元,用于针对每个子数据,获取所述子数据中的连接词的词性标识;
第一匹配单元,用于匹配与所述词性标识对应的文本模板;
第二生成单元,用于将所述子数据中的元素词对应填充至所述文本模板中生成所述子数据对应的图谱子文本。
可选地,所述子数据为三元组数据,所述三元组数据包括第一元素、连接词以及第二元素;所述电子装置还包括:
第一判断模块,用于判断相邻的所述子数据的第一元素、连接词以及第二元素是否满足修改条件;
第一修改模块,用于若相邻的所述子数据的第一元素、连接词以及第二元素满足修改条件,则对满足修改条件的子数据进行修改操作生成新的子数据。
可选地,所述第二生成模块包括:
第三执行单元,用于根据所述排列顺序对所述图谱子文本进行排序;
第四获取单元,用于获取各所述图谱子文本对应的标点符号;
第三生成单元,用于在各所述图谱子文本后添加对应的所述标点符号,得到与所述图谱数据对应的图谱文本。
为实现上述目的,本发明还提供一种电子装置,所述电子装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的文本生成方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的文本生成方法的步骤。
本发明可以应用于深度学习技术领域的自然语言处理中,本发明提出的一种文本生成方法、装置、电子装置及可读存储介质,获取包含多个子数据的图谱数据,并生成与各所述子数据对应的图谱子文本;获取各所述图谱子文本在图谱文本中的排列顺序;根据所述排列顺序以及各所述图谱子文本生成与所述图谱数据对应的所述图谱文本。通过对各子数据进行排序,进而对由子数据得到的图谱子文本进行排序,使得能够保证由图谱子文本生成的图谱文本逻辑性以及连贯性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明文本生成方法第一实施例的流程示意图;
图2为本发明文本生成方法第二实施例步骤S23细化流程图;
图3为本发明电子装置的模块结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本发明提供一种文本生成方法,参照图1,图1为本发明文本生成方法第一实施例的流程示意图,所述方法包括步骤:
步骤S10,获取包含多个子数据的图谱数据,并生成与各子数据对应的图谱子文本。
为了节约存储成本以及便于其它下游任务使用,通常对产生的文本信息进行抽取操作,并将抽取得到的数据以结构化的形式存储到图谱知识库中,图谱数据即为图谱知识库中以结构化的形式存储的数据。需要说明的是,图谱数据可以是本地储存的,还可以是联网获取的,图谱数据可以是当前系统在运行中生成的,还可以是从其它系统中获取的。图谱数据通常用于表征对象的特征,可以理解的是,一个图谱数据中可以包含多个对象、多个特征以及多种其它的相关联系,在图谱数据中能够完整表征对象的特征的单位数据即为图谱数据的子数据。由于子数据为能够完整表征对象的特征的单位数据,因此,能够将子数据转换为用以表征对象特征的文本,即图谱子文本。具体的图谱子文本生成方式包括但不限于直接拼接或模板套用等;其中,直接拼接为将子数据中的各元素直接进行拼接得到图谱子文本;模板套用为将子数据中的各元素填充到预设模板中得到图谱子文本。需要说明的是,在获取图谱数据之后,还可以对图谱数据中的子数据进行去重操作,以删除重复的子数据,减少数据量。
步骤S20,获取各图谱子文本在图谱文本中的排列顺序。
由于图谱子文本的数量为多个,且由子数据转换而来的图谱子文本具有零散性以及无序性的特点,因此,在将图谱数据转换为图谱文本时,为了保证图谱文本的逻辑型以及连贯性,需要得到各图谱子文本的排列顺序,进而根据排列顺序生成图谱文本。需要说明的是,虽然图谱子文本是具有零散性以及无序性的特点,但是在获取到图谱数据时,工作人员可以手动为各子数据设置排列顺序,当需要进行文本转换时,直接将设置的排列顺序作为各图谱子文本的排列顺序即可;还可以通过但不限于机器学习、深度学习或是特征比对等无需人员手动设置方式对图谱子文本进行排序以得到各图谱子文本的排列顺序。
步骤S30,根据排列顺序以及各图谱子文本生成与图谱数据对应的图谱文本。
由于图谱子文本是基于子数据生成的,因此,子数据的排列顺序可以对应到图谱子文本上;在得到图谱子文本以及排列顺序之后,即可以将图谱子文本根据排列顺序进行排列从而生成具有逻辑性以及连贯性的图谱文本。
本实施例通过对各子数据进行排序,进而对由子数据得到的图谱子文本进行排序,使得能够保证由图谱子文本生成的图谱文本逻辑性以及连贯性。
优选的,在基于本发明的第一实施例所提出的本发明文本生成方法第二实施例中,步骤S20具体包括:
步骤S21,以两个图谱子文本为一组,对所有图谱子文本进行组合得到多个图谱子文本组合。
图谱子文本组合中包括两个图谱子文本,同时任意两个图谱子文本均能对应生成一个图谱子文本组合;如图谱子文本个数为10个,以两个图谱子文本为一组,对所有图谱子文本进行组合得到45个图谱子文本组合。
步骤S22,获取训练完成的语言模型,并将多个图谱子文本组合依次输入到训练完成的语言模型中。
训练完成的语言模型用于对图谱子文本之间的位置关系进行判断,具体地,对于组合得到的图谱子文本组合而言,可以判断图谱子文本组合中的两个图谱子文本是否为相邻子文本;还可以判断图谱子文本组合中的两个图谱子文本是否相邻且两个图谱子文本的顺序。本实施例中的语言模型可以使用但不限于Bert模型、ALBERT模型、XLNET模型。
优选的,在步骤S22之前还包括:
步骤S24,获取训练文本,并将训练文本划分为多个训练子文本。
训练文本可以包括构建图谱知识库的文本或是从互联网中获取到的其它语料文本,如通过爬虫技术爬取新闻、论文、百科等文本。在获取到训练文本之后,将训练文本划分为多个训练子文本,具体地,可以根据预设子文本长度和/或训练文本中的标点符号对训练文本进行划分;如通过训练文本中的逗号、句号、分号、问号、感叹号和/或顿号等对训练文本进行分割,分割得到的短文本即为训练子文本;或者设置长度阈值,长度阈值可以为字数或字符数,将训练文本依据长度阈值进行划分得到训练子文本;需要说明的是,具体可以根据训练文本的类型以及对划分结果的要求选择相应的划分方法。
步骤S25,以两个训练子文本为一组,对所有训练子文本进行组合,得到多个训练子文本组合。
训练子文本组合中包括两个训练子文本,同时任意两个训练子文本均能对应生成一个训练子文本组合;如训练子文本个数为10个,以两个训练子文本为一组,对所有训练子文本进行组合得到45个训练子文本组合。
步骤S26,根据训练子文本组合以及训练子文本组合中对应的训练子文本的相邻关系生成训练样本。
若训练子文本组合中的两个训练子文本在训练文本中是相邻的,则在该训练子文本组合中生成为是的相邻标签,如[训练子文本A,训练子文本B,1],其中训练子文本A以及训练子文本B为训练子文本组合中的两个训练子文本,“1”即为“是”的相邻标签,[训练子文本A,训练子文本B,1]即为一个训练样本;若训练子文本组合中的两个训练子文本在训练文本中是不相邻的,则在该训练子文本组合中生成为否的相邻标签,如[训练子文本A,训练子文本B,0],其中“0”即为“否”的相邻标签。
除了通过“1”、“0”区分相邻标签外,还可以将相邻标签设置为包括00、01、10、11;其中,00表示训练子文本A与训练子文本B不相邻且训练子文本A位于训练子文本B之后;01表示训练子文本A与训练子文本B不相邻且训练子文本A位于训练子文本B之前;10表示训练子文本A与训练子文本B相邻且训练子文本A位于训练子文本B之后;11表示训练子文本A与训练子文本B相邻且训练子文本A位于训练子文本B之前;能够实现对于训练子文本之间相邻关系以及位置的标记。
步骤S27,通过训练样本对初始语言模型进行训练,得到训练完成的语言模型。
在得到训练样本之后,通过训练样本对初始语言模型进行训练,具体地,将训练样本中的训练子文本A与训练子文本B进行拼接得到拼接串,具体地,在训练子文本A与训练子文本B之间使用[SEP]分隔符进行拼接,同时,在训练子文本A之前添加[CLS]表示拼接串的起始,在训练子文本B之后添加[SEP] 表示拼接串的结束,即拼接串为[CLS] 训练子文本A[SEP]训练子文本B[SEP];将拼接串作为初始语言模型的输入,并根据初始语言模型基于输入拼接串的结果以及训练样本中相邻标签的值对初始语言模型进行收敛。
可以理解的是,语言模型输出的结果具有一定的概率,如通过组合得到训练子文本组合时,语言模型输出的结果为针对训练子文本A与训练子文本B相邻或不相邻的概率,概率越大,则训练子文本A与训练子文本B相邻的可能性越高,反之,越低;一般地,语言模型输出的结果可以经过一个二分类器,即当输出的概率大于预设概率时,则输出相邻的结果,反之,则输出不相邻的结果,一般地,预设概率设置为50%,需要说明的是,预设概率的设置可以根据实际需要进行选择,在此不作限制。
通过00、01、10、11区分相邻标签时,语言模型分别输出训练子文本A与训练子文本B对应相邻标签00、01、10、11的概率,同样地,可以输出各相邻标签对应的概率,还可以将概率最大的相邻标签作为结果输出。
可以理解的是,对于初始语言模型的初始参数、训练完成条件以及损失函数等常规设置可以根据实际需要进行选择,在此不进行赘述;当初始语言模型达到训练完成条件时,得到训练完成的语言模型。
通过自行获取或爬取训练文本,同时自动对训练文本进行分割标记生成训练样本对初始语言模型进行训练,使得无需人工对训练文本进行标注,大大节省了人工成本。
步骤S23,根据训练完成的语言模型输出的识别结果得到各图谱子文本对应的排列顺序。
训练完成的语言模型针对每个图谱子文本组合输出结果,根据每个图谱子文本组合的输出结果可以知道每个图谱子文本组合中的图谱子文本的位置关系,进而能够得到所有图谱子文本之间的位置关系。
优选的,参见图2,步骤S23具体包括:
步骤S231,获取识别结果中各图谱子文本组合对应的相邻概率。
步骤S232,对所有图谱子文本进行全排列操作生成多条数据队列,并获取各数据队列中相邻的图谱子文本对应图谱子文本组合的相邻概率。
步骤S233,计算各数据队列中各相邻的图谱子文本对应图谱子文本组合的相邻概率之和。
步骤S234,将相邻概率之和最大的数据队列中图谱子文本的排列顺序作为各图谱子文本对应的排列顺序。
训练完成的语言模型直接输出图谱子文本组合中的图谱子文本是否相邻的概率;在将各图谱子文本进行排列之后得到数据队列,依次获取数据队列中相邻图谱子文本之间对应的相邻概率;如图谱数据中包含A~F的6个图谱子文本;以图谱子文本的顺序为A、B、C、D、E、F的数据队列进行说明,分别获取A和B、B和C、C和D、D和E、E和F的图谱子文本组合对应的相邻概率,并将获取到的相邻概率之和作为该数据队列的概率;通过同样的方式获取其它排列顺序的数据队列的相邻概率,并将相邻概率最高的数据队列的排列顺序作为图谱数据中图谱子文本对应的排列顺序。
对于通过00、01、10、11区分相邻标签,除了相邻概率的获取存在区别,其它步骤基本一致,在此不进行赘述;具体地,以图谱子文本的顺序为A、B、C、D、E、F的数据队列进行说明,分别获取A和B、B和C、C和D、D和E、E和F的图谱子文本组合对应的相邻概率,如A和B对应的图谱子文本组合的相邻概率中00对应的概率为最高的概率,则将00对应的概率作为A和B对应的图谱子文本组合的相邻概率。
本实施例提出了合理地文本排序算法,通过文本排序算法对图谱子文本排序,能够保证最终文本知识的逻辑性、连贯性。
优选的,在基于本发明的第一实施例所提出的本发明文本生成方法第三实施例中,步骤S10具体包括:
步骤S11,针对每个子数据,获取子数据中的连接词的词性标识。
步骤S12,匹配与词性标识对应的文本模板。
步骤S13,将子数据中的元素词对应填充至文本模板中生成子数据对应的图谱子文本。
本实施例中的子数据为三元组数据,该三元组数据包括第一元素、连接词以及第二元素;具体地,根据连接词的不同,三元组的组成也不同,如当连接词为关系词时,三元组构成为[第一元素、关系词、第二元素],当连接词为属性词时,三元组构成为[第一元素、属性词、第二元素],其中第二元素为属性值,词性标识根据关系词或属性词的词性进行判断,如当关系词或属性词为动词时,连接词的词性标识为动词,当关系词或属性词为名词时,连接词的词性标识为名词,词性标识为动词或名词时分别对应一个文本模板。具体地,当词性标识为动词时,文本模板可以为“第一元素”“连接词”“第二元素”,如三元组为[张三、喜欢、跑步],“喜欢”为动词,则调用动词对应的文本模板,生成图谱子文本为“张三喜欢跑步”;当词性标识为名词时,文本模板可以为“第一元素”“的”“连接词”“是”“第二元素”,如三元组为[张三、祖籍、山东],“祖籍”为名词,则调用名词对应的文本模板,生成图谱子文本为“张三的祖籍是山东”。需要说明的是,上述文本模板仅是作为举例说明,还可以根据实际需要如文本风格、用户需要等设置其它的文本模板。
优选的,在步骤S10之前还包括:
步骤S40,判断相邻的子数据的第一元素、连接词以及第二元素是否满足修改条件。
步骤S50,若相邻的子数据的第一元素、连接词以及第二元素满足修改条件,则对满足修改条件的子数据进行修改操作生成新的子数据。
修改条件包括但不限于调整条件以及合并条件;调整条件为需要对子数据中的内容进行调整的条件,合并条件为需要对两个或以上的子数据进行合并的条件。需要说明的是,本实施例中的修改操作是针对相邻的子数据进行的,后续不再强调。具体地,当两个子数据满足在前的子数据的第二元素与在后的子数据的第一元素相同,或两个子数据的第一元素相同且连接词以及第二元素不同时,其满足调整条件,同时,对应的调整操作为将在后的子数据的第一元素进行省略或替换为代词;如在前的子数据为[张三,祖籍,青岛],在后的子数据为[青岛,位于,山东省],此时将在后的子数据修改为[“”,位于,山东省]、[其,位于,山东省]或[它,位于,山东省];再如在前的子数据为[张三,出生日期,1991年2月],在后的子数据为[张三,喜欢,跑步],此时将在后的子数据修改为[“”,喜欢,跑步]、[其,喜欢,跑步]或[他,喜欢,跑步]。
当两个子数据满足第一元素与连接词对应相同或连接词与第二元素对应相同时,其满足合并条件,同时对应的合并操作为在将不相同的第一元素或第二元素进行合并生成新的子数据之后,删除原子数据。如两个子数据分别为[张三,喜欢,跑步]、[张三,喜欢,唱歌],此时将不相同的第二元素进行合并生成[张三,喜欢,跑步和唱歌]的子数据,同时删除原来的两个子数据;再如两个子数据分别为[张三,喜欢,唱歌]、[李四,喜欢,唱歌],此时将不相同的第一元素进行合并生成[张三和李四,喜欢,唱歌]的子数据,同时删除原来的两个子数据。需要说明的是,对于合并中所用的“和”可以根据需要进行设置,还可以替换为“及”、“、”“以及”“与”等具有连接功能的词或符号。需要说明的是,由于是针对相邻的子数据进行合并操作,因此,生成的新的子数据可以继承原有的子数据的顺序。需要说明的是,修改条件还可以基于实际应用场景进行设置,在方案思想相同的情况下,设置的其他修改条件也应处于本申请的保护范围之内。
通过对子数据进行调整或合并使得能够提升文本的简洁度。
优选的,步骤S30具体包括:
步骤S31,根据排列顺序对图谱子文本进行排序。
步骤S32,获取各图谱子文本对应的标点符号。
步骤S33,在各图谱子文本后添加对应的标点符号,得到与图谱数据对应的图谱文本。
通过子数据生成的图谱子文本通常能够表征为一句完整的话,因此,为了对不同的子数据生成的图谱子文本进行区分,在各图谱子文本之间添加标点符号。具体地,如在最后一个图谱子文本之后添加句号,在一般的图谱子文本之间添加逗号,或当连续的图谱子文本对应的主语,即第一元素相同时,可以在这些图谱子文本之间添加顿号;可以理解的是,具体地标点符号添加方法可以根据实际需要进行设置,在此不进行赘述。
本实施例能够得到清楚的、生动的、具有逻辑性、连贯性的图谱文本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
本申请还提供一种用于实施上述文本生成方法的文本生成装置,文本生成装置包括:
第一生成模块,用于获取包含多个子数据的图谱数据,并生成与各子数据对应的图谱子文本。
第一获取模块,用于获取各图谱子文本在图谱文本中的排列顺序。
第二生成模块,用于根据排列顺序以及各图谱子文本生成与图谱数据对应的图谱文本。
本文本生成通过对各子数据进行排序,进而对由子数据得到的图谱子文本进行排序,使得能够保证由图谱子文本生成的图谱文本逻辑性以及连贯性。
需要说明的是,该实施例中的第一生成模块可以用于执行本申请实施例中的步骤S10,该实施例中的第一获取模块可以用于执行本申请实施例中的步骤S20,该实施例中的第二生成模块可以用于执行本申请实施例中的步骤S30。
优选的,第一获取模块具体包括:
第一执行单元,用于以两个图谱子文本为一组,对所有图谱子文本进行组合得到多个图谱子文本组合。
第一获取单元,用于获取训练完成的语言模型,并将多个图谱子文本组合依次输入到训练完成的语言模型中。
第二执行单元,用于根据训练完成的语言模型输出的识别结果得到各图谱子文本对应的排列顺序。
优选的,第一获取模块还包括:
第二获取单元,用于获取训练文本,并将训练文本划分为多个训练子文本。
第一组合单元,用于以两个训练子文本为一组,对所有训练子文本进行组合,得到多个训练子文本组合。
第一生成单元,用于根据训练子文本组合以及训练子文本组合中对应的训练子文本的相邻关系生成训练样本。
第一训练单元,用于通过训练样本对初始语言模型进行训练,得到训练完成的语言模型。
优选的,第二执行单元包括:
第一获取子单元,用于获取识别结果中各图谱子文本组合对应的相邻概率。
第一生成子单元,用于对所有图谱子文本进行全排列操作生成多条数据队列,并获取各数据队列中相邻的图谱子文本对应图谱子文本组合的相邻概率。
第一计算子单元,用于计算各数据队列中各相邻的图谱子文本对应图谱子文本组合的相邻概率之和。
第一执行子单元,用于将相邻概率之和最大的数据队列中图谱子文本的排列顺序作为各图谱子文本对应的排列顺序。
优选的,第一生成模块包括:
第三获取单元,用于针对每个子数据,获取子数据中的连接词的词性标识。
第一匹配单元,用于匹配与词性标识对应的文本模板。
第二生成单元,用于将子数据中的元素词对应填充至文本模板中生成子数据对应的图谱子文本。
优选的,子数据为三元组数据,该三元组数据包括第一元素、连接词以及第二元素;具体的,电子装置还包括:
第一判断模块,用于判断相邻的子数据的第一元素、连接词以及第二元素是否满足修改条件。
第一修改模块,用于若相邻的子数据的第一元素、连接词以及第二元素满足修改条件,则对满足修改条件的子数据进行修改操作生成新的子数据。
优选的,第二生成模块包括:
第三执行单元,用于根据排列顺序对图谱子文本进行排序。
第四获取单元,用于获取各图谱子文本对应的标点符号。
第三生成单元,用于在各图谱子文本后添加对应的标点符号,得到与图谱数据对应的图谱文本。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
参照图3,在硬件结构上电子装置可以包括通信模块10、存储器20以及处理器30等部件。在电子装置中,处理器30分别与存储器20以及通信模块10连接,存储器20上存储有计算机程序,计算机程序同时被处理器30执行,计算机程序执行时实现上述方法实施例的步骤。
通信模块10,可通过网络与外部通讯设备连接。通信模块10可以接收外部通讯设备发出的请求,还可以发送请求、指令及信息至外部通讯设备,外部通讯设备可以是其它电子装置、服务器或者物联网设备,例如电视等等。
存储器20,可用于存储软件程序以及各种数据。存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如匹配与所述词性标识对应的文本模板)等;存储数据区可包括数据库,存储数据区可存储根据系统的使用所创建的数据或信息等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器30,是电子装置的控制中心,利用各种接口和线路连接整个电子装置的各个部分,通过运行或执行存储在存储器20内的软件程序和/或模块,以及调用存储在存储器20内的数据,执行电子装置的各种功能和处理数据,从而对电子装置进行整体监控。处理器30可包括一个或多个处理单元;可选地,处理器30可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器30中。
尽管图3未示出,但上述电子装置还可以包括电路控制模块,电路控制模块用于与电源连接,保证其他部件的正常工作。本领域技术人员可以理解,图3中示出的电子装置结构并不构成对电子装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序。计算机可读存储介质可以是图3的电子装置中的存储器20,也可以是如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘中的至少一种,计算机可读存储介质包括若干指令用以使得一台具有处理器的终端设备(可以是电视,汽车,手机,计算机,服务器,终端,或者网络设备等)执行本发明各个实施例所述的方法。
在本发明中,术语“第一”“第二”“第三”“第四”“第五”仅用于描述的目的,而不能理解为指示或暗示相对重要性,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,本发明保护的范围并不局限于此,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和替换,这些变化、修改和替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种文本生成方法,其特征在于,所述方法包括:
获取包含多个子数据的图谱数据,并生成与各所述子数据对应的图谱子文本;
获取各所述图谱子文本在图谱文本中的排列顺序;
根据所述排列顺序以及各所述图谱子文本生成与所述图谱数据对应的所述图谱文本;
所述获取各所述图谱子文本对应的排列顺序的步骤包括:
以两个所述图谱子文本为一组,对所有所述图谱子文本进行组合得到多个图谱子文本组合;
获取训练完成的语言模型,并将多个所述图谱子文本组合依次输入到所述训练完成的语言模型中;
根据所述训练完成的语言模型输出的识别结果得到各所述图谱子文本对应的排列顺序。
2.如权利要求1所述的文本生成方法,其特征在于,所述获取训练完成的语言模型的步骤之前包括:
获取训练文本,并将所述训练文本划分为多个训练子文本;
以两个训练子文本为一组,对所有所述训练子文本进行组合,得到多个训练子文本组合;
根据所述训练子文本组合以及训练子文本组合中对应的训练子文本的相邻关系生成训练样本;
通过所述训练样本对初始语言模型进行训练,得到所述训练完成的语言模型。
3.如权利要求1所述的文本生成方法,其特征在于,所述根据所述训练完成的语言模型输出的识别结果得到各所述图谱子文本对应的排列顺序的步骤包括:
获取所述识别结果中各所述图谱子文本组合对应的相邻概率;
对所有所述图谱子文本进行全排列操作生成多条数据队列,并获取各所述数据队列中相邻的所述图谱子文本对应图谱子文本组合的相邻概率;
计算各所述数据队列中各相邻的所述图谱子文本对应图谱子文本组合的相邻概率之和;
将相邻概率之和最大的数据队列中图谱子文本的排列顺序作为各所述图谱子文本对应的排列顺序。
4.如权利要求1-3任意一项所述的文本生成方法,其特征在于,所述生成与各所述子数据对应的图谱子文本的步骤包括:
针对每个子数据,获取所述子数据中的连接词的词性标识;
匹配与所述词性标识对应的文本模板;
将所述子数据中的元素词对应填充至所述文本模板中生成所述子数据对应的图谱子文本。
5.如权利要求1-3任意一项所述的文本生成方法,其特征在于,所述子数据为三元组数据,所述三元组数据包括第一元素、连接词以及第二元素;所述生成与各所述子数据对应的图谱子文本的步骤之前包括:
判断相邻的所述子数据的第一元素、连接词以及第二元素是否满足修改条件;
若相邻的所述子数据的第一元素、连接词以及第二元素满足修改条件,则对满足修改条件的子数据进行修改操作生成新的子数据。
6.如权利要求1-3任意一项所述的文本生成方法,其特征在于,所述根据所述排列顺序以及所述图谱子文本生成与所述图谱数据对应的图谱文本的步骤包括:
根据所述排列顺序对所述图谱子文本进行排序;
获取各所述图谱子文本对应的标点符号;
在各所述图谱子文本后添加对应的所述标点符号,得到与所述图谱数据对应的图谱文本。
7.一种文本生成装置,其特征在于,所述文本生成装置包括:
第一获取模块,用于获取包含多个子数据的图谱数据,并生成与各所述子数据对应的图谱子文本;
第一生成模块,用于获取各所述图谱子文本在图谱文本中的排列顺序;
第二生成模块,用于根据所述排列顺序以及各所述图谱子文本生成与所述图谱数据对应的所述图谱文本;
所述第一获取模块包括:
第一执行单元,用于以两个所述图谱子文本为一组,对所有所述图谱子文本进行组合得到多个图谱子文本组合;
第一获取单元,用于获取训练完成的语言模型,并将多个所述图谱子文本组合依次输入到所述训练完成的语言模型中;
第二执行单元,用于根据所述训练完成的语言模型输出的识别结果得到各所述图谱子文本对应的排列顺序。
8.一种电子装置,其特征在于,所述电子装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本生成方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本生成方法的步骤。
CN202111169724.5A 2021-10-08 2021-10-08 文本生成方法、装置、电子装置及可读存储介质 Active CN113591442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111169724.5A CN113591442B (zh) 2021-10-08 2021-10-08 文本生成方法、装置、电子装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111169724.5A CN113591442B (zh) 2021-10-08 2021-10-08 文本生成方法、装置、电子装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN113591442A CN113591442A (zh) 2021-11-02
CN113591442B true CN113591442B (zh) 2022-02-18

Family

ID=78242849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111169724.5A Active CN113591442B (zh) 2021-10-08 2021-10-08 文本生成方法、装置、电子装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN113591442B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704547A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 基于神经网络的关系抽取数据生成方法、模型及训练方法
CN111209389A (zh) * 2019-12-31 2020-05-29 天津外国语大学 一种电影故事生成方法
CN111475658A (zh) * 2020-06-12 2020-07-31 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111666418A (zh) * 2020-04-23 2020-09-15 北京三快在线科技有限公司 文本重生成方法、装置、电子设备和计算机可读介质
CN112559761A (zh) * 2020-12-07 2021-03-26 上海明略人工智能(集团)有限公司 基于图谱的文本生成方法、系统、电子设备及存储介质
WO2021120543A1 (zh) * 2019-12-17 2021-06-24 北京百度网讯科技有限公司 基于自然语言和知识图谱的表示学习方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713519B2 (en) * 2017-06-22 2020-07-14 Adobe Inc. Automated workflows for identification of reading order from text segments using probabilistic language models
US11216492B2 (en) * 2019-10-31 2022-01-04 Microsoft Technology Licensing, Llc Document annotation based on enterprise knowledge graph
CN111651557B (zh) * 2020-05-09 2023-03-31 清华大学深圳国际研究生院 一种自动化文本生成方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704547A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 基于神经网络的关系抽取数据生成方法、模型及训练方法
WO2021120543A1 (zh) * 2019-12-17 2021-06-24 北京百度网讯科技有限公司 基于自然语言和知识图谱的表示学习方法及装置
CN111209389A (zh) * 2019-12-31 2020-05-29 天津外国语大学 一种电影故事生成方法
CN111666418A (zh) * 2020-04-23 2020-09-15 北京三快在线科技有限公司 文本重生成方法、装置、电子设备和计算机可读介质
CN111475658A (zh) * 2020-06-12 2020-07-31 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN112559761A (zh) * 2020-12-07 2021-03-26 上海明略人工智能(集团)有限公司 基于图谱的文本生成方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN113591442A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN109817210B (zh) 语音写作方法、装置、终端和存储介质
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和系统
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
US11194963B1 (en) Auditing citations in a textual document
US20220414463A1 (en) Automated troubleshooter
WO2023045184A1 (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
US11935315B2 (en) Document lineage management system
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN111524043A (zh) 诉讼风险评估问卷自动生成的方法和装置
CN116468009A (zh) 文章生成方法、装置、电子设备和存储介质
CN112446217B (zh) 情感分析方法、装置及电子设备
CN113591442B (zh) 文本生成方法、装置、电子装置及可读存储介质
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN116978028A (zh) 视频处理方法、装置、电子设备及存储介质
CN115481599A (zh) 文档的处理方法、装置、电子设备和存储介质
CN113392220B (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
JPH09204418A (ja) 文書処理装置
CN112287079A (zh) 结合rpa和ai的问答对获取方法、装置、介质及电子设备
WO2023119497A1 (ja) 要望抽出装置
CN116863922A (zh) 用于语音转写的方法、装置、开发平台和存储介质
CN117787290A (zh) 基于知识图谱的绘图提示方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220602

Address after: 15, second floor, east side of clean coal workshop, No. 68, Shijingshan Road, Shijingshan District, Beijing 100043 (cluster registration)

Patentee after: Beijing Zhizhi Heshu Technology Co.,Ltd.

Address before: 100084 a1002, 10th floor, building 1, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd.