CN111651970B - 基于表格型数据生成文本的方法、装置、设备及存储介质 - Google Patents

基于表格型数据生成文本的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111651970B
CN111651970B CN202010675938.9A CN202010675938A CN111651970B CN 111651970 B CN111651970 B CN 111651970B CN 202010675938 A CN202010675938 A CN 202010675938A CN 111651970 B CN111651970 B CN 111651970B
Authority
CN
China
Prior art keywords
data
text
sentence
content
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010675938.9A
Other languages
English (en)
Other versions
CN111651970A (zh
Inventor
何霆
许晓泓
王华珍
刘长昊
熊英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202010675938.9A priority Critical patent/CN111651970B/zh
Publication of CN111651970A publication Critical patent/CN111651970A/zh
Application granted granted Critical
Publication of CN111651970B publication Critical patent/CN111651970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于表格型数据生成文本的方法、装置、设备及存储介质,包括:构建数据特征表示空间,其中,所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层,以实现层次化的特征表示;通过训练特征表示空间到输出向量的映射关系,构建深度生成网络;构建表格型数据到文本的生成模型;基于所述生成模型将输入的待转换的表格型数据转换为文本输出。本发明将基于层次化结构的数据特征表示与深度生成的文本生成技术融合,能够对整个表格型数据中的每条样本数据记录进行理解与推理,能够实现将结构化数据转换为全局语义连贯长文本,丰富了输入数据推理方式与输出文本表达多样性,有效提升数据到文本生成模型中BLEU与PPL等性能评测指标。

Description

基于表格型数据生成文本的方法、装置、设备及存储介质
技术领域
本发明涉及人机交互技术领域,具体而言,涉及一种基于表格型数据生成文本的方法、装置、设备及存储介质。
背景技术
文本生成技术是利用人工智能算法让计算机自主完成写作任务,在写作过程中不需要人工干预,自动撰写出高质量的自然语言文本。文本生成技术不仅可用于智能问答与对话、机器翻译等系统,还可实现更加智能与自然的人机交互;还可用于视觉图像领域进行图像描述的生成,加快视觉与自然语言处理领域的结合。
其中,数据到文本生成技术是当前研究的热点与难点,在多个场景中体现出重要的价值。数据到文本生成技术可处理诸如体育赛事得分记录数据的新闻文本自动生成,也可用于解决大量日益更新的货物产品信息的文字描述生成工作,还可用于各领域业绩报告生成,解决重复且繁琐的销售业绩数据的分析与处理,等等。
目前针对从表格型(结构化)数据(字符串、数字等)推导生成描述性文本的研究中,在具体数值、时间等信息的推理上仍存在无法有效地给出一个时间轴上数据间的分布规律的缺陷,且描述性文本生成过程中大多将语义和句法分离,使得文本缺乏逻辑性与连贯性,在文本表达方面也仍然缺少多样性。
发明内容
本发明的目的在于提供一种基于表格型数据生成文本的方法、装置、设备及存储介质用以解决上述存在的问题。
为实现上述目的,本发明采用的技术方案为:一种基于表格型数据生成文本的方法,包括:
构建数据特征表示空间,其中,所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层,以实现层次化的特征表示;
通过训练特征表示空间到输出向量的映射关系,构建深度生成网络;
以所述数据特征表示空间为编码器,所述深度生成网络作为解码器,构建表格型数据到文本的生成模型;
基于所述生成模型将输入的待转换的表格型数据转换为文本输出。
进一步的,所述表格型数据包括多条记录,每条记录包括至少一个多元组;
则所述记录编码层用于:
对输入的表格型数据中的每条记录包含的多元组进行编码后,利用一层MLP转为一个数据记录向量rj
所述内容选择层用于,计算每个数据记录向量rj的注意力分数ξj,k,并转化为注意力向量
Figure BDA0002584051750000021
通过Sigmoid激活函数选择出生成文本中所需的数据记录向量
Figure BDA0002584051750000022
所述内容规划层用于,采用Transformer模型,对生成文本中出现的数据记录与内容选择层输出的数据记录进行训练,从而获取到数据记录的生成顺序,实现生成内容的规划,并求得内容规划序列。
更进一步的,所述内容规划层具体为:
抽取样本中实际输出的数据记录,并获取对象的数据记录向量;
根据所述从样本实际输出中获取的数据记录向量,与获取的数据向量赋予一定的生成指引,即内容规划序列。
进一步的,所述深度生成网络用于:
获取原始词编码信息并结合内容规划信息,将内容规划序列进行规划编码,进而与数据记录向量
Figure BDA0002584051750000031
拼接为新的嵌入表示
Figure BDA0002584051750000032
推导句子层生成的潜在变量,采用GRU网络构建句子解码器;其中,对于每个句子st的生成,句子解码器提供了GRU网络生成的句子隐藏状态
Figure BDA0002584051750000033
与VAE算法获取的潜在变量
Figure BDA0002584051750000034
来控制句子的表达;
分析每个句子st传入的信息,利用句子解码器进行逐词的解码生成,从而生成完整的文本内容。
更进一步的,所述推导句子层生成的潜在变量具体包括以下内容:
获取在第t步时刻,所述句子解码器利用两个各向同性的高斯分布对潜在变量
Figure BDA0002584051750000035
的采样:
Figure BDA0002584051750000036
计算出第t个句子的隐藏状态
Figure BDA0002584051750000037
Figure BDA0002584051750000038
第t个句子的隐藏状态
Figure BDA0002584051750000039
计算出潜在变量
Figure BDA00025840517500000310
的分布:
Figure BDA00025840517500000311
其中:
Figure BDA00025840517500000312
表示解码出的句子st-1中最后一个词解码的隐藏状态,r与z分别表示记录编码与内容规划,μ与σ分别为高斯分布中的均值与方差,MLP为多层感知器。
更进一步的,所述分析每个句子st传入的信息,利用句子解码器进行逐词的解码生成,从而生成完整的文本内容具体包括:
获取句子解码器的第t个句子的第k个词的隐藏状态:
Figure BDA0002584051750000041
根据每个词的隐藏状态,将词解码生成完整的文本内容:
Figure BDA0002584051750000042
本发明还提供一种基于表格型数据生成文本的装置,所述装置包括:
获取模块,用于通过获取记录编码层、内容选择层以及内容规划层,实现层次化特征表示;
训练模块,用于通过训练特征表示空间到输出向量的映射关系,构建深度生成网络;
处理模块,用于采用序列到序列架构,融合层次化特征表示空间和深度生成网络,构建完整的数据到文本的生成模型,输出描述文本。
本发明还提供一种存储介质,所述存储介质用于存储至少一个程序,至少一个指令,所述至少一个程序、指令被执行实现一种基于表格型数据生成文本的方法。
本发明还提供一种基于表格型数据生成文本的设备,包括存储器以及处理器,所述存储器内存储有可执行的计算机程序,所述处理器用于运行所述计算机程序以实现一种基于表格型数据生成文本的方法。
本发明的有益技术效果:
本发明通过将基于层次化结构的数据特征表示与深度生成的文本生成技术融合,能够对整个表格型数据中的每条样本数据记录进行理解与推理,能够实现将结构化数据转换为全局语义连贯长文本,丰富了输入数据推理方式与输出文本表达多样性,有效提升数据到文本生成模型中BLEU与PPL等性能评测指标。并可将其应用于智能写作系统中提高文本生成模块的性能,无论是对认知智能领域的深入探索,还是对未来智能写作的发展,都具有重大的研究意义和应用价值。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一提供的一种基于表格型数据生成文本的方法的主流程图。
图2为本发明实施例一提供的一种基于表格型数据生成文本的方法的结构示意图。
图3为本发明实施例一提供的一种基于表格型数据生成文本的方法的详细流程图。
图4为本发明实施例二提供的种基于表格型数据转换生成文本的装置示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
本发明第一实施例提供了一种基于表格型数据生成文本的方法,其用于将一份提供的表格型数据转换为文本数据。为便于对本发明的理解,以下将以ROTOWIRE公共测试数据集为例来阐述本发明的转换过程,但应当理解的是本发明适用的数据集并不限于此。
其中,ROTOWIRE数据集由的NBA赛事记录数据与专业人员撰写的赛事总结组成。该数据集共有4853个样本数据,每个样本对应的赛事报道文本结构与篇幅长度(平均337词),样本词汇量约为11.3K个,带标记词汇量为1.6M个,赛事记录类型共39种,平均记录数为628条。其中,训练集包含3398条样本,验证集包含727条样本,测试集包含728条样本。表1为该数据集的一个实例,表1显示了该实例中部分输入数据。
表1 ROTOWIRE数据集实例
Figure BDA0002584051750000071
Figure BDA0002584051750000081
如图1-3所示,本发明第一实施例提供了一种基于表格型数据生成文本的方法,其具体包括如下步骤:
S11:构建数据特征表示空间,其中,所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层,以实现层次化的特征表示。
S11.1,记录编码层是将输入表格型数据中的每条记录划分几部分,例如划分为四部分,包括:主题rj,1、属性rj,2、属性值rj,3、额外特征rj,4,每条记录包含多个4元组<rj,1,rj,2,rj,3,rj,4>,将每个4元组进行编码后,利用一层MLP转为一个数据记录向量rj,当然需要说明的是在其他实施例中每条记录包含的多元组也可以是其他,这些方案均在本发明的保护范围。
rj=ReLU(Wr[rj,1;rj,2;rj,3;rj,4]+br) (1)
首先,例如表1,将实例中的数据划分为:主题:TEAM值、PLAYER值,属性:WIN、LOSS、PTS、AST(TEAM)、AST(PLAYER)、RB、CITY,属性值:属性对应的值,额外特征:H(主场)、V(客场);
获取实例的4元组,如下表2所示:
Figure BDA0002584051750000082
Figure BDA0002584051750000091
然后将每个4元组当做该实例的一个数据记录进行one-hot编码,并通过一层MLP为其生成数据记录向量rj
S11.2,计算每个数据记录向量rj的注意力分数ξj,k,并转化为注意力向量
Figure BDA0002584051750000092
通过Sigmoid激活函数选择出生成内容中所需的数据记录向量
Figure BDA0002584051750000093
以实现内容选择层;
S11.3,采用Transformer模型,对生成文本中出现的数据记录与内容选择层输出的数据记录进行训练,从而获取到数据记录的生成顺序,实现生成内容的规划,并求得内容规划序列z,以实现内容规划层;
所述内容规划层具体包括:
首先抽取样本中实际输出的数据记录,并获取对象的数据记录向量;
然后根据上述从样本实际输出中获取的数据记录向量,与S11.2获取的数据向量赋予一定的生成指引,即内容规划序列z={z1,...,z|z|},z中每个元素指向一个数据记录向量。
S12:通过训练特征表示空间到输出向量的映射关系,构建深度生成网络。
S12.1,获取原始词编码信息并结合内容规划信息;将内容规划序列z进行规划编码,进而与数据记录向量
Figure BDA0002584051750000094
拼接为新的嵌入表示
Figure BDA0002584051750000095
S12.2,句子层生成的潜在变量推导;采用GRU网络实现构建句子解码器,对于每个句子st的生成,句子解码器提供了GRU网络生成的句子隐藏状态
Figure BDA0002584051750000101
与VAE算法获取的潜在变量
Figure BDA0002584051750000102
来控制句子的表达;
第t步生成时刻,句子解码器利用两个各向同性的高斯分布对潜在变量
Figure BDA0002584051750000103
进行采样:
Figure BDA0002584051750000104
可计算出第t个句子的隐藏状态
Figure BDA0002584051750000105
Figure BDA0002584051750000106
可计算出
Figure BDA0002584051750000107
分布:
Figure BDA0002584051750000108
其中:
Figure BDA0002584051750000109
表示解码出的句子st-1中最后一个词解码的隐藏状态,r与z分别表示记录编码与内容规划,μ与σ分别为高斯分布中的均值与方差,MLP为多层感知器。
S12.3,句子层到词层的生成,将每个st传入的信息进行分析,利用GRU网络进行逐词的解码生成,从而获取到完整的描述文本。
词解码器的第t个句子的第k个词的隐藏状态:
Figure BDA00025840517500001010
生成过程为:
Figure BDA00025840517500001011
S13:以所述数据特征表示空间为编码器,所述深度生成网络作为解码器,构建表格型数据到文本的生成模型。
首先采用编码器-解码器结构,层次化特征表示空间作为编码器部分,深度生成模型作为解码器;
然后编码器通过融合了利用多层感知器、注意力机制、Transformer网络的层次化特征表示技术理解不同类型数据的含义;
最后解码器利用变分自编码算法与GRU网络训练了编码部门到最终生成结果的转换过程,能够有效地对新样本数据的特征表示进行解码生成。
S14:基于所述生成模型将输入的待转换的表格型数据转换为文本输出。
最后得到输出文本“The Boston Celtics defeated the host IndianaPacers105-99at Bankers Life Field-house on Saturday.In a battle between twoinjury-riddled teams,the Celtics were able to prevail with a much needed roadvictory.The key was shooting and defense,as the Celtics outshot the Pacersfrom the field,from three-point range and from the free-throw line.Bostonalso held Indiana to 42percent from the field and 22percent from longdistance.The Celtics also won the rebounding and assisting differentials,while tying the Pacers in turnovers.There were 10ties and 10lead changes,asthis game went down to the final seconds.Boston(5–4)has had to deal with agluttony of injuries,but they had the fortunate task of playing a team justas injured here.Isaiah Thomas led the team in scoring,totaling 23points andfive assists on 4–of–13shooting.He got most of those points by going 14–of15from the free-throw line.Kelly Olynyk got a rare start and finished secondon the team with his 16points,six rebounds and four assists.”。
本发明在ROTOWIRE数据集上得到的评估文本连贯性指标BLEU值为16.9、评估语言模型困惑度指标PPL值7.38,较已有模型均有所提高。
本发明第二实施例还提供了一种基于表格型数据生成文本的装置,如图4,所述装置包括:
获取模块210,用于通过获取记录编码层、内容选择层以及内容规划层,实现层次化特征表示;
训练模块220,用于通过训练特征表示空间到输出向量的映射关系,构建深度生成网络;
处理模块230,用于采用序列到序列架构,融合层次化特征表示空间和深度生成网络,构建完整的数据到文本的生成模型,输出描述文本。
本发明第三实施例还提供了一种存储介质,所述存储介质用于存储至少一个程序,至少一个指令,所述至少一个程序、指令被执行以实现一种基于表格型数据生成文本的方法。
本发明第四实施例还提供了一种基于表格型数据生成文本的设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述处理器用于运行所述计算机程序以实现一种基于表格型数据生成文本的方法。
综上所述,本发明实施例可用于智能写作系统当中,实现输入表格数据输出描述文本的功能。其中表格数据指的是具有多列属性,且每行记录代表一条样本,样本值包含较多数值型数据以及少量的字符串数据,输出文本能够有效地描述该条记录中所有属性值所要表达的含义。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (6)

1.一种基于表格型数据生成文本的方法,其特征在于,包括:
构建数据特征表示空间,其中,所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层,以实现层次化的特征表示;
通过训练数据特征表示空间到输出向量的映射关系,构建深度生成网络;
以所述数据特征表示空间为编码器,所述深度生成网络作为解码器,构建表格型数据到文本的生成模型;
基于所述生成模型将输入的待转换的表格型数据转换为文本输出;
所述表格型数据包括多条记录,每条记录包括至少一个多元组;
所述记录编码层用于:对输入的表格型数据中的每条记录包含的多元组进行编码后,利用一层MLP转为一个数据记录向量rj;其中,所述MLP为多层感知器;
所述内容选择层用于,计算每个数据记录向量rj的注意力分数ξj,k,并转化为注意力向量
Figure FDA0003677583740000011
通过Sigmoid激活函数选择出生成文本中所需的数据记录向量
Figure FDA0003677583740000012
所述内容规划层用于,采用Transformer模型,对生成文本中出现的数据记录与内容选择层输出的数据记录进行训练,从而获取到数据记录的生成顺序,实现生成内容的规划,并求得内容规划序列;
所述深度生成网络用于:
获取原始词编码信息并结合内容规划信息,将内容规划序列进行规划编码,与数据记录向量
Figure FDA0003677583740000013
拼接为新的嵌入表示
Figure FDA0003677583740000014
推导句子层生成的潜在变量,采用GRU网络构建句子解码器;其中,对于每个句子st的生成,句子解码器提供了GRU网络生成的句子隐藏状态
Figure FDA0003677583740000021
与VAE算法获取的潜在变量
Figure FDA0003677583740000022
来控制句子的表达;
分析每个句子st传入的信息,利用句子解码器进行逐词的解码生成,从而生成完整的文本内容。
2.根据权利要求1所述的一种基于表格型数据生成文本的方法,其特征在于,所述内容规划层具体为:
抽取样本中实际输出的数据记录,并获取对象的数据记录向量;
根据从样本实际输出中获取的数据记录向量与内容选择层获取的生成文本中所需的数据记录向量
Figure FDA0003677583740000023
赋予生成指引,即内容规划序列。
3.根据权利要求1所述的一种基于表格型数据生成文本的方法,其特征在于,所述推导句子层生成的潜在变量具体包括以下内容:
获取在第t步时刻,所述句子解码器利用两个各向同性的高斯分布对潜在变量
Figure FDA0003677583740000024
的采样:
Figure FDA0003677583740000025
计算出第t个句子的隐藏状态
Figure FDA0003677583740000026
Figure FDA0003677583740000027
第t个句子的隐藏状态
Figure FDA0003677583740000028
计算出潜在变量
Figure FDA0003677583740000029
的分布:
Figure FDA00036775837400000210
其中:
Figure FDA0003677583740000031
表示解码出的句子st-1中最后一个词解码的隐藏状态,r与z分别表示记录编码与内容规划,μ与σ分别为高斯分布中的均值与方差,MLP为多层感知器。
4.根据权利要求3所述的一种基于表格型数据生成文本的方法,其特征在于,所述分析每个句子st传入的信息,利用句子解码器进行逐词的解码生成,从而生成完整的文本内容具体包括:
获取句子解码器的第t个句子的第k个词的隐藏状态:
Figure FDA0003677583740000032
根据每个词的隐藏状态,将词解码生成完整的文本内容:
Figure FDA0003677583740000033
5.一种存储介质,其特征在于,所述存储介质用于存储至少一个程序,至少一个指令,所述至少一个程序、指令执行权利要求1-4任意一项以实现一种基于表格型数据生成文本的方法。
6.一种基于表格型数据生成文本的设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述处理器用于运行所述计算机程序以实现如权利要求1-4任意一项所述的一种基于表格型数据生成文本的方法。
CN202010675938.9A 2020-07-14 2020-07-14 基于表格型数据生成文本的方法、装置、设备及存储介质 Active CN111651970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010675938.9A CN111651970B (zh) 2020-07-14 2020-07-14 基于表格型数据生成文本的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010675938.9A CN111651970B (zh) 2020-07-14 2020-07-14 基于表格型数据生成文本的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111651970A CN111651970A (zh) 2020-09-11
CN111651970B true CN111651970B (zh) 2022-07-22

Family

ID=72351880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010675938.9A Active CN111651970B (zh) 2020-07-14 2020-07-14 基于表格型数据生成文本的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111651970B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551277B2 (en) * 2020-09-11 2023-01-10 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for automatic generation of knowledge-powered content planning
CN112507064B (zh) * 2020-11-09 2022-05-24 国网天津市电力公司 一种基于主题感知的跨模态序列到序列生成方法
CN112612868A (zh) * 2020-11-24 2021-04-06 中国传媒大学 文本快速生成方法、计算机可读存储介质、电子设备
CN113065336B (zh) * 2021-05-06 2022-11-25 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113761842A (zh) * 2021-09-07 2021-12-07 联想(北京)有限公司 数据处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110377910A (zh) * 2019-07-22 2019-10-25 北京大学 一种表格描述的处理方法、装置、设备及存储介质
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法
CN111310927A (zh) * 2020-01-19 2020-06-19 哈尔滨工业大学 一种引入推理机制的文本生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10180932B2 (en) * 2015-06-30 2019-01-15 Datawatch Corporation Systems and methods for automatically creating tables using auto-generated templates

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110377910A (zh) * 2019-07-22 2019-10-25 北京大学 一种表格描述的处理方法、装置、设备及存储介质
CN111310927A (zh) * 2020-01-19 2020-06-19 哈尔滨工业大学 一种引入推理机制的文本生成方法
CN111241816A (zh) * 2020-01-22 2020-06-05 北京工业大学 一种新闻标题自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于知识的自动问答与问题生成的研究;鲍军威;《中国博士学位论文全文数据库》;20200115;全文 *
结合Transformer模型与深度神经网络的;许晓泓 等;《重庆大学学报》;20200731;全文 *

Also Published As

Publication number Publication date
CN111651970A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111651970B (zh) 基于表格型数据生成文本的方法、装置、设备及存储介质
CN111651557B (zh) 一种自动化文本生成方法、装置及计算机可读存储介质
CN112508077B (zh) 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN115618045B (zh) 一种视觉问答方法、装置及存储介质
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN116563751B (zh) 一种基于注意力机制的多模态情感分析方法及系统
CN111553159A (zh) 一种问句生成方法及系统
CN115858847A (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN114529917A (zh) 一种零样本中文单字识别方法、系统、装置及存储介质
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN111966828B (zh) 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法
CN113590983A (zh) 描述文本生成方法和装置、文本处理模型的训练方法
CN116842953A (zh) 一种基于提示多模型协同的零样本关系抽取方法
CN114444488B (zh) 一种少样本机器阅读理解方法、系统、设备及存储介质
CN112069777B (zh) 一种基于骨架的二阶段数据到文本生成方法
CN113157932B (zh) 基于知识图谱表示学习的隐喻计算和装置
CN114661874A (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN115422329A (zh) 一种基于知识驱动的多路筛选融合对话生成方法
CN114358021A (zh) 基于深度学习的任务型对话语句回复生成方法及存储介质
CN114385803A (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN113111906A (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
CN117892736B (zh) 基于情境感知与情绪推理的共情对话生成方法
Liu et al. An Image Caption Model Based on the Scene Graph and Semantic Prior Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant